|
Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor: |
|
Alati teme | Način prikaza |
20. 12. 2006. | #1 |
Direktor Kombinata
Invented the damn thing
Datum učlanjenja: 07.06.2005
Poruke: 2.669
Hvala: 44
119 "Hvala" u 64 poruka
|
Izvlačenje podataka iz Office dokumenata
Interesuje me sledeća stvar: kako da izvučem podatke iz MS Office dokumenata kroz neki standardan interfejs. Npr, da izvučem tekst iz .doc fajlova, da .ppt prezentaciju izvučem u tekstualnom modu i kao niz slajdova (slike) etc.
Treba mi za indeksiranje i preview unutar web aplikacije - kada čovek uploaduje fajl iz njega se izvuku podaci i isti se ubaci u search index. Da li sam Office ili neka druga Microsoftova tehnologija ovo podržava tako da se može koristiti iz drugih programa?
__________________
activeCollab - Project Management and Collaboration Tool iz domaće kuhinje | area51.rs - Blog Poslednja izmena od Ilija Studen : 20. 12. 2006. u 14:50. |
20. 12. 2006. | #2 |
član
Certified
Datum učlanjenja: 03.10.2006
Poruke: 96
Hvala: 27
44 "Hvala" u 26 poruka
|
Nisam se udubljivao, tako da ne znam koliko je dobar primer ali pogledaj
http://www.codeproject.com/office/csautomateword.asp |
20. 12. 2006. | #3 |
Moderator
Expert
Datum učlanjenja: 06.06.2005
Lokacija: Novi Sad
Poruke: 538
Hvala: 10
40 "Hvala" u 20 poruka
|
Novi Office formati su zasnovani na Open XML standardu (na ovom linku naćićeš dosta toga), pa se podaci ovako mogu izvući uz eventualno dodatne konverzije.
__________________
.................................. Kompjuterski e-zine Personal magazin .................................. Blogovi Svakodnevnica Auto blog |
20. 12. 2006. | #4 | |
Direktor Kombinata
Invented the damn thing
Datum učlanjenja: 07.06.2005
Poruke: 2.669
Hvala: 44
119 "Hvala" u 64 poruka
|
Citat:
__________________
activeCollab - Project Management and Collaboration Tool iz domaće kuhinje | area51.rs - Blog |
|
20. 12. 2006. | #5 |
Branimir Momcilovic
Qualified
Datum učlanjenja: 15.02.2006
Lokacija: Beograd
Poruke: 167
Hvala: 47
25 "Hvala" u 8 poruka
|
Ako na serveru imaš instaliran office, možeš da startuješ npr. word i koristiš ga kao COM Server. Iz visual studia se koristi lagano imaš dokumentaciju na msdn
Trebalo bi da sve što radi pod windowsom može da pokrene COM server, npr. php (COM and .NET windows). Da bi ovo koristio, naravno, moraš da imaš windows server.
__________________
Važnije je biti ljubazan, nego biti u pravu. |
20. 12. 2006. | #6 |
Igor Marinović
Expert
|
Ranije su mi hvalili htdig: http://htdig.org/FAQ.html#q4.8
Ne razvija se bas u poslednje vreme, ali mozda ti pomogne. |
21. 12. 2006. | #7 | |
Zoran Mihailović
Na probnom radu
Datum učlanjenja: 30.09.2006
Lokacija: Beograd
Poruke: 41
Hvala: 1
259 "Hvala" u 1 poruci
|
Sphider je open-source search engine koji ima mogucnost indexiranja/search-a i .doc i .pdf file-ova. Pogledaj dokumentaciju: uz originalni source, trebace ti i pdftotext i catdoc, ali su i oni free/open-source (at least I think so) da bi ova opcija bila moguca.
Citat:
U sustini, ti externi exe-file-ovi izvlace text iz .doc-a, tj. pdf-a i onda ih spider trpa u bazu. Ja sam koristio za pdf-ove, koji su kreirani nekom starom verzijom Quark-a ili necim slicnim i Sphider je uspevao dosta da izvuce, iako su pdf-ovi konvertovani u txt bili polu-citljivi cak i Google-u ("view as html - opcija). U svakom slucaju, mislim da vredi probati. |
|
|
|
Slične teme | ||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
[Firefox Windows] Pokretanje aplikacija i dokumenata sa lokalne mreže | 35-68 | Code snippets | 0 | 20. 08. 2010. 19:24 |
Wordpress: pamćenje podataka komentatora | Nemanja Avramović | Sva početnička pitanja | 11 | 30. 01. 2008. 00:13 |
Izvlačenje teksta iz PDF-a? | Ilija Studen | PHP | 4 | 13. 09. 2006. 12:16 |
Kućni office ili office u gradu? | mungos | Opušteno | 15 | 07. 02. 2006. 18:21 |