Izvlačenje podataka iz Office dokumenata

Forumi IT profesionalaca
web development, web design, e-business, SEO

Pitanja i odgovori Članovi Kalendar Današnje poruke Pretraga

		DevProTalk > Web development i web aplikacije > Programiranje
Izvlačenje podataka iz Office dokumenata

Å½elite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor:

Alati teme

Način prikaza

20. 12. 2006.

chesare

Zoran Mihailović

Na probnom radu

Datum učlanjenja: 30.09.2006

Lokacija: Beograd

Poruke: 41

Hvala: 1

259 "Hvala" u 1 poruci

Sphider je open-source search engine koji ima mogucnost indexiranja/search-a i .doc i .pdf file-ova. Pogledaj dokumentaciju: uz originalni source, trebace ti i pdftotext i catdoc, ali su i oni free/open-source (at least I think so) da bi ova opcija bila moguca.

Citat:

Indexing pdf and doc files
Pdf and doc files can be indexed via external binaries. Download and install pdftotext and catdoc and set there location(path) in conf.php...
(i tako dalje)

Ako ti sam Sphider nije dovoljno dobar ili ti ne radi posao skroz, mozes da vidis kako su oni to odradili, pa da nesto hackujes.

U sustini, ti externi exe-file-ovi izvlace text iz .doc-a, tj. pdf-a i onda ih spider trpa u bazu. Ja sam koristio za pdf-ove, koji su kreirani nekom starom verzijom Quark-a ili necim slicnim i Sphider je uspevao dosta da izvuce, iako su pdf-ovi konvertovani u txt bili polu-citljivi cak i Google-u ("view as html - opcija).

U svakom slucaju, mislim da vredi probati.

« Prethodna tema | Sledeća tema »

Pravila pisanja
Možete ne započinjati nove teme Možete ne slati odgovore Možete ne slati priloge Možete ne izmeniti svoje poruke	vB kôd je Uključen Smajliji su Uključen [IMG] kod je Uključen HTML kôd je Isključen

Pogledajte forum

Slične teme
Tema	Početna poruka teme	Forum	Odgovori	Poslednja poruka
[Firefox Windows] Pokretanje aplikacija i dokumenata sa lokalne mreže	35-68	Code snippets	0	20. 08. 2010. 18:24
Wordpress: pamćenje podataka komentatora	Nemanja Avramović	Sva početnička pitanja	11	29. 01. 2008. 23:13
Izvlačenje teksta iz PDF-a?	Ilija Studen	PHP	4	13. 09. 2006. 11:16
Kućni office ili office u gradu?	mungos	Opušteno	15	07. 02. 2006. 17:21

Vreme je GMT +2. Trenutno vreme je 12:59.

Prijatelji: www.blogodak.com | www.sestroslatka.com

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.