Pogledajte određenu poruku
Staro 20. 12. 2006.   #7
chesare
Zoran Mihailović
Na probnom radu
 
Datum učlanjenja: 30.09.2006
Lokacija: Beograd
Poruke: 41
Hvala: 1
259 "Hvala" u 1 poruci
chesare is on a distinguished roadchesare is on a distinguished roadchesare is on a distinguished road
Default

Sphider je open-source search engine koji ima mogucnost indexiranja/search-a i .doc i .pdf file-ova. Pogledaj dokumentaciju: uz originalni source, trebace ti i pdftotext i catdoc, ali su i oni free/open-source (at least I think so) da bi ova opcija bila moguca.

Citat:
Indexing pdf and doc files
Pdf and doc files can be indexed via external binaries. Download and install pdftotext and catdoc and set there location(path) in conf.php...
(i tako dalje)
Ako ti sam Sphider nije dovoljno dobar ili ti ne radi posao skroz, mozes da vidis kako su oni to odradili, pa da nesto hackujes.

U sustini, ti externi exe-file-ovi izvlace text iz .doc-a, tj. pdf-a i onda ih spider trpa u bazu. Ja sam koristio za pdf-ove, koji su kreirani nekom starom verzijom Quark-a ili necim slicnim i Sphider je uspevao dosta da izvuce, iako su pdf-ovi konvertovani u txt bili polu-citljivi cak i Google-u ("view as html - opcija).

U svakom slucaju, mislim da vredi probati.
chesare je offline   Odgovorite uz citat