DevProTalk - Pogledajte određenu poruku

chesare · 20. 12. 2006.

Sphider je open-source search engine koji ima mogucnost indexiranja/search-a i .doc i .pdf file-ova. Pogledaj dokumentaciju: uz originalni source, trebace ti i pdftotext i catdoc, ali su i oni free/open-source (at least I think so) da bi ova opcija bila moguca.

Citat:

Indexing pdf and doc files
Pdf and doc files can be indexed via external binaries. Download and install pdftotext and catdoc and set there location(path) in conf.php...
(i tako dalje)

Ako ti sam Sphider nije dovoljno dobar ili ti ne radi posao skroz, mozes da vidis kako su oni to odradili, pa da nesto hackujes.

U sustini, ti externi exe-file-ovi izvlace text iz .doc-a, tj. pdf-a i onda ih spider trpa u bazu. Ja sam koristio za pdf-ove, koji su kreirani nekom starom verzijom Quark-a ili necim slicnim i Sphider je uspevao dosta da izvuce, iako su pdf-ovi konvertovani u txt bili polu-citljivi cak i Google-u ("view as html - opcija).

U svakom slucaju, mislim da vredi probati.