|
Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor: |
|
Alati teme | Način prikaza |
20. 12. 2006. | #7 | |
Zoran Mihailović
Na probnom radu
Datum učlanjenja: 30.09.2006
Lokacija: Beograd
Poruke: 41
Hvala: 1
259 "Hvala" u 1 poruci
|
Sphider je open-source search engine koji ima mogucnost indexiranja/search-a i .doc i .pdf file-ova. Pogledaj dokumentaciju: uz originalni source, trebace ti i pdftotext i catdoc, ali su i oni free/open-source (at least I think so) da bi ova opcija bila moguca.
Citat:
U sustini, ti externi exe-file-ovi izvlace text iz .doc-a, tj. pdf-a i onda ih spider trpa u bazu. Ja sam koristio za pdf-ove, koji su kreirani nekom starom verzijom Quark-a ili necim slicnim i Sphider je uspevao dosta da izvuce, iako su pdf-ovi konvertovani u txt bili polu-citljivi cak i Google-u ("view as html - opcija). U svakom slucaju, mislim da vredi probati. |
|
|
|
Slične teme | ||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
[Firefox Windows] Pokretanje aplikacija i dokumenata sa lokalne mreže | 35-68 | Code snippets | 0 | 20. 08. 2010. 18:24 |
Wordpress: pamćenje podataka komentatora | Nemanja Avramović | Sva početnička pitanja | 11 | 29. 01. 2008. 23:13 |
Izvlačenje teksta iz PDF-a? | Ilija Studen | PHP | 4 | 13. 09. 2006. 11:16 |
Kućni office ili office u gradu? | mungos | Opušteno | 15 | 07. 02. 2006. 17:21 |