Mislim da čoveku ne treba fuzzy search, već automatsko izvlačenje tagova (ključnih reči). Verovatno ima dosta materijala o tome po netu (recimo Amazon to radi sa knjigama)... Koliko se meni čini, poenta je da se na nekoj ogromnoj bazi tekstova izvlače reči sa velikom frekvencijom unutar jednog teksta, a malom frekvencijom unutar skupa.
U svakom slučaju biće neophodno neko ručno čišćenje na kraju, i s obzorim na flektivnu prirodu srpskog jezika, verovatno bi bilo korisno implementirati neku logiku koja bi bila "padež-proof" (BTW, mislim da je Lucene ima).
Poslednja izmena od jablan : 14. 05. 2007. u 23:33.
|