![]() |
#1 |
Goran Pilipović
Sir Write-a-Lot
|
![]() Treba da se upoređuje string proizvoljne veličine, obično oko 100-ak karaktera, sa drugim stringovima u bazi da se nađu slične vesti. Fulltext search iz mysql daje solidne rezultate ali je greška bar 15-20%, PHP manual: similar_text daje mnogo lošije rezultate, probali smo čak i sa PHP manual: levenshtein + još neko dodatno žongliranje, zatim smo probali sa nekim varijacijama na fuzzy search... svako ima delove u kojima je bolji od drugih ali ni jedno rešenje ne daje potpuno zadovoljavajuće rešanje.
Zatim je jedna od ideja da se proba od oba stringa dobiti niz reči i onda uraditi presek niza, naći koliko se reči pojavljuje u oba stringa i za neki treshold, recimo 50% proglasiti kao slično. Tu je problem što to može da se radi samo u PHP, ne može da se odradi query (može jedino da se pokupe svi naslovi pa kroz petlju petljati...) i nije previše elegantno. Najlakše je reći "neka paze šta i kako upisuju" ali je upis van kontrole i ne može da se utiče na način unosa. Recimo Gđa. Backham je nekada Victoria, nekada Posh, nekada Spice Girl... Paris Hilton je nekada samo Paris, nekada Princess a nekada samo "star" (prilično generički... znači jako nepovoljno) Problem je kada se recimo upiše neka vest, na osnovi naslova vesti pronaći u bazi sve vesti koje su vezane na bilo koji način sa ovom trenutnom. Stvar je u tome što sve radi polovično ili malo bolje od polovično, ni jedno rešenje ne može da se ostavi da radi automatski. Da li postoji neki poznati algoritam?
__________________
Goran Pilipović a.k.a. Ugly Fingers Bradley f.k.a. bluesman I don't always know what I'm talking about but I know I'm right! |
![]() |
![]() |
![]() |
#2 |
Developer
Na probnom radu
Datum učlanjenja: 06.06.2005
Lokacija: Wien
Poruke: 19
Hvala: 0
0 "Hvala" u 0 poruka
![]() |
![]() A da koristite tagove ?
![]() |
![]() |
![]() |
![]() |
#3 |
Goran Pilipović
Sir Write-a-Lot
|
![]() A ko ce da tagira? Sve mora automatski da radi.
__________________
Goran Pilipović a.k.a. Ugly Fingers Bradley f.k.a. bluesman I don't always know what I'm talking about but I know I'm right! |
![]() |
![]() |
![]() |
#4 |
Vladan Zirojević
Grand Master
|
![]() Tesko je to automatski, a da bude skoro sigurno pouzdano. Moze poluautomatski, da npr. sistem u pocetku ucite sinonime i povezane pojmove tagujuci, a vremenom ce sistem nauciti dovoljno da to radi skoro automatski. Valjda
![]() |
![]() |
![]() |
![]() |
#5 |
dinosaurus
Master
Datum učlanjenja: 29.12.2005
Lokacija: Nova Engleska
Poruke: 636
Hvala: 79
263 "Hvala" u 66 poruka
![]() ![]() ![]() |
![]() Koliko se sećam već smo nešto pričali na tu temu i Dinke nam je pomenuo PHP funkciju http://us.php.net/levenshtein
Ja sam implementirao ovaj algoritam u C++u i mogu reći da lepo vrši posao. |
![]() |
![]() |
![]() |
#6 |
dinosaurus
Master
Datum učlanjenja: 29.12.2005
Lokacija: Nova Engleska
Poruke: 636
Hvala: 79
263 "Hvala" u 66 poruka
![]() ![]() ![]() |
![]() Ah, tek sad videh da si probao levenshtein.
Ako ti ni to ne odgovara, jedno od rešenja bi bilo n-grams fuzzy search. Ne znam da li postoji gotova PHP biblioteka za nešto tako. (BTW, šta je sa ovom quick reply opcijom?) |
![]() |
![]() |
![]() |
#7 |
133t
Master
|
![]() ako ne mozes vec da nadjes zadovoljavajuci algoritam, onda ostaje ovo sto zira kaze, da istreniras neki postojeci. Mogu to i sami korisnici, a da toga nisi ni svesni (postavis mali checkbox "do you find this results good y/n" ili tako nesto) . Naravno ako projekt to dozvoljava.
Edit: ako je tekst na engleskom, mozda ovo pomogne http://dev.mysql.com/doc/refman/5.0/...functions.html http://en.wikipedia.org/wiki/Soundex (sad izgooglao, nisam koristio) Poslednja izmena od kodi : 14. 05. 2007. u 21:14. |
![]() |
![]() |
![]() |
#8 |
Vladan Zirojević
Grand Master
|
![]() Evo implementacije varijante fuzzy search-a u dva koraka, mozes da probas, mozda ti da bolje rezultate.
http://elonen.iki.fi/code/misc-notes/appr-search-php/ Off Topic: Automatika u ovome slucaju ce uvijek grijesiti, nekad manje nekad vise, ali greske ce se uvijek pojavljivati. |
![]() |
![]() |
![]() |
#9 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() Mislim da čoveku ne treba fuzzy search, već automatsko izvlačenje tagova (ključnih reči). Verovatno ima dosta materijala o tome po netu (recimo Amazon to radi sa knjigama)... Koliko se meni čini, poenta je da se na nekoj ogromnoj bazi tekstova izvlače reči sa velikom frekvencijom unutar jednog teksta, a malom frekvencijom unutar skupa.
U svakom slučaju biće neophodno neko ručno čišćenje na kraju, i s obzorim na flektivnu prirodu srpskog jezika, verovatno bi bilo korisno implementirati neku logiku koja bi bila "padež-proof" (BTW, mislim da je Lucene ima). Poslednja izmena od jablan : 14. 05. 2007. u 23:33. |
![]() |
![]() |
![]() |
#10 |
Nikola Denić
Sir Write-a-Lot
|
![]() Koliko sam ja razumeo bluesmana, ovo se ne radi za srpsko tržište ...
__________________
Do not ask yourself what the world needs. Ask yourself what makes you come alive, and then go do that. Because what the world needs is people who have come alive |
![]() |
![]() |
![]() |
Alati teme | |
Način prikaza | |
|
|
![]() |
||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
Budućnost Interneta | vidak | e-Business | 15 | 15. 03. 2011. 21:08 |
Etičnost u marketingu, again | mileusna | Marketing i SEO | 9 | 22. 02. 2008. 23:48 |