Sličnost rečenica

bluesman · 14. 05. 2007.

Treba da se upoređuje string proizvoljne veličine, obično oko 100-ak karaktera, sa drugim stringovima u bazi da se nađu slične vesti. Fulltext search iz mysql daje solidne rezultate ali je greška bar 15-20%, PHP manual: similar_text daje mnogo lošije rezultate, probali smo čak i sa PHP manual: levenshtein + još neko dodatno žongliranje, zatim smo probali sa nekim varijacijama na fuzzy search... svako ima delove u kojima je bolji od drugih ali ni jedno rešenje ne daje potpuno zadovoljavajuće rešanje.

Zatim je jedna od ideja da se proba od oba stringa dobiti niz reči i onda uraditi presek niza, naći koliko se reči pojavljuje u oba stringa i za neki treshold, recimo 50% proglasiti kao slično. Tu je problem što to može da se radi samo u PHP, ne može da se odradi query (može jedino da se pokupe svi naslovi pa kroz petlju petljati...) i nije previše elegantno.

Najlakše je reći "neka paze šta i kako upisuju" ali je upis van kontrole i ne može da se utiče na način unosa. Recimo Gđa. Backham je nekada Victoria, nekada Posh, nekada Spice Girl... Paris Hilton je nekada samo Paris, nekada Princess a nekada samo "star" (prilično generički... znači jako nepovoljno)

Problem je kada se recimo upiše neka vest, na osnovi naslova vesti pronaći u bazi sve vesti koje su vezane na bilo koji način sa ovom trenutnom. Stvar je u tome što sve radi polovično ili malo bolje od polovično, ni jedno rešenje ne može da se ostavi da radi automatski. Da li postoji neki poznati algoritam?

bags · 14. 05. 2007.

A da koristite tagove ?

bluesman · 14. 05. 2007.

A ko ce da tagira? Sve mora automatski da radi.

zira · 14. 05. 2007.

Tesko je to automatski, a da bude skoro sigurno pouzdano. Moze poluautomatski, da npr. sistem u pocetku ucite sinonime i povezane pojmove tagujuci, a vremenom ce sistem nauciti dovoljno da to radi skoro automatski. Valjda

Dragi Tata · 14. 05. 2007.

Koliko se sećam već smo nešto pričali na tu temu i Dinke nam je pomenuo PHP funkciju http://us.php.net/levenshtein

Ja sam implementirao ovaj algoritam u C++u i mogu reći da lepo vrši posao.

Dragi Tata · 14. 05. 2007.

Ah, tek sad videh da si probao levenshtein.

Ako ti ni to ne odgovara, jedno od rešenja bi bilo n-grams fuzzy search. Ne znam da li postoji gotova PHP biblioteka za nešto tako.

(BTW, šta je sa ovom quick reply opcijom?)

kodi · 14. 05. 2007.

ako ne mozes vec da nadjes zadovoljavajuci algoritam, onda ostaje ovo sto zira kaze, da istreniras neki postojeci. Mogu to i sami korisnici, a da toga nisi ni svesni (postavis mali checkbox "do you find this results good y/n" ili tako nesto) . Naravno ako projekt to dozvoljava.

Edit: ako je tekst na engleskom, mozda ovo pomogne

http://dev.mysql.com/doc/refman/5.0/...functions.html
http://en.wikipedia.org/wiki/Soundex

(sad izgooglao, nisam koristio)

zira · 14. 05. 2007.

Evo implementacije varijante fuzzy search-a u dva koraka, mozes da probas, mozda ti da bolje rezultate.

http://elonen.iki.fi/code/misc-notes/appr-search-php/

Off Topic:
Automatika u ovome slucaju ce uvijek grijesiti, nekad manje nekad vise, ali greske ce se uvijek pojavljivati.

nixa · 14. 05. 2007.

Koliko sam ja razumeo bluesmana, ovo se ne radi za srpsko tržište ...

jablan · 14. 05. 2007.

Evo jedan laički algoritam:

Znači zadatak je da za svaki tekst izvučeš desetak tagova čijim upoređivanjem kasnije možeš da nađeš srodne tekstove.

Izvučeš tabelu svih reči. Iz nje izbaciš reči koje se pojavljuju često na celom uzorku tekstova (tu su veznici, brojevi, prilozi, većina glagola itd), to jest "procediš". Onda za svaku preostalu reč uradiš jedan fulltext search i zapamtiš ID-jeve tekstova u kojima se pojavljuju i odgovarajući rank. Kad odradiš sve to za sve reči, za svaki tekst uzmeš deset reči sa najvišim rankom i to su tagovi.

Isto možeš posle da ponoviš i za fraze od dve, tri itd. reči, s tim što računaš samo fraze čije se sve reči pojavljuju u "proceđenoj" tabeli.

Tako bih ja radio i prilično sam ubeđen da bi šljakalo.

14. 05. 2007.	#1
bluesman Goran Pilipović Sir Write-a-Lot Datum učlanjenja: 18.05.2005 Lokacija: Beograd Poruke: 5.450 Hvala: 288 1.247 "Hvala" u 446 poruka	Sličnost rečenica Treba da se upoređuje string proizvoljne veličine, obično oko 100-ak karaktera, sa drugim stringovima u bazi da se nađu slične vesti. Fulltext search iz mysql daje solidne rezultate ali je greška bar 15-20%, PHP manual: similar_text daje mnogo lošije rezultate, probali smo čak i sa PHP manual: levenshtein + još neko dodatno žongliranje, zatim smo probali sa nekim varijacijama na fuzzy search... svako ima delove u kojima je bolji od drugih ali ni jedno rešenje ne daje potpuno zadovoljavajuće rešanje. Zatim je jedna od ideja da se proba od oba stringa dobiti niz reči i onda uraditi presek niza, naći koliko se reči pojavljuje u oba stringa i za neki treshold, recimo 50% proglasiti kao slično. Tu je problem što to može da se radi samo u PHP, ne može da se odradi query (može jedino da se pokupe svi naslovi pa kroz petlju petljati...) i nije previše elegantno. Najlakše je reći "neka paze šta i kako upisuju" ali je upis van kontrole i ne može da se utiče na način unosa. Recimo Gđa. Backham je nekada Victoria, nekada Posh, nekada Spice Girl... Paris Hilton je nekada samo Paris, nekada Princess a nekada samo "star" (prilično generički... znači jako nepovoljno) Problem je kada se recimo upiše neka vest, na osnovi naslova vesti pronaći u bazi sve vesti koje su vezane na bilo koji način sa ovom trenutnom. Stvar je u tome što sve radi polovično ili malo bolje od polovično, ni jedno rešenje ne može da se ostavi da radi automatski. Da li postoji neki poznati algoritam? __________________ Goran Pilipović a.k.a. Ugly Fingers Bradley f.k.a. bluesman I don't always know what I'm talking about but I know I'm right!

14. 05. 2007.	#3
bluesman Goran Pilipović Sir Write-a-Lot Datum učlanjenja: 18.05.2005 Lokacija: Beograd Poruke: 5.450 Hvala: 288 1.247 "Hvala" u 446 poruka	A ko ce da tagira? Sve mora automatski da radi. __________________ Goran Pilipović a.k.a. Ugly Fingers Bradley f.k.a. bluesman I don't always know what I'm talking about but I know I'm right!

14. 05. 2007.	#4
zira Vladan Zirojević Grand Master Datum učlanjenja: 09.06.2006 Lokacija: Beograd/Trebinje Poruke: 903 Hvala: 106 183 "Hvala" u 82 poruka	Tesko je to automatski, a da bude skoro sigurno pouzdano. Moze poluautomatski, da npr. sistem u pocetku ucite sinonime i povezane pojmove tagujuci, a vremenom ce sistem nauciti dovoljno da to radi skoro automatski. Valjda __________________ Donesi.com SrediMe

14. 05. 2007.	#7
kodi 133t Master Datum učlanjenja: 07.01.2006 Lokacija: Beograd Poruke: 714 Hvala: 16 37 "Hvala" u 28 poruka	ako ne mozes vec da nadjes zadovoljavajuci algoritam, onda ostaje ovo sto zira kaze, da istreniras neki postojeci. Mogu to i sami korisnici, a da toga nisi ni svesni (postavis mali checkbox "do you find this results good y/n" ili tako nesto) . Naravno ako projekt to dozvoljava. Edit: ako je tekst na engleskom, mozda ovo pomogne http://dev.mysql.com/doc/refman/5.0/...functions.html http://en.wikipedia.org/wiki/Soundex (sad izgooglao, nisam koristio) __________________ Poslednja izmena od kodi : 14. 05. 2007. u 21:14.

14. 05. 2007.	#8
zira Vladan Zirojević Grand Master Datum učlanjenja: 09.06.2006 Lokacija: Beograd/Trebinje Poruke: 903 Hvala: 106 183 "Hvala" u 82 poruka	Evo implementacije varijante fuzzy search-a u dva koraka, mozes da probas, mozda ti da bolje rezultate. http://elonen.iki.fi/code/misc-notes/appr-search-php/ Off Topic: Automatika u ovome slucaju ce uvijek grijesiti, nekad manje nekad vise, ali greske ce se uvijek pojavljivati. __________________ Donesi.com SrediMe

14. 05. 2007.	#2
bags Developer Na probnom radu Datum učlanjenja: 06.06.2005 Lokacija: Wien Poruke: 19 Hvala: 0 0 "Hvala" u 0 poruka	A da koristite tagove ?

14. 05. 2007.	#5
Dragi Tata dinosaurus Master Datum učlanjenja: 29.12.2005 Lokacija: Nova Engleska Poruke: 636 Hvala: 79 263 "Hvala" u 66 poruka	Koliko se sećam već smo nešto pričali na tu temu i Dinke nam je pomenuo PHP funkciju http://us.php.net/levenshtein Ja sam implementirao ovaj algoritam u C++u i mogu reći da lepo vrši posao.

14. 05. 2007.	#9
nixa Nikola Denić Sir Write-a-Lot Datum učlanjenja: 18.05.2005 Lokacija: Beograd Poruke: 3.694 Hvala: 160 458 "Hvala" u 164 poruka	Koliko sam ja razumeo bluesmana, ovo se ne radi za srpsko tržište ... __________________ Do not ask yourself what the world needs. Ask yourself what makes you come alive, and then go do that. Because what the world needs is people who have come alive

14. 05. 2007.	#10
jablan VD IT Direktora Invented the damn thing Datum učlanjenja: 08.06.2005 Lokacija: Beograd Poruke: 2.118 Hvala: 503 1.307 "Hvala" u 282 poruka	Evo jedan laički algoritam: Znači zadatak je da za svaki tekst izvučeš desetak tagova čijim upoređivanjem kasnije možeš da nađeš srodne tekstove. Izvučeš tabelu svih reči. Iz nje izbaciš reči koje se pojavljuju često na celom uzorku tekstova (tu su veznici, brojevi, prilozi, većina glagola itd), to jest "procediš". Onda za svaku preostalu reč uradiš jedan fulltext search i zapamtiš ID-jeve tekstova u kojima se pojavljuju i odgovarajući rank. Kad odradiš sve to za sve reči, za svaki tekst uzmeš deset reči sa najvišim rankom i to su tagovi. Isto možeš posle da ponoviš i za fraze od dve, tri itd. reči, s tim što računaš samo fraze čije se sve reči pojavljuju u "proceđenoj" tabeli. Tako bih ja radio i prilično sam ubeđen da bi šljakalo.

Alati teme
Pogledajte verziju za štampanje Pošaljite email-om ovu stranu
Način prikaza
Prebacite u linearni prikaz Hibridni prikaz Prebacite u prikaz po temama

Slične teme
Tema	Početna poruka teme	Forum	Odgovori	Poslednja poruka
Budućnost Interneta	vidak	e-Business	15	15. 03. 2011. 21:08
Etičnost u marketingu, again	mileusna	Marketing i SEO	9	22. 02. 2008. 23:48