DevProTalk - Sličnost rečenica

DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)

- Programiranje (http://www.devprotalk.com/forumdisplay.php?f=23)

- - Sličnost rečenica (http://www.devprotalk.com/showthread.php?t=2899)

bluesman

14. 05. 2007. 20:11

Sličnost rečenica

Treba da se upoređuje string proizvoljne veličine, obično oko 100-ak karaktera, sa drugim stringovima u bazi da se nađu slične vesti. Fulltext search iz mysql daje solidne rezultate ali je greška bar 15-20%, PHP manual: similar_text daje mnogo lošije rezultate, probali smo čak i sa PHP manual: levenshtein + još neko dodatno žongliranje, zatim smo probali sa nekim varijacijama na fuzzy search... svako ima delove u kojima je bolji od drugih ali ni jedno rešenje ne daje potpuno zadovoljavajuće rešanje.

Zatim je jedna od ideja da se proba od oba stringa dobiti niz reči i onda uraditi presek niza, naći koliko se reči pojavljuje u oba stringa i za neki treshold, recimo 50% proglasiti kao slično. Tu je problem što to može da se radi samo u PHP, ne može da se odradi query (može jedino da se pokupe svi naslovi pa kroz petlju petljati...) i nije previše elegantno.

Najlakše je reći "neka paze šta i kako upisuju" ali je upis van kontrole i ne može da se utiče na način unosa. Recimo Gđa. Backham je nekada Victoria, nekada Posh, nekada Spice Girl... Paris Hilton je nekada samo Paris, nekada Princess a nekada samo "star" (prilično generički... znači jako nepovoljno)

Problem je kada se recimo upiše neka vest, na osnovi naslova vesti pronaći u bazi sve vesti koje su vezane na bilo koji način sa ovom trenutnom. Stvar je u tome što sve radi polovično ili malo bolje od polovično, ni jedno rešenje ne može da se ostavi da radi automatski. Da li postoji neki poznati algoritam?

bags	14. 05. 2007. 20:21

A da koristite tagove ? :)

bluesman

14. 05. 2007. 20:28

A ko ce da tagira? Sve mora automatski da radi.

zira	14. 05. 2007. 20:45

Tesko je to automatski, a da bude skoro sigurno pouzdano. Moze poluautomatski, da npr. sistem u pocetku ucite sinonime i povezane pojmove tagujuci, a vremenom ce sistem nauciti dovoljno da to radi skoro automatski. Valjda :)

Dragi Tata

14. 05. 2007. 21:04

Koliko se sećam već smo nešto pričali na tu temu i Dinke nam je pomenuo PHP funkciju http://us.php.net/levenshtein

Ja sam implementirao ovaj algoritam u C++u i mogu reći da lepo vrši posao.

Dragi Tata

14. 05. 2007. 21:08

Ah, tek sad videh da si probao levenshtein.

Ako ti ni to ne odgovara, jedno od rešenja bi bilo n-grams fuzzy search. Ne znam da li postoji gotova PHP biblioteka za nešto tako.

(BTW, šta je sa ovom quick reply opcijom?)

kodi	14. 05. 2007. 21:10

ako ne mozes vec da nadjes zadovoljavajuci algoritam, onda ostaje ovo sto zira kaze, da istreniras neki postojeci. Mogu to i sami korisnici, a da toga nisi ni svesni (postavis mali checkbox "do you find this results good y/n" ili tako nesto) . Naravno ako projekt to dozvoljava.

Edit: ako je tekst na engleskom, mozda ovo pomogne

http://dev.mysql.com/doc/refman/5.0/...functions.html
http://en.wikipedia.org/wiki/Soundex

(sad izgooglao, nisam koristio)

zira	14. 05. 2007. 21:42

Evo implementacije varijante fuzzy search-a u dva koraka, mozes da probas, mozda ti da bolje rezultate.

http://elonen.iki.fi/code/misc-notes/appr-search-php/

Off Topic:
Automatika u ovome slucaju ce uvijek grijesiti, nekad manje nekad vise, ali greske ce se uvijek pojavljivati.

jablan

14. 05. 2007. 23:29

Mislim da čoveku ne treba fuzzy search, već automatsko izvlačenje tagova (ključnih reči). Verovatno ima dosta materijala o tome po netu (recimo Amazon to radi sa knjigama)... Koliko se meni čini, poenta je da se na nekoj ogromnoj bazi tekstova izvlače reči sa velikom frekvencijom unutar jednog teksta, a malom frekvencijom unutar skupa.

U svakom slučaju biće neophodno neko ručno čišćenje na kraju, i s obzorim na flektivnu prirodu srpskog jezika, verovatno bi bilo korisno implementirati neku logiku koja bi bila "padež-proof" (BTW, mislim da je Lucene ima).

nixa	14. 05. 2007. 23:36

Koliko sam ja razumeo bluesmana, ovo se ne radi za srpsko tržište ...

jablan

14. 05. 2007. 23:48

Evo jedan laički algoritam:

Znači zadatak je da za svaki tekst izvučeš desetak tagova čijim upoređivanjem kasnije možeš da nađeš srodne tekstove.

Izvučeš tabelu svih reči. Iz nje izbaciš reči koje se pojavljuju često na celom uzorku tekstova (tu su veznici, brojevi, prilozi, većina glagola itd), to jest "procediš". Onda za svaku preostalu reč uradiš jedan fulltext search i zapamtiš ID-jeve tekstova u kojima se pojavljuju i odgovarajući rank. Kad odradiš sve to za sve reči, za svaki tekst uzmeš deset reči sa najvišim rankom i to su tagovi.

Isto možeš posle da ponoviš i za fraze od dve, tri itd. reči, s tim što računaš samo fraze čije se sve reči pojavljuju u "proceđenoj" tabeli.

Tako bih ja radio i prilično sam ubeđen da bi šljakalo.

MorenoArdohain

15. 05. 2007. 00:00

A kako spojiti 'Posh' sa 'Victoria', 'Spice Girls' itd?

McKracken

15. 05. 2007. 00:08

Citat:

Originalno napisao MorenoArdohain (Napišite 35375)

A kako spojiti 'Posh' sa 'Victoria', 'Spice Girls' itd?

Ili koristis neku ontologiju koja to vec ima ili kupiti mali google (sto je i najbolje resenje) :)

jablan

15. 05. 2007. 00:16

Citat:

Originalno napisao MorenoArdohain (Napišite 35375)

A kako spojiti 'Posh' sa 'Victoria', 'Spice Girls' itd?

Na taj način što će verovatno barem dve od te tri fraze naći u istom tekstu (kao i "Dejvid Bekam", što je još jedna od fraza za povezivanje sa srodnim vestima).

Random primer (izvinjavam se čitaocima sa slabijim stomakom ;)):

http://www.kurir-info.co.yu/Arhiva/2...16122005.shtml

MorenoArdohain

15. 05. 2007. 00:23

Posh i Spajs se pominju samo jednom u tekstu, postoji velika verovatnoca da ne bi imali odgovarajucu tezinu za povezivanje sa Viktorijom Bekam, odnosno srodnim clancima.

jablan

15. 05. 2007. 00:29

Pa cenim da bi Poš i Spajs upali u prvih 10-20 tagova za ovaj tekst, pogotovu ako se poveća težina reči sa velikim slovom (što je logično za tagove ovakvog tipa). Na kraju krajeva, dovoljno je da imaš ključne reči "Viktorija" i "Bekam" da bi je povezao sa srodnim člancima. Ja bih svakako probao ovaj algoritam pre nego ga otpišem.

MorenoArdohain

15. 05. 2007. 00:33

Mislim da jedino bluesman moze da nam odgovori valja li algoritam :)

zira	15. 05. 2007. 00:37

Jablene, u opstem slucaju hoce, ali u nekom procentu nece, pa to "verovatno" ce mu opet praviti false-positives kao i da radi obicni fulltext search, samo treba vidjeti sa kojim procentom greske.

Ne znam koliko je ta funkcionalnost vazna za Bluzmenov projekat, ako nije pretjerano, neki od ovdje navedenih algoritama ce ti zavristi posao. Ako jeste vazna/osnovna funkcionalnost, onda tu ima dosta posla...

Jer nije samo pitanje da se izbace vijesti koje nisu dovoljno slicne, vec (ako je to bitna funkcionalnost) i ne preskoce vijesti koje su bitne i vrlo povezane, ali zbog upotrebe sinonima ili slicno nisu pogodjene obicnim poredjenjem sadrzaja teksta, koji je u ovome slucaju prilicno kratak (100 znakova).

Mungos je upravo na ovome problemu zaustavio rad na Momentu, zato sto nije dobijao dovoljno kvalitetne srodne vijesti.

jablan

15. 05. 2007. 00:42

Da, prevideo sam možda, 100 karaktera je stvarno malo. Kakve su to vesti uopšte?

MorenoArdohain

15. 05. 2007. 00:53

Procenat greske se moze smanjiti ako se analiziraju i clanci sa proverenih izvora (primer: http://www.articlesbase.com, ima vise od 134 hiljade clanaka), pa se kreira neki sistem vezanih keyworda, a baza sinonima bi olaksala posao.

Svejedno, ima tu dosta posla, ako je kvalitet jako bitan, onda jedino rucno dodeljivanje tagova dolazi u obzir. Evo znam neke Indijce koji bi to radili za saku dolara :)

ivanhoe

15. 05. 2007. 02:42

ta vasa ideja zvuci kao nesto gde bi se mogao uklopiti Bayesov filtar, kao za spam sto se koristi. Nadju se verovatnoce da se neka rec nalazi na odredjenoj poziciji u recenici i verovatnoca da bude u istoj recenici sa drugim recima, pa onda preko toga mogu da se nadju slicne recenice...

e a kad to neko isprogramira da actually radi, onda sjebemo google, postignemo svetsku dominaciju na trzistu SE i otkupimo donesi.com za 2 milijarde dolara... :D

marinowski

15. 05. 2007. 08:37

Pre obradjivanja recenica dobro je recenicu (ako je na engleskom) provuci kroz Porter Stemming algoritam, koji reci 'oslobadja' nastavaka i mnozine.

Odredjivanje semantike reci koje se koriste je vrlo tezak problem, nesto se moze postici koristeci WordNet, ali pitanje koliko.

Mislim da je najpametnije da pustite da 'raja' radi za vas, tagovanje je popularno, iz nekog razloga svi vole da taguju.

Vreme je GMT +2. Trenutno vreme je 02:06.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.