Određivanje sličnosti između dva teksta - Strana 2

jablan · 03. 10. 2006.

Ja koliko kontam, nevezano za konkretne xxSQL funkcionalnosti, generalni princip je sledeći:
Dva teksta su slična ako imaju što više međusobno istih, a u isto vreme "retkih" reči, gde su retke reči one koje se pojavljuju u malom procentu svih tekstova.

Dakle, imaš negde indeks svih reči sa brojem pojavljivanja u svim tekstovima. Što je taj broj veći, reč je manje relevantna za uparivanje pri određivanju sličnosti.

Kad imaš takav indeks, određivanje "razdaljine" dva teksta svodi se na sabiranje i množenje.

E sad, da li sam ti pomogao ili ne, ne znam...

//edit: vidim da me Ivanhoe pretekao sa sličnim predlogom

zira · 03. 10. 2006.

Osnovno pitanje je sta ti je izvor tih podataka koje poredis po slicnosti. Ukoliko je nesto sto ti mozes da kontrolises, onda radis ovako kako je ivanhoe rekao ili rucno tagujes.

No, ako nemas pojma sta ce da bude u tom tekstu, kao sto je slucaj sa tim RSS-ovima, onda bolje da koristis MySQL full text search, i da ga fino podesis, posebno se igrajuci sa "score" parametrom koji on vrati kao rezultat. U vecini slucajeva ovo daje dobar rezultat, ali naravno, to nije vjestacka inteligencija i imaces false positives. Ali vecinom, to radi kako treba, pogotovo ako su ti tekstovi duzi. I da, ovo radi samo na MyISAM tabelama.

http://dev.mysql.com/doc/refman/5.0/...xt-search.html

(Tip: pogledaj i Fine Tuning i Stopwords)

marinowski · 04. 10. 2006.

Ovaj zadatak nije nimalo lagan. Ko pocne da se zabavlja sa ovom temom, nakon nekog vremena stigne do semantike i do Information Retrievala, kao sto rece Dragi Tata. A ove oblasti dosta zavise od toga koliko se stiglo u istrazivanju u pojedinom jeziku. Ako je predlozen problem za engleski jezik, sto pretpostavljam da jeste, onda OK, jer se u engleskom stiglo najdalje.

FullText search u MySQL-u izgleda interesantno. Da li ga je neko koristio u produkciji? Pitanje je sta da se postavi kao search string u ovom konkretnom slucaju? Samo naslov, ili citav tekst? Koliko search string moze biti dugacak, i koliko se gubi na performansama kada se stavi poduzi tekst, a tekstovi u RSS-u znaju da budu dugacki.

Ukoliko je nekome hendikep sto fulltext radi samo na MyISAM tabelama, moze da se napravi sledece: napravi se replikacija baze, iako je original tabela u InnoDB formatu, kopija moze biti u MyISAM i onda se fulltext search radi na replikaciji baze.

ivanhoe · 04. 10. 2006.

u sustini je "prepoznavanja slicnosti" neka vrsta implementacije neuralnih mreza, pa bi mozda vredelo malo procitati i o tome.

Petar Marić · 04. 10. 2006.

Ako sam naučio jednu stvar o neuronskim mrežama to je da se ne oslanjaš puno samo na njih - jedan pogrešan podatak u skupu za učenje i ode aproksimacija dođavola.

03. 10. 2006.	#11
jablan VD IT Direktora Invented the damn thing Datum učlanjenja: 08.06.2005 Lokacija: Beograd Poruke: 2.118 Hvala: 503 1.307 "Hvala" u 282 poruka	Ja koliko kontam, nevezano za konkretne xxSQL funkcionalnosti, generalni princip je sledeći: Dva teksta su slična ako imaju što više međusobno istih, a u isto vreme "retkih" reči, gde su retke reči one koje se pojavljuju u malom procentu svih tekstova. Dakle, imaš negde indeks svih reči sa brojem pojavljivanja u svim tekstovima. Što je taj broj veći, reč je manje relevantna za uparivanje pri određivanju sličnosti. Kad imaš takav indeks, određivanje "razdaljine" dva teksta svodi se na sabiranje i množenje. E sad, da li sam ti pomogao ili ne, ne znam... //edit: vidim da me Ivanhoe pretekao sa sličnim predlogom Poslednja izmena od jablan : 03. 10. 2006. u 23:45.

03. 10. 2006.	#12
zira Vladan Zirojević Grand Master Datum učlanjenja: 09.06.2006 Lokacija: Beograd/Trebinje Poruke: 903 Hvala: 106 183 "Hvala" u 82 poruka	Osnovno pitanje je sta ti je izvor tih podataka koje poredis po slicnosti. Ukoliko je nesto sto ti mozes da kontrolises, onda radis ovako kako je ivanhoe rekao ili rucno tagujes. No, ako nemas pojma sta ce da bude u tom tekstu, kao sto je slucaj sa tim RSS-ovima, onda bolje da koristis MySQL full text search, i da ga fino podesis, posebno se igrajuci sa "score" parametrom koji on vrati kao rezultat. U vecini slucajeva ovo daje dobar rezultat, ali naravno, to nije vjestacka inteligencija i imaces false positives. Ali vecinom, to radi kako treba, pogotovo ako su ti tekstovi duzi. I da, ovo radi samo na MyISAM tabelama. http://dev.mysql.com/doc/refman/5.0/...xt-search.html (Tip: pogledaj i Fine Tuning i Stopwords) __________________ Donesi.com SrediMe

04. 10. 2006.	#14
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	u sustini je "prepoznavanja slicnosti" neka vrsta implementacije neuralnih mreza, pa bi mozda vredelo malo procitati i o tome. __________________ Leadership is the art of getting people to want to do what you know must be done.

04. 10. 2006.	#15
Petar Marić Python Ambassador Master Datum učlanjenja: 06.06.2005 Lokacija: Novi Sad Poruke: 602 Hvala: 28 27 "Hvala" u 17 poruka	Ako sam naučio jednu stvar o neuronskim mrežama to je da se ne oslanjaš puno samo na njih - jedan pogrešan podatak u skupu za učenje i ode aproksimacija dođavola. __________________ Python Ambassador of Serbia

Slične teme
Tema	Početna poruka teme	Forum	Odgovori	Poslednja poruka
[REŠENO] QA: Potrebni Web testeri [studenti, određeno na 2 meseca]	DejanVesic	Poslovne ponude i zapošljavanje	0	16. 10. 2010. 00:44
phpBB2 - određenog usera redirectati na neki URL	blackshtef	Web aplikacije, web servisi i software	0	04. 09. 2008. 20:12
Aktiviranje posebnog templejta za određene kategorije u WordPressu	Deki80	Sva početnička pitanja	8	20. 02. 2008. 17:52
Da li je određeni path stvarna adresa fajla?	Ilija Studen	PHP	4	09. 06. 2006. 18:07

04. 10. 2006.	#13
marinowski Igor Marinović Expert Datum učlanjenja: 09.06.2005 Lokacija: Palić Poruke: 549 Hvala: 31 39 "Hvala" u 17 poruka	Ovaj zadatak nije nimalo lagan. Ko pocne da se zabavlja sa ovom temom, nakon nekog vremena stigne do semantike i do Information Retrievala, kao sto rece Dragi Tata. A ove oblasti dosta zavise od toga koliko se stiglo u istrazivanju u pojedinom jeziku. Ako je predlozen problem za engleski jezik, sto pretpostavljam da jeste, onda OK, jer se u engleskom stiglo najdalje. FullText search u MySQL-u izgleda interesantno. Da li ga je neko koristio u produkciji? Pitanje je sta da se postavi kao search string u ovom konkretnom slucaju? Samo naslov, ili citav tekst? Koliko search string moze biti dugacak, i koliko se gubi na performansama kada se stavi poduzi tekst, a tekstovi u RSS-u znaju da budu dugacki. Ukoliko je nekome hendikep sto fulltext radi samo na MyISAM tabelama, moze da se napravi sledece: napravi se replikacija baze, iako je original tabela u InnoDB formatu, kopija moze biti u MyISAM i onda se fulltext search radi na replikaciji baze.