DevProTalk - Pogledajte određenu poruku

jablan · 03. 10. 2006.

Ja koliko kontam, nevezano za konkretne xxSQL funkcionalnosti, generalni princip je sledeći:
Dva teksta su slična ako imaju što više međusobno istih, a u isto vreme "retkih" reči, gde su retke reči one koje se pojavljuju u malom procentu svih tekstova.

Dakle, imaš negde indeks svih reči sa brojem pojavljivanja u svim tekstovima. Što je taj broj veći, reč je manje relevantna za uparivanje pri određivanju sličnosti.

Kad imaš takav indeks, određivanje "razdaljine" dva teksta svodi se na sabiranje i množenje.

E sad, da li sam ti pomogao ili ne, ne znam...

//edit: vidim da me Ivanhoe pretekao sa sličnim predlogom

03. 10. 2006.	#11
jablan VD IT Direktora Invented the damn thing Datum učlanjenja: 08.06.2005 Lokacija: Beograd Poruke: 2.118 Hvala: 503 1.307 "Hvala" u 282 poruka	Ja koliko kontam, nevezano za konkretne xxSQL funkcionalnosti, generalni princip je sledeći: Dva teksta su slična ako imaju što više međusobno istih, a u isto vreme "retkih" reči, gde su retke reči one koje se pojavljuju u malom procentu svih tekstova. Dakle, imaš negde indeks svih reči sa brojem pojavljivanja u svim tekstovima. Što je taj broj veći, reč je manje relevantna za uparivanje pri određivanju sličnosti. Kad imaš takav indeks, određivanje "razdaljine" dva teksta svodi se na sabiranje i množenje. E sad, da li sam ti pomogao ili ne, ne znam... //edit: vidim da me Ivanhoe pretekao sa sličnim predlogom Poslednja izmena od jablan : 03. 10. 2006. u 22:45.