Ja koliko kontam, nevezano za konkretne xxSQL funkcionalnosti, generalni princip je sledeći:
Dva teksta su slična ako imaju što više međusobno istih, a u isto vreme "retkih" reči, gde su retke reči one koje se pojavljuju u malom procentu svih tekstova.
Dakle, imaš negde indeks svih reči sa brojem pojavljivanja u svim tekstovima. Što je taj broj veći, reč je manje relevantna za uparivanje pri određivanju sličnosti.
Kad imaš takav indeks, određivanje "razdaljine" dva teksta svodi se na sabiranje i množenje.
E sad, da li sam ti pomogao ili ne, ne znam...
//edit: vidim da me Ivanhoe pretekao sa sličnim predlogom