Osnovno pitanje je sta ti je izvor tih podataka koje poredis po slicnosti. Ukoliko je nesto sto ti mozes da kontrolises, onda radis ovako kako je ivanhoe rekao ili rucno tagujes.
No, ako nemas pojma sta ce da bude u tom tekstu, kao sto je slucaj sa tim RSS-ovima, onda bolje da koristis MySQL full text search, i da ga fino podesis, posebno se igrajuci sa "score" parametrom koji on vrati kao rezultat. U vecini slucajeva ovo daje dobar rezultat, ali naravno, to nije vjestacka inteligencija i imaces false positives. Ali vecinom, to radi kako treba, pogotovo ako su ti tekstovi duzi. I da, ovo radi samo na MyISAM tabelama.
http://dev.mysql.com/doc/refman/5.0/...xt-search.html
(Tip: pogledaj i Fine Tuning i Stopwords)