ja bih napravio tabelu reci (keyworda) za svaki text, i onda matchovao preko toga, 2 texta sa puno slicnih reci su verovatno i slicne tematike.
Naravno da bi ovo imalo smisla treba eliminisati reci koje se pojavljuju samo jednom (nisu bitne) ili opet suvise cesto u textu, zatim one koje se pojavljuju u vise od npr. 50% textova (tako to radi i fulltext search u mysql-u), kao i napraviti neku listu reci koje se zanemaruju i onih kojima se daje veca vaznost (npr. ajax je bitna kategorija za slicnost, a reci kao interface ili button nisu toliko).
U svakom slucaju nije bas lak posao...
__________________
Leadership is the art of getting people to want to do what you know must be done.
|