Pre obradjivanja recenica dobro je recenicu (ako je na engleskom) provuci kroz
Porter Stemming algoritam, koji reci 'oslobadja' nastavaka i mnozine.
Odredjivanje semantike reci koje se koriste je vrlo tezak problem, nesto se moze postici koristeci WordNet, ali pitanje koliko.
Mislim da je najpametnije da pustite da 'raja' radi za vas, tagovanje je popularno, iz nekog razloga svi vole da taguju.