Slažem se da mora doći do klasterizacije, ili drugačijeg tretiranja tagova/ključnih reči kada njihov broj poraste na ... (upišite ovde vašu omiljenu brojku, veću od 100). Tagova jednostavno ima previše, i baratanje sa njima postaje rogobatno.
Projekat u koji sam uključen sadrži 430.000 različitih ključnih reči, sve ukupno vise od 18 miliona. Pretraga, obrađivanje ključnih reči u tom projektu postaje blago rečeno neudobno.
Dodatni problemi su višeznačnost reči, i neujednačeno dodeljivanje tagova, pa dosta toga zavisi od tražene reči. Npr. ako neko traži
diamond, da li se mislilo na oblik romba, dijamant, karo znak u kartama ... Srećom, tu klasterizacija isto pomaže (
did you mean ...)
Klasterizacija nije nimalo lagan posao. Treba na neki način dovesti u vezu tagove. Kod prve iteracije ovog obimnog posla može dosta pomoći
WordNet, hijerarhijski leksički rečnik. Toplo ga preporučujem kod bilo kojeg posla sa mnoštvom reči.
Kako stoji situacija kod nas? Postoje pozitivni pomaci. Baš danas sam naleteo na
srpski Aspell koji je baziran na
korpusu srpskog jezika.
Prava stvar bi bio sprski WordNet, koji je, ako sam dobro razumeo, u izradi baš na PMF-u. Englesko-srpski rečnik bi dao dobru početnu iteraciju za WordNet, pretpostavljam da se od toga krenulo.