Pogledajte određenu poruku
Staro 09. 08. 2005.   #2
marinowski
Igor Marinović
Expert
 
Avatar marinowski
 
Datum učlanjenja: 09.06.2005
Lokacija: Palić
Poruke: 549
Hvala: 31
39 "Hvala" u 17 poruka
marinowski is on a distinguished road
Pošaljite ICQ poruku za marinowski
Default

Slažem se da mora doći do klasterizacije, ili drugačijeg tretiranja tagova/ključnih reči kada njihov broj poraste na ... (upišite ovde vašu omiljenu brojku, veću od 100). Tagova jednostavno ima previše, i baratanje sa njima postaje rogobatno.

Projekat u koji sam uključen sadrži 430.000 različitih ključnih reči, sve ukupno vise od 18 miliona. Pretraga, obrađivanje ključnih reči u tom projektu postaje blago rečeno neudobno.

Dodatni problemi su višeznačnost reči, i neujednačeno dodeljivanje tagova, pa dosta toga zavisi od tražene reči. Npr. ako neko traži diamond, da li se mislilo na oblik romba, dijamant, karo znak u kartama ... Srećom, tu klasterizacija isto pomaže (did you mean ...)

Klasterizacija nije nimalo lagan posao. Treba na neki način dovesti u vezu tagove. Kod prve iteracije ovog obimnog posla može dosta pomoći WordNet, hijerarhijski leksički rečnik. Toplo ga preporučujem kod bilo kojeg posla sa mnoštvom reči.

Kako stoji situacija kod nas? Postoje pozitivni pomaci. Baš danas sam naleteo na srpski Aspell koji je baziran na korpusu srpskog jezika.

Prava stvar bi bio sprski WordNet, koji je, ako sam dobro razumeo, u izradi baš na PMF-u. Englesko-srpski rečnik bi dao dobru početnu iteraciju za WordNet, pretpostavljam da se od toga krenulo.
marinowski je offline   Odgovorite uz citat