14. 05. 2007. | #9 |
VD IT Direktora
Invented the damn thing
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
|
Evo jedan laički algoritam:
Znači zadatak je da za svaki tekst izvučeš desetak tagova čijim upoređivanjem kasnije možeš da nađeš srodne tekstove. Izvučeš tabelu svih reči. Iz nje izbaciš reči koje se pojavljuju često na celom uzorku tekstova (tu su veznici, brojevi, prilozi, većina glagola itd), to jest "procediš". Onda za svaku preostalu reč uradiš jedan fulltext search i zapamtiš ID-jeve tekstova u kojima se pojavljuju i odgovarajući rank. Kad odradiš sve to za sve reči, za svaki tekst uzmeš deset reči sa najvišim rankom i to su tagovi. Isto možeš posle da ponoviš i za fraze od dve, tri itd. reči, s tim što računaš samo fraze čije se sve reči pojavljuju u "proceđenoj" tabeli. Tako bih ja radio i prilično sam ubeđen da bi šljakalo. |
|
|
Slične teme | ||||
Tema | Početna poruka teme | Forum | Odgovori | Poslednja poruka |
Budućnost Interneta | vidak | e-Business | 15 | 15. 03. 2011. 21:08 |
Etičnost u marketingu, again | mileusna | Marketing i SEO | 9 | 22. 02. 2008. 23:48 |