DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Programiranje
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor: VIP izazov 3

Odgovori
 
Alati teme Način prikaza
Staro 15. 05. 2007.   #11
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Evo jedan laički algoritam:

Znači zadatak je da za svaki tekst izvučeš desetak tagova čijim upoređivanjem kasnije možeš da nađeš srodne tekstove.

Izvučeš tabelu svih reči. Iz nje izbaciš reči koje se pojavljuju često na celom uzorku tekstova (tu su veznici, brojevi, prilozi, većina glagola itd), to jest "procediš". Onda za svaku preostalu reč uradiš jedan fulltext search i zapamtiš ID-jeve tekstova u kojima se pojavljuju i odgovarajući rank. Kad odradiš sve to za sve reči, za svaki tekst uzmeš deset reči sa najvišim rankom i to su tagovi.

Isto možeš posle da ponoviš i za fraze od dve, tri itd. reči, s tim što računaš samo fraze čije se sve reči pojavljuju u "proceđenoj" tabeli.

Tako bih ja radio i prilično sam ubeđen da bi šljakalo.
jablan je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #12
MorenoArdohain
Knowledge base
Wrote a book
 
Avatar MorenoArdohain
 
Datum učlanjenja: 16.06.2005
Lokacija: Novi Sad
Poruke: 1.437
Hvala: 37
131 "Hvala" u 82 poruka
MorenoArdohain će postati "faca" uskoroMorenoArdohain će postati "faca" uskoro
Default

A kako spojiti 'Posh' sa 'Victoria', 'Spice Girls' itd?
__________________
Năo quero mais seguir um só caminho
MorenoArdohain je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #13
McKracken
Siva eminencija
Grand Master
 
Avatar McKracken
 
Datum učlanjenja: 24.06.2005
Lokacija: Belgrade
Poruke: 930
Hvala: 192
259 "Hvala" u 129 poruka
McKracken ima spektakularnu auruMcKracken ima spektakularnu auruMcKracken ima spektakularnu auru
Pošaljite poruku preko Skype™ za McKracken
Default

Citat:
Originalno napisao MorenoArdohain Pogledajte poruku
A kako spojiti 'Posh' sa 'Victoria', 'Spice Girls' itd?
Ili koristis neku ontologiju koja to vec ima ili kupiti mali google (sto je i najbolje resenje)
McKracken je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #14
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Citat:
Originalno napisao MorenoArdohain Pogledajte poruku
A kako spojiti 'Posh' sa 'Victoria', 'Spice Girls' itd?
Na taj način što će verovatno barem dve od te tri fraze naći u istom tekstu (kao i "Dejvid Bekam", što je još jedna od fraza za povezivanje sa srodnim vestima).

Random primer (izvinjavam se čitaocima sa slabijim stomakom ):

http://www.kurir-info.co.yu/Arhiva/2...16122005.shtml

Poslednja izmena od jablan : 15. 05. 2007. u 01:19.
jablan je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #15
MorenoArdohain
Knowledge base
Wrote a book
 
Avatar MorenoArdohain
 
Datum učlanjenja: 16.06.2005
Lokacija: Novi Sad
Poruke: 1.437
Hvala: 37
131 "Hvala" u 82 poruka
MorenoArdohain će postati "faca" uskoroMorenoArdohain će postati "faca" uskoro
Default

Posh i Spajs se pominju samo jednom u tekstu, postoji velika verovatnoca da ne bi imali odgovarajucu tezinu za povezivanje sa Viktorijom Bekam, odnosno srodnim clancima.
__________________
Năo quero mais seguir um só caminho
MorenoArdohain je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #16
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Pa cenim da bi Poš i Spajs upali u prvih 10-20 tagova za ovaj tekst, pogotovu ako se poveća težina reči sa velikim slovom (što je logično za tagove ovakvog tipa). Na kraju krajeva, dovoljno je da imaš ključne reči "Viktorija" i "Bekam" da bi je povezao sa srodnim člancima. Ja bih svakako probao ovaj algoritam pre nego ga otpišem.
jablan je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #17
MorenoArdohain
Knowledge base
Wrote a book
 
Avatar MorenoArdohain
 
Datum učlanjenja: 16.06.2005
Lokacija: Novi Sad
Poruke: 1.437
Hvala: 37
131 "Hvala" u 82 poruka
MorenoArdohain će postati "faca" uskoroMorenoArdohain će postati "faca" uskoro
Default

Mislim da jedino bluesman moze da nam odgovori valja li algoritam
__________________
Năo quero mais seguir um só caminho
MorenoArdohain je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #18
zira
Vladan Zirojević
Grand Master
 
Datum učlanjenja: 09.06.2006
Lokacija: Beograd/Trebinje
Poruke: 903
Hvala: 106
183 "Hvala" u 82 poruka
zira ima spektakularnu auruzira ima spektakularnu auruzira ima spektakularnu auru
Pošaljite ICQ poruku za zira Pošaljite poruku preko Skype™ za zira
Default

Jablene, u opstem slucaju hoce, ali u nekom procentu nece, pa to "verovatno" ce mu opet praviti false-positives kao i da radi obicni fulltext search, samo treba vidjeti sa kojim procentom greske.

Ne znam koliko je ta funkcionalnost vazna za Bluzmenov projekat, ako nije pretjerano, neki od ovdje navedenih algoritama ce ti zavristi posao. Ako jeste vazna/osnovna funkcionalnost, onda tu ima dosta posla...

Jer nije samo pitanje da se izbace vijesti koje nisu dovoljno slicne, vec (ako je to bitna funkcionalnost) i ne preskoce vijesti koje su bitne i vrlo povezane, ali zbog upotrebe sinonima ili slicno nisu pogodjene obicnim poredjenjem sadrzaja teksta, koji je u ovome slucaju prilicno kratak (100 znakova).

Mungos je upravo na ovome problemu zaustavio rad na Momentu, zato sto nije dobijao dovoljno kvalitetne srodne vijesti.
__________________
Donesi.com SrediMe
zira je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #19
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Da, prevideo sam možda, 100 karaktera je stvarno malo. Kakve su to vesti uopšte?
jablan je offline   Odgovorite uz citat
Staro 15. 05. 2007.   #20
MorenoArdohain
Knowledge base
Wrote a book
 
Avatar MorenoArdohain
 
Datum učlanjenja: 16.06.2005
Lokacija: Novi Sad
Poruke: 1.437
Hvala: 37
131 "Hvala" u 82 poruka
MorenoArdohain će postati "faca" uskoroMorenoArdohain će postati "faca" uskoro
Default

Procenat greske se moze smanjiti ako se analiziraju i clanci sa proverenih izvora (primer: http://www.articlesbase.com, ima vise od 134 hiljade clanaka), pa se kreira neki sistem vezanih keyworda, a baza sinonima bi olaksala posao.

Svejedno, ima tu dosta posla, ako je kvalitet jako bitan, onda jedino rucno dodeljivanje tagova dolazi u obzir. Evo znam neke Indijce koji bi to radili za saku dolara
__________________
Năo quero mais seguir um só caminho
MorenoArdohain je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum

Slične teme
Tema Početna poruka teme Forum Odgovori Poslednja poruka
Budućnost Interneta vidak e-Business 15 15. 03. 2011. 22:08
Etičnost u marketingu, again mileusna Marketing i SEO 9 23. 02. 2008. 00:48


Vreme je GMT +2. Trenutno vreme je 12:02.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.