DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Programiranje
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Programiranje Java, Perl, VB, ASP, .NET, C, C++, Pascal, Delphi Sponzor: VIP izazov 3

Odgovori
 
Alati teme Način prikaza
Staro 03. 10. 2006.   #11
jablan
VD IT Direktora
Invented the damn thing
 
Avatar jablan
 
Datum učlanjenja: 08.06.2005
Lokacija: Beograd
Poruke: 2.118
Hvala: 503
1.307 "Hvala" u 282 poruka
jablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamenjablan je pravi dragi kamen
Default

Ja koliko kontam, nevezano za konkretne xxSQL funkcionalnosti, generalni princip je sledeći:
Dva teksta su slična ako imaju što više međusobno istih, a u isto vreme "retkih" reči, gde su retke reči one koje se pojavljuju u malom procentu svih tekstova.

Dakle, imaš negde indeks svih reči sa brojem pojavljivanja u svim tekstovima. Što je taj broj veći, reč je manje relevantna za uparivanje pri određivanju sličnosti.

Kad imaš takav indeks, određivanje "razdaljine" dva teksta svodi se na sabiranje i množenje.

E sad, da li sam ti pomogao ili ne, ne znam...

//edit: vidim da me Ivanhoe pretekao sa sličnim predlogom

Poslednja izmena od jablan : 03. 10. 2006. u 23:45.
jablan je offline   Odgovorite uz citat
Staro 03. 10. 2006.   #12
zira
Vladan Zirojević
Grand Master
 
Datum učlanjenja: 09.06.2006
Lokacija: Beograd/Trebinje
Poruke: 903
Hvala: 106
183 "Hvala" u 82 poruka
zira ima spektakularnu auruzira ima spektakularnu auruzira ima spektakularnu auru
Pošaljite ICQ poruku za zira Pošaljite poruku preko Skype™ za zira
Default

Osnovno pitanje je sta ti je izvor tih podataka koje poredis po slicnosti. Ukoliko je nesto sto ti mozes da kontrolises, onda radis ovako kako je ivanhoe rekao ili rucno tagujes.

No, ako nemas pojma sta ce da bude u tom tekstu, kao sto je slucaj sa tim RSS-ovima, onda bolje da koristis MySQL full text search, i da ga fino podesis, posebno se igrajuci sa "score" parametrom koji on vrati kao rezultat. U vecini slucajeva ovo daje dobar rezultat, ali naravno, to nije vjestacka inteligencija i imaces false positives. Ali vecinom, to radi kako treba, pogotovo ako su ti tekstovi duzi. I da, ovo radi samo na MyISAM tabelama.

http://dev.mysql.com/doc/refman/5.0/...xt-search.html

(Tip: pogledaj i Fine Tuning i Stopwords)
__________________
Donesi.com SrediMe
zira je offline   Odgovorite uz citat
Staro 04. 10. 2006.   #13
marinowski
Igor Marinović
Expert
 
Avatar marinowski
 
Datum učlanjenja: 09.06.2005
Lokacija: Palić
Poruke: 549
Hvala: 31
39 "Hvala" u 17 poruka
marinowski is on a distinguished road
Pošaljite ICQ poruku za marinowski
Default

Ovaj zadatak nije nimalo lagan. Ko pocne da se zabavlja sa ovom temom, nakon nekog vremena stigne do semantike i do Information Retrievala, kao sto rece Dragi Tata. A ove oblasti dosta zavise od toga koliko se stiglo u istrazivanju u pojedinom jeziku. Ako je predlozen problem za engleski jezik, sto pretpostavljam da jeste, onda OK, jer se u engleskom stiglo najdalje.

FullText search u MySQL-u izgleda interesantno. Da li ga je neko koristio u produkciji? Pitanje je sta da se postavi kao search string u ovom konkretnom slucaju? Samo naslov, ili citav tekst? Koliko search string moze biti dugacak, i koliko se gubi na performansama kada se stavi poduzi tekst, a tekstovi u RSS-u znaju da budu dugacki.

Ukoliko je nekome hendikep sto fulltext radi samo na MyISAM tabelama, moze da se napravi sledece: napravi se replikacija baze, iako je original tabela u InnoDB formatu, kopija moze biti u MyISAM i onda se fulltext search radi na replikaciji baze.
marinowski je offline   Odgovorite uz citat
Staro 04. 10. 2006.   #14
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

u sustini je "prepoznavanja slicnosti" neka vrsta implementacije neuralnih mreza, pa bi mozda vredelo malo procitati i o tome.
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 04. 10. 2006.   #15
Petar Marić
Python Ambassador
Master
 
Avatar Petar Marić
 
Datum učlanjenja: 06.06.2005
Lokacija: Novi Sad
Poruke: 602
Hvala: 28
27 "Hvala" u 17 poruka
Petar Marić će postati "faca" uskoro
Pošaljite ICQ poruku za Petar Marić
Default

Ako sam naučio jednu stvar o neuronskim mrežama to je da se ne oslanjaš puno samo na njih - jedan pogrešan podatak u skupu za učenje i ode aproksimacija dođavola.
__________________
Python Ambassador of Serbia
Petar Marić je offline   Odgovorite uz citat
Odgovori



Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum

Slične teme
Tema Početna poruka teme Forum Odgovori Poslednja poruka
[REŠENO] QA: Potrebni Web testeri [studenti, određeno na 2 meseca] DejanVesic Poslovne ponude i zapošljavanje 0 16. 10. 2010. 00:44
phpBB2 - određenog usera redirectati na neki URL blackshtef Web aplikacije, web servisi i software 0 04. 09. 2008. 20:12
Aktiviranje posebnog templejta za određene kategorije u WordPressu Deki80 Sva početnička pitanja 8 20. 02. 2008. 17:52
Da li je određeni path stvarna adresa fajla? Ilija Studen PHP 4 09. 06. 2006. 18:07


Vreme je GMT +2. Trenutno vreme je 19:59.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.