DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > (X)HTML, JavaScript, DHTML, XML, CSS
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

(X)HTML, JavaScript, DHTML, XML, CSS Client scripting tehnologije, Dynamic HTML, Cascading Stylesheets, XML i standardi

Odgovori
 
Alati teme Način prikaza
Staro 29. 10. 2011.   #21
AdriaMart
expert
Expert
 
Avatar AdriaMart
 
Datum učlanjenja: 15.03.2011
Poruke: 518
Hvala: 16
20 "Hvala" u 17 poruka
AdriaMart is on a distinguished road
Default

Pronasao sam jedan nacin a Vi kazite da li moze da bude koristan za kategorisanje... Imam jeda nstring koji je ustvari opis proizvoda/usluge i druge stringove koji sadrze karakteristicne reci za tu kategoriju npr. String za restoran (restoran,hrana,pizza,desert,rostilj) e sad uporedjivanjem opisa sa svim stringovima dobijam procenat podudarnosti i naravno opis koji se najvise podudara je najverovatnije i kategorija... e sad neznam da li da koristim za uporedjivanje i dobijanje procenta funciju similar_text() ili mozda JaroWinkler , Levenshtein algoritam ?
__________________
I'm not sexy and I know IT!
AdriaMart je offline   Odgovorite uz citat
Staro 30. 10. 2011.   #22
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

@jablan: i onda ti dodje srpska agencija i da oglas za prodaju stana i za cenu napise 10e da bi se pojavili prvi u listingu na vecini sajtova

Glavni problem kod svih spajderovanja i machine-learning sistema je sto skup pravila, tj. logika mora da bude otporna na izuzetke, kojih uvek ima.. pogresno spelovana rec, namerno ili slucajno upisana pogresna cena, itd., masinska obrada texta sa neta je ****in nocna mora.. deo toga moze da se zanemari, ali nekad (cesto) tih izuzetaka ima toliko da na kraju rezultat ni na sta ne lici...

Najbolje resenje po meni je da se pravi hibridni sistem, koji ce da delimicno sortira rezultate, a onda posao preuzmu ljudi. Napravi im se dodatni alat koji ce sluziti da brzo prekontrolisu polu-sredjene rezultate, uz eventualno neku logiku za flag-ovanje cudnih situacija (tipa mala cena stana, kao za izdavanje, a u oglasu pise da je stan uknjizen, kao da je prodaja, i tako neke fore).. mnogo je to lakse nego praviti super pametni sistem koji ce da pokrije jos tih dodatnih 10% "cudnih" slucajeva...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 30. 10. 2011.   #23
BraMom
Branimir Momcilovic
Qualified
 
Datum učlanjenja: 15.02.2006
Lokacija: Beograd
Poruke: 167
Hvala: 47
25 "Hvala" u 8 poruka
BraMom is on a distinguished road
Default

@ivanhoe Do sličnog zaključka smo i došli u diskusiji, ako je verovatnoća koju da algoritam (naive bayes) iznad nekog praga onda automatika, ako ne onda na ručno moderiranje. Naravno algoritam može i "samo" da da predloge i da čeka da ti klikćeš "approve". Cenim da bi AdriaMart rado pristao na ručno isrpavljanje ukoliko agencije počnu da šteluju podatke po njegovom algoritmu

@AdriaMart Poenta je da na osnovu podataka koje imaš, znači već kategorisanih proizvoda, zaključiš da kolika je korelacija između (ne)pojavljivanja ključne reči i pripadnosti nekoj kategoriji. Npr. ako se u opisima 5 proizvoda pojavljuje fraza "teleća glava", od toga su 4 restorani, a jedno moj data mining algoritam. Možeš da zaključiš da pojavljivanje fraze "teleća glava" sa 80% određuje da je u pitanju "restoran". Prođeš isto za sve ključne reči/fraze i onda sračunaš bajesa i to je to... Kako ti baza raste ti radiš update svog modela, i tako povećavaš preciznost na osnovu već klasifikovanih "proizvoda".
Znači model, tj. verovatnoće korelacije pojavljivanja neke ključne reči i pripadnosti određenoj kategoriji ne određuješ "od oka", nego na osnovu postojećih klasifikovanih podataka.
__________________
Važnije je biti ljubazan, nego biti u pravu.
BraMom je offline   Odgovorite uz citat
Staro 30. 10. 2011.   #24
AdriaMart
expert
Expert
 
Avatar AdriaMart
 
Datum učlanjenja: 15.03.2011
Poruke: 518
Hvala: 16
20 "Hvala" u 17 poruka
AdriaMart is on a distinguished road
Default

Hvala svima... Mislim da cu nakraju jednostavno bodovati ako se koren kljucnih reci nalazi u recima teksta pa gde dobijem najvise bodova to je i verovatno kategorija...
__________________
I'm not sexy and I know IT!
AdriaMart je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum


Vreme je GMT +2. Trenutno vreme je 10:34.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.