@jablan: i onda ti dodje srpska agencija i da oglas za prodaju stana i za cenu napise 10e da bi se pojavili prvi u listingu na vecini sajtova
Glavni problem kod svih spajderovanja i machine-learning sistema je sto skup pravila, tj. logika mora da bude otporna na izuzetke, kojih uvek ima.. pogresno spelovana rec, namerno ili slucajno upisana pogresna cena, itd., masinska obrada texta sa neta je ****in nocna mora.. deo toga moze da se zanemari, ali nekad (cesto) tih izuzetaka ima toliko da na kraju rezultat ni na sta ne lici...
Najbolje resenje po meni je da se pravi hibridni sistem, koji ce da delimicno sortira rezultate, a onda posao preuzmu ljudi. Napravi im se dodatni alat koji ce sluziti da brzo prekontrolisu polu-sredjene rezultate, uz eventualno neku logiku za flag-ovanje cudnih situacija (tipa mala cena stana, kao za izdavanje, a u oglasu pise da je stan uknjizen, kao da je prodaja, i tako neke fore).. mnogo je to lakse nego praviti super pametni sistem koji ce da pokrije jos tih dodatnih 10% "cudnih" slucajeva...