Pogledajte određenu poruku
Staro 13. 06. 2012.   #3
svlada
član
Certified
 
Datum učlanjenja: 02.03.2007
Lokacija: Novi Beograd
Poruke: 53
Hvala: 8
10 "Hvala" u 4 poruka
svlada is on a distinguished road
Pošaljite poruku preko MSN za svlada Pošaljite poruku preko Skype™ za svlada
Default

Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA.

Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu.

Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ...

Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd...

Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera.
Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno.

Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima).
http://www.ixreveal.com/solutions/SolutionsOverview.htm

Texis:
http://www.thunderstone.com/texis/site/pages/

Vortex:
http://www.thunderstone.com/site/vortexman/

Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču.

E sad deo koji je svima manje više poznat.

Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih? Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti.
Verovatno imaš i neku ideju šta ćeš sa tim podacima posle?

Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd...

Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ...
Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige.

Kada bih koristio Python odlučio bih se za Scrappy framework http://scrapy.org/
svlada je offline   Odgovorite uz citat
7 članova zahvaljuje svlada za poruku: