Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA.
Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu.
Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ...
Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd...
Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera.
Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno.
Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima).
http://www.ixreveal.com/solutions/SolutionsOverview.htm
Texis:
http://www.thunderstone.com/texis/site/pages/
Vortex:
http://www.thunderstone.com/site/vortexman/
Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču.
E sad deo koji je svima manje više poznat.
Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih?
Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti.
Verovatno imaš i neku ideju šta ćeš sa tim podacima posle?
Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd...
Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ...
Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige.
Kada bih koristio Python odlučio bih se za Scrappy framework
http://scrapy.org/