Agregatori / search engines

ivanhoe · 13. 06. 2012.

Jel imate neku preporuku za literaturu / blogove na ovu temu?

Necu naravno da pravim novi google, zanima me relativno small-scale operacija sa max. par hiljada sajtova, ali bih ipak voleo da naucim malo vise o tome kako drugi, pametniji od mene, to rade...

Koje tehnologije se sad koriste, gotove skripte, HW setup i slicno..

nn.nn · 13. 06. 2012.

Intro to Computer Science (cs101)
Building a Search Engine

Verovatno nije baš ono što tebi treba, ali nisam mogao da odolim.

svlada · 13. 06. 2012.

Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA.

Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu.

Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ...

Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd...

Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera.
Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno.

Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima).
http://www.ixreveal.com/solutions/SolutionsOverview.htm

Texis:
http://www.thunderstone.com/texis/site/pages/

Vortex:
http://www.thunderstone.com/site/vortexman/

Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču.

E sad deo koji je svima manje više poznat.

Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih?

Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti.
Verovatno imaš i neku ideju šta ćeš sa tim podacima posle?

Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd...

Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ...
Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige.

Kada bih koristio Python odlučio bih se za Scrappy framework http://scrapy.org/

Peca · 13. 06. 2012.

za search bazu podataka ti treba sto veci RAM, da bi indexi stali u njega.
memcached pozeljan [za serviranje samih clanaka [odnosno delova clanaka, kao sto google radi u pretragama]].

ivanhoe · 13. 06. 2012.

@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...

hex · 13. 06. 2012.

Sve su obimne oblasti xD

Ako znas tacno sta izvlacis onda je relativno lagano. Ako ne znas onda je nauka.

Takodje moras da vidis da li ti je ok da svlacis html kao text i izvlacis content nekim regex-ima ili koristis neki framework/browser koji ce da parsira taj html, kreira DOM, izvrsi JS itd.

ivanhoe · 13. 06. 2012.

parsiram regexpom keyworde, snimim u bazu, pa onda posle mine-ujem sadrzaj preko DOM-a.. ali je to sve malkice jos bagovito i previse jednostavno da bi bilo zaista korisno (veliki je shum)...

dedamraz · 13. 06. 2012.

Mozda da najpre koristis xpath a zatim i mongo bazu za podatke jer omogucava horizontalnu skalabilnost i bazu na vise servera, a takodje jako je brza. Mana: jos uvek se razvija pa su bagovi neizbezni!

Postavicu jedan post u temi gde je scarping sajtova pa pogledaj.

svlada · 13. 06. 2012.

Citat:

Originalno napisao ivanhoe

@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...

Uf ... To je vec daleko kompleksnije. Izvestavaj nas kako napredujes. Zanimljiva je tema.

hex · 13. 06. 2012.

Sta koristis za pravljenje DOM-a ?

13. 06. 2012.	#1
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	Agregatori / search engines Jel imate neku preporuku za literaturu / blogove na ovu temu? Necu naravno da pravim novi google, zanima me relativno small-scale operacija sa max. par hiljada sajtova, ali bih ipak voleo da naucim malo vise o tome kako drugi, pametniji od mene, to rade... Koje tehnologije se sad koriste, gotove skripte, HW setup i slicno.. __________________ Leadership is the art of getting people to want to do what you know must be done.

13. 06. 2012.	#4
Peca Super Moderator Knowledge base Datum učlanjenja: 02.10.2006 Lokacija: Niš Poruke: 1.618 Hvala: 263 275 "Hvala" u 104 poruka	za search bazu podataka ti treba sto veci RAM, da bi indexi stali u njega. memcached pozeljan [za serviranje samih clanaka [odnosno delova clanaka, kao sto google radi u pretragama]]. __________________ Vesti \| MyCity \| Igrice \| Zaštita od virusa

13. 06. 2012.	#5
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast... __________________ Leadership is the art of getting people to want to do what you know must be done.

13. 06. 2012.	#6
hex [ES]Boki Na probnom radu Datum učlanjenja: 26.10.2007 Lokacija: BG Poruke: 24 Hvala: 0 0 "Hvala" u 0 poruka	Sve su obimne oblasti xD Ako znas tacno sta izvlacis onda je relativno lagano. Ako ne znas onda je nauka. Takodje moras da vidis da li ti je ok da svlacis html kao text i izvlacis content nekim regex-ima ili koristis neki framework/browser koji ce da parsira taj html, kreira DOM, izvrsi JS itd. __________________ Ceger.rs \| Goglasi.com \| PiratskaPartija.com \| Bitcoin.rs

13. 06. 2012.	#7
ivanhoe Ivan Dilber Sir Write-a-Lot Datum učlanjenja: 18.10.2005 Lokacija: Bgd Poruke: 5.320 Hvala: 104 2.344 "Hvala" u 583 poruka	parsiram regexpom keyworde, snimim u bazu, pa onda posle mine-ujem sadrzaj preko DOM-a.. ali je to sve malkice jos bagovito i previse jednostavno da bi bilo zaista korisno (veliki je shum)... __________________ Leadership is the art of getting people to want to do what you know must be done.

13. 06. 2012.	#2
nn.nn nobody Expert Datum učlanjenja: 19.04.2007 Poruke: 537 Hvala: 14 705 "Hvala" u 106 poruka	Intro to Computer Science (cs101) Building a Search Engine Verovatno nije baš ono što tebi treba, ali nisam mogao da odolim.

13. 06. 2012.	#3
svlada član Certified Datum učlanjenja: 02.03.2007 Lokacija: Novi Beograd Poruke: 53 Hvala: 8 10 "Hvala" u 4 poruka	Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA. Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu. Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ... Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd... Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera. Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno. Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima). http://www.ixreveal.com/solutions/SolutionsOverview.htm Texis: http://www.thunderstone.com/texis/site/pages/ Vortex: http://www.thunderstone.com/site/vortexman/ Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču. E sad deo koji je svima manje više poznat. Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih? Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti. Verovatno imaš i neku ideju šta ćeš sa tim podacima posle? Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd... Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ... Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige. Kada bih koristio Python odlučio bih se za Scrappy framework http://scrapy.org/

13. 06. 2012.	#8
dedamraz Banned Datum učlanjenja: 11.06.2012 Poruke: 2 Hvala: 2 0 "Hvala" u 0 poruka	Mozda da najpre koristis xpath a zatim i mongo bazu za podatke jer omogucava horizontalnu skalabilnost i bazu na vise servera, a takodje jako je brza. Mana: jos uvek se razvija pa su bagovi neizbezni! Postavicu jedan post u temi gde je scarping sajtova pa pogledaj.

13. 06. 2012.	#10
hex [ES]Boki Na probnom radu Datum učlanjenja: 26.10.2007 Lokacija: BG Poruke: 24 Hvala: 0 0 "Hvala" u 0 poruka	Sta koristis za pravljenje DOM-a ? __________________ Ceger.rs \| Goglasi.com \| PiratskaPartija.com \| Bitcoin.rs