DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   Web aplikacije, web servisi i software (http://www.devprotalk.com/forumdisplay.php?f=30)
-   -   Agregatori / search engines (http://www.devprotalk.com/showthread.php?t=11059)

ivanhoe 13. 06. 2012. 01:44

Agregatori / search engines
 
Jel imate neku preporuku za literaturu / blogove na ovu temu?

Necu naravno da pravim novi google, zanima me relativno small-scale operacija sa max. par hiljada sajtova, ali bih ipak voleo da naucim malo vise o tome kako drugi, pametniji od mene, to rade...

Koje tehnologije se sad koriste, gotove skripte, HW setup i slicno..

nn.nn 13. 06. 2012. 07:54

Intro to Computer Science (cs101)
Building a Search Engine


Verovatno nije baš ono što tebi treba, ali nisam mogao da odolim. :)

svlada 13. 06. 2012. 10:20

Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA.

Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu.

Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ...

Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd...

Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera.
Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno.

Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima).
http://www.ixreveal.com/solutions/SolutionsOverview.htm

Texis:
http://www.thunderstone.com/texis/site/pages/

Vortex:
http://www.thunderstone.com/site/vortexman/

Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču.

E sad deo koji je svima manje više poznat.

Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih? :D Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti.
Verovatno imaš i neku ideju šta ćeš sa tim podacima posle?

Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd...

Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ...
Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige.

Kada bih koristio Python odlučio bih se za Scrappy framework http://scrapy.org/

Peca 13. 06. 2012. 12:10

za search bazu podataka ti treba sto veci RAM, da bi indexi stali u njega.
memcached pozeljan [za serviranje samih clanaka [odnosno delova clanaka, kao sto google radi u pretragama]].

ivanhoe 13. 06. 2012. 12:59

@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...

hex 13. 06. 2012. 18:28

Sve su obimne oblasti xD

Ako znas tacno sta izvlacis onda je relativno lagano. Ako ne znas onda je nauka.

Takodje moras da vidis da li ti je ok da svlacis html kao text i izvlacis content nekim regex-ima ili koristis neki framework/browser koji ce da parsira taj html, kreira DOM, izvrsi JS itd.

ivanhoe 13. 06. 2012. 22:34

parsiram regexpom keyworde, snimim u bazu, pa onda posle mine-ujem sadrzaj preko DOM-a.. ali je to sve malkice jos bagovito i previse jednostavno da bi bilo zaista korisno (veliki je shum)...

dedamraz 13. 06. 2012. 23:22

Mozda da najpre koristis xpath a zatim i mongo bazu za podatke jer omogucava horizontalnu skalabilnost i bazu na vise servera, a takodje jako je brza. Mana: jos uvek se razvija pa su bagovi neizbezni!

Postavicu jedan post u temi gde je scarping sajtova pa pogledaj.

svlada 14. 06. 2012. 00:39

Citat:

Originalno napisao ivanhoe (Napišite 107459)
@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...

:) Uf ... To je vec daleko kompleksnije. Izvestavaj nas kako napredujes. Zanimljiva je tema.

hex 14. 06. 2012. 00:46

Sta koristis za pravljenje DOM-a ?


Vreme je GMT +2. Trenutno vreme je 04:00.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.