Web aplikacije, web servisi i software Frameworks, web servisi, programi, plugin-ovi, ekstenzije korisni za razvoj web sajtova. Sponzor: |
|
Alati teme | Način prikaza |
13. 06. 2012. | #1 |
Ivan Dilber
Sir Write-a-Lot
|
Agregatori / search engines
Jel imate neku preporuku za literaturu / blogove na ovu temu?
Necu naravno da pravim novi google, zanima me relativno small-scale operacija sa max. par hiljada sajtova, ali bih ipak voleo da naucim malo vise o tome kako drugi, pametniji od mene, to rade... Koje tehnologije se sad koriste, gotove skripte, HW setup i slicno..
__________________
Leadership is the art of getting people to want to do what you know must be done. |
13. 06. 2012. | #2 |
nobody
Expert
Datum učlanjenja: 19.04.2007
Poruke: 537
Hvala: 14
705 "Hvala" u 106 poruka
|
Intro to Computer Science (cs101)
Building a Search Engine Verovatno nije baš ono što tebi treba, ali nisam mogao da odolim. |
13. 06. 2012. | #3 |
član
Certified
|
Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA.
Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu. Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ... Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd... Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera. Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno. Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima). http://www.ixreveal.com/solutions/SolutionsOverview.htm Texis: http://www.thunderstone.com/texis/site/pages/ Vortex: http://www.thunderstone.com/site/vortexman/ Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču. E sad deo koji je svima manje više poznat. Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih? Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti. Verovatno imaš i neku ideju šta ćeš sa tim podacima posle? Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd... Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ... Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige. Kada bih koristio Python odlučio bih se za Scrappy framework http://scrapy.org/ |
7 članova zahvaljuje svlada za poruku: |
13. 06. 2012. | #4 |
Super Moderator
Knowledge base
Datum učlanjenja: 02.10.2006
Lokacija: Niš
Poruke: 1.618
Hvala: 263
275 "Hvala" u 104 poruka
|
za search bazu podataka ti treba sto veci RAM, da bi indexi stali u njega.
memcached pozeljan [za serviranje samih clanaka [odnosno delova clanaka, kao sto google radi u pretragama]]. |
13. 06. 2012. | #5 |
Ivan Dilber
Sir Write-a-Lot
|
@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
13. 06. 2012. | #6 |
[ES]Boki
Na probnom radu
Datum učlanjenja: 26.10.2007
Lokacija: BG
Poruke: 24
Hvala: 0
0 "Hvala" u 0 poruka
|
Sve su obimne oblasti xD
Ako znas tacno sta izvlacis onda je relativno lagano. Ako ne znas onda je nauka. Takodje moras da vidis da li ti je ok da svlacis html kao text i izvlacis content nekim regex-ima ili koristis neki framework/browser koji ce da parsira taj html, kreira DOM, izvrsi JS itd. |
13. 06. 2012. | #7 |
Ivan Dilber
Sir Write-a-Lot
|
parsiram regexpom keyworde, snimim u bazu, pa onda posle mine-ujem sadrzaj preko DOM-a.. ali je to sve malkice jos bagovito i previse jednostavno da bi bilo zaista korisno (veliki je shum)...
__________________
Leadership is the art of getting people to want to do what you know must be done. |
13. 06. 2012. | #8 |
Banned
Datum učlanjenja: 11.06.2012
Poruke: 2
Hvala: 2
0 "Hvala" u 0 poruka
|
Mozda da najpre koristis xpath a zatim i mongo bazu za podatke jer omogucava horizontalnu skalabilnost i bazu na vise servera, a takodje jako je brza. Mana: jos uvek se razvija pa su bagovi neizbezni!
Postavicu jedan post u temi gde je scarping sajtova pa pogledaj. |
13. 06. 2012. | #9 | |
član
Certified
|
Citat:
|
|
13. 06. 2012. | #10 |
[ES]Boki
Na probnom radu
Datum učlanjenja: 26.10.2007
Lokacija: BG
Poruke: 24
Hvala: 0
0 "Hvala" u 0 poruka
|
Sta koristis za pravljenje DOM-a ?
|
|
|