DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Web aplikacije, web servisi i software
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Web aplikacije, web servisi i software Frameworks, web servisi, programi, plugin-ovi, ekstenzije korisni za razvoj web sajtova. Sponzor: vivvo

Odgovori
 
Alati teme Način prikaza
Staro 13. 06. 2012.   #1
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default Agregatori / search engines

Jel imate neku preporuku za literaturu / blogove na ovu temu?

Necu naravno da pravim novi google, zanima me relativno small-scale operacija sa max. par hiljada sajtova, ali bih ipak voleo da naucim malo vise o tome kako drugi, pametniji od mene, to rade...

Koje tehnologije se sad koriste, gotove skripte, HW setup i slicno..
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 13. 06. 2012.   #2
nn.nn
nobody
Expert
 
Avatar nn.nn
 
Datum učlanjenja: 19.04.2007
Poruke: 537
Hvala: 14
705 "Hvala" u 106 poruka
nn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoronn.nn će postati "faca" uskoro
Default

Intro to Computer Science (cs101)
Building a Search Engine


Verovatno nije baš ono što tebi treba, ali nisam mogao da odolim.
nn.nn je offline   Odgovorite uz citat
Staro 13. 06. 2012.   #3
svlada
član
Certified
 
Datum učlanjenja: 02.03.2007
Lokacija: Novi Beograd
Poruke: 53
Hvala: 8
10 "Hvala" u 4 poruka
svlada is on a distinguished road
Pošaljite poruku preko MSN za svlada Pošaljite poruku preko Skype™ za svlada
Default

Evo jedno malo iskustvo. Više od pola godine freelance sam radio na crawlerima(focused crawlers) za jednu firmu iz USA.

Ono što mi je bilo neobično je izbor tehnologija. Koriste script jezik Vortex i Texis za bazu.

Vortex ima drugačiju implementaciju regularnih izraza koji suludo brzo rade. Nema podršku za lookahead, lookbehind operatore ...

Nisam ulazio u detalje ali to je sada ona razlika NFA, DFA, Tompsonov lanac itd...

Što se tiče hardvera ne znam tačno... ali kroz priču sam došao do zaključka da imaju neki omanji cluster servera.
Ono što pouzdano znam je da crawluju više desetina milona stranica dnevno.

Mislim da za data mining i neku inteligentniju obradu koriste proizvode ove kompanije (mislim da su se i spojili sa njima).
http://www.ixreveal.com/solutions/SolutionsOverview.htm

Texis:
http://www.thunderstone.com/texis/site/pages/

Vortex:
http://www.thunderstone.com/site/vortexman/

Potražiću po bookmarksima da li mi je ostalo nešto od zanimljivih stvari vezanih za celu tu priču.

E sad deo koji je svima manje više poznat.

Planiraš da praviš neki generalni inteligentniji crawler ili 1000 fokusiranih? Mislim da od tog izbora zavisi i arhitektura sistema i tu postoji bezbroj varijanti.
Verovatno imaš i neku ideju šta ćeš sa tim podacima posle?

Za ove forume je baš bilo potrebno da se precizno izvlači autor, tekst, slika, potpis itd...

Primetio sam da Java ekipa uglavnom koristi Apache Nutch i Solr ...
Kod ove kombinacije nema neke velike dileme ... Na zvaničnom wikiju postoji pregršt informacija što se arhitekture tiče, a što se Solra tiče Packt Publishing je izdao dve fine knjige.

Kada bih koristio Python odlučio bih se za Scrappy framework http://scrapy.org/
svlada je offline   Odgovorite uz citat
7 članova zahvaljuje svlada za poruku:
Staro 13. 06. 2012.   #4
Peca
Super Moderator
Knowledge base
 
Datum učlanjenja: 02.10.2006
Lokacija: Niš
Poruke: 1.618
Hvala: 263
275 "Hvala" u 104 poruka
Peca će postati "faca" uskoroPeca će postati "faca" uskoroPeca će postati "faca" uskoro
Default

za search bazu podataka ti treba sto veci RAM, da bi indexi stali u njega.
memcached pozeljan [za serviranje samih clanaka [odnosno delova clanaka, kao sto google radi u pretragama]].
__________________
Vesti | MyCity | Igrice | Zaštita od virusa
Peca je offline   Odgovorite uz citat
Staro 13. 06. 2012.   #5
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 14. 06. 2012.   #6
svlada
član
Certified
 
Datum učlanjenja: 02.03.2007
Lokacija: Novi Beograd
Poruke: 53
Hvala: 8
10 "Hvala" u 4 poruka
svlada is on a distinguished road
Pošaljite poruku preko MSN za svlada Pošaljite poruku preko Skype™ za svlada
Default

Citat:
Originalno napisao ivanhoe Pogledajte poruku
@svlada: Imam dosta iskustva sa spajderima/scrapperima custom pisanim za sajt ili grupu sajtova, ali ovde ce biti previse sajtova za taj pristup, pa bih morao da pisem neki kompleksniji, koji ume da se snadje sa vecinom sadrzaja koji mu bacimo, da sam zakljuci sta je od podataka ono sto meni treba, koje linkove da prati i sl. To je materija o kojoj manje znam, uzeo sam sad da citam nesto o natural language processingu, ali je to prilicno obimna oblast...
Uf ... To je vec daleko kompleksnije. Izvestavaj nas kako napredujes. Zanimljiva je tema.
svlada je offline   Odgovorite uz citat
Staro 13. 06. 2012.   #7
hex
[ES]Boki
Na probnom radu
 
Avatar hex
 
Datum učlanjenja: 26.10.2007
Lokacija: BG
Poruke: 24
Hvala: 0
0 "Hvala" u 0 poruka
hex is on a distinguished road
Default

Sve su obimne oblasti xD

Ako znas tacno sta izvlacis onda je relativno lagano. Ako ne znas onda je nauka.

Takodje moras da vidis da li ti je ok da svlacis html kao text i izvlacis content nekim regex-ima ili koristis neki framework/browser koji ce da parsira taj html, kreira DOM, izvrsi JS itd.
hex je offline   Odgovorite uz citat
Staro 13. 06. 2012.   #8
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

parsiram regexpom keyworde, snimim u bazu, pa onda posle mine-ujem sadrzaj preko DOM-a.. ali je to sve malkice jos bagovito i previse jednostavno da bi bilo zaista korisno (veliki je shum)...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 13. 06. 2012.   #9
dedamraz
Banned
 
Datum učlanjenja: 11.06.2012
Poruke: 2
Hvala: 2
0 "Hvala" u 0 poruka
dedamraz is on a distinguished road
Default

Mozda da najpre koristis xpath a zatim i mongo bazu za podatke jer omogucava horizontalnu skalabilnost i bazu na vise servera, a takodje jako je brza. Mana: jos uvek se razvija pa su bagovi neizbezni!

Postavicu jedan post u temi gde je scarping sajtova pa pogledaj.
dedamraz je offline   Odgovorite uz citat
Staro 14. 06. 2012.   #10
hex
[ES]Boki
Na probnom radu
 
Avatar hex
 
Datum učlanjenja: 26.10.2007
Lokacija: BG
Poruke: 24
Hvala: 0
0 "Hvala" u 0 poruka
hex is on a distinguished road
Default

Sta koristis za pravljenje DOM-a ?
hex je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum


Vreme je GMT +2. Trenutno vreme je 15:32.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.