DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web dizajn i usability > Planiranje i usability
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Planiranje i usability Planiranje, legalnost, privatnost, arhitektura, principi

Odgovori
 
Alati teme Način prikaza
Staro 02. 08. 2006.   #1
zextra
Boris
Grand Master
 
Avatar zextra
 
Datum učlanjenja: 01.12.2005
Lokacija: Novi Sad
Poruke: 775
Hvala: 5
156 "Hvala" u 2 poruka
zextra is on a distinguished roadzextra is on a distinguished road
Default Zastita od spidera

Generalno me interesuje sta covek moze da uradi da spreci custom made spidere da mu pokupe podatke sa sajta, a sa druge strane da omoguci obicnim korisnicima i botovima regularno kupljenje sadrzaja?

Eliminacija po user agentu je nekad imala smisla, ali sada je manje-vise bezvredna (eventualno se moze koristiti za prepoznavanje ko bi mogao biti obican posetilac - tesko da ce neko iz dosade menjati user agent firefoxu ili tome slicno) - spider se bez problema predstavlja i kao bot i kao browser, po potrebi.

Eliminacija po IP adresi bi mozda imala najvise smisla - kada bih mogao sa sigurnoscu da znam kada je doticni korisnik napravio prethodni request, pa ako je poslednjih nekoliko zahteva napravljeno u x sekundi, uraditi nesto...

Eliminacija kroz robots.txt takodje otpada jer se oslanja na user-agent.

Mozda neki metod koji modifikuje sam sadrzaj na takav nacin da je tesko napisati spider koji moze da pohvata korektne podatke svaki put? Palo mi je na pamet da bi moglo da se uradi nesto sa javascriptom, ali bi to znacilo da ce pretrazivaci imati problema sa kupljenjem korisnog sadrzaja...

Predlozi?
__________________
"It’s important to have goals when you pet. Otherwise you’re just rubbing another mammal for no reason." - Scott Adams
zextra je offline   Odgovorite uz citat
Staro 03. 08. 2006.   #2
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

sve zavisi od kog spajdera se branis... univerzalni spajderi su glupi i njih je lako zeznuti, samo izbegavaj uobicajene patterne (email harvesteri su primer tipskog spajdera, i kao sto znas lako ih je zeznuti)...

ali custom spajderi su druga prica, a posto sam ih napravio jako puno, mogu da ti odmah kazem da ako se neko namerio da ti pokupi sajt vrlo male su sanse da se odbranis... mi smo skidali razne sajtove i sa gotcha slikama (napravi se OCR) i sa javascriptom (sednes pa provalis sta se desaca u kodu i onda umesto htmla parsiras js) i sve zivo...sa logovanjem ili bez, sa pamcenjem IP-ja, ma sve moze da se provali...

Mozes da se branis sa nekoliko stvari...prvo da zabranis pristup sa free proxija i da pratis IP-jeve, dalje mozes da probas da pratis vreme izmedju zahteva i prosecan broj zahteva, posto roboti surfuju mnogo brze od ljudi. Najbolje sto mozes da uradis je da vrsis male suptilne randomizacije elemenata na strani, jer roboti uglavnom koriste regexpe da bi pokupili bitne podatke. Ti regexpi se oslanjaju na uocljive elemente strane, tipa ako skidam tabelu sa podacima, razlikovacu je od ostaih tabela na strani sto je to npr. drugi <table tag iza nekog naslova... Ako mi ubacis random table s vremena na vreme zeznuo si me, i dobijam pogresne podatke. Ili nesto skroz jednostavno da ponekad pises id="pera", a ponekad id='pera', ili zamenis redosled kolona u tabeli i sl. Glavna fora je da je autoru spajdera jako tesko da takav bug provali, jer su razlike male i tsko primetne i izgubice puno vremena oko toga...a naravno tvoj ideja je upravo da ga smoris toliko da odustane...
__________________
Leadership is the art of getting people to want to do what you know must be done.

Poslednja izmena od ivanhoe : 03. 08. 2006. u 13:42.
ivanhoe je offline   Odgovorite uz citat
Staro 03. 08. 2006.   #3
zextra
Boris
Grand Master
 
Avatar zextra
 
Datum učlanjenja: 01.12.2005
Lokacija: Novi Sad
Poruke: 775
Hvala: 5
156 "Hvala" u 2 poruka
zextra is on a distinguished roadzextra is on a distinguished road
Default

Pa, zapravo sam mislio da implementiram nesto tog tipa, da pratim broj zahteva i ako skontam da bi mogao biti u pitanju spider, da pocnem da modifikujem podatke na slican nacin, tako da vecina regexpa pada u vodu, ili ako ne pada, da kupi pogresne podatke.
__________________
"It’s important to have goals when you pet. Otherwise you’re just rubbing another mammal for no reason." - Scott Adams
zextra je offline   Odgovorite uz citat
Staro 03. 08. 2006.   #4
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

evo jos par ideja kojih sam se setio da su namucile:

- kontrolisi sessione i referere i menjaj session ID kod svakog slanja stranice (ovo nije neka odbrana, samo "gnjavaza" za autora spajdera, da ga smoris, usporis spajderovanje, i nateras ga da pokrene puno procesa na serveru)

- Rezultate listaj preko search-a, nemoj da dozvoljavas da se browsuje ceo sadrzaj. Naravno onda mozes da randomizujes blago formu izmedju upita, da bi provalio automatske upite.

- Ukoliko search vrati puno rezultata, ti vrati npr. samo prvih 100, ili samo prvih 5 strana (opet nacin da drasticno usporis spajdering)
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Odgovori



Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum

Slične teme
Tema Početna poruka teme Forum Odgovori Poslednja poruka
Zastita intelektualne svojine Milos Jankovic e-Business 7 29. 05. 2009. 15:38
Zastita mySQL baze SadClown SQL baze podataka - Sponzor: Baze-Podataka.net 5 21. 10. 2007. 22:38
Potrebna Pomoc oko Zastita CD-a (ocx,dll...) Dzigilibonglica Programiranje 42 24. 05. 2007. 17:27
Zastita programa od kopiranja colke Programiranje 11 23. 11. 2006. 18:29
zastita komercijalnih php skripti ? ivanhoe PHP 5 05. 06. 2006. 19:17


Vreme je GMT +2. Trenutno vreme je 02:09.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.