Pogčedajte punu verziju : Blokiranje crawlera
pcigre
29. 11. 2007., 21:18
Potrebno mi je da se otarasim svih nepotrebnih crawlera imaju'i u vidu spam crawlere ali i manje spam crawlere od kojih jednostavno nemam nikakve koristi (zna;i maltene sve osim google, yahoo i msn).
Moze mali hint gde bi mogao da nadjel liste i kako da to najefikasnije uradim?
Preko .httaccessa? Preko konfigurisanja Apachea? robots.txt? Mada sumnjam da ga zlonamerni nesto gledaju :)
ivanhoe
30. 11. 2007., 02:45
preko htaccessa mozes da ih blokiras samo preko user-agenta, ili IP-ja, a i jedno i druge ce vecina spajdera sa lakocom da lazira...
za crawlere ti je najbolja odbrana neki od apache modula koji limitira protok i/ili brzinu kojom se generisu zahtevi, jer je osnovna osobina svih spajdera da su mnogo brzi i generisu vise protoka od zivih usera... cak ni tu nemas neku odbranu jer pametan programer moze lako da zezne te module (znam pouzdano posto se bavim spajderisanjem vec godinama i jos nikad nisam dobio sajt koji nisam uspeo da ispajderisem, znaci svaka zastita moze da se zaobidje), ali ces ipak zaustaviti vecinu genericki pisanih crawlera..
sto se spambotova tice tu ti je taktika klasicna, captcha i javascript za forme...
spam referer botove ubijas uz pomoc mod_rewrite tako sto napravis listu (u htaccessu, ili jos bolje direktno u httpd.conf jer ce velika lista da uspori apache ako je u htaccessu) zabranjenih referera... zabranis sve sto ima porn, viagra i sl, klasicna poison words lista, kao za spam filtre za mail
pcigre
30. 11. 2007., 11:15
Cilj mi je i ove manje zlonamerne da malo blokiram. Vidim najvlja mi se masa nekih njam-njam crawlera koji ničemu ne služe, a čujem da ima i nekih generičkih, test i sličnih...
Znam da ih ne mogu skroz oterati i da onaj ko hoće može da odradi ali želim da generalno smanjim broj nepotrebno otvorenih strana.
neki od apache modula koji limitira protok i/ili brzinu kojom se generisu zahtevi
Može neki link ili ključne reči?
sto se spambotova tice tu ti je taktika klasicna, captcha i javascript za forme...
Generalno sa JS se botovi uopšte ne snalaze? (ok znam da je glupo pitanje, ali noob sam).
zabranis sve sto ima porn, viagra i sl, klasicna poison words lista, kao za spam filtre za mail
Probaću da nađem/napravim.
ivanhoe
30. 11. 2007., 11:37
1) sto se modula tice ja znam za mod_bandwidth, ali ima ih jos...kljucne reci su nesto tipa: "apache module bandwidth limit" ili "apache module requests limit" i sl..
za bw_limit ima uputstvo ovde http://maxmk.wordpress.com/category/linux/apache_modules/
i ovde http://www.cohprog.com/v3/bandwidth/doc-en.html
2) Botovi se ne snalaze sa javascriptom, ali je problem sto to vazi i za "dobre" spajdere, pa su ti opcije limitirane..
3) Trazi na googlu "stop referral spam". Jedna lista je ovde: http://www.invision-graphics.com/referral_spam_list.html
vBulletin® v3.6.8, Copyright ©2000-2024, Jelsoft Enterprises Ltd.