Search Engine Attack
Ovih dana sam primetio da mi forum trosi protok ko lud. Pogledam u log i vidim ono cega sam se i plasio. Opet search engine botovi prave dar mar. U poslednjih 7 dna sajt je pod konstantnim napadom Google-a i nekog sogou spider bota. Urnisase me.
Forum mi je pod konstantim opterecenjem, protok vec 7 dana ne spada ispod 100kbps, a u cestim pikovima ide i preko 200 kbps. Opterecenej je konstano 24h dnevno. Odavno sam podesio robots.txt da smanjim indeksiranje od strane pretrazivaca i to je do pre neki dan koliko-toliko radilo, ali ovo sada je neverovatno. Prakticno mi ostaje jedina opcija da zabranim pristup sajtu sa IP-ova sa kojih dolaze bot-ovi. Imate li vi ovakvih problema? |
Mislim da si spomenuo taj problem vise puta ovde, ali ja licno nijednom nisam imao slican slucaj.
Inace, jesi siguran da su SE botovi u pitanju, po IP adresama? Ako jesi, mozda ne bi skodilo da postujes link do foruma, pa da vidimo sta je to tako problematicno za njih, mozda su upali u neki loop, a ne bi skodilo ni da iz loga izvadis URLove koje su oni fetchovali i koliko puta |
Pedja da li si siguran da problem nije do tebe ... mozda u kodu pravis neki beskonacni loop gde se zabuni robot ?
|
Pedja, ako je u pitanju forum.u...e.net, vidim da je na URL-ove nalepljen SID, mozda to prouzrokuje problem?
|
Jeste, forum.uzice.net. Ma forumi su uvek puni ciklicnih linkova. SE botovi moraju da znaju da se snadju sa tim kao i sa SID-om.
Jedan od botova je Google (mada mislim da se on ponasa koliko-toliko pristojno, pravi mi samo nesto preko 1 giga mesecno. Pre sedam dana se pojavio neki sogou spider, koliko sam iskopao to je spider nekog kineskog provajdera. Ne postuje robots.txt ni za ic, a protok prvi samo tako, za sedam dana skoro 4 giga... Gogole-u ne mogu da stavim ban, ali ovog sam blokirao samo tako. Videcu kakvi ce rezultati biti u toku dana. |
Ipak ti savetujem da uklonis SID iz linkova
|
Sad proverih, ko zna kad sam ja uradio patch koji regulise SID za Google i inktomi. Uglavnom to je uradjeno davno.
|
Takodje nemam. Pazi, mod_rewrite moze da napravi problem, a to zato sto nemas ? i & u URL pa robot misli da imas staticki sajt i ne pravi pauzu izmedju hitova. Tako moze bazu da ti obori.
|
Ne koristim mod_rewrite na forumu.
|
nadjoh nesto zanimljivo u log-u:
pogodak.co.yu spider: 56 visits, 21852 hits od 1. jula do danas, i sazvakao nesto preko 650MB protoka. cak je zeznuo i googlebot-a (3x manje hit-ova, skoro 10x manje protoka, 1,5x vise posjeta). "pa sta raaaaaaadis..." |
Pogodak je po tome poznat, toiko da uopste nije cesto videti ga banovanog :)
|
:1027: ...
|
Pogodak ume da bude veoma navalentan. Kada nam je prvi put indexirao sajt pravio je prilicno opterecenje na serveru.
Ovih dana google aktivno indexira sajt, 24h dnevno, ali ocigledno razumnom brzinom tako da ne pravi problem. |
za deveti mjesec:
google -> 430Mb pogodak -> 6.99Gb ?! |
lose i nekulturno napisan spajder.. vec sam jednom na nekoj temi pomenuo, trebalo bi da se lepo organizujemo u malo vecem broju i blokiramo ih sistematski, ne bi li ih naterali da malo povedu racuna o "site-friendly" prikupljanju podataka..
|
poslo sam im mail pa ke videme ako stogod mogu da rijese. ne svadja mi se i ne inati, samo mi se ne placa dodatni bandwidth bez potrebe :)
bilo je sve ok do osmog mjeseca, a onda se promet tog spidera (barem) upedesetostrucio :D |
Vreme je GMT +2. Trenutno vreme je 13:14. |
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.