PDA

Pogčedajte punu verziju : Pobješnjeli "Google" bot


chegevara
19. 02. 2008., 17:59
Ovo je nešto što mi se prvi put dešava, pa čisto da podijelim sa vama i zamolim za savjet. Danas otprilike od 12.00h pa sve do 16.30h moj sajt je kljucao neki čudni bot. Predstavljen kao Googlebot compatible, i evo šta sam izvukao iz loga:

Hostname: roohit07.he.net (66.220.18.42)
UserAgent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Znači broj zahtjeva je OGROMAN, bot se naoštrio kao da je upravo odgledao Matrix 1 i 2. U to 4 sata nakucao je log od 15MB i prosto me čudi kako je sve to server na kome sam hostovan izdržao (DreamHost). Zabranio sam pristup ovoj IP adresi preko htaccessa i sad je situacija pod kontrolom, ali me strah da se opet ne desi nešto slično. Sumnjam da bi moja trošna srčka to izdržala :1016:

Jel' imao neko slično iskustvo, eventualno neki savjet?
Možda je ovo u biti dobronamjeran bot koji je čitajući moj tekst totalno odlijepio i ostao u mrtvoj petlji, ali paranoik u dubini duše ne dozvoljava mi da to mirno gledam.


Ako nekoga zanima, evo i jedan djelić loga:


Hostname: roohit07.he.net

* UserAgent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

* SPIDER: Google
* OS: N/A N/A
* BROWSER: N/A


* 16:30:00 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:00 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:00 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:00 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:00 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:00 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:01 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:01 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:01 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:02 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:02 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:02 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:02 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:02 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:03 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:07 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:08 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:12 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:12 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:12 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:13 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:14 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:14 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:15 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:16 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:17 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:17 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
* 16:30:17 ->/2008/01/30/svjetlopisi-srecan-vam-drugi-rodendan/
...
...
i sve to u 15MB.

mangia
19. 02. 2008., 19:06
da nemas tu link na istu tu stranicu koja ga uvali u mrtvu petlju? Glupo jeste ali barem diskutujemo...

I jedna kritika za nepaljenje Gtalk-a :)

chegevara
19. 02. 2008., 19:54
Gtalk je upaljen stalno, čak i kad se spava. Vjerovatno ti je promakla moja email selidba prije pola godine.
Uglavnom ja tebe vidim :D


Samo za mangiu (http://i2.photobucket.com/albums/y14/Chegevara/dizajnzona/gtalk.png), ostalima sumnjam da je zanimljivo. :)


E sad što se tiče stranice, u pitanju je obični blog unos, ničim poseban, tj. isti kao i svi ostali. Jedina razlika je što sam njega ostavio kao link na DPT temi gdje smo se hvalili sa brojem posjeta. :) Vjerujem da je to koincidencija, tj. možda i nije, možda me ovaj bugoviti bot pronašao preko foruma, pa se zaglupio količinom teksta i totalno odlijepio. Do sad nije bilo frke, osim što sam primjetio da je load na mašini malo veći nego obično, ali ne primjećujem ništa čudno kod mene. Čak sam pisao i ovima iz podrške, nahvalio se da sam fin momak, da želim mir u svjetu i da nemam pojma šta se dešava, al' eto prijavljujem problem kao svaki savjesni korisnik.

Posjetio sam i stranicu he {dot} net, u pitanju je Hjuriken Elektrik, Internet Backbone and Colocation Provider.

Inače i ja sve više mislim da je u pitanju neki bug, tj nenamjerna mrtva petlja.

ivanhoe
19. 02. 2008., 20:20
ovo 99% nema veze sa googlom, nije njihov UA, a sta je taj hjuriken ne znam... mozda je bot, u skladu sa nazivom firme, uraganski :)

chegevara
19. 02. 2008., 23:16
Nisam ni sumnjao da je gugl, po IP-u sam to odmah vidio. Bonusa sto se Guglica odma prepozna po hostu: crawl-*.googlebot.com


Upravo mi se pojavio dnevni izvjestaj u panelu. Skraceno, blagi horor!

Dnevni broj mysql konekcija mog bloga se krece od 800 do 1200, a broj querija je od 10-25k. Uglavnom kad to prevedem u cifre na kraju mjeseca, moj sajt potrosi oko 1.200MCn. E ovaj bot je napravio 62100 mysql konekcija i dnevnu "potrošnju" od 2.307MCn za samo 4 sata igranja.

Pravi hjuriken :)


Jel ima neki modul sa kojim mogu spriječiti ovakve stvari. Nešto tipa ako određeni IP u xx minuta napravi preko yy zahtjeva suspenduj ga zz minuta. Vidio sam da negdje pominju Bad Behavior 2 ali nema iskustva (a zakleo bi se da sam negdje pročitao da nije samo za spam).

Peca
19. 02. 2008., 23:33
http://www.zdziarski.com/projects/mod_evasive/