Provera da li je sajtu pristupio čovek ili bot
Želite da proverite da li je stranici pristupio bot, čovek ili nepristojni bot koji se predstavlja kao npr. Google.
Ono što je sigurno moguće jeste proveriti da li je bot zaista onaj bot koji se predstavlja da jeste. Ovo su funkcije za proveru. Funkcija isBot vraća tri vrednosti a)ime bot-a, b)false i c)null. False vraća ako se bot lažno predstavlja a null ako nije bot. Time smo rešili da li je bot zaista bot koji se predstavlja. Problem je kako proveriti ako nije bot da li je zaista čovek ili mašina. Ako se mašina predstavlja kao čovek većina skriptova nema mogućnost izvršavanja JavaScript koda unutar programskog okruženja u kome su pisani tako da ne mogu izvršiti Ajax skript koji se nalazi u HTML body tag-u i poziva se onload funkcijom koja šalje naziv učitane stranice ka serveru na dalju analizu. //PHP funkcije function isBot( $http_user_agent = null, $ip = null ) { if( $ip == null ) { $ip = $_SERVER['REMOTE_ADDR']; }); $http_user_agent = strtolower( $http_user_agent ); foreach( $bots as $bot ) {}if( stripos( $http_user_agent, $bot['bot'] ) !== false ) {} return null; // obavezno pravi razliku izmedju false i null, false je lažni boot dok je null human } function checkBot( $domain, $ip ) {}$name = gethostbyaddr( $ip );} //HTML body tag u npr. index.php <body onload='loadSuccess("<?php echo $_SERVER['REQUEST_URI']; ?>")'> //JavaScrip funkcija koja poziva Ajax function loadSuccess( $reques_uri ) { xmlHttp=GetXmlHttpObject(); var url = "analyse/load_success.php"; var params = "page="+ $reques_uri; xmlHttp.open("POST",url,true) xmlHttp.setRequestHeader("Content-type", "application/x-www-form-urlencoded"); xmlHttp.setRequestHeader("Content-length", params.length); xmlHttp.setRequestHeader("Connection", "close"); xmlHttp.send(params); } Detaljnije... |
bolje je proveriti IP opseg, za vecinu ovih botova su poznati IP-jevi sa kojih dolaze
|
ovde Google kaže da analiza IP adresa nije u njihovom slučaju najbolji način.
pravio sam analizu log fajlova da vidim koliko često pristupaju s' tim da nisam radio verifikaciju. Večeras ću da je uradim pa ću da vidim koliko se procentualno često nepristojni bot-ovi prijavljuju kao Google. Bot: Googlebot - Count: 287813 Bot: Mediapartners-Google - Count: 6678 Bot: Baiduspider - Count: 4112 Bot: Yahoo! Slurp - Count: 2651 Bot: msnbot - Count: 1003 Bot: Teoma - Count: 350 Bot: alexa - Count: 269 Bot: FAST - Count: 34 Bot: TweetmemeBot - Count: 8 Bot: Sogou web spider - Count: 4 Google ubija u odnosu 1:100 (odokativna metoda) e sad... ne znam kako je na drugim serverima i koliko je moja statistika verodostojna ... ali ovu temu sam pokrenuo i da bih video kako drugi rešavaju ovaj problem.. |
sta znam, stoji ovo sto kazu, ali postoje liste na netu da se nadju za googlebot koje su prilicno tacne i azurne, tj. bar su bile kad mi je to trebalo (sto je doduse bilo pre par godina)
ima google sad botove koji citaju ajax i razne druge stvari, tako da je pitanje koliko je i ovaj drugi pristup tacan... |
http://webarto.com/online , kod mene budu 2-3 googlea, navrati i neki ruski, a kineze sam blokirao :) A zašto je bitno da je li google bot ili nešto fake? Mislim da nije pametno davati privilegije botovima, jer možeš onda pristupiti kroz cache nekim informacijama.
|
ovo mi treba za jedan projekat što radim gde mi je izuzetno bitno da znam da li je bot zaista bot i da sa što većom sigurnošću utvrdim da li je čovek ili ne.
e sad... znam da nije dobra praksa praviti deo gde može pristupati bot ali primetio sam da Google mnogo brže indeksira linkove sa sajta nego sa sitemap-a ( bar se meni čini da je tako ). Znam i da postoji mogućnost da Google penalizuje ovakvu praksu ali do sada je sve bilo OK. što se tiče priče da li je čovek ili nije. Funkcija prvo proveri da li je pristojan bot ili ne pa ako je nepristojan onda vrati false a ako nije ni jedno ni drugo onda vrati null. Tako znam da kada je null sigurno nije bot. Onda stupa na scenu Ajax gde tek kada je stranica učitana i pokrene se onload funkcija saznam da li je to čovek (ili mašina koja može izvršavati JavaScript) a taj podatak mi je bitan za praćenje posećenosti stranica i upoređivanje sa Google statistikama. |
Vreme je GMT +2. Trenutno vreme je 01:03. |
Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.