DevProTalk

Forumi IT profesionalaca
web development, web design, e-business, SEO


Idite nazad   DevProTalk > Web development i web aplikacije > Code snippets
Želite da se reklamirate ekskluzivno na ovoj poziciji? Javite se

Code snippets Razmena snippets, funkcija, dodataka, algoritama,... pod uslovom je da ste vi autor ili imate dozvolu autora ili da navedete autora uz odgovarajucu licencu.

Odgovori
 
Alati teme Način prikaza
Staro 18. 12. 2010.   #1
vidak
Banned
Expert
 
Datum učlanjenja: 29.09.2007
Poruke: 458
Hvala: 131
71 "Hvala" u 44 poruka
vidak is on a distinguished road
Default Provera da li je sajtu pristupio čovek ili bot

Želite da proverite da li je stranici pristupio bot, čovek ili nepristojni bot koji se predstavlja kao npr. Google.
Ono što je sigurno moguće jeste proveriti da li je bot zaista onaj bot koji se predstavlja da jeste.

Ovo su funkcije za proveru. Funkcija isBot vraća tri vrednosti a)ime bot-a, b)false i c)null. False vraća ako se bot lažno predstavlja a null ako nije bot.
Time smo rešili da li je bot zaista bot koji se predstavlja. Problem je kako proveriti ako nije bot da li je zaista čovek ili mašina.
Ako se mašina predstavlja kao čovek većina skriptova nema mogućnost izvršavanja JavaScript koda unutar programskog okruženja u kome su pisani tako da ne mogu izvršiti Ajax skript koji se nalazi u HTML body tag-u i poziva se onload funkcijom koja šalje naziv učitane stranice ka serveru na dalju analizu.
//PHP funkcije
function isBot( $http_user_agent = null, $ip = null ) {
if( $ip == null ) { $ip = $_SERVER['REMOTE_ADDR']; }
$bots = array(
array( 'name'=>'Google', 'bot'=>'http://www.google.com/bot.html', 'domain'=>'googlebot.com' ),
array( 'name'=>'Media-google', 'bot'=>'Mediapartners-Google', 'domain'=>'googlebot.com' ),
array( 'name'=>'Baidu', 'bot'=>'http://www.baidu.com/search/spider.htm', 'domain'=>'crawl.baidu.com' ),
array( 'name'=>'Yahoo', 'bot'=>'http://help.yahoo.com/help/us/ysearch/slurp', 'domain'=>'crawl.yahoo.net' ),
array( 'name'=>'Msn', 'bot'=>'http://search.msn.com/msnbot.htm', 'domain'=>'search.msn.com' ),
array( 'name'=>'Teoma', 'bot'=>'http://about.ask.com/en/docs/about/webmasters.shtml', 'domain'=>'ask.com' ),
array( 'name'=>'Alexa', 'bot'=>'Alexa Verification Agent', 'domain'=>'amazonaws.com' ),
array( 'name'=>'TweetmemeBot', 'bot'=>'TweetmemeBot', 'domain'=>'favsys.net' )
);
$http_user_agent = strtolower( $http_user_agent );
foreach( $bots as $bot ) {
if( stripos( $http_user_agent, $bot['bot'] ) !== false ) {
$isBot = checkBot( $bot['domain'], $ip );
if( $isBot ) { return $bot['name']; }
else if( $isBot === false ) { return false; }
}
}
return null; // obavezno pravi razliku izmedju false i null, false je lažni boot dok je null human
}
function checkBot( $domain, $ip ) {
$name = gethostbyaddr( $ip );
$host = gethostbyname( $name );
if( strpos( $name, $domain ) ) {
if ( $host == $ip ) { return true; }
else { return false; }
}
}

//HTML body tag u npr. index.php
<body onload='loadSuccess("<?php echo $_SERVER['REQUEST_URI']; ?>")'>

//JavaScrip funkcija koja poziva Ajax
function loadSuccess( $reques_uri ) {
xmlHttp=GetXmlHttpObject();
var url = "analyse/load_success.php";
var params = "page="+ $reques_uri;
xmlHttp.open("POST",url,true)
xmlHttp.setRequestHeader("Content-type", "application/x-www-form-urlencoded");
xmlHttp.setRequestHeader("Content-length", params.length);
xmlHttp.setRequestHeader("Connection", "close");
xmlHttp.send(params);
}


Detaljnije...
vidak je offline   Odgovorite uz citat
Staro 18. 12. 2010.   #2
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

bolje je proveriti IP opseg, za vecinu ovih botova su poznati IP-jevi sa kojih dolaze
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 18. 12. 2010.   #3
vidak
Banned
Expert
 
Datum učlanjenja: 29.09.2007
Poruke: 458
Hvala: 131
71 "Hvala" u 44 poruka
vidak is on a distinguished road
Default

ovde Google kaže da analiza IP adresa nije u njihovom slučaju najbolji način.

pravio sam analizu log fajlova da vidim koliko često pristupaju s' tim da nisam radio verifikaciju. Večeras ću da je uradim pa ću da vidim koliko se procentualno često nepristojni bot-ovi prijavljuju kao Google.
Bot: Googlebot - Count: 287813
Bot: Mediapartners-Google - Count: 6678
Bot: Baiduspider - Count: 4112
Bot: Yahoo! Slurp - Count: 2651
Bot: msnbot - Count: 1003
Bot: Teoma - Count: 350
Bot: alexa - Count: 269
Bot: FAST - Count: 34
Bot: TweetmemeBot - Count: 8
Bot: Sogou web spider - Count: 4

Google ubija u odnosu 1:100 (odokativna metoda)
e sad... ne znam kako je na drugim serverima i koliko je moja statistika verodostojna ...
ali ovu temu sam pokrenuo i da bih video kako drugi rešavaju ovaj problem..

Poslednja izmena od vidak : 18. 12. 2010. u 20:00.
vidak je offline   Odgovorite uz citat
Staro 18. 12. 2010.   #4
ivanhoe
Ivan Dilber
Sir Write-a-Lot
 
Avatar ivanhoe
 
Datum učlanjenja: 18.10.2005
Lokacija: Bgd
Poruke: 5.320
Hvala: 104
2.344 "Hvala" u 583 poruka
ivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svimaivanhoe je ime poznato svima
Pošaljite poruku preko Skype™ za ivanhoe
Default

sta znam, stoji ovo sto kazu, ali postoje liste na netu da se nadju za googlebot koje su prilicno tacne i azurne, tj. bar su bile kad mi je to trebalo (sto je doduse bilo pre par godina)

ima google sad botove koji citaju ajax i razne druge stvari, tako da je pitanje koliko je i ovaj drugi pristup tacan...
__________________
Leadership is the art of getting people to want to do what you know must be done.
ivanhoe je offline   Odgovorite uz citat
Staro 18. 12. 2010.   #5
webarto
expert
Grand Master
 
Avatar webarto
 
Datum učlanjenja: 11.04.2010
Poruke: 998
Hvala: 141
959 "Hvala" u 153 poruka
webarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished roadwebarto is on a distinguished road
Default

http://webarto.com/online , kod mene budu 2-3 googlea, navrati i neki ruski, a kineze sam blokirao A zašto je bitno da je li google bot ili nešto fake? Mislim da nije pametno davati privilegije botovima, jer možeš onda pristupiti kroz cache nekim informacijama.
webarto je offline   Odgovorite uz citat
Staro 18. 12. 2010.   #6
vidak
Banned
Expert
 
Datum učlanjenja: 29.09.2007
Poruke: 458
Hvala: 131
71 "Hvala" u 44 poruka
vidak is on a distinguished road
Default

ovo mi treba za jedan projekat što radim gde mi je izuzetno bitno da znam da li je bot zaista bot i da sa što većom sigurnošću utvrdim da li je čovek ili ne.

e sad... znam da nije dobra praksa praviti deo gde može pristupati bot ali primetio sam da Google mnogo brže indeksira linkove sa sajta nego sa sitemap-a ( bar se meni čini da je tako ). Znam i da postoji mogućnost da Google penalizuje ovakvu praksu ali do sada je sve bilo OK.

što se tiče priče da li je čovek ili nije. Funkcija prvo proveri da li je pristojan bot ili ne pa ako je nepristojan onda vrati false a ako nije ni jedno ni drugo onda vrati null. Tako znam da kada je null sigurno nije bot. Onda stupa na scenu Ajax gde tek kada je stranica učitana i pokrene se onload funkcija saznam da li je to čovek (ili mašina koja može izvršavati JavaScript) a taj podatak mi je bitan za praćenje posećenosti stranica i upoređivanje sa Google statistikama.
vidak je offline   Odgovorite uz citat
Odgovori


Alati teme
Način prikaza

Pravila pisanja
Možete ne započinjati nove teme
Možete ne slati odgovore
Možete ne slati priloge
Možete ne izmeniti svoje poruke
vB kôd je Uključen
Smajliji su Uključen
[IMG] kod je Uključen
HTML kôd je Isključen
Pogledajte forum


Vreme je GMT +2. Trenutno vreme je 06:19.


Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.
Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.