DevProTalk

DevProTalk (http://www.devprotalk.com/index.php)
-   Web Hosting, web serveri i operativni sistemi (http://www.devprotalk.com/forumdisplay.php?f=11)
-   -   Blokiranje crawlera (http://www.devprotalk.com/showthread.php?t=4100)

pcigre 29. 11. 2007. 21:18

Blokiranje crawlera
 
Potrebno mi je da se otarasim svih nepotrebnih crawlera imaju'i u vidu spam crawlere ali i manje spam crawlere od kojih jednostavno nemam nikakve koristi (zna;i maltene sve osim google, yahoo i msn).

Moze mali hint gde bi mogao da nadjel liste i kako da to najefikasnije uradim?

Preko .httaccessa? Preko konfigurisanja Apachea? robots.txt? Mada sumnjam da ga zlonamerni nesto gledaju :)

ivanhoe 30. 11. 2007. 02:45

preko htaccessa mozes da ih blokiras samo preko user-agenta, ili IP-ja, a i jedno i druge ce vecina spajdera sa lakocom da lazira...
za crawlere ti je najbolja odbrana neki od apache modula koji limitira protok i/ili brzinu kojom se generisu zahtevi, jer je osnovna osobina svih spajdera da su mnogo brzi i generisu vise protoka od zivih usera... cak ni tu nemas neku odbranu jer pametan programer moze lako da zezne te module (znam pouzdano posto se bavim spajderisanjem vec godinama i jos nikad nisam dobio sajt koji nisam uspeo da ispajderisem, znaci svaka zastita moze da se zaobidje), ali ces ipak zaustaviti vecinu genericki pisanih crawlera..

sto se spambotova tice tu ti je taktika klasicna, captcha i javascript za forme...
spam referer botove ubijas uz pomoc mod_rewrite tako sto napravis listu (u htaccessu, ili jos bolje direktno u httpd.conf jer ce velika lista da uspori apache ako je u htaccessu) zabranjenih referera... zabranis sve sto ima porn, viagra i sl, klasicna poison words lista, kao za spam filtre za mail

pcigre 30. 11. 2007. 11:15

Cilj mi je i ove manje zlonamerne da malo blokiram. Vidim najvlja mi se masa nekih njam-njam crawlera koji ničemu ne služe, a čujem da ima i nekih generičkih, test i sličnih...

Znam da ih ne mogu skroz oterati i da onaj ko hoće može da odradi ali želim da generalno smanjim broj nepotrebno otvorenih strana.

Citat:

neki od apache modula koji limitira protok i/ili brzinu kojom se generisu zahtevi
Može neki link ili ključne reči?

Citat:

sto se spambotova tice tu ti je taktika klasicna, captcha i javascript za forme...
Generalno sa JS se botovi uopšte ne snalaze? (ok znam da je glupo pitanje, ali noob sam).

Citat:

zabranis sve sto ima porn, viagra i sl, klasicna poison words lista, kao za spam filtre za mail
Probaću da nađem/napravim.

ivanhoe 30. 11. 2007. 11:37

1) sto se modula tice ja znam za mod_bandwidth, ali ima ih jos...kljucne reci su nesto tipa: "apache module bandwidth limit" ili "apache module requests limit" i sl..
za bw_limit ima uputstvo ovde http://maxmk.wordpress.com/category/...pache_modules/
i ovde http://www.cohprog.com/v3/bandwidth/doc-en.html

2) Botovi se ne snalaze sa javascriptom, ali je problem sto to vazi i za "dobre" spajdere, pa su ti opcije limitirane..

3) Trazi na googlu "stop referral spam". Jedna lista je ovde: http://www.invision-graphics.com/ref...spam_list.html


Vreme je GMT +2. Trenutno vreme je 16:18.

Powered by vBulletin® Verzija 3.6.8
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © DevProTalk. All Rights Reserved.

Mišljenja, saveti, izjave, ponude ili druge informacije ili sadržaji nastali na Sajtu su vlasništvo onoga ko ih je kreirao, a ne DevProTalk.com, tako da ne morate da se oslanjate na njih.
Autori poruka su jedini odgovorni za ovakve sadržaje. DevProTalk.com ne garantuje tačnost, kompletnost ili upotrebnu vrednost informacija, stavova, saveta ili datih izjava. Ne postoje uslovi pod kojima bi mi bili odgovorni za štetu ili gubitak koji je posledica bilo čijeg oslanjanja na nepouzdane informacije, ili bilo kakve informacije nastale kroz komunikaciju između registrovanih članova.
Web sajt može sadržavati linkove na druge web sajtove na Internetu ili neke druge sadržaje. Ne kontrolišemo niti podržavamo te druge web sajtove, niti smo pregledali bilo kakve sadržaje na takvim sajtovima. Mi nećemo biti odgovorni za legalnost, tačnost ili prikladnost bilo kog sadržaja, oglasa, proizvoda, usluga ili informacije lociranim na ili distribuiranih kroz druge web sajtove, niti za bilo kakvu štetu nastalu kao posledica takvih informacija. DevProTalk.com drži i čuva druga prava vlasništva na web sajtu. Web sajt sadrže materijale zaštićene copyright-om, zaštitne znakove i druge informacije o pravu vlasništva ili softver. Članovi mogu poslatu informacije zaštićene pravima vlasništva njihovih nosilaca i ona ostaju zaštićena bez obzira da li su oni koji prenose te informacije to naveli ili ne. Osim informacija koje su u javnom vlasništvu ili za koje dobijete dozvolu, nemate pravo da kopirate, modifikujete ili na bilo koji način menjate, objavljujete, prenosite, distribuirate, izvršavate, prikazujete ili prodajte bilo koju informaciju zaštićenu pravima vlasništva. Slanjem informacija ili sadržaja na bilo koji deo DevProTalk.com, Vi automatski dozvoljavate i predstavljate garanciju da imate pravo da dozvolite DevProTalk.com ili članovima DevProTalk.com bespovratnu, kontinualnu, neograničenu, globalnu dozvolu da koriste, kopiraju, izvršavaju, prikazuju i distribuiraju takve informacije i sadržaje i da iz takvih sadžaja koriste bilo koji deo u bilo koje svrhe, kao i pravo i dozvolu da koriste gore navedene sadržaje. Svi zaštitni znakovi (trademarks), logotipi, oznake usluga, firme ili imena proizvoda koji se pominju na ovom web sajtu su vlasništvo kojim raspolažu njihovi vlasnici.