Hoe te identificeren van slechte Bots en blokkeren ze

Er zijn goede bots en er zijn slechte bots. Goede bots (robots die een website kruipen) crawlen en indexeren van uw site en in het verkeer brengen. Slechte bots verbruiken bandbreedte, vertragen van uw server, stelen van uw inhoud en zoekt u naar kwetsbaarheid voor uw server in gevaar te brengen.

Ik heb ze in gestreden in de afgelopen 15 jaar als systeembeheerder. Deze 'How-to' is gebaseerd op mijn persoonlijke ervaring. Slechte bots zijn er in alle maten en verschillende User-Agent-tekenreeksen gebruikt om te zich te identificeren. Er zijn vele bots die er - wat van uw site met verschillende niveaus van Verve crawlen kan. Velen zijn wel onschadelijk. Andere dan de zoekmachines, sommige robots worden beheerd door andere legitieme agentschappen om te bepalen van het beste bijpassende campagne voor de inhoud van een pagina voor een potentiële adverteerder of om te kijken voor het koppelen van informatie of tot het nemen van een momentopname voor archiveringsdoeleinden.

U kunt een lijst van gemeenschappelijke bots vinden hier:

Voor zover wij vertellen kunnen - volgen zij de richtlijnen van Robots.txt in een bepaalde website. De lijst bevat bots met identificeerbare informatie gegeven in hun vakgebied van User-Agent. Wanneer u door de lijst bladert, vindt u ook dat vele grote zoekmachines User-Agent snaren volgens hun behoefte schakelen. Meest fatsoenlijke bots zal hun contactverbinding in hun gebruiker-Agent koord te helpen de webmaster te communiceren hun voorkeur of bieden manieren om blokkeren ze uit het tekstbestand - Robots.txt
U kunt vertragen van het tempo van het kruipen of de toegang tot bepaalde mappen ontzeggen van dat tekstbestand.

Bijvoorbeeld, kan weigert u toegang voor alle pagina's in je document root voor dit 'Zum' bot van uw robots.txt-bestand zoals hier:

Gebruiker-agent: ZumBot

Disallow: /

Alle reguliere bots zal dit bestand gelezen en gehoorzamen de richtlijnen die er van. Maar slechte bots niet de moeite om uw robots bestand lezen of lezen om te weten welke zijn de verboden mappen te kruipen. Zodoende zulks ' hoe-te-inventarisatie slechte bots maakt gebruik van een eenvoudige truc om te ontdekken hun voornemen en maakt een logboekbestand voor verdere actie.

Stap 1: Maak een bestand dat een logboek in uw server kunt schrijven. Ik heb gezien een Perl script hier bots.pl. Zorg ervoor dat dit bestand wordt opgeslagen in je cgi-bin directory (ervan uitgaande dat uw server perlmanuscript kunt uitvoeren). Stel de machtiging voor dit tekstbestand uit te voeren. Start uw browser en wijs aan deze pagina. U kunt lezen van uw browser User Agent string, uw IP-adres, de verwijzende pagina (het zal zijn leeg nu) en de servertijd waarop dit verzoek werd geserveerd. By the way, ziet u een lege pagina.

Stap 2: de bovenstaande pagina bots.pl moet worden gekoppeld vanaf uw indexpagina - verborgen van de menselijke bezoekers.
Een koppeling maken als volgt:

< een href = "uw domain/cgi-bin/bots.pl >< /a >

Nu bent je ingesteld. Het logboekbestand bevat de details van de slechte bots. Maar wacht. Als u wilt kunt u bandbreedte besparen in de meeste mainstream normale bots de robots.txt cache. Er is dus een mogelijkheid dat ze hebben in de cache uw robots.txt eerder opgeslagen kunnen en niet weet van de nieuwe richtlijn wellicht. In een dergelijk geval, zouden ze deze geblokkeerde pagina kruipen. Dus negeren hen uit uw lijst.

Blokkeren van slechte Bots

Controleer dit bestand slecht-bots later voor verdere corrigerende actie. Er zijn vele manieren om deze ongewenste bots toegang te weigeren.

Optie 1:
U kunt het IP-adres tegen een witte lijst (u toevoegen uw eigen IP-adres, alsmede die van de grote zoekmachines in deze witte lijst) en het laatste IP-adressen kunnen worden geblokkeerd in de firewall.

Of de tekenreeks User-Agent toewijzen aan een deny-lijst die in 403-status (verboden resulteren kan). Het gebruikt minder serverbronnen.

Bijvoorbeeld, een van onze sites gebruikt een CGI-script in ons CMS. Het volgende codefragment stuurt een 403-verboden-status naar User-Agents wget en Zum:

Als ($ENV {'HTTP_USER_AGENT'} = ~ / wget|zum/ik) {}
afdrukken "status: 403 Forbidden\n"; afdrukken "Content-type: tekst / html \n\n"; afslag; }

Optie 2:
U kunt .htaccess gebruiken voor het blokkeren van de slechte bots in de veronderstelling dat u gebruikt de Apache HTTP-server. In het geval dat u hebt een paar slechte bots die regelmatig gebruik van een bepaalde gebruiker-Agent koord, is het gemakkelijk voor het blokkeren van hen op basis van die tekenreeks.

SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ Riddler" bad_user

Weigeren van env = bad_user

De bovenstaande Instructable is gebaseerd op deze blog.

Dank u voor het lezen van dit Instructable. Ik zal graag antwoord op eventuele vragen aan dit Instructable in de commentarensectie gerelateerde.

Labels: Slechte bots, Identificeren van slechte bots

Gerelateerde Artikelen

Hoe te identificeren van een mineraal

Het identificeren van mineralen is zoals het afspelen van een sport. U krijgt een specifieke reeks van beginselen of regels te volgen. Om goed te zijn in een sport zoals basketbal, bijvoorbeeld, men moet alleen de rechtsregels niet kent, maar hij/zij

Hoe te identificeren van de Worm/uil en doden: gemakkelijk!

De video zal u tonen hoe te vinden van de kool-worm op een werkelijke plant. Ik had boerenkool in cups voor transplantaties en ja hoor ze waren binnengevallen door de groene kool worm, de kool worm of de uil. De video zal u tonen wat de pest schade e

Hoe te identificeren van een geode

een eenvoudige handleiding voor het identificeren van de geode!!!Stap 1: kijken Het is best om een kaart van goede locaties te vinden geodes. Meestal een berg of grote rotsachtige gebieden.Stap 2: identificatie De geode ziet er gewoonlijk als een ova

Hoe het identificeren van de Beakless Stalker (Inferus Mendax) in het wild.

de purpouse van dit artikel is voor het propicious van het Congres van de humilital krijgen en de ligitamicy hier in shal worden van uw eigen dicretion en geen bindend karakter aan de auteur. Geniet vanStap 1: Habitat De beakless stalker is meestal i

Hoe maak je het beste bier van de boter - van Harry Potter - slechts 2 ingrediënten

ooit benieuwd geweest hoe te maken dat bier boter??het zo ongelooflijk eenvoudig te maken met slechts 2 ingrediëntenen het smaakt absoluut hemelseserieus...

Hoe te trekken van afbeeldingen en lettertypen met behulp van de Doodle Bot voorbeeldcode maken

als u dit vóór 31 juli 2013 leest is er een wedstrijd met de prijzen lopen. Zie hier voor details.Doodle Bot is een eenvoudige robot platform dat is ideaal voor de hobbyist en studenten leren van de basisprincipes van robot voortbewegen. De robot hee

Hoe maak je brand met behulp van slechts een batterij en staalwol

leren hoe te maken brand met behulp van slechts een batterij en staalwol.Het is zeer gemakkelijk te doen. Gewoon kopen een 9 volt batterij en sommige staalwol (hoe fijner hoe beter) en wrijf de batterij op de wol. De wol zal onmiddellijk beginnen te

Hoe te te bevestigen permanent een koord; ook, hoe te repareren van een koord met behulp van een slechte underwire.

Oke, in alle eerlijkheid, dit waarschijnlijk moet worden getiteld "hoe te repareren van een koord met behulp van een slechte underwire/ook, hoe het te repareren permanent een koord," maar, ging ik met wat ik dacht dat zou bieden de beste zoekres

Hoe maak je brand met behulp van slechts een batterij

leren hoe je brand met behulp van slechts een batterij en staalwol.Het is zeer gemakkelijk te doen. Gewoon kopen een 9 volt batterij en sommige staalwol (hoe fijner hoe beter) en wrijf de batterij op de wol. De wol zal onmiddellijk beginnen te vonk.

Hoe te vouwen van uw eigen sjabloon vanaf de helft een vel papier om de diamant pagina's boek (slechts twee pagina's) te maken

herethis is mijn eerste instructable en ik zal worden onderwijzen u hoe te vouwen van een sjabloon uit een half A4-papier voor de diamant wisselbare boek stuk. Dit product (het boek) is origanally gemaakt door Kiteman. zijn instructable is hier.Stap

HDR lenzenvloeistof: van cyborg lashelmen aan Wearable Computing in het dagelijks leven Dit Instructable is niet een les over het gebruik van bestaande HDR (High Dynamic Range) software. In plaats daarvan het ...
Zwembad zonneboiler hoe het bouwen van een warmwaterboiler zonne-zwembad.Stap 1: Wat moet je Wanneer u in Canada woont, moet u zet de warmte ...
Li-on batterij Upgrade voor draadloze schroevendraaier De Ni-Cads in deze vakman draadloze schroevendraaier werden al eens vervangen. Deze cellen zijn ongeveer 10 jaar oud, en ...
Dom Putty en Magic modder dom Putty en Magic modder zijn leuk en makkelijk om te maken!Stap 1: 1. magische modder Een tabel doek verspreiden op uw ...
Cracker Jacks - met een verrassende twist! In 1893 een zoete karamel en melasse gecoate popcorn werd geserveerd op Chicago's eerste wereldtentoonstelling en zijn p ...