Hoe te identificeren van slechte Bots en blokkeren ze


Er zijn goede bots en er zijn slechte bots. Goede bots (robots die een website kruipen) crawlen en indexeren van uw site en in het verkeer brengen. Slechte bots verbruiken bandbreedte, vertragen van uw server, stelen van uw inhoud en zoekt u naar kwetsbaarheid voor uw server in gevaar te brengen.

Ik heb ze in gestreden in de afgelopen 15 jaar als systeembeheerder. Deze 'How-to' is gebaseerd op mijn persoonlijke ervaring. Slechte bots zijn er in alle maten en verschillende User-Agent-tekenreeksen gebruikt om te zich te identificeren. Er zijn vele bots die er - wat van uw site met verschillende niveaus van Verve crawlen kan. Velen zijn wel onschadelijk. Andere dan de zoekmachines, sommige robots worden beheerd door andere legitieme agentschappen om te bepalen van het beste bijpassende campagne voor de inhoud van een pagina voor een potentiële adverteerder of om te kijken voor het koppelen van informatie of tot het nemen van een momentopname voor archiveringsdoeleinden.

U kunt een lijst van gemeenschappelijke bots vinden hier:

Voor zover wij vertellen kunnen - volgen zij de richtlijnen van Robots.txt in een bepaalde website. De lijst bevat bots met identificeerbare informatie gegeven in hun vakgebied van User-Agent. Wanneer u door de lijst bladert, vindt u ook dat vele grote zoekmachines User-Agent snaren volgens hun behoefte schakelen. Meest fatsoenlijke bots zal hun contactverbinding in hun gebruiker-Agent koord te helpen de webmaster te communiceren hun voorkeur of bieden manieren om blokkeren ze uit het tekstbestand - Robots.txt
U kunt vertragen van het tempo van het kruipen of de toegang tot bepaalde mappen ontzeggen van dat tekstbestand.

Bijvoorbeeld, kan weigert u toegang voor alle pagina's in je document root voor dit 'Zum' bot van uw robots.txt-bestand zoals hier:

Gebruiker-agent: ZumBot

Disallow: /

Alle reguliere bots zal dit bestand gelezen en gehoorzamen de richtlijnen die er van. Maar slechte bots niet de moeite om uw robots bestand lezen of lezen om te weten welke zijn de verboden mappen te kruipen. Zodoende zulks ' hoe-te-inventarisatie slechte bots maakt gebruik van een eenvoudige truc om te ontdekken hun voornemen en maakt een logboekbestand voor verdere actie.

Stap 1: Maak een bestand dat een logboek in uw server kunt schrijven. Ik heb gezien een Perl script hier bots.pl. Zorg ervoor dat dit bestand wordt opgeslagen in je cgi-bin directory (ervan uitgaande dat uw server perlmanuscript kunt uitvoeren). Stel de machtiging voor dit tekstbestand uit te voeren. Start uw browser en wijs aan deze pagina. U kunt lezen van uw browser User Agent string, uw IP-adres, de verwijzende pagina (het zal zijn leeg nu) en de servertijd waarop dit verzoek werd geserveerd. By the way, ziet u een lege pagina.

Stap 2: de bovenstaande pagina bots.pl moet worden gekoppeld vanaf uw indexpagina - verborgen van de menselijke bezoekers.
Een koppeling maken als volgt:

< een href = "uw domain/cgi-bin/bots.pl >< /a >

Nu bent je ingesteld. Het logboekbestand bevat de details van de slechte bots. Maar wacht. Als u wilt kunt u bandbreedte besparen in de meeste mainstream normale bots de robots.txt cache. Er is dus een mogelijkheid dat ze hebben in de cache uw robots.txt eerder opgeslagen kunnen en niet weet van de nieuwe richtlijn wellicht. In een dergelijk geval, zouden ze deze geblokkeerde pagina kruipen. Dus negeren hen uit uw lijst.

Blokkeren van slechte Bots

Controleer dit bestand slecht-bots later voor verdere corrigerende actie. Er zijn vele manieren om deze ongewenste bots toegang te weigeren.

Optie 1:
U kunt het IP-adres tegen een witte lijst (u toevoegen uw eigen IP-adres, alsmede die van de grote zoekmachines in deze witte lijst) en het laatste IP-adressen kunnen worden geblokkeerd in de firewall.

Of de tekenreeks User-Agent toewijzen aan een deny-lijst die in 403-status (verboden resulteren kan). Het gebruikt minder serverbronnen.

Bijvoorbeeld, een van onze sites gebruikt een CGI-script in ons CMS. Het volgende codefragment stuurt een 403-verboden-status naar User-Agents wget en Zum:

Als ($ENV {'HTTP_USER_AGENT'} = ~ / wget|zum/ik) {}
afdrukken "status: 403 Forbidden\n"; afdrukken "Content-type: tekst / html \n\n"; afslag; }

Optie 2:
U kunt .htaccess gebruiken voor het blokkeren van de slechte bots in de veronderstelling dat u gebruikt de Apache HTTP-server. In het geval dat u hebt een paar slechte bots die regelmatig gebruik van een bepaalde gebruiker-Agent koord, is het gemakkelijk voor het blokkeren van hen op basis van die tekenreeks.

SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ Riddler" bad_user

Weigeren van env = bad_user

De bovenstaande Instructable is gebaseerd op deze blog.

Dank u voor het lezen van dit Instructable. Ik zal graag antwoord op eventuele vragen aan dit Instructable in de commentarensectie gerelateerde.

Gerelateerde Artikelen

Hoe te identificeren van een mineraal

Hoe te identificeren van een mineraal

Het identificeren van mineralen is zoals het afspelen van een sport. U krijgt een specifieke reeks van beginselen of regels te volgen. Om goed te zijn in een sport zoals basketbal, bijvoorbeeld, men moet alleen de rechtsregels niet kent, maar hij/zij
Hoe te identificeren van de Worm/uil en doden: gemakkelijk!

Hoe te identificeren van de Worm/uil en doden: gemakkelijk!

De video zal u tonen hoe te vinden van de kool-worm op een werkelijke plant. Ik had boerenkool in cups voor transplantaties en ja hoor ze waren binnengevallen door de groene kool worm, de kool worm of de uil. De video zal u tonen wat de pest schade e
Hoe te identificeren van een geode

Hoe te identificeren van een geode

een eenvoudige handleiding voor het identificeren van de geode!!!Stap 1: kijken Het is best om een kaart van goede locaties te vinden geodes. Meestal een berg of grote rotsachtige gebieden.Stap 2: identificatie De geode ziet er gewoonlijk als een ova
Hoe het identificeren van de Beakless Stalker (Inferus Mendax) in het wild.

Hoe het identificeren van de Beakless Stalker (Inferus Mendax) in het wild.

de purpouse van dit artikel is voor het propicious van het Congres van de humilital krijgen en de ligitamicy hier in shal worden van uw eigen dicretion en geen bindend karakter aan de auteur. Geniet vanStap 1: Habitat De beakless stalker is meestal i
Hoe maak je het beste bier van de boter - van Harry Potter - slechts 2 ingrediënten

Hoe maak je het beste bier van de boter - van Harry Potter - slechts 2 ingrediënten

ooit benieuwd geweest hoe te maken dat bier boter??het zo ongelooflijk eenvoudig te maken met slechts 2 ingrediëntenen het smaakt absoluut hemelseserieus...
Hoe te trekken van afbeeldingen en lettertypen met behulp van de Doodle Bot voorbeeldcode maken

Hoe te trekken van afbeeldingen en lettertypen met behulp van de Doodle Bot voorbeeldcode maken

als u dit vóór 31 juli 2013 leest is er een wedstrijd met de prijzen lopen. Zie hier voor details.Doodle Bot is een eenvoudige robot platform dat is ideaal voor de hobbyist en studenten leren van de basisprincipes van robot voortbewegen. De robot hee
Hoe maak je brand met behulp van slechts een batterij en staalwol

Hoe maak je brand met behulp van slechts een batterij en staalwol

leren hoe te maken brand met behulp van slechts een batterij en staalwol.Het is zeer gemakkelijk te doen. Gewoon kopen een 9 volt batterij en sommige staalwol (hoe fijner hoe beter) en wrijf de batterij op de wol. De wol zal onmiddellijk beginnen te
Hoe te te bevestigen permanent een koord; ook, hoe te repareren van een koord met behulp van een slechte underwire.

Hoe te te bevestigen permanent een koord; ook, hoe te repareren van een koord met behulp van een slechte underwire.

Oke, in alle eerlijkheid, dit waarschijnlijk moet worden getiteld "hoe te repareren van een koord met behulp van een slechte underwire/ook, hoe het te repareren permanent een koord," maar, ging ik met wat ik dacht dat zou bieden de beste zoekres
Hoe maak je brand met behulp van slechts een batterij

Hoe maak je brand met behulp van slechts een batterij

leren hoe je brand met behulp van slechts een batterij en staalwol.Het is zeer gemakkelijk te doen. Gewoon kopen een 9 volt batterij en sommige staalwol (hoe fijner hoe beter) en wrijf de batterij op de wol. De wol zal onmiddellijk beginnen te vonk.
Hoe te vouwen van uw eigen sjabloon vanaf de helft een vel papier om de diamant pagina's boek (slechts twee pagina's) te maken

Hoe te vouwen van uw eigen sjabloon vanaf de helft een vel papier om de diamant pagina's boek (slechts twee pagina's) te maken

herethis is mijn eerste instructable en ik zal worden onderwijzen u hoe te vouwen van een sjabloon uit een half A4-papier voor de diamant wisselbare boek stuk. Dit product (het boek) is origanally gemaakt door Kiteman. zijn instructable is hier.Stap
Hoe te winnen van een bullebak

Hoe te winnen van een bullebak

dit instructable krijgt u gedetailleerde instructies over hoe te slaan een bullebak in de meeste situaties.Nu ben ik zeker klein voor mijn leeftijd in het respect dat er geen persoon in het jaar onder me isdat is korter dan mij. Dit maakte me een dui
Hoe te overleven van de eerste dag in Minecraft

Hoe te overleven van de eerste dag in Minecraft

Welkom bij Minecraft!Minecraft is een sandbox-bouw spel waar u zijn geworpen in een wereld en u wilt passen, te verkennen en te overleven. Het kan worden overweldigend en moeilijk te springen recht in, zodat deze tutorial is om u de basis van hoe te
Hoe het bouwen van een houten peddel bord

Hoe het bouwen van een houten peddel bord

Waarom bouwen een houten SUP?Paddle boarding is inherent een zeer schone activiteit, maar als je bedenkt dat de schadelijke chemicaliën, overzeese productie en korte levensduur van schuim paddleboards, dingen er heel anders uitzien. Voor een lange ti
Snijden van een bot naald voor naalbinding

Snijden van een bot naald voor naalbinding

Naalbinding is een zeer oude methode van weven vergelijkbaar maar vóór breien en haken. Het heet soms Viking breien en is een aantal manieren, variërend van nailbinding tot Naaldbinden, gespeld, hoewel die Deense naam werd geïntroduceerd in de jaren