In diesem Artikel werde ich über Bots, nützliche und schädliche, sprechen, damit Sie wissen, welche Bots blockiert werden können und welche nicht. In einem separaten Artikel gehe ich außerdem darauf ein, wie Sie bösartige Bots blockieren sollten, um die Belastung Ihrer Website zu verringern.

Ich werde gelegentlich in den Protokollen stöbern und nach neuen Informationen suchen. Hier sind nur die, die ich auf meinen Websites gefunden habe.

Содержание скрыть

1 Nützliche Bots und Crawler

1.1 Amazonbot

1.2 GrapeshotCrawler/2.0.

1.3 Googlebot/2.1 (Googlebot)

1.4 YandexTurbo/1.0

1.5 YandexBot/3.0

1.6 YandexAccessibilityBot/3.0

1.7 YandexMetrika/2.0 und YandexMetrika/3.0, YandexMetrika/4.0

1.8 YandexPartner/3.0

1.9 ias-va/3.1, ias-jp/3.1

1.10 Bingbot

1.11 Zeitung/0.2.8

1.12 Mail.RU_Bot/2.0, Mail.RU_Bot/Img/2.0

1.13 vkShare

1.14 facebookexternalhit/1.1 Facebot Twitterbot/1.0

1.15 Mediapartner-Google

1.16 FeedBurner/1.0

1.17 CriteoBot/0.1

Nützliche Bots und Crawler

Diese Liste enthält nützliche Bots und Crawler und Informationen über sie. Ich empfehle, sie zu lesen, bevor Sie sie blockieren. Sie können sich auch die Informationen ansehen. Ein für die einen nützlicher Bot oder Crawler kann für andere nutzlos sein.

Amazonbot

Es ist schwer, Amazons Bot als eindeutig nützlich zu bezeichnen. Dieser Crawler dient der Sammlung von Informationen und der Analyse von Seiten für den Amazon Alexa-Dienst. Dieser Dienst dient als Sprachassistent und fungiert auch als Sprachassistent.

Obwohl der Amazonbot-Crawler nützlich sein kann, verursacht er oft zu viel Last auf dem Server und befolgt möglicherweise nicht die Richtlinien in der robots.txt-Datei

Identifiziert sich selbst als: (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Wenn ein bestimmter Bot Probleme verursacht, ist es am besten, ihn zu blockieren.

GrapeshotCrawler/2.0.

Oracle Data Cloud Crawler ist ein automatischer Crawler von Oracle . Er wird benötigt, um Seiteninhalte für Werbetreibende zu analysieren. Er wird in vielen Real-Time-Bidding-Systemen (RTB) und auch in Adsence verwendet, so dass die Blockierung dieses Bots negative Auswirkungen auf Ihre Werbeeinnahmen haben kann.

Identifiziert sich als: (kompatibel; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php).

GrapeshotCrawler/2.0 IP-Adressbereich:

32.145.9.5
132.145.11.125
132.145.14.70
132.145.15.209
132.145.64.33
132.145.66.116
132.145.66.156
132.145.67.248
140.238.81.78
140.238.83.181
140.238.94.137
140.238.95.47
140.238.95.199
152.67.128.219
152.67.137.35
152.67.138.180
148.64.56.64 bis 148.64.56.80.
148.64.56.112 bis 148.64.56.128.

Es wird nicht empfohlen, unnötig zu blockieren, aber wenn Sie keine kontextbezogene Werbung auf Ihrer Website haben, können Sie diesen Crawler loswerden.

Googlebot/2.1 (Googlebot)

Der Google-Suchmaschinenroboter führt die Durchsuchung und Indizierung von Webseiten durch. Sie können es nicht blockieren, da es sich negativ auf Ihre Position in der Google-Suchmaschine auswirken kann.

Identifiziert sich als: (kompatibel; Googlebot/2.1; +http://www.google.com/bot.html)

Wenn dieser Roboter den Server zu sehr belastet, können Sie die Scanhäufigkeit verringern(https://support.google.com/webmasters/answer/48620).

YandexTurbo/1.0

Crawler für Yandex Turbo-Seiten, auf der Website erscheint nur, wenn Turbo-Seiten mit ihm verbunden sind. Umgeht den RSS-Feedfür Turbo Pages.

Identifiziert sich als: (kompatibel; YandexTurbo/1.0; +http://yandex.com/bots).

Das Blockieren von YandexTurbo/1.0 wird nicht empfohlen, da es die Anzeige von Turbo-Seiten in Yandex blockieren kann.

YandexBot/3.0

Yandex-Suchcrawler, Teilzeit-Hauptindexierungsroboter. Führt einen Page Traversal durch und sammelt die darin enthaltenen Daten. Die Sperrung wird nicht empfohlen, da sie sich negativ auf die Position der Website in der Suchmaschine Yandex auswirken kann.

Identifiziert sich als: (kompatibel; YandexBot/3.0; +http://yandex.com/bots).

Wenn dieser Crawler zu viel Last auf dem Server erzeugt, können Sie die Geschwindigkeit der Umgehung es in den Einstellungen von Yandex Webmaster zu begrenzen.

YandexAccessibilityBot/3.0

Prüft, ob die Seiten für die Benutzer verfügbar sind, indem sie heruntergeladen werden. Die Sperrung wird nicht empfohlen, da sie sich negativ auf die Positionen in PS Yandex auswirken kann. Bypass-Geschwindigkeitseinstellungen in Yandex Webmaster werden ignoriert.

YandexMetrika/2.0 und YandexMetrika/3.0, YandexMetrika/4.0

Yandex Metrics-Roboter erscheinen auf der Website nur, wenn Sie sie anschließen. YandexMetrika/4.0 lädt Stile für Yandex Metrics herunter, um sie im Webvisor korrekt anzuzeigen.

YandexPartner/3.0

Lädt Informationen über die Seiten von Websites, die mit dem Yandex Partner Network verbunden sind, analysiert für die Einhaltung von Werbung und Inhalt, überwacht auch die Politik der Zuweisung von Preisen auf bestimmten Seiten.

ias-va/3.1, ias-jp/3.1

Der Such-Crawler ias-va sowie ias-jp/3.1 von ADmantX werden im AdSense-Partnernetzwerk verwendet und können daher nicht blockiert werden, wenn Sie AdSense auf Ihrer Website verwenden. Dieser Crawler sammelt Daten über die Semantik der Website.

Identifiziert als: ias-va/3.1 (+https://www.admantx.com/service-fetcher.html).

ias-jp/3.1 (+https://www.admantx.com/service-fetcher.html).

Bingbot

bingbot/2.0 von einem Crawler einer Suchmaschine von PS Bing, da ich Verkehr von Bing von Zeit zu Zeit haben, kann ich es nicht in die schlechte setzen, die Last auf der Website schafft vergleichbarмvergleichbar mit Google und Yandex Bots., natürlich ist es besser, es nicht zu blockieren, aber wenn es Probleme und Verkehr schafft с Bing Verkehr von Bing, können Sie ihn blockieren.

Иidentifiziert sich als: (kompatibel; bingbot/2.0; +http://www.bing.com/bingbot.htm).

Zeitung/0.2.8

Nach seiner IP zu urteilen , gehört es zu GoogleUserContent , das möglicherweise Inhalte für die Empfehlungssysteme von Google und GoogleNews sammelt . Es ist am besten, ihn nicht zu blockieren.

Mail.RU_Bot/2.0, Mail.RU_Bot/Img/2.0

Der Indexierungs-Crawler der Firma Mail.ru , also Mail.RU_Bot/2.0, ist ein Such-Crawler, der die Seiten einer Website durchforstet und sie in den Suchmaschinen-Index aufnimmt.

Mail.RU_Bot/Img/2.0 ist ein Bot, der Image Traversal durchführt. Ich habe noch keinen Website-Traffic von dort gesehen, aber es ist immer noch am besten, nicht zu blockieren, besonders wenn die Website auf Medieninhalte spezialisiert ist.

vkShare

Ein Bot, der auf eine Website kommt, wenn ein Besucher eine Seite einer beliebigen Website über ein Widget im sozialen Netzwerk Vkontakte teilt. Nimmt Daten wie das Site-Favicon, das Bild der Seite, die nicht freigegeben werden soll, und Daten wie Ankündigung und Kopfzeile auf.

Identifiziert sich als: (kompatibel; vkShare; +http://vk.com/dev/Share).

Wenn vkShare blockiert ist, dann funktioniert das Teilen von Seiten in Vkontakte nicht richtig.

facebookexternalhit/1.1 Facebot Twitterbot/1.0

Facebook- und Twitter-Crawler sammeln, wie der Name schon sagt, Daten aus Ihren erweiterten Beschreibungen sowie Daten von Seiten, um sie anzuzeigen. Es besteht der Verdacht, dass sie auch Inhalte auf die Einhaltung von “Gemeinschaftsnormen” prüft, was aber nicht sicher ist.

Wenn die notwendige korrekte Anzeige der Seiten beim Teilen in diesen sozialen Netzwerken, ist es besser, nicht zu blockieren.

Mediapartner-Google

Ein Bot, der Partnerseiten in Google Adsense überprüft. Erforderlich für die korrekte Verarbeitung von kontextbezogener Werbung. Wenn Sie ein Adsense-Partner sind , können Sie nicht blockieren, da dies Ihre Werbeeinnahmen verringern kann.

FeedBurner/1.0

Werkzeug Google. Liest RSSBänder. Zu welchem Zweck, ist nicht ganz klar. Identifiziert sich selbst als: FeedBurner/1.0 (http://www.FeedBurner.com). Es wird nicht empfohlen, ihn zu blockieren, aber wenn er eine große Last verursacht, kann er blockiert werden.

CriteoBot/0.1

Der Crawler von Criteo. Er soll die Seite daraufhin überprüfen, ob der Inhalt für Ihre Marketingziele relevant ist. Analysieren Sie zum Beispiel einen Artikel nach seinem Inhalt und kategorisieren Sie ihn dann.

Identifiziert sich selbst als: CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/).

Verwendet von der Werbung Netzwerk Yandex, Mail.ru, Yahoo, Rambler so ist es besser CriteoBot/0.1 nicht zu blockieren.

Böse Bots und Crawler

In diesem Teil geht es um bösartige Bots, die blockiert werden sollten, um die Last auf dem Server der Website zu verringern. Seien Sie aber auch vorsichtig, denn einige schlechte Bots können speziell für Ihre Website nützlich sein.

DotBot

Moz Bot, sammelt Statistiken über Websites für den kommerziellen Verkauf für Kunden von Moz Service , kann dieser Bot nur für die Websites, die mit Moz über API arbeiten, nützlich sein, sonst ist es eine unnötige Belastung für Websites.

Identifiziert sich als: (kompatibel; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com).

BLEXBot

Sammelt SEO-Datenüber eine Website für den kommerziellen Verkauf an Kunden. Das erzeugt unnötigen Ballast und macht die Daten der Website auch für Wettbewerber transparent. Eine Sperrung wird empfohlen.

Identifiziert sich als: (kompatibel; BLEXBot/1.0;).

AhrefsBot

Ein Bot von Ahfers , einem SEO-Analyseunternehmen, sammelt Daten über Ihre Website (SEO, Linkbuilding, Traffic) und verkauft sie dann an Kunden. Es ist besser, sie zu sperren, da diese Daten für Ihre Konkurrenten nützlich sein können.

Identifiziert sich als: (kompatibel; AhrefsBot/7.0; +http://ahrefs.com/robot/).

MBCrawler

MBCrawler/1.0 entwickelt von MonitorBacklinks , beschäftigt sich mit der Analyse von Backlinks und stellt eine große Belastung für Websites dar. Sehr aktiv, es wird empfohlen, es zu blockieren, da es eine Menge Informationen über Backlinks von Ihrer Website erhalten kann. Identifiziert sich selbst als: (MBCrawler/1.0 (https://monitorbacklinks.com/robot). Besser zu blockieren.

YaK/1.0

Dies ist ein Bot von LinkFluence. Er sammelt Daten über Websites zur weiteren kommerziellen Nutzung. Dementsprechend können sie von Konkurrenten gegen Sie verwendet werden. Eine Sperrung wird empfohlen.

Identifiziert sich als: (kompatibel; YaK/1.0; http://linkfluence.com/; bot@linkfluence.com).

niraiya.com/2.0 (Prüfroboter für gestohlene Passwörter)

Ein gestohlener Passwort-Überprüfungs-Bot von Nirariya, dem Unternehmen, das einen Passwort-Manager verkauft. Höchstwahrscheinlich wird die Website auf Kennwortlecks überprüft, aber der Bot verursacht unnötige Last. Es ist besser, zu blockieren.

Identifiziert sich wie folgt: (kompatibel; niraiya.com/2.0;)

MegaIndex.ru/2.0

Megaindex.ru Bot, sammelt Daten über Ihre Website, SEO, Backlinks , dann bietet diese Informationen auf einer kommerziellen Basis. Ein Bot kann als bösartig angesehen werden, wenn Sie ihn nicht zur Analyse Ihrer eigenen Website verwenden. Außerdem werden die Daten Ihrer Website für Ihre Wettbewerber transparent.

Identifiziert sich als: (kompatibel; MegaIndex.ru/2.0; +http://megaindex.com/crawler).

MJ12bot

Ein weiterer SEO-Analytics-Bot, wenn er auf einer Website erscheint, wird er sie ernsthaft belasten. Die Sperrung von MJ12bot sollte obligatorisch sein. Dies ist ein Majestic-Bot. Wenn Sie jedoch an Diensten arbeiten, die mit Majestic zusammenhängen, sollten Sie ihn nicht blockieren, z. B. wenn Sie an Linktauschbörsen wie Majestic oder Miralinks arbeiten , da die Majestic-Metriken dort sehr wichtig sind.

SemrushBot

Der SemrushBot des SEO-Dienstes Semrush belastet die Website in regelmäßigen Abständen stark, indem er sie immer wieder umgeht. Die Daten, die dieser Bot sammelt, werden benötigt, um sie kommerziell zu verkaufen.

Dementsprechend werden die von diesem Bot gesammelten Informationen auch Konkurrenten zur Verfügung stehen, was möglicherweise nicht zu Ihrem Vorteil ist.

Cloudfind

Bot eines gleichnamigen Unternehmens, das Affiliate-Partner für Affiliate-Marketing sucht. Häufiger geht auf ausländischen Websites, aber gelegentlich erscheint in der ru-Segment.

GetIntent Crawler

Crowler von GetIntent. Sammelt Daten über Websites zu Marketingzwecken, z. B. zur Analyse von Interessenten für kontextbezogene Werbung. Es ist nicht bekannt, mit welchen Werbeplattformen er zusammenarbeitet, Informationen darüber, ob dieser Crowler mit AdSense oder RSE konnte nicht gefunden werden, also habe ich beschlossen, es zu blockieren.

SafeDNSBot

Ein Bot von SafeDNS, der sich als Schutz vor bösartigen Websites positioniert und in regelmäßigen Abständen Websites auf ihre Sicherheit überprüft. Die Last auf der Website schafft eine kleine Last, so dass Sie nicht blockieren können.

SeopultContentAnalyzer/1.0

Der PromoPult (ehemals SeoPult) Bot sammelt SEO-Dateneiner Website wie Backlinks, Keywords der Website, etc. Dementsprechend werden die gesammelten Daten analysiert und Ihren Mitbewerbern auf kommerzieller Basis zur Verfügung gestellt. Es wird empfohlen, den Bot SeopultContentAnalyzer/1.0 zu blockieren.

serpstatbot/2.0

Bot der berühmten Serpstat-Plattform . Analysiert laufend Websites auf Backlinks. die erhaltenen Informationen für kommerzielle Zwecke verwendet, indem er sie als Teil seines Dienstes zur Verfügung stellt. Dies führt nicht nur zu einer zusätzlichen Belastung des Servers, sondern liefert den Konkurrenten auch mehr Informationen über Ihre Website. Eine Sperrung wird empfohlen.

LinkpadBot

Dienstbotin LinkPad. LinkpadBot sammelt Informationen über das Link-Profil Ihrer Website für kommerzielle Zwecke, dementsprechend können Ihre Konkurrenten Daten über die Links erhalten, die Sie auf der Website platzieren, und Satelliten-Site-Raster werden diskreditiert werden. Es ist besser, diesen Bot zu blockieren.

Schlürfen

Der Crawler von Yahoo! fällt nicht durch besondere Gesetzlosigkeit auf, aber in den GUS gibt es praktisch keinen Traffic von ihm, so dass Slurp Bot nicht viel nützen wird. Es ist besser, ihn zu blockieren, denn manchmal fängt er an, aktiv Websites zu umgehen.

Wenn sich die Website an ein ausländisches Publikum richtet, ist es am besten, sie zu verlassen.

DataForSeoBot/1.0

Bot von DataForSeo Service, beschäftigt sich mit der Überprüfung von Backlinks und der Analyse der Website für weitere kommerzielle Nutzung, zum Beispiel, um SEO-DatenIhrer Website an Konkurrenten zu liefern.

DataForSeoBot/1.0 wird nicht verwendet, es ist besser, es zu blockieren.

Rom Kunde (http://tinyurl.com/64t5n)

Es ist nicht bekannt, welche Art von Crowler dieser Rome Client, fand keine Informationen über sie. Nach der IP zu urteilen, kommen die Anfragen von Amazon AWS. Sie ist genau auf den Feed der Seite ausgerichtet, es ist durchaus möglich, dass sie ihn für ihre eigenen Zwecke hochlädt. Da nicht bekannt ist, um welche Art von Bot es sich handelt und welche Ziele er verfolgt, ist es besser, ihn zu blockieren.

Scrapy

Der Scrapy-Bot wurde entwickelt, um Open-Source-Websites zu umgehen und Daten von ihnen abzurufen. Warum? Ziele können unterschiedlich sein, sowohl gut als auch schlecht. Im Allgemeinen wird dieser Bot am besten blockiert.

FlipboardRSS

Flipboard-Plattform-Bot, nimmt Ihren RSS-Feedfür die Veröffentlichung. Im Allgemeinen nicht bösartig, sogar notwendig, wenn Sie Ihre Inhalte auf Flipboard veröffentlichen , ist das Problem, dass Ihr RSS-Feedauf diesem Dienst von jedem veröffentlicht werden kann. Sie werden von dort keinen Traffic erhalten, aber Sie werden regelmäßig Bot-Traversal erhalten.

FlipboardProxy

Auch von FlipBoard, prüft tatsächlich Ihre Website und analysiert auch, wie es aussieht. Er wird benötigt, um Materialien auf Flipboard anzuzeigen. Wenn es keinen Verkehr von diesem Dienst gibt, können Sie den Bot blockieren.

Proximic Bot

Manchmal kann man diesen Bot im Protokoll sehen, er identifiziert sich als: (kompatibel; proximal; +https://www.comscore.com/Web-Crawler).

Engagiert bei der Abstimmung von Inhalten und kontextbezogenen Anzeigen. Ob es mit AdSense oder RFE arbeitet, ist unbekannt, dementsprechend kann ich es nicht zuordnen nützlich, ist es durchaus möglich, dass dieser Bot einfach sammelt Informationen für Projekte und “Züge” auf Websites Dritter, um genauer zu bestimmen, das Thema der Daten in verschiedenen Sprachen.

ZoominfoBot

Die einzigen Daten in der Identifizierungszeichenfolge sind: (zoominfobot at zoominfo dot com). Sammelt nur geschäftliche Informationen von der Website, zieht in der Regel den gesamten Website-Feed. Für das russischsprachige Publikum ist sie praktisch nutzlos.

sammelt Informationen zu kommerziellen Zwecken, um sie zusammenzufassen und ihren Nutzern auf kommerzieller Basis zur Verfügung zu stellen. Es ist besser, zu blockieren.

SeznamBot/3.2

Crawler der tschechischen Suchmaschine Seznam. Wenn Ihre Website nicht auf Tschechisch ist, ist sie wahrscheinlich nutzlos. Ja, und es gibt keine Besucher auf dieser “Suchmaschine”. Im Allgemeinen habe ich während der gesamten Lebensdauer meiner Website keinen einzigen Besucher von dort gesehen, daher halte ich diesen Bot für schädlich und empfehle, ihn zu blockieren.

Seekport-Raupenfahrzeug

Crowler eines anderen “Underdogs”. Der Verkehr von ihr ist nicht sichtbar, die Aussichten für diese Suchmaschine ist auch nicht, es gibt fast keine Informationen über sie.

Identifiziert sich selbst als: (kompatibel; Seekport Crawler; http://seekport.com/).

Ich denke, dass es wenig Sinn macht, ihre Crowler auf Ihre Website zu lassen, denn es gibt nur wenige Interessenten, insbesondere für die GUS.

Wenn die Materialien dieser Website hilfreich waren und Sie den Blog unterstützen möchten, können Sie das Formular unter dem folgenden Link verwenden: Spenden zur Unterstützung des Blogs