Verwenden von Robots txt. So bearbeiten Sie die Robots-TXT-Datei. Erstellen Sie ganz einfach eine Datei für jede Suchmaschine

Dieser Artikel enthält ein Beispiel für den meiner Meinung nach optimalen Code für die robots.txt-Datei für WordPress, den Sie in Ihren Websites verwenden können.

Erinnern wir uns zunächst einmal Warum brauchen Sie robots.txt?- Die robots.txt-Datei wird ausschließlich von Suchrobotern benötigt, um ihnen zu „sagen“, welche Abschnitte/Seiten der Website sie besuchen sollen und welche nicht. Seiten, deren Besuch gesperrt ist, werden nicht in den Suchmaschinenindex (Yandex, Google usw.) aufgenommen.

Option 1: Optimaler robots.txt-Code für WordPress

Benutzeragent: * Nicht zulassen: /cgi-bin # classic... Nicht zulassen: /? # alle Abfrageparameter auf der Hauptseite nicht zulassen: /wp- # alle WP-Dateien: /wp-json/, /wp-includes, /wp-content/plugins nicht zulassen: *?s= # Suche nicht zulassen: *&s= # Suche Nicht zulassen: /search # Suche Nicht zulassen: /author/ # Autorenarchiv Nicht zulassen: */embed # alle Einbettungen Nicht zulassen: */page/ # alle Arten von Paginierung Erlauben: */uploads # offene Uploads Erlauben: /*/*.js # innerhalb von /wp – (/*/ – für Priorität) Erlauben: /*/*.css # innerhalb von /wp- (/*/ – für Priorität) Erlauben: /wp-*.png # Bilder in Plugins, Cache-Ordner usw . Erlauben: /wp-*.jpg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.jpeg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.gif # Bilder in Plugins, Cache-Ordnern usw. Erlauben: /wp-*.svg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.pdf # Dateien in Plugins, Cache-Ordnern usw. Zulassen: /wp-admin/admin-ajax.php #Disallow: /wp/ # wenn WP im wp-Unterverzeichnis installiert ist Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2.xml # eine andere Datei #Sitemap: http://example.com/sitemap.xml.gz # komprimierte Version (.gz) # Codeversion: 1.1 # Vergessen Sie nicht, „site.ru“ in Ihre Site zu ändern.

Code-Analyse:

    In der Zeile User-agent: * geben wir an, dass alle unten aufgeführten Regeln für alle Suchroboter gelten *. Wenn diese Regeln nur für einen bestimmten Roboter funktionieren sollen, geben wir anstelle von * den Namen des Roboters an (Benutzeragent: Yandex, Benutzeragent: Googlebot).

    In der Zeile Allow: */uploads erlauben wir absichtlich die Indizierung von Seiten, die /uploads enthalten. Diese Regel ist zwingend, weil oben verbieten wir die Indizierung von Seiten, die mit /wp- und beginnen /wp- enthalten /wp-content/uploads. Um die Disallow: /wp- Regel außer Kraft zu setzen, benötigen Sie daher die Zeile Allow: */uploads , denn für Links wie /wp-content/uploads/... Möglicherweise haben wir Bilder, die indiziert werden müssen, und möglicherweise gibt es auch einige heruntergeladene Dateien, die nicht versteckt werden müssen. Zulassen: kann „vor“ oder „nach“ sein. Nicht zulassen: .

    Die verbleibenden Zeilen verbieten Robotern das „Folgen“ von Links, die beginnen mit:

    • Disallow: /cgi-bin – schließt das Skriptverzeichnis auf dem Server
    • Disallow: /feed – schließt den RSS-Feed des Blogs
    • Disallow: /trackback – schließt Benachrichtigungen
    • Disallow: ?s= oder Disallow: *?s= – Suchseiten werden geschlossen
    • Disallow: */page/ – schließt alle Arten der Paginierung
  1. Die Sitemap-Regel: http://example.com/sitemap.xml verweist den Robot auf eine Datei mit einer Sitemap im XML-Format. Wenn Sie eine solche Datei auf Ihrer Site haben, schreiben Sie den vollständigen Pfad dazu. Es kann mehrere solcher Dateien geben, dann geben wir den Pfad zu jeder einzeln an.

    In der Zeile Host: site.ru geben wir den Hauptspiegel der Site an. Wenn eine Site über Spiegel (Kopien der Site auf anderen Domains) verfügt, müssen Sie den Hauptspiegel angeben, damit Yandex sie alle gleichermaßen indizieren kann. Host-Anweisung: Nur Yandex versteht, Google versteht nicht! Wenn die Site unter dem https-Protokoll arbeitet, muss sie in Host: Host: http://example.com angegeben werden

    Aus der Yandex-Dokumentation: „Host ist eine unabhängige Direktive und funktioniert überall in der Datei (intersektional).“ Deshalb platzieren wir es oben oder ganz am Ende der Datei durch eine leere Zeile.

Denn das Vorhandensein offener Feeds ist beispielsweise für Yandex Zen erforderlich, wenn Sie eine Site mit einem Kanal verbinden müssen (danke an den Kommentator „Digital“). Vielleicht werden an anderer Stelle offene Feeds benötigt.

Gleichzeitig haben Feeds ein eigenes Format in den Antwortheadern, dank dessen Suchmaschinen erkennen, dass es sich nicht um eine HTML-Seite, sondern um einen Feed handelt, und diese natürlich irgendwie anders verarbeiten.

Die Host-Direktive wird für Yandex nicht mehr benötigt

Yandex verzichtet komplett auf die Host-Direktive und hat sie durch eine 301-Weiterleitung ersetzt. Der Host kann sicher aus robots.txt entfernt werden. Es ist jedoch wichtig, dass alle Site-Mirror-Server über eine 301-Weiterleitung zur Haupt-Site (Haupt-Mirror) verfügen.

Das ist wichtig: Sortierregeln vor der Verarbeitung

Yandex und Google verarbeiten die Allow- und Disallow-Anweisungen nicht in der Reihenfolge, in der sie angegeben sind, sondern sortieren sie zunächst von der kurzen zur langen Regel und verarbeiten dann die letzte übereinstimmende Regel:

Benutzeragent: * Erlauben: */uploads Nicht zulassen: /wp-

wird gelesen als:

Benutzeragent: * Nicht zulassen: /wp- Zulassen: */uploads

Um die Sortierfunktion schnell zu verstehen und anzuwenden, beachten Sie diese Regel: „Je länger die Regel in robots.txt, desto höher die Priorität.“ Wenn die Länge der Regeln gleich ist, hat die Allow-Direktive Vorrang.

Option 2: Standard robots.txt für WordPress

Ich weiß nicht warum, aber ich bin für die erste Option! Weil es logischer ist: Es ist nicht erforderlich, den Abschnitt vollständig zu duplizieren, um die Host-Direktive für Yandex anzugeben, die intersektional ist (vom Roboter an einer beliebigen Stelle in der Vorlage verstanden wird, ohne anzugeben, auf welchen Roboter sie sich bezieht). Die nicht standardmäßige Allow-Anweisung funktioniert für Yandex und Google. Wenn sie den Upload-Ordner nicht für andere Roboter öffnet, die sie nicht verstehen, führt dies in 99 % der Fälle zu nichts Gefährlichem. Mir ist noch nicht aufgefallen, dass der erste Roboter nicht so funktioniert, wie er sollte.

Der obige Code ist etwas falsch. Vielen Dank an den Kommentator „ “ für den Hinweis auf die Unrichtigkeit, obwohl ich selbst herausfinden musste, was es war. Und das ist, was ich mir ausgedacht habe (ich könnte mich irren):

    Einige Roboter (nicht Yandex und Google) verstehen nicht mehr als zwei Anweisungen: User-agent: und Disallow:

  1. Die Yandex Host:-Anweisung muss nach Disallow: verwendet werden, da einige Roboter (nicht Yandex und Google) sie möglicherweise nicht verstehen und robots.txt im Allgemeinen ablehnen. Der Dokumentation nach zu urteilen, ist es Yandex selbst absolut egal, wo und wie Host: verwendet wird, selbst wenn Sie robots.txt im Allgemeinen mit nur einer Zeile Host: www.site.ru erstellen, um alle Site-Spiegel zusammenzukleben.

3. Sitemap: eine intersektionale Direktive für Yandex und Google und anscheinend auch für viele andere Roboter, also schreiben wir sie am Ende mit einer Leerzeile und sie funktioniert für alle Roboter gleichzeitig.

Basierend auf diesen Änderungen sollte der korrekte Code wie folgt aussehen:

Benutzeragent: Yandex Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-json/ Nicht zulassen: /wp-login.php Nicht zulassen: /wp-register.php Nicht zulassen: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Fügen wir es für uns selbst hinzu

Wenn Sie andere Seiten oder Seitengruppen blockieren müssen, können Sie unten eine Regel (Anweisung) hinzufügen Nicht zulassen:. Beispielsweise müssen wir alle Einträge in einer Kategorie von der Indizierung ausschließen Nachricht, dann vorher Seitenverzeichnis: Fügen Sie eine Regel hinzu:

Nicht zulassen: /news

Es verhindert, dass Roboter solchen Links folgen:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Wenn Sie alle Vorkommen von /news schließen müssen, schreiben Sie:

Nicht zulassen: */news

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Auf der Yandex-Hilfeseite können Sie sich die robots.txt-Anweisungen genauer ansehen (bedenken Sie jedoch, dass nicht alle dort beschriebenen Regeln für Google funktionieren).

Robots.txt-Prüfung und Dokumentation

Ob die vorgegebenen Regeln korrekt funktionieren, können Sie über die folgenden Links überprüfen:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Bei Google erfolgt dies in Suchkonsole. Sie benötigen eine Autorisierung und die Präsenz der Website im Webmaster-Panel ...
  • Dienst zum Erstellen einer robots.txt-Datei: http://pr-cy.ru/robots/
  • Dienst zum Erstellen und Überprüfen von robots.txt: https://seolib.ru/tools/generate/robots/

Ich habe Yandex gefragt...

Ich habe eine technische Frage gestellt. Yandex-Unterstützung bezüglich der intersektionalen Verwendung der Host- und Sitemap-Anweisungen:

Frage:

Guten Tag!
Ich schreibe einen Artikel über robots.txt in meinem Blog. Ich würde gerne eine Antwort auf diese Frage erhalten (ich habe in der Dokumentation kein klares „Ja“ gefunden):

Wenn ich alle Spiegel zusammenkleben muss und dafür die Host-Direktive ganz am Anfang der robots.txt-Datei verwende:

Host: site.ru Benutzeragent: * Nicht zulassen: /asd

Funktioniert Host: site.ru in diesem Beispiel korrekt? Wird es den Robotern anzeigen, dass site.ru der Hauptspiegel ist? Diese. Ich verwende diese Direktive nicht in einem Abschnitt, sondern separat (am Anfang der Datei), ohne anzugeben, auf welchen User-Agent sie sich bezieht.

Ich wollte auch wissen, ob die Sitemap-Direktive innerhalb eines Abschnitts verwendet werden muss oder auch außerhalb verwendet werden kann: zum Beispiel durch eine Leerzeile, nach einem Abschnitt?

Benutzeragent: Yandex Nicht zulassen: /asd Benutzeragent: * Nicht zulassen: /asd Sitemap: http://example.com/sitemap.xml

Wird der Roboter die Sitemap-Anweisung in diesem Beispiel verstehen?

Ich hoffe, von Ihnen eine Antwort zu erhalten, die meine Zweifel ausräumen wird.

Antwort:

Guten Tag!

Die Host- und Sitemap-Anweisungen sind intersektional, sodass sie vom Roboter unabhängig von der Stelle in der robots.txt-Datei verwendet werden, an der sie angegeben werden.

--
Mit freundlichen Grüßen Platon Shchukin
Yandex-Supportdienst

Abschluss

Es ist wichtig zu bedenken, dass Änderungen in robots.txt auf einer bereits funktionierenden Website erst nach mehreren Monaten (2-3 Monaten) sichtbar werden.

Es gibt Gerüchte, dass Google manchmal die Regeln in robots.txt ignorieren und eine Seite in den Index aufnehmen kann, wenn es der Meinung ist, dass die Seite sehr einzigartig und nützlich ist und einfach im Index enthalten sein muss. Andere Gerüchte widerlegen diese Hypothese jedoch dadurch, dass unerfahrene Optimierer die Regeln in robots.txt falsch angeben und so die notwendigen Seiten von der Indexierung ausschließen und unnötige Seiten belassen können. Ich neige eher zur zweiten Annahme ...

Dynamische robots.txt

In WordPress wird die Anfrage nach der robots.txt-Datei separat verarbeitet und es ist überhaupt nicht notwendig, physisch eine robots.txt-Datei im Stammverzeichnis der Site zu erstellen, außerdem wird dies nicht empfohlen, da dies bei diesem Ansatz der Fall sein wird Für Plugins ist es sehr schwierig, diese Datei zu ändern, und dies ist manchmal notwendig.

Lesen Sie in der Funktionsbeschreibung, wie die dynamische Erstellung einer robots.txt-Datei funktioniert. Im Folgenden gebe ich ein Beispiel dafür, wie Sie den Inhalt dieser Datei im laufenden Betrieb über einen Hook ändern können.

Fügen Sie dazu den folgenden Code zu Ihrer Datei „functions.php“ hinzu:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // PHP-Arbeit beenden)

Benutzeragent: * Nicht zulassen: /wp-admin/ Nicht zulassen: /wp-includes/

Crawl-Delay – Timeout für verrückte Roboter (seit 2018 nicht mehr berücksichtigt)

Yandex

Nachdem wir die Briefe der letzten zwei Jahre an unseren Support bezüglich Indexierungsproblemen analysiert haben, haben wir herausgefunden, dass einer der Hauptgründe für das langsame Herunterladen von Dokumenten eine falsch konfigurierte Crawl-Delay-Anweisung in robots.txt ist […] Damit Websitebesitzer nicht mehr Darüber müssen wir uns Gedanken machen und um sicherzustellen, dass alle wirklich notwendigen Website-Seiten schnell angezeigt und in der Suche aktualisiert werden, haben wir uns entschieden, auf die Crawl-Delay-Direktive zu verzichten.

Wenn der Yandex-Roboter die Website wie verrückt scannt und der Server dadurch unnötig belastet wird. Sie können den Roboter bitten, „langsamer“ zu werden.

Dazu müssen Sie die Crawl-delay-Direktive verwenden. Es gibt die Zeit in Sekunden an, die der Roboter im Leerlauf (warten) muss, um jede nachfolgende Seite der Website zu scannen.

Aus Gründen der Kompatibilität mit Robotern, die nicht dem robots.txt-Standard folgen, muss Crawl-delay in der Gruppe (im Abschnitt „User-Agent“) direkt nach „Disallow“ und „Allow“ angegeben werden

Yandex Robot versteht Bruchwerte, zum Beispiel 0,5 (eine halbe Sekunde). Dies garantiert nicht, dass der Suchroboter Ihre Website jede halbe Sekunde besucht, aber es ermöglicht Ihnen, das Crawlen der Website zu beschleunigen.

Benutzeragent: Yandex Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Crawl-Verzögerung: 1,5 # Zeitüberschreitung 1,5 Sekunden Benutzeragent: * Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Erlauben: /wp-* . gif Crawl-Verzögerung: 2 # Timeout 2 Sekunden

Google

Googlebot versteht die Crawl-Delay-Anweisung nicht. Das Timeout für seine Roboter kann im Webmaster-Panel festgelegt werden.

Über den Dienst avi1.ru können Sie jetzt SMM-Werbung in mehr als 7 der beliebtesten sozialen Netzwerke erwerben. Achten Sie gleichzeitig auf die relativ geringen Kosten aller Site-Dienste.

Lesezeit: 7 Minute(n)


Fast jedes Projekt, das zur Prüfung oder Förderung zu uns kommt, hat eine falsche robots.txt-Datei und oft fehlt diese ganz. Dies liegt daran, dass sich jeder beim Erstellen einer Datei von seiner Fantasie leiten lässt und nicht von den Regeln. Lassen Sie uns herausfinden, wie Sie diese Datei richtig zusammenstellen, damit Suchroboter effektiv damit arbeiten können.

Warum müssen Sie robots.txt konfigurieren?

Robots.txt ist eine Datei im Stammverzeichnis einer Website, die Suchmaschinen-Robots mitteilt, auf welche Abschnitte und Seiten der Website sie zugreifen können und auf welche nicht.

Das Einrichten von robots.txt ist ein wichtiger Bestandteil der Suchmaschinenergebnisse; richtig konfigurierte Robots erhöhen auch die Leistung der Website. Das Fehlen von Robots.txt hindert Suchmaschinen nicht daran, Ihre Website zu crawlen und zu indizieren. Wenn Sie diese Datei jedoch nicht haben, können zwei Probleme auftreten:

    Der Suchroboter liest die gesamte Website, was das Crawling-Budget „untergräbt“. Das Crawling-Budget ist die Anzahl der Seiten, die ein Suchroboter in einem bestimmten Zeitraum crawlen kann.

    Ohne eine Robots-Datei hat die Suchmaschine Zugriff auf Entwurfs- und ausgeblendete Seiten sowie auf Hunderte von Seiten, die zur Verwaltung des CMS verwendet werden. Es wird sie indizieren, und wenn es um die notwendigen Seiten geht, die den Besuchern direkten Inhalt bieten, wird das Crawling-Budget „aufgebraucht“ sein.

    Der Index kann die Anmeldeseite der Site und andere Administratorressourcen enthalten, sodass ein Angreifer diese leicht verfolgen und einen DDoS-Angriff durchführen oder die Site hacken kann.

Wie Suchroboter eine Website mit und ohne robots.txt sehen:


Robots.txt-Syntax

Bevor wir beginnen, die Syntax zu verstehen und robots.txt einzurichten, schauen wir uns an, wie die „ideale Datei“ aussehen sollte:


Aber Sie sollten es nicht sofort verwenden. Jede Site erfordert meist eigene Einstellungen, da wir alle eine andere Site-Struktur und ein anderes CMS haben. Sehen wir uns die einzelnen Anweisungen der Reihe nach an.

User-Agent

Benutzeragent – ​​definiert einen Suchroboter, der den in der Datei beschriebenen Anweisungen folgen muss. Wenn Sie alle gleichzeitig ansprechen möchten, verwenden Sie das *-Symbol. Sie können auch einen bestimmten Suchroboter kontaktieren. Zum Beispiel Yandex und Google:


Mithilfe dieser Anweisung erkennt der Roboter, welche Dateien und Ordner nicht indiziert werden dürfen. Wenn Sie möchten, dass Ihre gesamte Website für die Indizierung geöffnet ist, lassen Sie den Wert „Disallow“ leer. Um den gesamten Inhalt der Website nach „Disallow“ auszublenden, geben Sie „/“ ein.

Wir können den Zugriff auf einen bestimmten Ordner, eine bestimmte Datei oder Dateierweiterung verhindern. In unserem Beispiel kontaktieren wir alle Suchroboter und blockieren den Zugriff auf Bitrix, Suchordner und die PDF-Erweiterung.


Erlauben

Zulassen erzwingt die Indizierung von Seiten und Abschnitten der Website. Im obigen Beispiel kontaktieren wir den Google-Suchroboter, blockieren den Zugriff auf Bitrix, den Suchordner und die PDF-Erweiterung. Aber im Bitrix-Ordner erzwingen wir das Öffnen von 3 Ordnern zur Indizierung: Komponenten, JS, Tools.


Host – Site-Spiegel

Eine Mirror-Site ist ein Duplikat der Haupt-Site. Spiegel werden für verschiedene Zwecke eingesetzt: Adressänderung, Sicherheit, Reduzierung der Serverlast usw.

Gastgeber ist eine der wichtigsten Regeln. Wenn diese Regel niedergeschrieben wird, versteht der Roboter, welche Spiegel der Site bei der Indizierung berücksichtigt werden sollen. Diese Anweisung ist für Yandex- und Mail.ru-Roboter erforderlich. Andere Roboter werden diese Regel ignorieren. Gastgeber ist nur einmal registriert!

Für die Protokolle „https://“ und „http://“ ist die Syntax in der robots.txt-Datei unterschiedlich.

Sitemap - Sitemap

Eine Sitemap ist eine Form der Site-Navigation, die dazu dient, Suchmaschinen über neue Seiten zu informieren. Mithilfe der Sitemap-Anweisung zeigen wir dem Roboter „zwangsweise“, wo sich die Karte befindet.


Symbole in robots.txt

In der Datei verwendete Symbole: „/, *, $, #“.


Überprüfung der Funktionalität nach dem Einrichten von robots.txt

Nachdem Sie Robots.txt auf Ihrer Website platziert haben, müssen Sie es im Yandex- und Google-Webmaster hinzufügen und überprüfen.

Yandex-Check:

  1. Folge diesem Link .
  2. Wählen Sie: Indizierungseinstellungen – Robots.txt-Analyse.

Google-Check:

  1. Folge diesem Link .
  2. Wählen Sie: Scannen – Tool zur Inspektion der Robots.txt-Datei.

So können Sie Ihre robots.txt auf Fehler überprüfen und bei Bedarf die notwendigen Anpassungen vornehmen.

  1. Der Inhalt der Datei muss in Großbuchstaben geschrieben werden.
  2. In der Disallow-Direktive muss nur eine Datei oder ein Verzeichnis angegeben werden.
  3. Die Zeile „User-Agent“ darf nicht leer sein.
  4. User-Agent sollte immer vor Disallow stehen.
  5. Vergessen Sie nicht, einen Schrägstrich einzufügen, wenn Sie die Indizierung eines Verzeichnisses deaktivieren müssen.
  6. Bevor Sie eine Datei auf den Server hochladen, überprüfen Sie sie unbedingt auf Syntax- und Rechtschreibfehler.

Ich wünsche Ihnen Erfolg!

Videoüberprüfung von 3 Methoden zum Erstellen und Anpassen der Robots.txt-Datei

Hallo zusammen! Heute möchte ich Ihnen davon erzählen robots.txt-Datei. Ja, im Internet wurde viel darüber geschrieben, aber ehrlich gesagt konnte ich selbst lange Zeit nicht verstehen, wie man die richtige robots.txt erstellt. Am Ende habe ich eines gemacht und es ist auf allen meinen Blogs zu finden. Ich bemerke keine Probleme, robots.txt funktioniert einwandfrei.

Robots.txt für WordPress

Warum brauchen wir eigentlich robots.txt? Die Antwort ist immer noch dieselbe – . Das heißt, das Kompilieren von robots.txt ist einer der Teile der Suchmaschinenoptimierung einer Website (übrigens wird es sehr bald eine Lektion geben, die sich mit der gesamten internen Optimierung einer Website auf WordPress befasst. Tun Sie dies daher nicht Vergessen Sie nicht, RSS zu abonnieren, um keine interessanten Materialien zu verpassen.).

Eine der Funktionen dieser Datei ist Indexierungsverbot unnötige Website-Seiten. Es legt auch die Adresse fest und nennt das Wesentliche Site-Spiegel(Seite mit oder ohne www).

Hinweis: Für Suchmaschinen sind dieselben Websites mit www und ohne www völlig unterschiedliche Websites. Da die Suchmaschinen jedoch feststellen, dass der Inhalt dieser Websites derselbe ist, „kleben“ sie sie zusammen. Daher ist es wichtig, den Hauptspiegel der Site in robots.txt zu registrieren. Um herauszufinden, welche die Hauptseite ist (mit www oder ohne www), geben Sie einfach die Adresse Ihrer Site in den Browser ein, zum Beispiel mit www, wenn Sie automatisch zur gleichen Site ohne www weitergeleitet werden, dann zum Hauptspiegel von Ihre Website ist ohne www. Ich hoffe, ich habe es richtig erklärt.

War:

Nun (nach dem Aufrufen der Website wurden www automatisch gelöscht und die Website wurde ohne www):

Meiner Meinung nach ist dieses wertvolle Exemplar korrekte robots.txt für WordPress Sie können unten sehen.

Korrekt für WordPress

User-Agent: *
Nicht zulassen: /cgi-bin
Nicht zulassen: /wp-admin
Nicht zulassen: /wp-includes

Nicht zulassen: /wp-content/cache
Nicht zulassen: /wp-content/themes
Nicht zulassen: /trackback
Nicht zulassen: */trackback
Nicht zulassen: */*/trackback
Nicht zulassen: */*/feed/*/
Nicht zulassen: */feed
Nicht zulassen: /*?*
Nicht zulassen: /tag

Benutzeragent: Yandex
Nicht zulassen: /cgi-bin
Nicht zulassen: /wp-admin
Nicht zulassen: /wp-includes
Nicht zulassen: /wp-content/plugins
Nicht zulassen: /wp-content/cache
Nicht zulassen: /wp-content/themes
Nicht zulassen: /trackback
Nicht zulassen: */trackback
Nicht zulassen: */*/trackback
Nicht zulassen: */*/feed/*/
Nicht zulassen: */feed
Nicht zulassen: /*?*
Nicht zulassen: /tag
Host: Website
Sitemap: https://site/sitemap.xml.gz
Sitemap: https://site/sitemap.xml

Sie müssen alles oben Gesagte in ein Textdokument mit der Erweiterung .txt kopieren, sodass der Dateiname robots.txt lautet. Dieses Textdokument können Sie beispielsweise mit dem Programm erstellen. Bitte vergessen Sie es nicht Ändern Sie die letzten drei Zeilen Adresse an die Adresse Ihrer Website. Die robots.txt-Datei sollte sich im Stammverzeichnis des Blogs befinden, also im selben Ordner, in dem sich die Ordner wp-content, wp-admin usw. befinden.

Wer zu faul ist, diese Textdatei zu erstellen, kann auch dort einfach 3 Zeilen korrigieren.

Ich möchte darauf hinweisen, dass Sie sich nicht mit den unten besprochenen technischen Teilen überfordern müssen. Ich vermittle ihnen sozusagen „Wissen“, einen Überblick, damit sie wissen, was nötig ist und warum.

Also die Zeile:

User-Agent

legt Regeln für einige Suchmaschinen fest: „*“ (Sternchen) gibt beispielsweise an, dass die Regeln für alle Suchmaschinen gelten und was unten steht

Benutzeragent: Yandex

bedeutet, dass diese Regeln nur für Yandex gelten.

Nicht zulassen
Hier „werfen“ Sie Abschnitte ein, die NICHT von Suchmaschinen indiziert werden müssen. Zum Beispiel habe ich auf einer Seite ein Duplikat von Artikeln (Wiederholung) mit regulären Artikeln, und das Duplizieren von Seiten wirkt sich negativ auf die Suchmaschinenwerbung aus. Daher ist es äußerst wünschenswert, dass diese Sektoren von der Indizierung ausgeschlossen werden müssen Was wir mit dieser Regel machen:

Nicht zulassen: /tag

In der oben angegebenen robots.txt-Datei sind also fast alle unnötigen Abschnitte einer WordPress-Site von der Indizierung ausgeschlossen, das heißt, Sie lassen einfach alles so, wie es ist.

Gastgeber

Hier stellen wir den Hauptspiegel der Site ein, über den ich oben gesprochen habe.

Seitenverzeichnis

In den letzten beiden Zeilen geben wir die Adresse von bis zu zwei Sitemaps an, die mit erstellt wurden.

Mögliche Probleme

Gehen Sie zum Abschnitt Indizierungseinstellungen –> Robots.txt-Analyse:

Klicken Sie dort bereits auf die Schaltfläche „Robots.txt von der Website laden“ und dann auf die Schaltfläche „Überprüfen“:

Wenn Sie etwa die folgende Meldung sehen, bedeutet das, dass Sie die richtige robots.txt-Datei für Yandex haben:

Sie können auch die Adresse eines beliebigen Artikels auf der Website zur „Liste der URLs“ hinzufügen, um zu prüfen, ob robots.txt die Indizierung dieser Seite verbietet:

Wie Sie sehen, sehen wir kein Verbot der Seitenindizierung aus robots.txt, was bedeutet, dass alles in Ordnung ist :).

Ich hoffe, dass Sie keine weiteren Fragen haben, z. B. wie man robots.txt erstellt oder wie man diese Datei korrekt macht. In dieser Lektion habe ich versucht, Ihnen das Richtige zu zeigen Beispiel robots.txt:

Bis bald!

P.s. Was ist vor kurzem passiert? 🙂

Eine Sitemap vereinfacht die Indexierung Ihres Blogs erheblich. Jede Website und jedes Blog muss über eine Sitemap verfügen. Aber auch jede Website und jedes Blog sollte eine Datei haben Roboter.txt. Die robots.txt-Datei enthält eine Reihe von Anweisungen für Suchroboter. Man könnte sagen, dass dies die Verhaltensregeln für Suchroboter in Ihrem Blog sind. Diese Datei enthält auch den Pfad zur Sitemap Ihres Blogs. Und tatsächlich verschwendet der Suchroboter mit einer korrekt zusammengestellten robots.txt-Datei keine wertvolle Zeit mit der Suche nach einer Sitemap und der Indizierung unnötiger Dateien.

Was ist die robots.txt-Datei?

robots.txt– Dies ist eine Textdatei, die in einem normalen „Notizblock“ im Stammverzeichnis Ihres Blogs erstellt werden kann und Anweisungen für Suchroboter enthält.

Diese Anweisungen verhindern, dass Suchroboter zufällig alle Dateien Ihres Gottes indizieren, und konzentrieren sich darauf, genau die Seiten zu indizieren, die in den Suchergebnissen enthalten sein sollen.

Mit dieser Datei können Sie die Indizierung von WordPress-Engine-Dateien verhindern. Oder sagen wir, der geheime Bereich Ihres Blogs. Sie können den Pfad zu Ihrer Blog-Map und dem Hauptspiegel Ihres Blogs angeben. Hier meine ich Ihren Domainnamen mit www und ohne www.

Site-Indexierung mit und ohne robots.txt

Dieser Screenshot zeigt deutlich, wie die robots.txt-Datei die Indizierung bestimmter Ordner auf der Website verhindert. Ohne eine Datei steht dem Roboter alles auf Ihrer Website zur Verfügung.

Grundlegende Anweisungen der robots.txt-Datei

Um die Anweisungen zu verstehen, die die robots.txt-Datei enthält, müssen Sie die grundlegenden Befehle (Anweisungen) verstehen.

User-Agent– Dieser Befehl zeigt den Roboterzugriff auf Ihre Site an. Mit dieser Direktive können Sie für jeden Roboter individuell Anweisungen erstellen.

Benutzeragent: Yandex – Regeln für den Yandex-Roboter

User-Agent: * – Regeln für alle Roboter

Nicht zulassen und zulassen– Verbots- und Erlaubnisverfügungen. Mit der Disallow-Direktive ist die Indizierung verboten, während Allow sie erlaubt.

Beispiel für ein Verbot:

User-Agent: *

Disallow: / - Verbot der gesamten Website.

Benutzeragent: Yandex

Disallow: /admin – verhindert, dass der Yandex-Roboter auf Seiten im Admin-Ordner zugreift.

Lösungsbeispiel:

User-Agent: *

Erlauben: /foto

Nicht zulassen: / – Verbot der gesamten Website, mit Ausnahme der Seiten im Fotoordner.

Notiz! Die Disallow-Direktive: ohne Parameter erlaubt alles, und die Allow-Direktive: ohne Parameter verbietet alles. Und es sollte keine Allow-Anweisung ohne Disallow geben.

Seitenverzeichnis– Gibt den Pfad zur Sitemap im XML-Format an.

Sitemap: https://site/sitemap.xml.gz

Sitemap: https://site/sitemap.xml

Gastgeber– Die Direktive definiert den Hauptspiegel Ihres Blogs. Es wird angenommen, dass diese Richtlinie nur für Yandex-Roboter vorgeschrieben ist. Diese Anweisung sollte ganz am Ende der robots.txt-Datei angegeben werden.

Benutzeragent: Yandex

Nicht zulassen: /wp-includes

Host: Website

Notiz! Die Hauptspiegeladresse wird ohne Angabe des Hypertext-Übertragungsprotokolls (http://) angegeben.

So erstellen Sie robots.txt

Da wir nun mit den grundlegenden Befehlen der robots.txt-Datei vertraut sind, können wir mit der Erstellung unserer Datei beginnen. Um eine eigene robots.txt-Datei mit Ihren individuellen Einstellungen zu erstellen, müssen Sie die Struktur Ihres Blogs kennen.

Wir werden uns mit der Erstellung einer standardmäßigen (universellen) robots.txt-Datei für ein WordPress-Blog befassen. Sie können jederzeit Ihre eigenen Einstellungen hinzufügen.

Also lasst uns anfangen. Wir benötigen einen normalen „Notizblock“, der in jedem Windows-Betriebssystem zu finden ist. Oder TextEdit unter MacOS.

Öffnen Sie ein neues Dokument und fügen Sie die folgenden Befehle ein:

Benutzeragent: * Nicht zulassen: Sitemap: https://site/sitemap.xml.gz Sitemap: https://site/sitemap.xml Benutzeragent: Yandex Nicht zulassen: /wp-login.php Nicht zulassen: /wp-register .php Nicht zulassen: /cgi-bin Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /xmlrpc.php Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/cache Nicht zulassen: /wp-content/themes Nicht zulassen: /wp-content/sprachen ​​​​Nicht zulassen: /category/*/* Nicht zulassen: /trackback Nicht zulassen: */trackback Nicht zulassen: */*/trackback Nicht zulassen: /tag/ Nicht zulassen: /feed/ Nicht zulassen: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: Site

Vergessen Sie nicht, die Parameter der Sitemap- und Host-Anweisungen durch Ihre eigenen zu ersetzen.

Wichtig! Beim Schreiben von Befehlen ist nur ein Leerzeichen zulässig. Zwischen Direktive und Parameter. Unter keinen Umständen sollten Sie nach einem Parameter oder einfach irgendwo Leerzeichen einfügen.

Beispiel: Nicht zulassen:<пробел>/füttern/

Diese Beispieldatei „robots.txt“ ist universell und passt zu jedem WordPress-Blog mit CNC-URLs. Lesen Sie, was CNC ist. Wenn Sie die CNC nicht konfiguriert haben, empfehle ich, Disallow: /*?* Disallow: /?s= aus der vorgeschlagenen Datei zu entfernen

Hochladen der robots.txt-Datei auf den Server

Der beste Weg für diese Art der Manipulation ist eine FTP-Verbindung. Lesen Sie, wie Sie eine FTP-Verbindung für TotolCommander einrichten. Oder Sie können einen Dateimanager auf Ihrem Hosting verwenden.

Ich werde eine FTP-Verbindung auf TotolCommander verwenden.

Netzwerk > Mit FTP-Server verbinden.

Wählen Sie die gewünschte Verbindung aus und klicken Sie auf die Schaltfläche „Verbinden“.

Öffnen Sie das Stammverzeichnis des Blogs und kopieren Sie unsere robots.txt-Datei, indem Sie die Taste F5 drücken.

Kopieren von robots.txt auf den Server

Jetzt führt Ihre robots.txt-Datei ihre ordnungsgemäßen Funktionen aus. Ich empfehle jedoch trotzdem, robots.txt zu analysieren, um sicherzustellen, dass keine Fehler vorliegen.

Dazu müssen Sie sich bei Ihrem Yandex- oder Google-Webmaster-Konto anmelden. Schauen wir uns das Beispiel von Yandex an. Hier können Sie eine Analyse auch ohne Bestätigung Ihrer Rechte an der Seite durchführen. Sie benötigen lediglich ein Yandex-Postfach.

Öffnen Sie das Yandex.webmaster-Konto.

Öffnen Sie auf der Hauptseite des Webmaster-Kontos den Link "ÜberprüfenRoboter.txt".

Zur Analyse müssen Sie die URL-Adresse Ihres Blogs eingeben und auf „ Herunterladen Roboter.txt von der Website" Sobald die Datei heruntergeladen ist, klicken Sie auf die Schaltfläche "Überprüfen".

Das Fehlen von Warneinträgen weist darauf hin, dass die robots.txt-Datei korrekt erstellt wurde.

Das Ergebnis wird im Folgenden präsentiert. Wo klar und verständlich ist, welche Materialien Suchrobotern gezeigt werden dürfen und welche verboten sind.

Das Ergebnis der Analyse der robots.txt-Datei

Hier können Sie Änderungen an robots.txt vornehmen und experimentieren, bis Sie das gewünschte Ergebnis erhalten. Bedenken Sie jedoch, dass sich die Datei in Ihrem Blog nicht ändert. Dazu müssen Sie das hier erhaltene Ergebnis in einen Notizblock kopieren, es als robots.txt speichern und den Blog zu sich kopieren.

Wenn Sie sich übrigens fragen, wie die robots.txt-Datei auf dem Blog von jemandem aussieht, können Sie sie sich einfach ansehen. Dazu müssen Sie lediglich /robots.txt zur Site-Adresse hinzufügen

https://site/robots.txt

Jetzt ist Ihre robots.txt fertig. Und denken Sie daran: Zögern Sie nicht mit der Erstellung der robots.txt-Datei, die Indizierung Ihres Blogs hängt davon ab.

Wenn Sie die korrekte robots.txt erstellen und gleichzeitig sicherstellen möchten, dass nur die benötigten Seiten in den Suchmaschinenindex aufgenommen werden, dann kann dies mithilfe des Plugins automatisch erfolgen.

Das ist alles was ich habe. Ich wünsche Ihnen allen viel Erfolg. Wenn Sie Fragen oder Ergänzungen haben, schreiben Sie in die Kommentare.

Bis bald.

Mit freundlichen Grüßen, Maxim Zaitsev.

Abonnieren Sie neue Artikel!

Der Zweck dieses Leitfadens besteht darin, Webmastern und Administratoren bei der Verwendung von robots.txt zu helfen.

Einführung

Der Roboter-Ausnahmestandard ist im Kern sehr einfach. Kurz gesagt funktioniert es so:

Wenn ein Roboter, der dem Standard folgt, eine Website besucht, fordert er zunächst eine Datei namens „/robots.txt“ an. Wenn eine solche Datei gefunden wird, durchsucht der Roboter sie nach Anweisungen, die die Indizierung bestimmter Teile der Website verbieten.

Wo soll die robots.txt-Datei abgelegt werden?

Der Roboter fordert einfach die URL „/robots.txt“ auf Ihrer Site an; die Site ist in diesem Fall ein bestimmter Host an einem bestimmten Port.

Seiten-URL URL der Robots.txt-Datei
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Es darf nur eine Datei „/robots.txt“ auf der Site vorhanden sein. Beispielsweise sollten Sie die robots.txt-Datei nicht in Benutzerunterverzeichnissen ablegen, da Robots dort sowieso nicht danach suchen. Wenn Sie robots.txt-Dateien in Unterverzeichnissen erstellen möchten, benötigen Sie eine Möglichkeit, diese programmgesteuert in einer einzigen robots.txt-Datei im Stammverzeichnis der Site zu sammeln. Sie können verwenden.

Denken Sie daran, dass bei URLs die Groß-/Kleinschreibung beachtet wird und der Dateiname „/robots.txt“ vollständig in Kleinbuchstaben geschrieben werden muss.

Falscher Speicherort von robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Die Datei befindet sich nicht im Stammverzeichnis der Site
ftp://ftp.w3.com/robots.txt Roboter indizieren FTP nicht
http://www.w3.org/Robots.txt Der Dateiname ist nicht in Kleinbuchstaben geschrieben

Wie Sie sehen, sollte die robots.txt-Datei ausschließlich im Stammverzeichnis der Site abgelegt werden.

Was in die robots.txt-Datei geschrieben werden soll

Die robots.txt-Datei enthält normalerweise etwas wie:

User-Agent: *
Nicht zulassen: /cgi-bin/
Nicht zulassen: /tmp/
Nicht zulassen: /~joe/

In diesem Beispiel ist die Indizierung von drei Verzeichnissen verboten.

Beachten Sie, dass jedes Verzeichnis in einer separaten Zeile aufgeführt ist – Sie können nicht „Disallow: /cgi-bin/ /tmp/“ schreiben. Sie können eine Disallow- oder User-Agent-Anweisung auch nicht in mehrere Zeilen aufteilen, weil Zeilenumbrüche werden verwendet, um Anweisungen voneinander zu trennen.

Reguläre Ausdrücke und Platzhalter können ebenfalls nicht verwendet werden. Das „Sternchen“ (*) in der User-Agent-Anweisung bedeutet „jeder Roboter“. Anweisungen wie „Disallow: *.gif“ oder „User-agent: Ya*“ werden nicht unterstützt.

Die spezifischen Anweisungen in robots.txt hängen von Ihrer Website ab und davon, was Sie verhindern möchten, dass sie indiziert wird. Hier sind einige Beispiele:

Blockieren Sie die Indexierung der gesamten Website durch alle Robots

User-Agent: *
Nicht zulassen: /

Erlauben Sie allen Robots, die gesamte Website zu indizieren

User-Agent: *
Nicht zulassen:

Oder Sie erstellen einfach eine leere Datei „/robots.txt“.

Blockieren Sie nur einige Verzeichnisse von der Indizierung

User-Agent: *
Nicht zulassen: /cgi-bin/
Nicht zulassen: /tmp/
Nicht zulassen: /privat/

Verhindern Sie die Site-Indizierung für nur einen Robot

Benutzeragent: BadBot
Nicht zulassen: /

Erlauben Sie einem Roboter, die Site zu indizieren, und verweigern Sie allen anderen

Benutzeragent: Yandex
Nicht zulassen:

User-Agent: *
Nicht zulassen: /

Verweigern Sie allen Dateien bis auf eine die Indizierung

Das ist ziemlich schwierig, weil... Es gibt keine „Zulassen“-Anweisung. Stattdessen können Sie alle Dateien außer der Datei, die Sie für die Indizierung zulassen möchten, in ein Unterverzeichnis verschieben und die Indizierung verhindern:

User-Agent: *
Nicht zulassen: /docs/

Oder Sie können alle von der Indizierung ausgeschlossenen Dateien verbieten:

User-Agent: *
Nicht zulassen: /private.html
Nicht zulassen: /foo.html
Nicht zulassen: /bar.html