Korzystanie z pliku robots txt. Jak edytować plik txt pliku robots. Z łatwością utwórz plik dla dowolnej wyszukiwarki

W tym artykule znajdziesz przykład optymalnego, moim zdaniem, kodu pliku robots.txt dla WordPressa, który możesz wykorzystać w swoich witrynach internetowych.

Na początek pamiętajmy dlaczego potrzebujesz pliku robots.txt- plik robots.txt potrzebny jest wyłącznie robotom wyszukującym, aby „mówiły” im, które sekcje/strony serwisu mają odwiedzić, a których nie. Strony, które są zamknięte przed odwiedzaniem, nie zostaną uwzględnione w indeksie wyszukiwarki (Yandex, Google itp.).

Opcja 1: Optymalny kod robots.txt dla WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # wszystkie parametry zapytania na stronie głównej Disallow: /wp- # wszystkie pliki WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Zabroń: /search # search Zabroń: /author/ # archiwum autora Zabroń: */embed # wszystkie osadzanie Zabroń: */page/ # wszystkie typy stronicowania Zezwalaj: */uploads # otwieranie przesyłania Zezwalaj: /*/*.js # wewnątrz /wp - (/*/ - dla priorytetu) Zezwalaj: /*/*.css # wewnątrz /wp- (/*/ - dla priorytetu) Zezwalaj: /wp-*.png # obrazy we wtyczkach, folderze pamięci podręcznej itp. . Zezwalaj na: /wp-*.jpg # obrazy we wtyczkach, folderze pamięci podręcznej itp. Zezwalaj na: /wp-*.jpeg # obrazy we wtyczkach, folderze pamięci podręcznej itp. Zezwalaj na: /wp-*.gif # obrazy we wtyczkach, folderze pamięci podręcznej itp. Zezwalaj na: /wp-*.svg # obrazy we wtyczkach, folderze pamięci podręcznej itp. Zezwalaj na: /wp-*.pdf # pliki we wtyczkach, folderze pamięci podręcznej itp. Zezwalaj: /wp-admin/admin-ajax.php #Disallow: /wp/ # gdy WP jest zainstalowany w podkatalogu wp Mapa witryny: http://example.com/sitemap.xml Mapa witryny: http://example.com/ sitemap2.xml # inny plik #Sitemap: http://example.com/sitemap.xml.gz # wersja skompresowana (.gz) # Wersja kodu: 1.1 # Nie zapomnij zmienić `site.ru` na swoją witrynę.

Analiza kodu:

    W wierszu User-agent: * wskazujemy, że wszystkie poniższe reguły będą działać dla wszystkich robotów wyszukiwania *. Jeśli chcesz, aby te reguły działały tylko dla jednego konkretnego robota, zamiast * podajemy nazwę robota (User-agent: Yandex, User-agent: Googlebot).

    W wierszu Zezwalaj: */uploads celowo zezwalamy na indeksowanie stron zawierających /uploads. Zasada ta jest obowiązkowa, ponieważ powyżej zabraniamy indeksowania stron zaczynających się od /wp- i /wp- zawarte w /wp-content/uploads. Dlatego, aby zastąpić regułę Disallow: /wp-, potrzebujesz linii Zezwalaj: */uploads , ponieważ dla linków takich jak /wp-content/uploads/... Być może mamy zdjęcia wymagające zaindeksowania, a także mogą istnieć pobrane pliki, których nie trzeba ukrywać. Zezwalaj: może być „przed” lub „po”. Nie zezwalaj: .

    Pozostałe linie zabraniają robotom „podążania” za linkami zaczynającymi się od:

    • Disallow: /cgi-bin – zamyka katalog skryptów na serwerze
    • Disallow: /feed - zamyka kanał RSS bloga
    • Disallow: /trackback – zamyka powiadomienia
    • Disallow: ?s= lub Disallow: *?s= - zamyka strony wyszukiwania
    • Disallow: */page/ - zamyka wszystkie typy paginacji
  1. Reguła mapy witryny: http://example.com/sitemap.xml wskazuje robotowi plik z mapą witryny w formacie XML. Jeśli masz taki plik na swojej stronie, wpisz do niego pełną ścieżkę. Takich plików może być kilka, wtedy wskazujemy ścieżkę do każdego z osobna.

    W wierszu Host: site.ru wskazujemy główne lustro witryny. Jeśli witryna ma kopie lustrzane (kopie witryny w innych domenach), to aby Yandex mógł je wszystkie jednakowo zaindeksować, musisz określić główne lustro. Dyrektywa gospodarza: tylko Yandex rozumie, Google nie rozumie! Jeśli witryna działa w oparciu o protokół https, to należy go określić w polu Host: Host: http://example.com

    Z dokumentacji Yandex: „Host jest niezależną dyrektywą i działa w dowolnym miejscu pliku (przekrojowo).” Dlatego umieszczamy go na górze lub na samym końcu pliku, poprzez pustą linię.

Ponieważ obecność otwartych kanałów jest wymagana na przykład w przypadku Yandex Zen, gdy trzeba połączyć witrynę z kanałem (dzięki komentatorowi „Digital”). Być może otwarte kanały są potrzebne gdzie indziej.

Jednocześnie kanały mają swój własny format w nagłówkach odpowiedzi, dzięki czemu wyszukiwarki rozumieją, że nie jest to strona HTML, ale kanał i oczywiście przetwarzają go w jakiś inny sposób.

Dyrektywa Host nie jest już potrzebna Yandexowi

Yandex całkowicie rezygnuje z dyrektywy Host i zastępuje ją przekierowaniem 301. Host można bezpiecznie usunąć z pliku robots.txt. Ważne jest jednak, aby wszystkie serwery lustrzane witryn miały przekierowanie 301 do witryny głównej (główne lustro).

To ważne: zasady sortowania przed przetwarzaniem

Yandex i Google przetwarzają dyrektywy Zezwalaj i Nie zezwalaj nie w kolejności, w jakiej zostały określone, ale najpierw sortuj je od reguły krótkiej do długiej, a następnie przetwarzaj ostatnią pasującą regułę:

Klient użytkownika: * Zezwól: */uploads Zabroń: /wp-

będzie czytane jako:

Klient użytkownika: * Disallow: /wp- Zezwól: */uploads

Aby szybko zrozumieć i zastosować funkcję sortowania, pamiętaj o tej zasadzie: „im dłuższa reguła w pliku robots.txt, tym wyższy priorytet ma. Jeśli długość reguł jest taka sama, priorytet ma dyrektywa Zezwalaj.

Opcja 2: Standardowy plik robots.txt dla WordPress

Nie wiem dlaczego, ale jestem za pierwszą opcją! Ponieważ jest to bardziej logiczne - nie ma potrzeby całkowitego dublowania sekcji, aby wskazać dyrektywę Host dla Yandex, która jest intersekcjonalna (rozumiana przez robota w dowolnym miejscu szablonu, bez wskazania, którego robota dotyczy). Jeśli chodzi o niestandardową dyrektywę Zezwól, działa ona w przypadku Yandex i Google, a jeśli nie otworzy folderu przesyłania dla innych robotów, które jej nie rozumieją, w 99% przypadków nie będzie to pociągać za sobą niczego niebezpiecznego. Jeszcze nie zauważyłem, żeby pierwsze roboty nie działały tak, jak powinny.

Powyższy kod jest trochę niepoprawny. Dziękuję komentatorowi „ ” za wskazanie nieprawidłowości, choć sam musiałem domyślić się, o co chodziło. A oto co mi wyszło (mogę się mylić):

    Niektóre roboty (nie Yandex i Google) nie rozumieją więcej niż 2 dyrektyw: User-agent: i Disallow:

  1. Dyrektywę Yandex Host: należy zastosować po Disallow:, ponieważ niektóre roboty (nie Yandex i Google) mogą jej nie zrozumieć i ogólnie odrzucić plik robots.txt. Sam Yandex, sądząc po dokumentacji, absolutnie nie dba o to, gdzie i jak używać Host:, nawet jeśli generalnie tworzysz plik robots.txt z tylko jedną linijką Host: www.site.ru, aby skleić ze sobą wszystkie lustrzane kopie witryny.

3. Mapa witryny: dyrektywa przekrojowa dla Yandex i Google i najwyraźniej także dla wielu innych robotów, więc zapisujemy ją na końcu pustą linią i będzie działać dla wszystkich robotów na raz.

Na podstawie tych poprawek poprawny kod powinien wyglądać następująco:

Agent użytkownika: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Zezwól: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Zezwól: /wp-admin/admin-ajax.php Mapa witryny: http://example.com/sitemap.xml

Dodajmy to od siebie

Jeśli chcesz zablokować inne strony lub grupy stron, możesz dodać regułę (dyrektywę) poniżej Uniemożliwić:. Na przykład musimy zamknąć wszystkie wpisy w kategorii z indeksowania Aktualności, potem wcześniej Mapa witryny: dodaj regułę:

Nie zezwalaj: /news

Uniemożliwia robotom podążanie za takimi linkami:

  • http://example.com/wiadomości
  • http://example.com/news/drugoe-nazvanie/

Jeśli chcesz zamknąć jakiekolwiek wystąpienia /news , napisz:

Nie zezwalaj: */news

  • http://example.com/wiadomości
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/kategoria/newsletter-nazvanie.html

Możesz bardziej szczegółowo zapoznać się z dyrektywami pliku robots.txt na stronie pomocy Yandex (pamiętaj jednak, że nie wszystkie opisane tam zasady działają w przypadku Google).

Kontrola i dokumentacja pliku Robots.txt

Możesz sprawdzić, czy określone reguły działają poprawnie, korzystając z poniższych linków:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • W Google robi się to w Konsola wyszukiwania. Potrzebujesz autoryzacji i obecności strony w panelu webmastera...
  • Usługa tworzenia pliku robots.txt: http://pr-cy.ru/robots/
  • Usługa tworzenia i sprawdzania pliku robots.txt: https://seolib.ru/tools/generate/robots/

Zapytałem Yandexa...

Zadałem pytanie w technice. Wsparcie Yandex w zakresie przekrojowego stosowania dyrektyw dotyczących hosta i mapy witryny:

Pytanie:

Cześć!
Piszę artykuł o pliku robots.txt na moim blogu. Chciałbym otrzymać odpowiedź na to pytanie (w dokumentacji nie znalazłem jednoznacznego „tak”):

Jeśli muszę skleić wszystkie lusterka i w tym celu używam dyrektywy Host na samym początku pliku robots.txt:

Host: site.ru Klient użytkownika: * Nie zezwalaj: /asd

Czy Host: site.ru będzie działać poprawnie w tym przykładzie? Czy wskaże robotom, że site.ru jest głównym lustrem? Te. Używam tej dyrektywy nie w sekcji, ale osobno (na początku pliku), nie wskazując, do którego klienta użytkownika się odnosi.

Chciałem się również dowiedzieć, czy dyrektywę dotyczącą mapy witryny należy stosować wewnątrz sekcji, czy można jej używać na zewnątrz, na przykład poprzez pustą linię po sekcji?

Agent użytkownika: Yandex Disallow: /asd User-agent: * Disallow: /asd Mapa witryny: http://example.com/sitemap.xml

Czy robot zrozumie dyrektywę dotyczącą mapy witryny w tym przykładzie?

Mam nadzieję, że otrzymam od Państwa odpowiedź, która rozwieje moje wątpliwości.

Odpowiedź:

Cześć!

Dyrektywy Host i Sitemap mają charakter przecinający się, dlatego będą używane przez robota niezależnie od miejsca w pliku robots.txt, w którym są określone.

--
Z poważaniem Platon Szczukin
Usługa wsparcia Yandex

Wniosek

Należy pamiętać, że zmiany w pliku robots.txt na już działającej stronie będą zauważalne dopiero po kilku miesiącach (2-3 miesiącach).

Krążą pogłoski, że Google może czasami zignorować reguły zawarte w pliku robots.txt i umieścić stronę w indeksie, jeśli uzna, że ​​jest ona bardzo wyjątkowa i użyteczna i po prostu musi znaleźć się w indeksie. Jednak inne plotki obalają tę hipotezę faktem, że niedoświadczeni optymalizatorzy mogą błędnie określić reguły w pliku robots.txt i w ten sposób zamknąć niezbędne strony z indeksowania i pozostawić niepotrzebne. Bardziej skłaniam się do drugiego założenia...

Dynamiczny plik robots.txt

W WordPressie żądanie pliku robots.txt jest przetwarzane osobno i wcale nie jest konieczne fizyczne tworzenie pliku robots.txt w katalogu głównym witryny, ponadto nie jest to zalecane, ponieważ przy takim podejściu będzie bardzo trudno wtyczkom zmienić ten plik, a czasami jest to konieczne.

O tym jak działa dynamiczne tworzenie pliku robots.txt przeczytasz w opisie funkcji, a poniżej podam przykład jak możesz zmieniać zawartość tego pliku na bieżąco, poprzez hook.

Aby to zrobić, dodaj następujący kod do plikufunction.php:

Add_action("do_robotstxt", "mój_robotstxt"); funkcja my_robotstxt())( $lines = [ "Agent użytkownika: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // zakończ pracę PHP)

Agent użytkownika: * Disallow: /wp-admin/ Disallow: /wp-includes/

Opóźnienie indeksowania – przekroczenie limitu czasu dla szalonych robotów (nie brane pod uwagę od 2018 r.)

Yandex

Po przeanalizowaniu listów do naszego wsparcia z ostatnich dwóch lat dotyczących problemów z indeksowaniem odkryliśmy, że jedną z głównych przyczyn powolnego pobierania dokumentów jest nieprawidłowo skonfigurowana dyrektywa opóźnienia indeksowania w pliku robots.txt […] Aby właściciele witryn nie byli już dłużej musimy się tym martwić i aby mieć pewność, że wszystkie naprawdę niezbędne strony internetowe pojawią się i zostaną szybko zaktualizowane w wyszukiwarce, zdecydowaliśmy się porzucić dyrektywę dotyczącą opóźnienia indeksowania.

Kiedy robot Yandex skanuje witrynę jak szalony, co powoduje niepotrzebne obciążenie serwera. Możesz poprosić robota, aby „zwolnił”.

Aby to zrobić, musisz użyć dyrektywy Crawl-delay. Wskazuje czas w sekundach, przez jaki robot musi bezczynnie (czekać), aby przeskanować każdą kolejną stronę serwisu.

Aby zapewnić zgodność z robotami, które nie są zgodne ze standardem pliku robots.txt, w grupie (w sekcji User-Agent) należy określić opóźnienie indeksowania bezpośrednio po opcjach Disallow i Zezwalaj

Yandex Robot rozumie wartości ułamkowe, na przykład 0,5 (pół sekundy). Nie gwarantuje to, że robot wyszukiwania będzie odwiedzał Twoją witrynę co pół sekundy, ale pozwala przyspieszyć indeksowanie witryny.

Agent użytkownika: Yandex Disallow: /wp-admin Disallow: /wp-includes Opóźnienie indeksowania: 1,5 # limit czasu 1,5 sekundy User-agent: * Disallow: /wp-admin Disallow: /wp-includes Zezwalaj: /wp-* . gif Opóźnienie indeksowania: 2 # przekroczenie limitu czasu 2 sekundy

Google

Googlebot nie rozumie dyrektywy dotyczącej opóźnienia indeksowania. Limit czasu dla jego robotów można określić w panelu webmastera.

W serwisie avi1.ru możesz teraz kupić promocję SMM w ponad 7 najpopularniejszych sieciach społecznościowych. Jednocześnie zwróć uwagę na dość niski koszt wszystkich usług serwisu.

Czas czytania: 7 minut


Prawie każdy projekt, który przychodzi do nas na audyt lub promocję, ma nieprawidłowy plik robots.txt, a często w ogóle go nie ma. Dzieje się tak dlatego, że tworząc plik każdy kieruje się swoją wyobraźnią, a nie zasadami. Zastanówmy się, jak poprawnie skomponować ten plik, aby roboty wyszukujące efektywnie z nim współpracowały.

Dlaczego musisz skonfigurować plik robots.txt?

plik robots.txt to plik znajdujący się w katalogu głównym witryny, który informuje roboty wyszukiwarek, do których sekcji i stron witryny mogą uzyskać dostęp, a do których nie.

Konfiguracja pliku robots.txt odgrywa ważną rolę w wynikach wyszukiwania, a odpowiednio skonfigurowane roboty zwiększają również wydajność witryny. Brak pliku Robots.txt nie uniemożliwi wyszukiwarkom przeszukiwania i indeksowania Twojej witryny, ale jeśli nie masz tego pliku, możesz mieć dwa problemy:

    Robot wyszukiwania przeczyta całą witrynę, co „podważy” indeksujący budżet. Budżet indeksowania to liczba stron, które robot wyszukiwania jest w stanie przeszukać w określonym czasie.

    Bez pliku robots wyszukiwarka będzie miała dostęp do stron roboczych i ukrytych, do setek stron służących do administrowania CMS-em. Zindeksuje je, a jeśli chodzi o niezbędne strony, które dostarczają użytkownikom bezpośrednich treści, budżet na indeksowanie „wyczerpie się”.

    Indeks może obejmować stronę logowania do serwisu oraz inne zasoby administratora, dzięki czemu osoba atakująca może je łatwo wyśledzić i przeprowadzić atak ddos ​​lub zhakować witrynę.

Jak roboty wyszukiwania widzą witrynę z plikiem robots.txt i bez niego:


Składnia pliku robots.txt

Zanim zaczniemy rozumieć składnię i konfigurować plik robots.txt, przyjrzyjmy się, jak powinien wyglądać „idealny plik”:


Ale nie powinieneś go używać od razu. Każda witryna najczęściej wymaga własnych ustawień, ponieważ każdy z nas ma inną strukturę witryny i inny CMS. Przyjrzyjmy się każdej dyrektywie w kolejności.

Agent użytkownika

User-agent - definiuje robota wyszukującego, który musi postępować zgodnie z instrukcjami opisanymi w pliku. Jeśli chcesz zwrócić się do wszystkich na raz, użyj ikony *. Możesz także skontaktować się z konkretnym robotem wyszukiwania. Na przykład Yandex i Google:


Korzystając z tej dyrektywy, robot rozumie, które pliki i foldery nie mogą być indeksowane. Jeśli chcesz, aby cała witryna była otwarta do indeksowania, pozostaw wartość Nie zezwalaj pustą. Aby ukryć całą zawartość witryny po wyłączeniu opcji Disallow, wstaw „/”.

Możemy uniemożliwić dostęp do określonego folderu, pliku lub rozszerzenia pliku. W naszym przykładzie kontaktujemy się ze wszystkimi robotami wyszukującymi i blokujemy dostęp do bitrixa, folderu wyszukiwania i rozszerzenia pdf.


Umożliwić

Zezwalaj na wymuszanie indeksowania stron i sekcji witryny. W powyższym przykładzie kontaktujemy się z robotem wyszukiwarki Google, blokujemy dostęp do bitrixa, folderu wyszukiwania i rozszerzenia pdf. Ale w folderze Bitrix wymuszamy otwarcie 3 folderów do indeksowania: komponenty, js, narzędzia.


Host – kopia lustrzana witryny

Strona lustrzana jest duplikatem witryny głównej. Mirrory służą do różnych celów: zmiany adresu, bezpieczeństwa, zmniejszenia obciążenia serwera itp.

Gospodarz to jedna z najważniejszych zasad. Jeśli zapiszesz tę zasadę, robot zrozumie, które z serwerów lustrzanych witryny należy wziąć pod uwagę przy indeksowaniu. Ta dyrektywa jest konieczna dla robotów Yandex i Mail.ru. Inne roboty zignorują tę zasadę. Host jest zarejestrowany tylko raz!

W przypadku protokołów „https://” i „http://” składnia w pliku robots.txt będzie inna.

Mapa serwisu - mapa serwisu

Mapa witryny to forma nawigacji witryny, która służy do informowania wyszukiwarek o nowych stronach. Korzystając z dyrektywy sitemap, „na siłę” pokazujemy robotowi, gdzie znajduje się mapa.


Symbole w pliku robots.txt

Symbole użyte w pliku: „/, *, $, #”.


Sprawdzanie funkcjonalności po skonfigurowaniu pliku robots.txt

Po umieszczeniu pliku Robots.txt na swojej stronie należy go dodać i sprawdzić u webmastera Yandex i Google.

Kontrola Yandexa:

  1. Śledź ten link .
  2. Wybierz: Ustawienia indeksowania – Analiza pliku Robots.txt.

Sprawdź w Google:

  1. Śledź ten link .
  2. Wybierz: Skanuj — narzędzie do inspekcji pliku Robots.txt.

W ten sposób możesz sprawdzić plik robots.txt pod kątem błędów i w razie potrzeby wprowadzić niezbędne zmiany.

  1. Treść pliku należy zapisać wielkimi literami.
  2. W dyrektywie Disallow należy określić tylko jeden plik lub katalog.
  3. Wiersz „User-agent” nie może być pusty.
  4. Agent użytkownika powinien zawsze znajdować się przed poleceniem Disallow.
  5. Nie zapomnij o ukośniku, jeśli chcesz wyłączyć indeksowanie katalogu.
  6. Przed przesłaniem pliku na serwer należy sprawdzić go pod kątem błędów składniowych i ortograficznych.

Życzę Ci sukcesu!

Recenzja wideo 3 metod tworzenia i dostosowywania pliku Robots.txt

Cześć wszystkim! Dziś chciałbym Wam o tym opowiedzieć plik robots.txt. Tak, wiele napisano na ten temat w Internecie, ale szczerze mówiąc, sam przez bardzo długi czas nie mogłem zrozumieć, jak stworzyć poprawny plik robots.txt. Skończyło się na tym, że zrobiłem jeden i jest na wszystkich moich blogach. Nie zauważam żadnych problemów, plik robots.txt działa dobrze.

Robots.txt dla WordPressa

Właściwie po co nam plik robots.txt? Odpowiedź jest wciąż taka sama – . Oznacza to, że kompilacja pliku robots.txt jest jedną z części optymalizacji witryny pod kątem wyszukiwarek (nawiasem mówiąc, już wkrótce odbędzie się lekcja poświęcona całej wewnętrznej optymalizacji witryny w WordPress. Dlatego nie rób tego zapomnij zapisać się do kanału RSS, aby nie przegapić ciekawych materiałów.).

Jedną z funkcji tego pliku jest zakaz indeksowania niepotrzebne strony internetowe. Ustawia również adres i podaje najważniejsze lustro witryny(strona z www lub bez www).

Uwaga: dla wyszukiwarek ta sama witryna z www i bez www to zupełnie różne strony. Jednak zdając sobie sprawę, że zawartość tych witryn jest taka sama, wyszukiwarki „sklejają” je ze sobą. Dlatego ważne jest, aby zarejestrować główny serwer lustrzany witryny w pliku robots.txt. Aby dowiedzieć się, która jest główna (z www czy bez www), wystarczy wpisać w przeglądarce adres swojej witryny, na przykład z www, jeśli zostaniesz automatycznie przekierowany na tę samą stronę bez www, to główne lustro Twoja witryna nie ma www. Mam nadzieję, że wyjaśniłem to poprawnie.

Był:

Teraz (po wejściu na stronę www zostały automatycznie usunięte, a strona stała się bez www):

Tak więc, moim zdaniem, ten cenny egzemplarz popraw plik robots.txt dla WordPress Możesz zobaczyć poniżej.

Poprawne dla WordPressa

Agent użytkownika: *
Nie zezwalaj: /cgi-bin
Nie zezwalaj: /wp-admin
Nie zezwalaj: /wp-includes

Nie zezwalaj: /wp-content/cache
Nie zezwalaj: /wp-content/themes
Nie zezwalaj: /trackback
Nie zezwalaj: */trackback
Nie zezwalaj: */*/trackback
Nie zezwalaj: */*/feed/*/
Nie zezwalaj: */feed
Uniemożliwić: /*?*
Nie zezwalaj: /tag

Agent użytkownika: Yandex
Nie zezwalaj: /cgi-bin
Nie zezwalaj: /wp-admin
Nie zezwalaj: /wp-includes
Nie zezwalaj: /wp-content/plugins
Nie zezwalaj: /wp-content/cache
Nie zezwalaj: /wp-content/themes
Nie zezwalaj: /trackback
Nie zezwalaj: */trackback
Nie zezwalaj: */*/trackback
Nie zezwalaj: */*/feed/*/
Nie zezwalaj: */feed
Uniemożliwić: /*?*
Nie zezwalaj: /tag
Gospodarz: strona internetowa
Mapa witryny: https://site/sitemap.xml.gz
Mapa witryny: https://site/sitemap.xml

Należy skopiować wszystko co podano powyżej do dokumentu tekstowego z rozszerzeniem .txt, czyli tak aby nazwa pliku brzmiała robots.txt. Możesz utworzyć taki dokument tekstowy na przykład za pomocą programu. Tylko nie zapomnij, proszę zmień trzy ostatnie linie adres na adres Twojej witryny internetowej. Plik robots.txt powinien znajdować się w katalogu głównym bloga, czyli w tym samym folderze, w którym znajdują się foldery wp-content, wp-admin itp.

Dla tych, którzy są zbyt leniwi, aby utworzyć ten plik tekstowy, możesz po prostu poprawić tam również 3 linie.

Chciałbym zauważyć, że nie musisz przeciążać się częściami technicznymi, które zostaną omówione poniżej. Przynoszę je dla „wiedzy”, że tak powiem, ogólnego poglądu, aby wiedzieli, czego i dlaczego potrzebują.

Zatem linia:

Agent użytkownika

ustala reguły dla określonej wyszukiwarki: na przykład „*” (gwiazdka) wskazuje, że reguły dotyczą wszystkich wyszukiwarek i co znajduje się poniżej

Agent użytkownika: Yandex

oznacza, że ​​te zasady dotyczą tylko Yandex.

Uniemożliwić
Tutaj „dodajesz” sekcje, które NIE muszą być indeksowane przez wyszukiwarki. Przykładowo na stronie mam duplikat artykułów (powtórzenie) ze zwykłymi artykułami, a duplikacja stron ma negatywny wpływ na promocję w wyszukiwarkach, dlatego jest wysoce pożądane, aby te sektory musiały zostać wyłączone z indeksowania, co jest co robimy korzystając z tej reguły:

Nie zezwalaj: /tag

Tak więc w podanym powyżej pliku robots.txt prawie wszystkie niepotrzebne sekcje witryny WordPress są wyłączone z indeksowania, to znaczy po prostu zostaw wszystko bez zmian.

Gospodarz

Tutaj ustawiamy główne lustro witryny, o którym mówiłem tuż powyżej.

Mapa witryny

W dwóch ostatnich wierszach podajemy adres maksymalnie dwóch map witryn utworzonych za pomocą .

Możliwe problemy

Przejdź do sekcji Ustawienia indeksowania –> Analiza pliku Robots.txt:

Już tam kliknij przycisk „Załaduj plik robots.txt z witryny”, a następnie kliknij przycisk „Sprawdź”:

Jeśli zobaczysz następujący komunikat, oznacza to, że masz poprawny plik robots.txt dla Yandex:

Możesz także dodać adres dowolnego artykułu w serwisie do „Listy adresów URL”, aby sprawdzić, czy plik robots.txt zabrania indeksowania tej strony:

Jak widać nie widzimy zakazu indeksowania stron z pliku robots.txt, czyli wszystko w porządku :).

Mam nadzieję, że nie będziesz mieć więcej pytań typu: jak skomponować plik robots.txt lub jak poprawić ten plik. W tej lekcji próbowałem pokazać ci poprawny przykładowy plik robots.txt:

Do zobaczenia wkrótce!

P.s. Całkiem niedawno, co ciekawego się wydarzyło? 🙂

Mapa witryny znacznie upraszcza indeksowanie Twojego bloga. Każda strona internetowa i blog muszą mieć mapę witryny. Ale także każda witryna internetowa i blog powinny mieć plik roboty.tekst. Plik robots.txt zawiera zestaw instrukcji dla robotów wyszukujących. Można powiedzieć, że są to zasady zachowania robotów wyszukujących na Twoim blogu. Plik ten zawiera także ścieżkę do mapy witryny Twojego bloga. I tak naprawdę, mając poprawnie skomponowany plik robots.txt, robot wyszukiwania nie traci cennego czasu na szukanie mapy witryny i indeksowanie niepotrzebnych plików.

Co to jest plik robots.txt?

plik robots.txt– jest to plik tekstowy, który można utworzyć w zwykłym „notatniku”, znajdującym się w katalogu głównym Twojego bloga i zawierający instrukcje dla robotów wyszukujących.

Te instrukcje uniemożliwiają robotom wyszukiwania losowe indeksowanie wszystkich plików Twojego boga i skupiają się na indeksowaniu dokładnie tych stron, które powinny znaleźć się w wynikach wyszukiwania.

Za pomocą tego pliku możesz zapobiec indeksowaniu plików silnika WordPress. Lub, powiedzmy, tajna sekcja Twojego bloga. Możesz określić ścieżkę do mapy swojego bloga i głównego lustra swojego bloga. Mam tu na myśli nazwę Twojej domeny z www i bez www.

Indeksowanie witryny z plikiem robots.txt i bez niego

Ten zrzut ekranu wyraźnie pokazuje, jak plik robots.txt zabrania indeksowania niektórych folderów w witrynie. Bez pliku wszystko w Twojej witrynie będzie dostępne dla robota.

Podstawowe dyrektywy pliku robots.txt

Aby zrozumieć instrukcje zawarte w pliku robots.txt, należy poznać podstawowe polecenia (dyrektywy).

Agent użytkownika– to polecenie wskazuje dostęp robota do Twojej witryny. Korzystając z tej dyrektywy, możesz tworzyć instrukcje indywidualnie dla każdego robota.

User-agent: Yandex – zasady dla robota Yandex

User-agent: * - zasady dla wszystkich robotów

Nie zezwalaj i zezwalaj– dyrektywy zakazujące i zezwalające. Używając dyrektywy Disallow, indeksowanie jest zabronione, podczas gdy Zezwól na to pozwala.

Przykład zakazu:

Agent użytkownika: *

Disallow: / - ban na całej witrynie.

Agent użytkownika: Yandex

Disallow: /admin – zabrania robotowi Yandex dostępu do stron znajdujących się w folderze admin.

Przykład rozdzielczości:

Agent użytkownika: *

Zezwól: /zdjęcie

Disallow: / - ban na całą witrynę z wyjątkiem stron znajdujących się w folderze ze zdjęciami.

Notatka! dyrektywa Disallow: bez parametru pozwala na wszystko, a dyrektywa Zezwalaj: bez parametru zabrania wszystkiego. I nie powinno być dyrektywy Zezwalaj bez Niedopuszczania.

Mapa witryny– określa ścieżkę do mapy serwisu w formacie xml.

Mapa witryny: https://site/sitemap.xml.gz

Mapa witryny: https://site/sitemap.xml

Gospodarz– dyrektywa określa główne lustro Twojego bloga. Uważa się, że ta dyrektywa jest przewidziana tylko dla robotów Yandex. Dyrektywę tę należy podać na samym końcu pliku robots.txt.

Agent użytkownika: Yandex

Nie zezwalaj: /wp-includes

Gospodarz: strona internetowa

Notatka! Główny adres lustrzany jest podawany bez określania protokołu przesyłania hipertekstu (http://).

Jak utworzyć plik robots.txt

Teraz, gdy znamy już podstawowe polecenia pliku robots.txt, możemy przystąpić do tworzenia naszego pliku. Aby stworzyć własny plik robots.txt z indywidualnymi ustawieniami, musisz znać strukturę swojego bloga.

Przyjrzymy się utworzeniu standardowego (uniwersalnego) pliku robots.txt dla bloga WordPress. Zawsze możesz dodać do niego własne ustawienia.

Więc zacznijmy. Przyda nam się zwykły „notatnik”, który znajduje się w każdym systemie operacyjnym Windows. Lub TextEdit na MacOS.

Otwórz nowy dokument i wklej do niego następujące polecenia:

Agent użytkownika: * Disallow: Mapa witryny: https://site/sitemap.xml.gz Mapa witryny: https://site/sitemap.xml Klient użytkownika: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages ​​​​Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ Feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site

Nie zapomnij zastąpić parametrów dyrektyw Sitemap i Host własnymi.

Ważny! Podczas wpisywania poleceń dozwolona jest tylko jedna spacja. Między dyrektywą a parametrem. W żadnym wypadku nie należy wstawiać spacji po parametrze ani gdziekolwiek.

Przykład: Uniemożliwić:<пробел>/karmić/

Ten przykładowy plik robots.txt jest uniwersalny i pasuje do każdego bloga WordPress z adresami URL CNC. Przeczytaj czym jest CNC. Jeśli nie skonfigurowałeś CNC, polecam usunąć Disallow: /*?* Disallow: /?s= z proponowanego pliku

Przesyłanie pliku robots.txt na serwer

Najlepszym sposobem na tego rodzaju manipulację jest połączenie FTP. Przeczytaj o tym, jak skonfigurować połączenie FTP dla TotolCommander. Możesz też użyć menedżera plików na swoim hostingu.

Będę korzystać z połączenia FTP w TotolCommander.

Sieć > Połącz się z serwerem FTP.

Wybierz żądane połączenie i kliknij przycisk „Połącz”.

Otwórz katalog główny bloga i skopiuj nasz plik robots.txt, naciskając klawisz F5.

Kopiowanie pliku robots.txt na serwer

Teraz Twój plik robots.txt będzie wykonywał swoje właściwe funkcje. Nadal jednak zalecam przeanalizowanie pliku robots.txt, aby upewnić się, że nie zawiera błędów.

Aby to zrobić, musisz zalogować się na swoje konto webmastera Yandex lub Google. Spójrzmy na przykład Yandex. Tutaj możesz przeprowadzić analizę nawet bez potwierdzania swoich praw do witryny. Wszystko czego potrzebujesz to skrzynka pocztowa Yandex.

Otwórz konto Yandex.webmaster.

Na stronie głównej konta webmastera otwórz link "Sprawdzaćroboty.tekst".

Aby przeprowadzić analizę, musisz wpisać adres URL swojego bloga i kliknąć przycisk „ Pobierać roboty.txt ze strony" Gdy tylko plik zostanie pobrany, kliknij przycisk "Sprawdzać".

Brak wpisów ostrzegawczych oznacza, że ​​plik robots.txt został utworzony poprawnie.

Wynik zostanie zaprezentowany poniżej. Gdzie jest jasne i zrozumiałe, które materiały mogą być pokazywane robotom przeszukującym, a które są zabronione.

Wynik analizy pliku robots.txt

Tutaj możesz wprowadzić zmiany w pliku robots.txt i eksperymentować, aż uzyskasz pożądany rezultat. Pamiętaj jednak, że plik znajdujący się na Twoim blogu się nie zmienia. Aby to zrobić, musisz skopiować uzyskany tutaj wynik do notatnika, zapisać go jako plik robots.txt i skopiować bloga do siebie.

Swoją drogą, jeśli zastanawiasz się, jak wygląda plik robots.txt na czyimś blogu, możesz łatwo na niego spojrzeć. Aby to zrobić, wystarczy dodać /robots.txt do adresu witryny

https://site/robots.txt

Teraz plik robots.txt jest gotowy. I pamiętaj, nie zwlekaj z utworzeniem pliku robots.txt, od tego będzie zależało indeksowanie Twojego bloga.

Jeśli chcesz utworzyć poprawny plik robots.txt i jednocześnie mieć pewność, że w indeksie wyszukiwarki znajdą się tylko niezbędne strony, możesz to zrobić automatycznie za pomocą wtyczki.

To wszystko co mam. Życzę wszystkim sukcesów. Jeśli masz jakieś pytania lub uzupełnienia, napisz w komentarzach.

Do zobaczenia wkrótce.

Pozdrawiam, Maxim Zajcew.

Zapisz się na nowe artykuły!

Celem tego przewodnika jest pomoc webmasterom i administratorom w korzystaniu z pliku robots.txt.

Wstęp

Standard dotyczący zwolnienia robotów jest w swojej istocie bardzo prosty. W skrócie działa to tak:

Kiedy robot zgodny ze standardem odwiedza witrynę, najpierw żąda pliku o nazwie „/robots.txt”. Jeżeli taki plik zostanie znaleziony, Robot przeszukuje go pod kątem instrukcji zabraniających indeksowania niektórych części serwisu.

Gdzie umieścić plik robots.txt

Robot po prostu żąda adresu URL „/robots.txt” w Twojej witrynie; witryna w tym przypadku jest konkretnym hostem na określonym porcie.

Strona URL Adres URL pliku robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Na stronie może znajdować się tylko jeden plik „/robots.txt”. Nie należy np. umieszczać pliku robots.txt w podkatalogach użytkowników – roboty i tak nie będą ich tam szukać. Jeśli chcesz mieć możliwość tworzenia plików robots.txt w podkatalogach, potrzebujesz sposobu, aby programowo zebrać je w jednym pliku robots.txt znajdującym się w katalogu głównym witryny. Możesz użyć .

Pamiętaj, że w adresach URL rozróżniana jest wielkość liter, a nazwa pliku „/robots.txt” musi być w całości napisana małymi literami.

Nieprawidłowa lokalizacja pliku robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Plik nie znajduje się w katalogu głównym witryny
ftp://ftp.w3.com/robots.txt Roboty nie indeksują FTP
http://www.w3.org/Robots.txt Nazwa pliku nie jest zapisana małymi literami

Jak widać plik robots.txt należy umieścić wyłącznie w katalogu głównym witryny.

Co napisać w pliku robots.txt

Plik robots.txt zwykle zawiera coś takiego:

Agent użytkownika: *
Nie zezwalaj: /cgi-bin/
Nie zezwalaj: /tmp/
Nie zezwalaj: /~joe/

W tym przykładzie zabronione jest indeksowanie trzech katalogów.

Pamiętaj, że każdy katalog jest wymieniony w osobnej linii - nie możesz napisać „Disallow: /cgi-bin/ /tmp/”. Nie można również podzielić jednej instrukcji Disallow lub User-agent na kilka linii, ponieważ Podziały wierszy służą do oddzielania instrukcji od siebie.

Nie można także używać wyrażeń regularnych i symboli wieloznacznych. „Gwiazdka” (*) w instrukcji User-agent oznacza „dowolny robot”. Instrukcje takie jak „Disallow: *.gif” lub „User-agent: Ya*” nie są obsługiwane.

Konkretne instrukcje w pliku robots.txt zależą od Twojej witryny i tego, czego chcesz zapobiec indeksowaniu. Oto kilka przykładów:

Zablokuj indeksowanie całej witryny przez wszystkie roboty

Agent użytkownika: *
Uniemożliwić: /

Zezwalaj wszystkim robotom na indeksowanie całej witryny

Agent użytkownika: *
Uniemożliwić:

Możesz też po prostu utworzyć pusty plik „/robots.txt”.

Zablokuj indeksowanie tylko kilku katalogów

Agent użytkownika: *
Nie zezwalaj: /cgi-bin/
Nie zezwalaj: /tmp/
Nie zezwalaj: /prywatny/

Blokuj indeksowanie witryny tylko dla jednego robota

Klient użytkownika: BadBot
Uniemożliwić: /

Zezwól jednemu robotowi na indeksowanie witryny i odmów wszystkim innym

Agent użytkownika: Yandex
Uniemożliwić:

Agent użytkownika: *
Uniemożliwić: /

Zabroń indeksowaniu wszystkich plików z wyjątkiem jednego

To dość trudne, bo... nie ma instrukcji „Zezwalaj”. Zamiast tego możesz przenieść wszystkie pliki z wyjątkiem tego, któremu chcesz pozwolić na indeksowanie, do podkatalogu i uniemożliwić jego indeksowanie:

Agent użytkownika: *
Nie zezwalaj: /docs/

Możesz też zabronić indeksowania wszystkich plików, których nie można indeksować:

Agent użytkownika: *
Nie zezwalaj: /private.html
Nie zezwalaj: /foo.html
Nie zezwalaj: /bar.html