Folosind roboți txt. Cum se editează fișierul robots txt. Creați cu ușurință un fișier pentru orice motor de căutare

Acest articol conține un exemplu de cod optim, după părerea mea, pentru fișierul robots.txt pentru WordPress, pe care îl puteți folosi în site-urile dvs.

Pentru început, să ne amintim de ce ai nevoie de robots.txt- fișierul robots.txt este necesar exclusiv pentru roboții de căutare pentru a le „spune” ce secțiuni/pagini ale site-ului să le viziteze și pe care nu ar trebui să le viziteze. Paginile care sunt închise de la vizitare nu vor fi incluse în indexul motorului de căutare (Yandex, Google etc.).

Opțiunea 1: Cod robots.txt optim pentru WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # toți parametrii de interogare de pe pagina principală Disallow: /wp- # toate fișierele WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Nu permiteți: /căutare # Căutare Nu permiteți: /autor/ # arhiva autor Nu permiteți: */embed # toate înglobările Nu permiteți: */page/ # toate tipurile de paginare Permite: */încărcări # încărcări deschise Permite: /*/*.js # în interiorul /wp - (/*/ - pentru prioritate) Permite: /*/*.css # în interiorul /wp- (/*/ - pentru prioritate) Permite: /wp-*.png # imagini în pluginuri, folderul cache etc. . Permite: /wp-*.jpg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.jpeg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.gif # imagini în pluginuri, folderul cache etc. Permite: /wp-*.svg # imagini în pluginuri, folderul cache etc. Permite: /wp-*.pdf # fișiere în pluginuri, folderul cache etc. Permite: /wp-admin/admin-ajax.php #Disallow: /wp/ # când WP este instalat în subdirectorul wp Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2.xml # alt fișier #Sitemap: http://example.com/sitemap.xml.gz # versiune comprimată (.gz) # Versiune cod: 1.1 # Nu uitați să schimbați `site.ru` pe site-ul dvs.

Analiza codului:

    În linia User-agent: * indicăm că toate regulile de mai jos vor funcționa pentru toți roboții de căutare *. Dacă aveți nevoie de aceste reguli să funcționeze doar pentru un robot specific, atunci în loc de * indicăm numele robotului (User-agent: Yandex, User-agent: Googlebot).

    În linia Permite: */încărcări, permitem în mod intenționat indexarea paginilor care conțin /încărcări. Această regulă este obligatorie, deoarece mai sus interzicem indexarea paginilor care încep cu /wp- și /wp- inclus în /wp-content/uploads. Prin urmare, pentru a anula regula Disallow: /wp-, aveți nevoie de linia Allow: */uploads , deoarece pentru link-uri precum /wp-content/uploads/... Este posibil să avem imagini care trebuie indexate și pot exista și unele fișiere descărcate pe care nu este nevoie să le ascundem. Permite: poate fi „înainte” sau „după” Disallow: .

    Rândurile rămase interzic roboților să „urmărească” link-uri care încep cu:

    • Disallow: /cgi-bin - închide directorul de scripturi de pe server
    • Disallow: /feed - închide fluxul RSS al blogului
    • Disallow: /trackback - închide notificările
    • Disallow: ?s= sau Disallow: *?s= - închide paginile de căutare
    • Disallow: */page/ - închide toate tipurile de paginare
  1. Regula Sitemap: http://example.com/sitemap.xml indică robotul către un fișier cu un sitemap în format XML. Dacă aveți un astfel de fișier pe site-ul dvs., atunci scrieți calea completă către el. Pot exista mai multe astfel de fișiere, apoi indicăm calea către fiecare separat.

    În linia Gazdă: site.ru indicăm oglinda principală a site-ului. Dacă un site are oglinzi (copii ale site-ului pe alte domenii), atunci pentru ca Yandex să le indexeze pe toate în mod egal, trebuie să specificați oglinda principală. Directiva gazdă: numai Yandex înțelege, Google nu înțelege! Dacă site-ul funcționează sub protocolul https, atunci trebuie specificat în Gazdă: Gazdă: http://example.com

    Din documentația Yandex: „Gazda este o directivă independentă și funcționează oriunde în fișier (intersecțional).” Prin urmare, îl punem în partea de sus sau chiar la sfârșitul fișierului, printr-o linie goală.

Deoarece prezența fluxurilor deschise este necesară, de exemplu, pentru Yandex Zen, atunci când trebuie să conectați un site la un canal (mulțumită comentatorului „Digital”). Poate că sunt necesare fluxuri deschise în altă parte.

În același timp, feedurile au propriul format în anteturile de răspuns, datorită căruia motoarele de căutare înțeleg că aceasta nu este o pagină HTML, ci un feed și, evident, o procesează într-un fel diferit.

Directiva Gazdă nu mai este necesară pentru Yandex

Yandex abandonează complet directiva Gazdă și a înlocuit-o cu o redirecționare 301. Gazda poate fi eliminată în siguranță de pe robots.txt. Cu toate acestea, este important ca toate oglinzile site-ului să aibă o redirecționare 301 către site-ul principal (oglindă principală).

Acest lucru este important: regulile de sortare înainte de procesare

Yandex și Google procesează directivele Allow și Disallow nu în ordinea în care sunt specificate, dar mai întâi le sortează de la regula scurtă la lungă, apoi procesează ultima regulă de potrivire:

Agent utilizator: * Permite: */încărcări Nu permite: /wp-

va fi citit ca:

User-agent: * Disallow: /wp- Allow: */uploads

Pentru a înțelege și aplica rapid funcția de sortare, amintiți-vă această regulă: „cu cât regula este mai lungă în robots.txt, cu atât are prioritate mai mare. Dacă lungimea regulilor este aceeași, atunci se acordă prioritate directivei Allow.”

Opțiunea 2: robots.txt standard pentru WordPress

Nu știu de ce, dar sunt pentru prima opțiune! Pentru că este mai logic - nu este nevoie să duplicați complet secțiunea pentru a indica directiva Gazdă pentru Yandex, care este intersecțională (înțeleasă de robot oriunde în șablon, fără a indica la ce robot se referă). În ceea ce privește directiva non-standard Allow, funcționează pentru Yandex și Google, iar dacă nu deschide folderul de încărcări pentru alți roboți care nu o înțeleg, atunci în 99% din cazuri acest lucru nu va implica nimic periculos. Încă nu am observat că primii roboți nu funcționează așa cum ar trebui.

Codul de mai sus este puțin incorect. Mulțumesc comentatorului „ ” pentru că a subliniat incorectitudinea, deși a trebuit să-mi dau seama despre ce este vorba. Și asta este ceea ce am venit (s-ar putea să greșesc):

    Unii roboți (nu Yandex și Google) nu înțeleg mai mult de 2 directive: User-agent: și Disallow:

  1. Directiva Yandex Gazdă: trebuie utilizată după Disallow:, deoarece este posibil ca unii roboți (nu Yandex și Google) să nu o înțeleagă și să respingă, în general, robots.txt. Yandex însuși, judecând după documentație, nu-i pasă de unde și cum să folosești Host:, chiar dacă în general creați robots.txt cu o singură linie Host: www.site.ru pentru a lipi toate oglinzile site-ului împreună.

3. Sitemap: o directivă intersecțională pentru Yandex și Google și, aparent, pentru mulți alți roboți, așa că o scriem la sfârșit cu o linie goală și va funcționa pentru toți roboții simultan.

Pe baza acestor modificări, codul corect ar trebui să arate astfel:

Agent de utilizator: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Gazdă: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Să-l adăugăm pentru noi înșine

Dacă trebuie să blocați orice alte pagini sau grupuri de pagini, puteți adăuga o regulă (directivă) mai jos Nu permiteți:. De exemplu, trebuie să închidem toate intrările dintr-o categorie de la indexare știri, apoi înainte Harta site-ului: adauga o regula:

Nu permiteți: /știri

Împiedică roboții să urmărească astfel de link-uri:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Dacă trebuie să închideți orice apariție a /news , atunci scrieți:

Nu permiteți: */știri

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Puteți studia directivele robots.txt mai detaliat pe pagina de ajutor Yandex (dar rețineți că nu toate regulile descrise acolo funcționează pentru Google).

Verificare și documentare Robots.txt

Puteți verifica dacă regulile prescrise funcționează corect utilizând următoarele link-uri:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • La Google acest lucru se face în Consolă de căutare. Ai nevoie de autorizație și de prezența site-ului în panoul webmaster...
  • Serviciu pentru crearea unui fișier robots.txt: http://pr-cy.ru/robots/
  • Serviciu pentru crearea și verificarea robots.txt: https://seolib.ru/tools/generate/robots/

L-am întrebat pe Yandex...

Am pus o întrebare în tehnologie. Asistență Yandex cu privire la utilizarea intersecțională a directivelor Gazdă și Sitemap:

Întrebare:

Buna ziua!
Scriu un articol despre robots.txt pe blogul meu. Aș dori să primesc un răspuns la această întrebare (nu am găsit un „da” clar în documentație):

Dacă trebuie să lipesc toate oglinzile și pentru asta folosesc directiva Host chiar la începutul fișierului robots.txt:

Gazdă: site.ru Agent utilizator: * Nu permite: /asd

Va funcționa corect Host: site.ru în acest exemplu? Va indica roboților că site.ru este oglinda principală? Acestea. Folosesc această directivă nu într-o secțiune, ci separat (la începutul fișierului) fără a indica la ce User-agent se referă.

De asemenea, am vrut să știu dacă directiva Sitemap trebuie folosită în interiorul unei secțiuni sau poate fi folosită în exterior: de exemplu, printr-o linie goală, după secțiune?

User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml

Va înțelege robotul directiva Sitemap din acest exemplu?

Sper să primesc de la dumneavoastră un răspuns care să-mi pună capăt îndoielilor.

Răspuns:

Buna ziua!

Directivele Gazdă și Sitemap sunt intersecționale, așa că vor fi utilizate de robot indiferent de locul din fișierul robots.txt în care sunt specificate.

--
Cu stimă, Platon Shchukin
Serviciu de asistență Yandex

Concluzie

Este important să rețineți că modificările în robots.txt pe un site deja funcțional vor fi observate numai după câteva luni (2-3 luni).

Există zvonuri că uneori Google poate ignora regulile din robots.txt și poate duce o pagină în index dacă consideră că pagina este foarte unică și utilă și pur și simplu trebuie să fie în index. Cu toate acestea, alte zvonuri infirmă această ipoteză prin faptul că optimizatorii neexperimentați pot specifica incorect regulile în robots.txt și astfel pot închide paginile necesare de la indexare și pot lăsa pe cele inutile. Sunt mai înclinat spre a doua presupunere...

Roboti dinamici.txt

În WordPress, cererea pentru fișierul robots.txt este procesată separat și nu este deloc necesară crearea fizică a unui fișier robots.txt în rădăcina site-ului, mai mult, acest lucru nu este recomandat, deoarece cu această abordare va fi este foarte dificil pentru plugin-uri să schimbe acest fișier, iar acest lucru este uneori necesar.

Citiți despre cum funcționează crearea dinamică a unui fișier robots.txt în descrierea funcției, iar mai jos voi da un exemplu despre cum puteți schimba conținutul acestui fișier din mers, printr-un cârlig.

Pentru a face acest lucru, adăugați următorul cod în fișierul functions.php:

Add_action("do_robotstxt", "my_robotstxt"); funcția my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode ("\r\ n ", $linii); die; // termina munca PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay - timeout pentru roboții nebuni (nu luați în considerare din 2018)

Yandex

După ce am analizat scrisorile din ultimii doi ani către suportul nostru cu privire la problemele de indexare, am aflat că unul dintre principalele motive pentru descărcarea lentă a documentelor este o directivă de întârziere cu crawlere configurată incorect în robots.txt […] Astfel încât proprietarii de site-uri să nu mai fie trebuie să vă faceți griji pentru acest lucru și Pentru a ne asigura că toate paginile site-ului web cu adevărat necesare apar și sunt actualizate rapid în căutare, am decis să renunțăm la directiva Crawl-delay.

Când robotul Yandex scanează site-ul ca un nebun și acest lucru creează încărcare inutilă pe server. Puteți cere robotului să „încetinească”.

Pentru a face acest lucru, trebuie să utilizați directiva Crawl-delay. Indică timpul în secunde în care robotul trebuie să stea inactiv (să aștepte) pentru a scana fiecare pagină ulterioară a site-ului.

Pentru compatibilitatea cu roboții care nu respectă bine standardul robots.txt, întârzierea cu crawlere trebuie specificată în grup (în secțiunea User-Agent) imediat după Disallow și Allow

Yandex Robot înțelege valorile fracționale, de exemplu, 0,5 (jumătate de secundă). Acest lucru nu garantează că robotul de căutare vă va vizita site-ul la fiecare jumătate de secundă, dar vă permite să accelerați accesarea cu crawlere a site-ului.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 secunde User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Întârziere accesare cu crawlere: 2 # timeout 2 secunde

Google

Googlebot nu înțelege directiva Crawl-delay. Timeout-ul pentru roboții săi poate fi specificat în panoul webmaster.

Pe serviciul avi1.ru puteți achiziționa acum promovarea SMM în mai mult de 7 dintre cele mai populare rețele sociale. În același timp, acordați atenție costului destul de scăzut al tuturor serviciilor site-ului.

Timp de citit: 7 minut(e)


Aproape fiecare proiect care vine la noi pentru audit sau promovare are un fișier robots.txt incorect și adesea lipsește cu totul. Acest lucru se întâmplă pentru că atunci când se creează un fișier, fiecare este ghidat de imaginația sa, și nu de reguli. Să ne dăm seama cum să compunem corect acest fișier, astfel încât roboții de căutare să lucreze cu el în mod eficient.

De ce trebuie să configurați robots.txt?

Robots.txt este un fișier situat în directorul rădăcină al unui site care le spune roboților motoarelor de căutare ce secțiuni și pagini ale site-ului pot accesa și pe care nu.

Configurarea robots.txt este o parte importantă în rezultatele motoarelor de căutare; roboții configurați corespunzător măresc și performanța site-ului. Lipsa Robots.txt nu va împiedica motoarele de căutare să acceseze cu crawlere și să indexeze site-ul dvs., dar dacă nu aveți acest fișier, este posibil să aveți două probleme:

    Robotul de căutare va citi întregul site, ceea ce va „submina” bugetul de crawling. Bugetul de accesare cu crawlere este numărul de pagini pe care un robot de căutare este capabil să le acceseze cu crawlere într-o anumită perioadă de timp.

    Fără un fișier roboți, motorul de căutare va avea acces la pagini nefinalizate și ascunse, la sute de pagini folosite pentru administrarea CMS-ului. Le va indexa, iar când vine vorba de paginile necesare care oferă conținut direct pentru vizitatori, bugetul de crawling se va „epuiza”.

    Indexul poate include pagina de conectare a site-ului și alte resurse de administrator, astfel încât un atacator le poate urmări cu ușurință și poate efectua un atac ddos ​​sau hack site-ul.

Cum văd roboții de căutare un site cu și fără robots.txt:


Sintaxa Robots.txt

Înainte de a începe să înțelegem sintaxa și să setăm robots.txt, să ne uităm la cum ar trebui să arate „fișierul ideal”:


Dar nu ar trebui să-l folosești imediat. Fiecare site necesită cel mai adesea propriile setări, deoarece toți avem o structură diferită a site-ului și un CMS diferit. Să ne uităm la fiecare directivă în ordine.

Agent utilizator

User-agent - definește un robot de căutare care trebuie să urmeze instrucțiunile descrise în fișier. Dacă trebuie să vă adresați tuturor simultan, utilizați pictograma *. De asemenea, puteți contacta un anumit robot de căutare. De exemplu, Yandex și Google:


Folosind această directivă, robotul înțelege ce fișiere și foldere nu pot fi indexate. Dacă doriți ca întregul dvs. site să fie deschis pentru indexare, lăsați necompletat valoarea Disallow. Pentru a ascunde tot conținutul de pe site după Disallow, puneți „/”.

Putem împiedica accesul la un anumit folder, fișier sau extensie de fișier. În exemplul nostru, contactăm toți roboții de căutare și blocăm accesul la bitrix, folderul de căutare și extensia pdf.


Permite

Permiteți ca paginile și secțiunile site-ului să fie indexate. În exemplul de mai sus, contactăm robotul de căutare Google, blocăm accesul la bitrix, folderul de căutare și extensia pdf. Dar în folderul bitrix forțăm deschiderea a 3 foldere pentru indexare: componente, js, instrumente.


Gazdă - oglindă site

Un site oglindă este un duplicat al site-ului principal. Oglinzile sunt folosite pentru o varietate de scopuri: schimbarea adresei, securitate, reducerea sarcinii pe server etc.

Gazda este una dintre cele mai importante reguli. Dacă această regulă este scrisă, robotul va înțelege care dintre oglinzile site-ului ar trebui să fie luate în considerare pentru indexare. Această directivă este necesară pentru roboții Yandex și Mail.ru. Alți roboți vor ignora această regulă. Gazda este înregistrată o singură dată!

Pentru protocoalele „https://” și „http://”, sintaxa din fișierul robots.txt va fi diferită.

Harta site - harta site-ului

Harta site-ului este o formă de navigare pe site care este utilizată pentru a informa motoarele de căutare despre paginile noi. Folosind directiva sitemap, arătăm „forțat” robotului unde se află harta.


Simboluri în robots.txt

Simboluri utilizate în fișier: „/, *, $, #”.


Verificarea funcționalității după configurarea robots.txt

După ce ați plasat Robots.txt pe site-ul dvs. web, trebuie să îl adăugați și să îl verificați în Yandex și Google webmaster.

Verificare Yandex:

  1. Urmați acest link.
  2. Selectați: Setări de indexare - Analiză Robots.txt.

Verificare Google:

  1. Urmați acest link.
  2. Selectați: Scanare - Instrument de inspecție a fișierelor Robots.txt.

În acest fel, puteți verifica fișierul robots.txt pentru erori și puteți face ajustările necesare, dacă este necesar.

  1. Conținutul dosarului trebuie scris cu majuscule.
  2. Trebuie specificat un singur fișier sau director în directiva Disallow.
  3. Linia „User-agent” nu trebuie să fie goală.
  4. User-agent ar trebui să vină întotdeauna înainte de Disallow.
  5. Nu uitați să includeți o bară oblică dacă trebuie să dezactivați indexarea unui director.
  6. Înainte de a încărca un fișier pe server, asigurați-vă că îl verificați pentru erori de sintaxă și ortografie.

Vă doresc succes!

Revizuire video a 3 metode de creare și personalizare a fișierului Robots.txt

Salutare tuturor! Astăzi aș vrea să vă povestesc despre fișierul robots.txt. Da, s-au scris multe despre asta pe internet, dar, sincer să fiu, de foarte mult timp eu însumi nu am putut înțelege cum să creez robots.txt-ul corect. Am ajuns să fac unul și este pe toate blogurile mele. Nu observ nicio problemă, robots.txt funcționează bine.

Robots.txt pentru WordPress

De ce, de fapt, aveți nevoie de robots.txt? Răspunsul este în continuare același - . Adică, compilarea robots.txt este una dintre părțile optimizării pentru motoarele de căutare a unui site (apropo, foarte curând va exista o lecție care va fi dedicată întregii optimizări interne a unui site pe WordPress. Prin urmare, nu uitați să vă abonați la RSS pentru a nu pierde materiale interesante.).

Una dintre funcțiile acestui fișier este interdicția de indexare pagini de site inutile. De asemenea, stabilește adresa și precizează principalul lucru oglinda site-ului(site cu sau fără www).

Notă: pentru motoarele de căutare, același site cu www și fără www sunt site-uri complet diferite. Dar, realizând că conținutul acestor site-uri este același, motoarele de căutare le „lipesc” împreună. Prin urmare, este important să înregistrați oglinda principală a site-ului în robots.txt. Pentru a afla care este cel principal (cu www sau fără www), trebuie doar să introduceți adresa site-ului dvs. în browser, de exemplu, cu www, dacă sunteți redirecționat automat către același site fără www, atunci oglinda principală a site-ul tau este fara www. Sper ca am explicat corect.

A fost:

Acum (după ce am intrat pe site, www au fost șterse automat, iar site-ul a devenit fără www):

Deci, aceasta prețuită, după părerea mea, robots.txt corect pentru WordPress Puteți vedea mai jos.

Corect pentru WordPress

Agent utilizator: *
Nu permiteți: /cgi-bin
Nu permiteți: /wp-admin
Nu permiteți: /wp-includes

Nu permiteți: /wp-content/cache
Nu permiteți: /wp-content/themes
Disallow: /trackback
Nu permite: */trackback
Nu permiteți: */*/trackback
Nu permiteți: */*/feed/*/
Nu permiteți: */feed
Nu permite: /*?*
Nu permiteți: /tag

Agent utilizator: Yandex
Nu permiteți: /cgi-bin
Nu permiteți: /wp-admin
Nu permiteți: /wp-includes
Nu permiteți: /wp-content/plugins
Nu permiteți: /wp-content/cache
Nu permiteți: /wp-content/themes
Disallow: /trackback
Nu permite: */trackback
Nu permiteți: */*/trackback
Nu permiteți: */*/feed/*/
Nu permiteți: */feed
Nu permite: /*?*
Nu permiteți: /tag
Gazdă: site web
Harta site-ului: https://site/sitemap.xml.gz
Harta site-ului: https://site/sitemap.xml

Trebuie să copiați tot ce este dat mai sus într-un document text cu extensia .txt, adică astfel încât numele fișierului să fie robots.txt. Puteți crea acest document text, de exemplu, utilizând programul. Doar nu uita, te rog schimba ultimele trei linii adresa la adresa site-ului dvs. web. Fișierul robots.txt ar trebui să fie localizat în rădăcina blogului, adică în același folder în care se află folderele wp-content, wp-admin etc.

Pentru cei care sunt prea leneși să creeze acest fișier text, puteți corecta pur și simplu 3 rânduri și acolo.

Aș dori să remarc că nu trebuie să vă suprasolicitați cu părțile tehnice care vor fi discutate mai jos. Le aduc pentru „cunoaștere”, ca să zic așa, o perspectivă generală, astfel încât să știe de ce este nevoie și de ce.

Deci linia:

Agent utilizator

stabilește reguli pentru un anumit motor de căutare: de exemplu, „*” (asterisc) indică faptul că regulile sunt pentru toate motoarele de căutare și ceea ce este mai jos

Agent utilizator: Yandex

înseamnă că aceste reguli sunt doar pentru Yandex.

Nu permiteți
Aici „arunci” secțiuni care NU trebuie să fie indexate de motoarele de căutare. De exemplu, pe o pagină am un duplicat de articole (repetiție) cu articole obișnuite, iar duplicarea paginilor are un impact negativ asupra promovării motorului de căutare, prin urmare, este foarte de dorit ca aceste sectoare să fie închise de la indexare, ceea ce este ce facem folosind această regulă:

Nu permiteți: /tag

Deci, în robots.txt dat mai sus, aproape toate secțiunile inutile ale unui site WordPress sunt închise de la indexare, adică lăsați totul așa cum este.

Gazdă

Aici am setat oglinda principală a site-ului, despre care am vorbit chiar mai sus.

Harta site-ului

În ultimele două rânduri specificăm adresa a până la două sitemap-uri create folosind .

Probleme posibile

Accesați secțiunea Setări de indexare –> Analiză Robots.txt:

Deja acolo, faceți clic pe butonul „Încărcați robots.txt de pe site”, apoi faceți clic pe butonul „Verificați”:

Dacă vedeți ceva de genul următor mesaj, înseamnă că aveți robots.txt-ul corect pentru Yandex:

De asemenea, puteți adăuga adresa oricărui articol de pe site la „Lista de adrese URL” pentru a verifica dacă robots.txt interzice indexarea acestei pagini:

După cum puteți vedea, nu vedem nicio interdicție privind indexarea paginilor din robots.txt, ceea ce înseamnă că totul este în ordine :).

Sper că nu veți mai avea întrebări, cum ar fi: cum să compuneți robots.txt sau cum să corectați acest fișier. În această lecție am încercat să vă arăt corect exemplu robots.txt:

Pe curând!

P.s. Destul de recent eu, ce interesant sa întâmplat? 🙂

O hartă a site-ului simplifică foarte mult indexarea blogului dvs. Fiecare site web și blog trebuie să aibă o hartă a site-ului. Dar, de asemenea, fiecare site web și blog ar trebui să aibă un fișier roboți.TXT. Fișierul robots.txt conține un set de instrucțiuni pentru roboții de căutare. Ai putea spune că acestea sunt regulile de comportament pentru roboții de căutare de pe blogul tău. Acest fișier conține și calea către harta site-ului blogului dvs. Și, de fapt, cu un fișier robots.txt compus corect, robotul de căutare nu pierde timp prețios căutând un sitemap și indexând fișierele inutile.

Ce este fișierul robots.txt?

robots.txt– acesta este un fișier text care poate fi creat într-un „notepad” obișnuit, situat în rădăcina blogului dvs., care conține instrucțiuni pentru roboții de căutare.

Aceste instrucțiuni împiedică roboții de căutare să indexeze aleatoriu toate fișierele lui Dumnezeu și se concentrează pe indexarea exactă a paginilor care ar trebui incluse în rezultatele căutării.

Folosind acest fișier, puteți preveni indexarea fișierelor motorului WordPress. Sau, să zicem, secțiunea secretă a blogului tău. Puteți specifica calea către harta blogului dvs. și oglinda principală a blogului dvs. Aici mă refer la numele tău de domeniu cu www și fără www.

Indexarea site-ului cu și fără robots.txt

Această captură de ecran arată clar cum fișierul robots.txt interzice indexarea anumitor foldere de pe site. Fără un fișier, totul de pe site-ul tău este disponibil robotului.

Directivele de bază ale fișierului robots.txt

Pentru a înțelege instrucțiunile pe care le conține fișierul robots.txt, trebuie să înțelegeți comenzile de bază (directive).

Agent utilizator– această comandă indică accesul robotului la site-ul dvs. Folosind această directivă, puteți crea instrucțiuni individual pentru fiecare robot.

Agent utilizator: Yandex – reguli pentru robotul Yandex

User-agent: * - reguli pentru toți roboții

Dezactivați și permiteți– directive de interzicere și permisiuni. Folosind directiva Disallow, indexarea este interzisă, în timp ce Allow o permite.

Exemplu de interdicție:

Agent utilizator: *

Dezactivați: / - interzicerea întregului site.

Agent utilizator: Yandex

Disallow: /admin – interzice robotului Yandex să acceseze paginile aflate în folderul admin.

Exemplu de rezoluție:

Agent utilizator: *

Permite: /foto

Dezactivați: / - interzicerea întregului site, cu excepția paginilor aflate în folderul foto.

Notă! directiva Disallow: fără parametru permite totul, iar directiva Allow: fără parametru interzice totul. Și nu ar trebui să existe o directivă Allow fără Disallow.

Harta site-ului– specifică calea către harta site-ului în format xml.

Harta site-ului: https://site/sitemap.xml.gz

Harta site-ului: https://site/sitemap.xml

Gazdă– directiva definește oglinda principală a blogului tău. Se crede că această directivă este prescrisă numai pentru roboții Yandex. Această directivă ar trebui specificată la sfârșitul fișierului robots.txt.

Agent utilizator: Yandex

Nu permiteți: /wp-includes

Gazdă: site web

Notă! Adresa oglindă principală este specificată fără a specifica protocolul de transfer hipertext (http://).

Cum se creează robots.txt

Acum că suntem familiarizați cu comenzile de bază ale fișierului robots.txt, putem începe să ne creăm fișierul. Pentru a crea propriul fișier robots.txt cu setările tale individuale, trebuie să cunoști structura blogului tău.

Ne vom uita la crearea unui fișier robots.txt standard (universal) pentru un blog WordPress. Îți poți adăuga oricând propriile setări.

Asadar, haideti sa începem. Vom avea nevoie de un „notepad” obișnuit, care se găsește în fiecare sistem de operare Windows. Sau TextEdit pe MacOS.

Deschideți un document nou și inserați aceste comenzi în el:

Agent utilizator: * Renunțare: Harta site-ului: https://site/sitemap.xml.gz Hartă site-ului: https://site/sitemap.xml Agent-utilizator: Yandex Renunțare: /wp-login.php Renunțare: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages ​​Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Gazdă: site

Nu uitați să înlocuiți parametrii din directivele Sitemap și Gazdă cu proprii dvs.

Important! Când scrieți comenzi, este permis un singur spațiu. Între directivă și parametru. În niciun caz nu trebuie să puneți spații după un parametru sau oriunde.

Exemplu: Nu permiteți:<пробел>/a hrani/

Acest exemplu de fișier robots.txt este universal și se potrivește oricărui blog WordPress cu adrese URL CNC. Citiți despre ce este CNC. Dacă nu ați configurat CNC-ul, vă recomand să eliminați Disallow: /*?* Disallow: /?s= din fișierul propus

Încărcarea fișierului robots.txt pe server

Cel mai bun mod pentru acest tip de manipulare este o conexiune FTP. Citiți despre cum să configurați o conexiune FTP pentru TotolCommander. Sau puteți utiliza un manager de fișiere pe găzduirea dvs.

Voi folosi o conexiune FTP pe TotolCommander.

Rețea > Conectați-vă la serverul FTP.

Selectați conexiunea dorită și faceți clic pe butonul „Conectați”.

Deschideți rădăcina blogului și copiați fișierul nostru robots.txt apăsând tasta F5.

Se copiează robots.txt pe server

Acum fișierul robots.txt își va îndeplini funcțiile corespunzătoare. Dar recomand totuși să analizați robots.txt pentru a vă asigura că nu există erori.

Pentru a face acest lucru, va trebui să vă conectați la contul dvs. de webmaster Yandex sau Google. Să ne uităm la exemplul Yandex. Aici puteți efectua o analiză chiar și fără a vă confirma drepturile asupra site-ului. Tot ce aveți nevoie este o cutie poștală Yandex.

Deschideți contul Yandex.webmaster.

Pe pagina principală a contului webmasterului, deschideți linkul "Verificaroboți.TXT".

Pentru a analiza, va trebui să introduceți adresa URL a blogului dvs. și să faceți clic pe „ Descarca roboți.txt de pe site" Imediat ce fișierul este descărcat, faceți clic pe butonul "Verifica".

Absența intrărilor de avertizare indică faptul că fișierul robots.txt a fost creat corect.

Rezultatul va fi prezentat mai jos. Acolo unde este clar și de înțeles ce materiale pot fi arătate roboților de căutare și care sunt interzise.

Rezultatul analizei fișierului robots.txt

Aici puteți face modificări în robots.txt și puteți experimenta până când obțineți rezultatul dorit. Dar rețineți, fișierul aflat pe blogul dvs. nu se modifică. Pentru a face acest lucru, va trebui să copiați rezultatul obținut aici într-un bloc de note, să-l salvați ca robots.txt și să vă copiați blogul.

Apropo, dacă vă întrebați cum arată fișierul robots.txt pe blogul cuiva, îl puteți privi cu ușurință. Pentru a face acest lucru, trebuie doar să adăugați /robots.txt la adresa site-ului

https://site/robots.txt

Acum robots.txt este gata. Și nu uitați, nu amânați crearea fișierului robots.txt, indexarea blogului dvs. va depinde de aceasta.

Dacă doriți să creați robots.txt corect și, în același timp, să vă asigurați că numai paginile necesare vor fi incluse în indexul motorului de căutare, atunci acest lucru se poate face automat folosind plugin-ul.

Asta e tot ce am. Vă doresc tuturor succes. Dacă aveți întrebări sau completări, scrieți în comentarii.

Pe curând.

Salutări, Maxim Zaitsev.

Abonați-vă la articole noi!

Scopul acestui ghid este de a ajuta webmasterii și administratorii să utilizeze robots.txt.

Introducere

Standardul de exceptare a roboților este foarte simplu la bază. Pe scurt, funcționează astfel:

Când un robot care urmează standardul vizitează un site, mai întâi solicită un fișier numit „/robots.txt”. Dacă un astfel de fișier este găsit, Robotul caută în el pentru instrucțiuni care interzic indexarea anumitor părți ale site-ului.

Unde să plasați fișierul robots.txt

Robotul solicită pur și simplu adresa URL „/robots.txt” pe site-ul dvs.; site-ul în acest caz este o anumită gazdă pe un anumit port.

Adresa paginii Adresa URL a fișierului Robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Pe site poate exista un singur fișier „/robots.txt”. De exemplu, nu ar trebui să plasați fișierul robots.txt în subdirectoarele utilizatorilor - roboții oricum nu îi vor căuta acolo. Dacă doriți să puteți crea fișiere robots.txt în subdirectoare, atunci aveți nevoie de o modalitate de a le colecta în mod programatic într-un singur fișier robots.txt situat la rădăcina site-ului. Poți să folosești .

Rețineți că adresele URL țin cont de majuscule, iar numele fișierului „/robots.txt” trebuie scris în întregime cu litere mici.

Locație greșită a robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Fișierul nu se află la rădăcina site-ului
ftp://ftp.w3.com/robots.txt Roboții nu indexează ftp
http://www.w3.org/Robots.txt Numele fișierului nu este scris cu litere mici

După cum puteți vedea, fișierul robots.txt ar trebui plasat exclusiv la rădăcina site-ului.

Ce să scrieți în fișierul robots.txt

Fișierul robots.txt conține de obicei ceva de genul:

Agent utilizator: *
Nu permiteți: /cgi-bin/
Nu permiteți: /tmp/
Nu permiteți: /~joe/

În acest exemplu, indexarea a trei directoare este interzisă.

Rețineți că fiecare director este listat pe o linie separată - nu puteți scrie „Disallow: /cgi-bin/ /tmp/”. De asemenea, nu puteți împărți o declarație Disallow sau User-agent în mai multe rânduri, deoarece Spărturile de linie sunt folosite pentru a separa instrucțiunile unele de altele.

Nici expresiile regulate și metacaracterele nu pot fi folosite. „Asteriscul” (*) din instrucțiunea User-agent înseamnă „orice robot”. Instrucțiuni precum „Disallow: *.gif” sau „User-agent: Ya*” nu sunt acceptate.

Instrucțiunile specifice din robots.txt depind de site-ul dvs. și de ceea ce doriți să împiedicați să fie indexat. Aici sunt cateva exemple:

Blocați întregul site să nu fie indexat de către toți roboții

Agent utilizator: *
Nu permite: /

Permiteți tuturor roboților să indexeze întregul site

Agent utilizator: *
Nu permiteți:

Sau puteți crea pur și simplu un fișier gol „/robots.txt”.

Blocați doar câteva directoare de la indexare

Agent utilizator: *
Nu permiteți: /cgi-bin/
Nu permiteți: /tmp/
Nu permiteți: /privat/

Preveniți indexarea site-ului pentru un singur robot

Agent utilizator: BadBot
Nu permite: /

Permiteți unui robot să indexeze site-ul și să refuze pe toți ceilalți

Agent utilizator: Yandex
Nu permiteți:

Agent utilizator: *
Nu permite: /

Interziceți toate fișierele, cu excepția unuia, de la indexare

Este destul de dificil, pentru că... nu există nicio declarație „Permite”. În schimb, puteți muta toate fișierele cu excepția celui pe care doriți să-l permiteți indexarea într-un subdirector și să împiedicați indexarea acestuia:

Agent utilizator: *
Nu permiteți: /docs/

Sau puteți interzice indexarea tuturor fișierelor interzise:

Agent utilizator: *
Nu permiteți: /private.html
Nu permiteți: /foo.html
Nu permiteți: /bar.html