Domov Recenzie

Použitie súboru robots txt. Ako upraviť súbor txt robots. Jednoducho vytvorte súbor pre akýkoľvek vyhľadávací nástroj

Tento článok obsahuje príklad optimálneho, podľa mňa, kódu pre súbor robots.txt pre WordPress, ktorý môžete použiť na svojich weboch.

Na začiatok si pripomeňme prečo potrebujete robots.txt- súbor robots.txt je potrebný výlučne na to, aby vyhľadávacie roboty „povedali“, ktoré sekcie/stránky lokality majú navštíviť a ktoré by nemali navštevovať. Stránky, ktoré sú z návštevy uzavreté, nebudú zahrnuté do indexu vyhľadávacieho nástroja (Yandex, Google atď.).

Možnosť 1: Optimálny kód robots.txt pre WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # všetky parametre dopytu na hlavnej stránke Disallow: /wp- # all WP files: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Zakázať: /hľadať # hľadať Zakázať: /autor/ # archív autora Zakázať: */vložiť # všetky vloženia Zakázať: */stránku/ # všetky typy stránkovania Povoliť: */nahrávania # otvárať nahrávania Povoliť: /*/*.js # vnútri /wp - (/*/ - pre prioritu) Povoliť: /*/*.css # inside /wp- (/*/ - pre prioritu) Povoliť: /wp-*.png # obrázkov v zásuvných moduloch, priečinku vyrovnávacej pamäte atď . Povoliť: /wp-*.jpg # obrázky v zásuvných moduloch, priečinku vyrovnávacej pamäte atď. Povoliť: /wp-*.jpeg # obrázky v zásuvných moduloch, priečinku vyrovnávacej pamäte atď. Povoliť: /wp-*.gif # obrázky v zásuvných moduloch, priečinku vyrovnávacej pamäte atď. Povoliť: /wp-*.svg # obrázky v zásuvných moduloch, priečinku vyrovnávacej pamäte atď. Povoliť: /wp-*.pdf # súbory v zásuvných moduloch, priečinku vyrovnávacej pamäte atď. Povoliť: /wp-admin/admin-ajax.php #Disallow: /wp/ #, keď je WP nainštalovaný v podadresári wp Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2. xml # iný súbor #Sitemap: http://example.com/sitemap.xml.gz # komprimovaná verzia (.gz) # Verzia kódu: 1.1 # Nezabudnite zmeniť `site.ru` na vašu stránku.

Analýza kódu:

V riadku User-agent: * uvádzame, že všetky nižšie uvedené pravidlá budú fungovať pre všetky vyhľadávacie roboty *. Ak potrebujete, aby tieto pravidlá fungovali iba pre jedného konkrétneho robota, potom namiesto * uvedieme názov robota (User-agent: Yandex, User-agent: Googlebot).

V riadku Allow: */uploads zámerne povoľujeme indexovanie stránok, ktoré obsahujú /uploads. Toto pravidlo je povinné, pretože vyššie zakazujeme indexovanie stránok začínajúcich na /wp- a /wp- zahrnuté v /wp-content/uploads. Preto, aby ste prepísali pravidlo Disallow: /wp-, potrebujete riadok Allow: */uploads , pretože pre odkazy ako /wp-content/uploads/... Môžeme mať obrázky, ktoré je potrebné indexovať, a tiež môžu existovať niektoré stiahnuté súbory, ktoré nie je potrebné skrývať. Allow: môže byť "pred" alebo "po" Disallow: .

Zvyšné riadky zakazujú robotom „sledovať“ odkazy, ktoré začínajú:

Disallow: /cgi-bin - zatvorí adresár scripts na serveri
Disallow: /feed - zatvorí RSS kanál blogu
Disallow: /trackback - zatvorí upozornenia
Disallow: ?s= alebo Disallow: *?s= - zatvorí vyhľadávacie stránky
Disallow: */page/ - zatvorí všetky typy stránkovania

Pravidlo súboru Sitemap: http://example.com/sitemap.xml nasmeruje robota na súbor so súborom Sitemap vo formáte XML. Ak máte takýto súbor na svojej stránke, napíšte k nemu úplnú cestu. Takýchto súborov môže byť niekoľko, cestu ku každému potom uvádzame samostatne.

V riadku Host: site.ru označujeme hlavné zrkadlo webu. Ak má stránka zrkadlá (kópie stránok na iných doménach), potom, aby ich Yandex indexoval všetky rovnako, musíte zadať hlavné zrkadlo. Hostiteľská smernica: iba Yandex rozumie, Google nerozumie! Ak stránka funguje pod protokolom https, potom musí byť špecifikovaná v Host: Host: http://example.com

Z dokumentácie Yandex: „Hostiteľ je nezávislá smernica a funguje kdekoľvek v súbore (prierezová). Preto ho umiestnime na začiatok alebo na úplný koniec súboru cez prázdny riadok.

Pretože prítomnosť otvorených informačných kanálov je potrebná napríklad pre Yandex Zen, keď potrebujete pripojiť stránku ku kanálu (vďaka komentátorovi „Digital“). Možno sú inde potrebné otvorené kanály.

Feedy majú zároveň svoj formát v hlavičkách odpovedí, vďaka čomu vyhľadávače pochopia, že nejde o HTML stránku, ale feed a samozrejme to spracujú nejako inak.

Direktíva Host už nie je potrebná pre Yandex

Yandex úplne opúšťa smernicu Host a nahradil ju presmerovaním 301. Hostiteľa možno bezpečne odstrániť zo súboru robots.txt. Je však dôležité, aby všetky zrkadlá stránky mali presmerovanie 301 na hlavnú stránku (hlavné zrkadlo).

Toto je dôležité: pravidlá triedenia pred spracovaním

Yandex a Google spracujú príkazy Allow a Disallow nie v poradí, v akom sú špecifikované, ale najprv ich zoradia od krátkeho pravidla po dlhé a potom spracujú posledné zodpovedajúce pravidlo:

User-agent: * Allow: */uploads Disallow: /wp-

sa bude čítať ako:

User-agent: * Disallow: /wp- Allow: */uploads

Ak chcete rýchlo pochopiť a použiť funkciu triedenia, zapamätajte si toto pravidlo: „Čím dlhšie je pravidlo v súbore robots.txt, tým má vyššiu prioritu. Ak je dĺžka pravidiel rovnaká, prednosť má smernica Allow."

Možnosť 2: Štandardný súbor robots.txt pre WordPress

Neviem prečo, ale som za prvú možnosť! Pretože je to logickejšie - nie je potrebné úplne duplikovať sekciu, aby ste označili smernicu hostiteľa pre Yandex, ktorá je intersekčná (robot ju chápe kdekoľvek v šablóne bez toho, aby uviedol, na ktorého robota sa vzťahuje). Pokiaľ ide o neštandardnú smernicu Allow, funguje pre Yandex a Google, a ak neotvorí priečinok nahrávania pre iných robotov, ktorí jej nerozumejú, v 99% prípadov to nebude znamenať nič nebezpečné. Ešte som si nevšimol, že by prvé roboty nefungovali tak, ako by mali.

Vyššie uvedený kód je trochu nesprávny. Ďakujem komentátorovi " " za upozornenie na nekorektnosť, hoci som musel prísť na to, čo to je. A na toto som prišiel (môžem sa mýliť):

Niektorí roboti (nie Yandex a Google) nerozumejú viac ako 2 príkazom: User-agent: a Disallow:

Smernicu Yandex Host: je potrebné použiť po Disallow:, pretože niektoré roboty (nie Yandex a Google) jej nemusia rozumieť a vo všeobecnosti odmietnu súbor robots.txt. Samotnému Yandexu, súdiac podľa dokumentácie, je úplne jedno, kde a ako použiť Host:, aj keď vo všeobecnosti vytvoríte súbor robots.txt len s jedným riadkom Host: www.site.ru, aby ste spojili všetky zrkadlá stránok.

3. Sitemap: intersekcionálna smernica pre Yandex a Google a zrejme aj pre mnoho iných robotov, takže ju napíšeme na koniec s prázdnym riadkom a bude fungovať pre všetkých robotov naraz.

Na základe týchto úprav by mal správny kód vyzerať takto:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Hostiteľ: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Pridajme si to za seba

Ak potrebujete zablokovať akékoľvek iné stránky alebo skupiny stránok, nižšie môžete pridať pravidlo (smernicu). Disallow:. Napríklad musíme zatvoriť všetky položky v kategórii z indexovania správy, potom predtým Sitemap: pridať pravidlo:

Disallow: /news

Zabraňuje robotom sledovať takéto odkazy:

http://example.com/novinky
http://example.com/novinky/drugoe-nazvanie/

Ak potrebujete zatvoriť všetky výskyty /news , napíšte:

Disallow: */news

http://example.com/novinky
http://example.com/moje/novinky/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Smernice robots.txt si môžete podrobnejšie preštudovať na stránke pomocníka Yandex (ale nezabúdajte, že nie všetky pravidlá, ktoré sú tam popísané, fungujú pre Google).

Kontrola súboru Robots.txt a dokumentácia

Správne fungovanie predpísaných pravidiel môžete skontrolovať pomocou nasledujúcich odkazov:

Yandex: http://webmaster.yandex.ru/robots.xml.
V Google sa to robí v Vyhľadávacia konzola. Potrebujete autorizáciu a prítomnosť stránky v paneli správcu webu...
Služba na vytvorenie súboru robots.txt: http://pr-cy.ru/robots/
Služba na vytváranie a kontrolu súboru robots.txt: https://seolib.ru/tools/generate/robots/

Spýtal som sa Yandex...

Položil som otázku v technike. Podpora Yandexu týkajúca sa intersekcionálneho použitia smerníc Host a Sitemap:

otázka:

Ahoj!
Na svojom blogu píšem článok o súbore robots.txt. Rád by som dostal odpoveď na túto otázku (v dokumentácii som nenašiel jednoznačné „áno“):

Ak potrebujem prilepiť všetky zrkadlá a na to použijem direktívu Host na samom začiatku súboru robots.txt:
Hostiteľ: site.ru User-agent: * Disallow: /asd
Bude hostiteľ: site.ru v tomto príklade fungovať správne? Naznačí to robotom, že site.ru je hlavným zrkadlom? Tie. Túto direktívu nepoužívam v sekcii, ale samostatne (na začiatku súboru) bez toho, aby som uviedol, na ktorého používateľského agenta sa vzťahuje.

Tiež som chcel vedieť, či sa smernica Sitemap musí použiť vo vnútri sekcie alebo ju možno použiť mimo: napríklad cez prázdny riadok po sekcii?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml
Pochopí robot v tomto príklade smernicu Sitemap?

Dúfam, že od vás dostanem odpoveď, ktorá ukončí moje pochybnosti.

odpoveď:

Ahoj!

Direktívy Host a Sitemap sú prierezové, takže ich robot použije bez ohľadu na miesto v súbore robots.txt, kde sú špecifikované.

--
S pozdravom Platon Shchukin
Služba podpory Yandex

Záver

Je dôležité si uvedomiť, že zmeny v súbore robots.txt na už fungujúcom webe budú viditeľné až po niekoľkých mesiacoch (2-3 mesiacoch).

Hovorí sa, že Google môže niekedy ignorovať pravidlá v súbore robots.txt a vziať stránku do indexu, ak usúdi, že stránka je veľmi jedinečná a užitočná a jednoducho musí byť v indexe. Iné fámy však túto hypotézu vyvracajú tým, že neskúsení optimalizátori môžu nesprávne špecifikovať pravidlá v robots.txt a tak zavrieť potrebné stránky z indexovania a nechať nepotrebné. Skôr sa prikláňam k druhému predpokladu...

Dynamický súbor robots.txt

Vo WordPresse sa požiadavka na súbor robots.txt spracováva samostatne a nie je vôbec potrebné fyzicky vytvárať súbor robots.txt v roote stránky, navyše sa to neodporúča, pretože pri tomto prístupe bude pre pluginy je veľmi ťažké zmeniť tento súbor a niekedy je to potrebné.

O tom, ako funguje dynamické vytváranie súboru robots.txt, si prečítajte v popise funkcie a nižšie uvediem príklad, ako môžete obsah tohto súboru meniť za behu pomocou háku.

Ak to chcete urobiť, pridajte nasledujúci kód do súboru functions.php:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // ukončenie práce PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay – časový limit pre šialených robotov (neberie sa do úvahy od roku 2018)

Yandex

Po analýze listov za posledné dva roky našej podpore týkajúcich sa problémov s indexovaním sme zistili, že jedným z hlavných dôvodov pomalého sťahovania dokumentov je nesprávne nakonfigurovaná smernica Crawl-delay v súbore robots.txt […] Aby vlastníci stránok už viac musíme sa o to starať a Aby sme zabezpečili, že sa pri vyhľadávaní rýchlo objavia a aktualizujú všetky skutočne potrebné webové stránky, rozhodli sme sa opustiť smernicu o oneskorenom prehľadávaní.

Keď robot Yandex skenuje stránku ako blázon a to vytvára zbytočné zaťaženie servera. Môžete požiadať robota, aby „spomalil“.

Ak to chcete urobiť, musíte použiť smernicu Crawl-delay. Udáva čas v sekundách, počas ktorého musí robot nečinný (čakať) na skenovanie každej nasledujúcej stránky lokality.

Pre kompatibilitu s robotmi, ktoré nedodržiavajú štandard robots.txt, musí byť Crawl-delay špecifikované v skupine (v sekcii User-Agent) hneď po Disallow a Allow

Yandex Robot rozumie zlomkovým hodnotám, napríklad 0,5 (pol sekundy). To nezaručuje, že vyhľadávací robot navštívi vašu stránku každú pol sekundu, ale umožňuje vám to urýchliť prehľadávanie stránky.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 sekundy User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Oneskorenie prehľadávania: 2 # časový limit 2 sekundy

Google

Googlebot nerozumie smernici Crawl-delay. Časový limit pre jeho roboty je možné určiť na paneli správcu webu.

V službe avi1.ru si teraz môžete zakúpiť propagáciu SMM vo viac ako 7 najpopulárnejších sociálnych sieťach. Zároveň dávajte pozor na pomerne nízke náklady na všetky služby lokality.

Čas čítania: 7 minút

Takmer každý projekt, ktorý k nám prichádza na audit alebo propagáciu, má nesprávny súbor robots.txt a často úplne chýba. Stáva sa to preto, že pri vytváraní súboru sa každý riadi svojou predstavivosťou a nie pravidlami. Poďme zistiť, ako správne zostaviť tento súbor, aby s ním vyhľadávacie roboty efektívne pracovali.

Prečo potrebujete nakonfigurovať súbor robots.txt?

Robots.txt je súbor umiestnený v koreňovom adresári lokality, ktorý informuje roboty vyhľadávacích nástrojov, ku ktorým sekciám a stránkam lokality majú prístup a ku ktorým nie.

Nastavenie súboru robots.txt je dôležitou súčasťou výsledkov vyhľadávacieho nástroja; správne nakonfigurované roboty tiež zvyšujú výkon stránky. Chýbajúci súbor Robots.txt nezabráni vyhľadávacím nástrojom v indexovom prehľadávaní a indexovaní vašej lokality, ale ak tento súbor nemáte, môžete mať dva problémy:

Vyhľadávací robot prečíta celý web, čo „podkope“ rozpočet na prehľadávanie. Rozpočet na prehľadávanie je počet stránok, ktoré je vyhľadávací robot schopný prehľadávať za určité časové obdobie.

Bez súboru robots bude mať vyhľadávací nástroj prístup k konceptom a skrytým stránkam, k stovkám stránok používaných na správu CMS. Zaindexuje ich a keď príde na potrebné stránky, ktoré návštevníkom poskytujú priamy obsah, rozpočet na prehľadávanie sa „vyčerpá“.

Index môže obsahovať prihlasovaciu stránku lokality a ďalšie zdroje správcu, takže útočník ich môže ľahko sledovať a vykonať ddos útok alebo hacknúť stránku.

Ako vyhľadávacie roboty vidia web so súborom robots.txt a bez neho:

Syntax súboru robots.txt

Skôr než začneme chápať syntax a nastavovať súbor robots.txt, pozrime sa, ako by mal vyzerať „ideálny súbor“:

Ale nemali by ste ho použiť hneď. Každá stránka si najčastejšie vyžaduje svoje vlastné nastavenia, keďže každý máme inú štruktúru stránok a iný CMS. Pozrime sa na každú smernicu v poradí.

User-agent

User-agent – definuje vyhľadávacieho robota, ktorý sa musí riadiť pokynmi popísanými v súbore. Ak potrebujete osloviť všetkých naraz, použite ikonu *. Môžete tiež kontaktovať konkrétneho vyhľadávacieho robota. Napríklad Yandex a Google:

Pomocou tejto smernice robot rozumie, ktoré súbory a priečinky je zakázané indexovať. Ak chcete, aby bola celá vaša lokalita otvorená na indexovanie, ponechajte hodnotu Disallow prázdnu. Ak chcete po Disallow skryť všetok obsah na stránke, zadajte „/“.

Môžeme zabrániť prístupu ku konkrétnemu priečinku, súboru alebo prípone súboru. V našom príklade kontaktujeme všetky vyhľadávacie roboty a zablokujeme prístup k bitrixu, priečinku vyhľadávania a rozšíreniu pdf.

Povoliť

Povoliť vynúti indexovanie stránok a sekcií lokality. Vo vyššie uvedenom príklade kontaktujeme vyhľadávacieho robota Google, zablokujeme prístup k bitrixu, priečinku vyhľadávania a rozšíreniu pdf. Ale v priečinku bitrix nútime otvoriť 3 priečinky na indexovanie: komponenty, js, nástroje.

Hostiteľ - zrkadlo stránky

Zrkadlová stránka je duplikátom hlavnej stránky. Zrkadlá sa používajú na rôzne účely: zmena adresy, zabezpečenie, zníženie zaťaženia servera atď.

Hostiteľ je jedným z najdôležitejších pravidiel. Ak je toto pravidlo zapísané, robot pochopí, ktoré zrkadlá stránky by sa mali brať do úvahy pri indexovaní. Táto smernica je potrebná pre roboty Yandex a Mail.ru. Ostatné roboty budú toto pravidlo ignorovať. Hostiteľ je zaregistrovaný iba raz!

V prípade protokolov „https://“ a „http://“ bude syntax v súbore robots.txt odlišná.

Sitemap - mapa stránok

Sitemap je forma navigácie na stránke, ktorá sa používa na informovanie vyhľadávačov o nových stránkach. Pomocou smernice sitemap „násilne“ ukážeme robotovi, kde sa mapa nachádza.

Symboly v súbore robots.txt

Symboly použité v súbore: „/, *, $, #“.

Kontrola funkčnosti po nastavení súboru robots.txt

Po umiestnení súboru Robots.txt na svoj web ho musíte pridať a skontrolovať v správcovi webu Yandex a Google.

Kontrola Yandex:

Nasledujte tento odkaz.
Vyberte: Nastavenia indexovania - Analýza Robots.txt.

Kontrola Google:

Nasledujte tento odkaz.
Vyberte: Skenovať – nástroj na kontrolu súboru Robots.txt.

Týmto spôsobom môžete skontrolovať chyby v súbore robots.txt a v prípade potreby vykonať potrebné úpravy.

Obsah súboru musí byť napísaný veľkými písmenami.
V direktíve Disallow je potrebné zadať iba jeden súbor alebo adresár.
Riadok "User-agent" nesmie byť prázdny.
User-agent by mal vždy prísť pred Disallow.
Ak potrebujete zakázať indexovanie adresára, nezabudnite pridať lomku.
Pred odovzdaním súboru na server skontrolujte, či neobsahuje syntaktické a pravopisné chyby.

Prajem ti úspech!

Video recenzia 3 metód na vytvorenie a prispôsobenie súboru Robots.txt

Ahojte všetci! Dnes by som vám chcel povedať o súbor robots.txt. Áno, na internete sa o tom veľa písalo, ale úprimne povedané, sám som veľmi dlho nevedel pochopiť, ako vytvoriť správny súbor robots.txt. Nakoniec som si jeden vytvoril a je na všetkých mojich blogoch. Nezaznamenávam žiadne problémy, robots.txt funguje dobre.

Robots.txt pre WordPress

Prečo vlastne potrebujete súbor robots.txt? Odpoveď je stále rovnaká - . To znamená, že kompilácia robots.txt je jednou z častí optimalizácie webu pre vyhľadávače (mimochodom, veľmi skoro tu bude lekcia, ktorá bude venovaná celej internej optimalizácii webu na WordPresse. Preto nezabudnite sa prihlásiť na odber RSS, aby ste nezmeškali zaujímavé materiály.).

Jednou z funkcií tohto súboru je zákaz indexovania nepotrebné webové stránky. Nastaví aj adresu a uvedie to hlavné zrkadlo stránky(stránka s alebo bez www).

Poznámka: pre vyhľadávače sú rovnaké stránky s www a bez www úplne odlišné stránky. Ale uvedomujúc si, že obsah týchto stránok je rovnaký, vyhľadávače ich „zlepia“ dokopy. Preto je dôležité zaregistrovať hlavné zrkadlo stránky v robots.txt. Ak chcete zistiť, ktorá je hlavná (s www alebo bez www), stačí do prehliadača zadať adresu vašej stránky, napríklad s www, ak ste automaticky presmerovaní na rovnakú stránku bez www, potom hlavné zrkadlo vaša stránka je bez www. Dúfam, že som to vysvetlil správne.

bol:

Teraz (po prechode na stránku sa www automaticky odstránili a stránka sa stala bez www):

Takže podľa môjho názoru tento cenný správny súbor robots.txt pre WordPress Môžete vidieť nižšie.

Správne pre WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Používateľský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Hostiteľ: webová stránka
Sitemap: https://site/sitemap.xml.gz
Sitemap: https://site/sitemap.xml

Všetko uvedené vyššie musíte skopírovať do textového dokumentu s príponou .txt, teda tak, aby názov súboru bol robots.txt. Tento textový dokument môžete vytvoriť napríklad pomocou programu. Len nezabudni, prosím zmeniť posledné tri riadky adresu na adresu vašej webovej stránky. Súbor robots.txt by sa mal nachádzať v koreňovom adresári blogu, teda v rovnakom priečinku, kde sa nachádzajú priečinky wp-content, wp-admin atď.

Pre tých, ktorí sú príliš leniví na vytvorenie tohto textového súboru, môžete jednoducho opraviť 3 riadky aj tam.

Chcel by som poznamenať, že sa nemusíte nadmerne zaťažovať technickými časťami, o ktorých sa bude diskutovať nižšie. Prinášam im „poznanie“, takpovediac všeobecný rozhľad, aby vedeli, čo je potrebné a prečo.

Takže riadok:

User-agent

nastavuje pravidlá pre niektoré vyhľadávacie nástroje: napríklad „*“ (hviezdička) označuje, že pravidlá sú pre všetky vyhľadávače a čo je nižšie

Používateľský agent: Yandex

znamená, že tieto pravidlá sú len pre Yandex.

Zakázať
Tu „vhodíte“ sekcie, ktoré NEMUSIA indexovať vyhľadávače. Napríklad na stránke mám duplikát článkov (opakovanie) s bežnými článkami a duplicita stránok má negatívny vplyv na propagáciu vo vyhľadávačoch, preto je veľmi žiaduce, aby tieto sektory boli uzavreté pred indexovaním, čo je čo robíme pomocou tohto pravidla:

Disallow: /tag

Takže vo vyššie uvedenom súbore robots.txt sú takmer všetky nepotrebné sekcie webu WordPress uzavreté pred indexovaním, to znamená, že všetko nechajte tak, ako je.

Hostiteľ

Tu nastavujeme hlavné zrkadlo webu, o ktorom som hovoril tesne vyššie.

Sitemap

V posledných dvoch riadkoch uvádzame adresu až dvoch máp stránok vytvorených pomocou .

Možné problémy

Prejdite do sekcie Nastavenia indexovania –> Analýza Robots.txt:

Už tam kliknite na tlačidlo „Načítať súbor robots.txt zo stránky“ a potom kliknite na tlačidlo „Skontrolovať“:

Ak sa zobrazí niečo ako nasledujúca správa, znamená to, že máte správny súbor robots.txt pre Yandex:

Môžete tiež pridať adresu ľubovoľného článku na stránke do „Zoznamu adries URL“ a skontrolovať, či súbor robots.txt zakazuje indexovanie tejto stránky:

Ako vidíte, nevidíme žiadny zákaz indexovania stránok zo súboru robots.txt, čo znamená, že je všetko v poriadku :).

Dúfam, že už nebudete mať žiadne ďalšie otázky, ako napríklad: ako vytvoriť súbor robots.txt alebo ako opraviť tento súbor. V tejto lekcii som sa vám pokúsil ukázať správne príklad súboru robots.txt:

Do skorého videnia!

P.s. Nedávno som, čo zaujímavé sa stalo? 🙂

Mapa stránok výrazne zjednodušuje indexovanie vášho blogu. Každá webová stránka a blog musí mať mapu stránky. Ale aj každá webová stránka a blog by mali mať súbor roboty.TXT. Súbor robots.txt obsahuje súbor pokynov pre vyhľadávacie roboty. Dalo by sa povedať, že toto sú pravidlá správania vyhľadávacích robotov na vašom blogu. Tento súbor obsahuje aj cestu k súboru sitemap vášho blogu. A v skutočnosti, so správne zostaveným súborom robots.txt, vyhľadávací robot nestráca drahocenný čas hľadaním mapy webu a indexovaním nepotrebných súborov.

Čo je súbor robots.txt?

robots.txt– ide o textový súbor, ktorý je možné vytvoriť v bežnom „poznámkovom bloku“, ktorý sa nachádza v koreňovom adresári vášho blogu a obsahuje pokyny pre vyhľadávacie roboty.

Tieto pokyny zabraňujú vyhľadávacím robotom v náhodnom indexovaní všetkých súborov vášho boha a zameriavajú sa na indexovanie presne tých stránok, ktoré by mali byť zahrnuté vo výsledkoch vyhľadávania.

Pomocou tohto súboru môžete zabrániť indexovaniu súborov motora WordPress. Alebo, povedzme, tajná časť vášho blogu. Môžete zadať cestu k mape blogu a hlavnému zrkadlu svojho blogu. Tu mám na mysli názov vašej domény s www a bez www.

Indexovanie stránok so súborom robots.txt a bez neho

Táto snímka obrazovky jasne ukazuje, ako súbor robots.txt zakazuje indexovanie určitých priečinkov na stránke. Bez súboru je všetko na vašom webe dostupné pre robota.

Základné smernice súboru robots.txt

Aby ste pochopili pokyny, ktoré obsahuje súbor robots.txt, musíte pochopiť základné príkazy (smernice).

User-agent– tento príkaz označuje prístup robota na vašu stránku. Pomocou tejto direktívy môžete vytvárať inštrukcie individuálne pre každého robota.

User-agent: Yandex – pravidlá pre robota Yandex

User-agent: * - pravidlá pre všetky roboty

Disallow a Allow– príkazy o zákaze a povoleniach. Pomocou direktívy Disallow je indexovanie zakázané, zatiaľ čo Allow to povoľuje.

Príklad zákazu:

User-agent: *

Disallow: / - zákaz na celej stránke.

Používateľský agent: Yandex

Disallow: /admin – zakáže robotovi Yandex pristupovať na stránky umiestnené v priečinku admin.

Príklad rozlíšenia:

User-agent: *

Povoliť: /foto

Disallow: / - zákaz na celej stránke, okrem stránok umiestnených v priečinku s fotografiami.

Poznámka! direktíva Disallow: bez parametra povoľuje všetko a direktíva Allow: bez parametra všetko zakazuje. A nemala by existovať smernica Allow bez Disallow.

Sitemap– určuje cestu k mape lokality vo formáte xml.

Sitemap: https://site/sitemap.xml.gz

Sitemap: https://site/sitemap.xml

Hostiteľ– smernica definuje hlavné zrkadlo vášho blogu. Predpokladá sa, že táto smernica je predpísaná iba pre roboty Yandex. Táto smernica by mala byť špecifikovaná na samom konci súboru robots.txt.

Používateľský agent: Yandex

Disallow: /wp-includes

Hostiteľ: webová stránka

Poznámka! Hlavná zrkadlová adresa je špecifikovaná bez špecifikovania protokolu prenosu hypertextu (http://).

Ako vytvoriť súbor robots.txt

Teraz, keď sme sa oboznámili so základnými príkazmi súboru robots.txt, môžeme začať vytvárať náš súbor. Aby ste si mohli vytvoriť svoj vlastný súbor robots.txt s vašimi individuálnymi nastaveniami, musíte poznať štruktúru svojho blogu.

Pozrieme sa na vytvorenie štandardného (univerzálneho) súboru robots.txt pre blog WordPress. Vždy doň môžete pridať svoje vlastné nastavenia.

Tak poďme na to. Budeme potrebovať bežný „poznámkový blok“, ktorý sa nachádza v každom operačnom systéme Windows. Alebo TextEdit na MacOS.

Otvorte nový dokument a vložte do neho tieto príkazy:

User-agent: * Disallow: Sitemap: https://site/sitemap.xml.gz Sitemap: https://site/sitemap.xml User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Hostiteľ: site

Nezabudnite nahradiť parametre smerníc Sitemap a Host svojimi vlastnými.

Dôležité! Pri písaní príkazov je povolená iba jedna medzera. Medzi direktívou a parametrom. V žiadnom prípade nedávajte medzery za parameter alebo len tak hocikde.

Príklad: Disallow:<пробел>/feed/

Tento príklad súboru robots.txt je univerzálny a hodí sa pre každý blog WordPress s CNC URL. Prečítajte si o tom, čo je CNC. Ak ste nenakonfigurovali CNC, odporúčam odstrániť Disallow: /*?* Disallow: /?s= z navrhovaného súboru

Nahrávanie súboru robots.txt na server

Najlepším spôsobom na tento druh manipulácie je pripojenie FTP. Prečítajte si o tom, ako nastaviť FTP pripojenie pre TotolCommander. Alebo môžete použiť správcu súborov na svojom hostingu.

Budem používať FTP pripojenie na TotolCommander.

Sieť > Pripojiť k serveru FTP.

Vyberte požadované pripojenie a kliknite na tlačidlo „Pripojiť“.

Otvorte koreňový adresár blogu a skopírujte náš súbor robots.txt stlačením klávesu F5.

Kopírovanie súboru robots.txt na server

Teraz bude váš súbor robots.txt vykonávať svoje správne funkcie. Stále však odporúčam analyzovať súbor robots.txt, aby ste sa uistili, že nie sú žiadne chyby.

Ak to chcete urobiť, musíte sa prihlásiť do svojho účtu správcu webu Yandex alebo Google. Pozrime sa na príklad Yandex. Tu môžete vykonať analýzu aj bez potvrdenia vašich práv na stránku. Všetko, čo potrebujete, je poštová schránka Yandex.

Otvorte účet Yandex.webmaster.

Na hlavnej stránke účtu správcu webu otvorte odkaz "Skontrolovaťroboty.TXT".

Na analýzu budete musieť zadať URL adresu svojho blogu a kliknúť na „ Stiahnuť ▼ roboty.txt zo stránky" Hneď ako sa súbor stiahne, kliknite na tlačidlo "Skontrolovať".

Neprítomnosť upozornení naznačuje, že súbor robots.txt bol vytvorený správne.

Výsledok bude uvedený nižšie. Tam, kde je jasné a pochopiteľné, ktoré materiály sa môžu ukázať vyhľadávacím robotom a ktoré sú zakázané.

Výsledok analýzy súboru robots.txt

Tu môžete vykonávať zmeny v súbore robots.txt a experimentovať, kým nedosiahnete požadovaný výsledok. Pamätajte však, že súbor umiestnený na vašom blogu sa nemení. Ak to chcete urobiť, budete musieť skopírovať tu získaný výsledok do poznámkového bloku, uložiť ho ako robots.txt a skopírovať blog.

Mimochodom, ak vás zaujíma, ako vyzerá súbor robots.txt na niekoho blogu, môžete si ho jednoducho pozrieť. Ak to chcete urobiť, stačí pridať /robots.txt k adrese webu

https://site/robots.txt

Teraz je váš súbor robots.txt pripravený. A pamätajte, že vytvorenie súboru robots.txt neodkladajte, indexovanie vášho blogu bude závisieť od toho.

Ak chcete vytvoriť správny súbor robots.txt a zároveň si byť istí, že do indexu vyhľadávača budú zahrnuté iba potrebné stránky, potom sa to dá urobiť automaticky pomocou pluginu.

To je všetko, čo mám. prajem vam vsetkym uspech. Ak máte nejaké otázky alebo dodatky, napíšte do komentárov.

Do skorého videnia.

S pozdravom Maxim Zaitsev.

Prihláste sa na odber nových článkov!

Účelom tejto príručky je pomôcť webmasterom a správcom používať súbor robots.txt.

Úvod

Štandard oslobodenia od robotov je vo svojom jadre veľmi jednoduchý. V skratke to funguje takto:

Keď robot, ktorý dodržiava štandard, navštívi stránku, najprv si vyžiada súbor s názvom „/robots.txt“. Ak sa takýto súbor nájde, robot v ňom vyhľadá pokyny zakazujúce indexovanie určitých častí stránky.

Kam umiestniť súbor robots.txt

Robot si jednoducho vyžiada URL „/robots.txt“ na vašom webe; web je v tomto prípade špecifický hostiteľ na konkrétnom porte.

Adresa URL stránky	Adresa URL súboru Robots.txt
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.org:1234/robots.txt
http://w3.org/	http://w3.org/robots.txt

Na stránke môže byť iba jeden súbor „/robots.txt“. Súbor robots.txt by ste napríklad nemali umiestňovať do používateľských podadresárov – roboty ich tam aj tak hľadať nebudú. Ak chcete mať možnosť vytvárať súbory robots.txt v podadresároch, potrebujete spôsob, ako ich programovo zhromaždiť do jedného súboru robots.txt umiestneného v koreňovom adresári stránky. Môžeš použiť .

Nezabudnite, že v adresách URL sa rozlišujú malé a veľké písmená a názov súboru „/robots.txt“ musí byť celý napísaný malými písmenami.

Nesprávne umiestnenie súboru robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt	Súbor sa nenachádza v koreňovom adresári lokality
ftp://ftp.w3.com/robots.txt	Roboty neindexujú ftp
http://www.w3.org/Robots.txt	Názov súboru nie je napísaný malými písmenami

Ako vidíte, súbor robots.txt by mal byť umiestnený výlučne v koreňovom adresári stránky.

Čo napísať do súboru robots.txt

Súbor robots.txt zvyčajne obsahuje niečo ako:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

V tomto príklade je zakázané indexovanie troch adresárov.

Všimnite si, že každý adresár je uvedený na samostatnom riadku - nemôžete napísať "Disallow: /cgi-bin/ /tmp/". Tiež nemôžete rozdeliť jeden príkaz Disallow alebo User-agent do niekoľkých riadkov, pretože Zalomenie riadkov sa používa na oddelenie pokynov od seba.

Nemožno použiť ani regulárne výrazy a zástupné znaky. „Hviezdička“ (*) v inštrukcii User-agent znamená „akýkoľvek robot“. Pokyny ako „Disallow: *.gif“ alebo „User-agent: Ya*“ nie sú podporované.

Konkrétne pokyny v súbore robots.txt závisia od vašej lokality a od toho, čo chcete zabrániť indexovaniu. Tu je niekoľko príkladov:

Zablokujte indexovanie celej lokality všetkými robotmi

User-agent: *
Disallow: /

Umožnite všetkým robotom indexovať celú lokalitu

User-agent: *
Disallow:

Alebo môžete jednoducho vytvoriť prázdny súbor „/robots.txt“.

Zablokujte indexovanie iba niekoľkých adresárov

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Zabrániť indexovaniu stránok iba pre jedného robota

Používateľský agent: BadBot
Disallow: /

Umožnite jednému robotovi indexovať stránku a všetkým ostatným zakázať

Používateľský agent: Yandex
Disallow:

User-agent: *
Disallow: /

Zakázať indexovanie všetkých súborov okrem jedného

Je to dosť ťažké, pretože... neexistuje žiadne vyhlásenie „Povoliť“. Namiesto toho môžete presunúť všetky súbory okrem toho, ktorému chcete povoliť indexovanie, do podadresára a zabrániť jeho indexovaniu:

User-agent: *
Disallow: /docs/

Alebo môžete zakázať indexovanie všetkých súborov:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html