Domov Recenze

Pomocí robots txt. Jak upravit soubor txt robots. Snadno vytvořte soubor pro jakýkoli vyhledávač

Tento článek obsahuje příklad optimálního, dle mého názoru, kódu pro soubor robots.txt pro WordPress, který můžete použít na svých webech.

Pro začátek si připomeňme proč potřebujete robots.txt- soubor robots.txt je potřeba výhradně pro vyhledávací roboty, aby jim „řekl“, které části/stránky webu mají navštívit a které by neměli navštěvovat. Stránky, které jsou uzavřeny před návštěvou, nebudou zahrnuty do indexu vyhledávače (Yandex, Google atd.).

Možnost 1: Optimální kód robots.txt pro WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # všechny parametry dotazu na hlavní stránce Disallow: /wp- # all WP files: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Disallow: /search # search Disallow: /author/ # autor archiv Disallow: */embed # všechna vložení Disallow: */page/ # všechny typy stránkování Povolit: */uploads # open uploads Povolit: /*/*.js # inside /wp - (/*/ - pro prioritu) Povolit: /*/*.css # inside /wp- (/*/ - pro prioritu) Povolit: /wp-*.png # obrázky v pluginech, složce mezipaměti atd. . Povolit: /wp-*.jpg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.jpeg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.gif # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.svg # obrázky v pluginech, složce mezipaměti atd. Povolit: /wp-*.pdf # soubory v pluginech, složce mezipaměti atd. Povolit: /wp-admin/admin-ajax.php #Disallow: /wp/ #, když je WP nainstalováno v podadresáři wp Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2. xml # jiný soubor #Sitemap: http://example.com/sitemap.xml.gz # komprimovaná verze (.gz) # Verze kódu: 1.1 # Nezapomeňte změnit `site.ru` na svůj web.

Analýza kódu:

V řádku User-agent: * uvádíme, že všechna níže uvedená pravidla budou fungovat pro všechny vyhledávací roboty *. Pokud potřebujete, aby tato pravidla fungovala pouze pro jednoho konkrétního robota, pak místo * uvedeme jméno robota (User-agent: Yandex, User-agent: Googlebot).

V řádku Allow: */uploads záměrně umožňujeme indexování stránek, které obsahují /uploads. Toto pravidlo je povinné, protože výše zakazujeme indexování stránek začínajících na /wp- a /wp- obsažen v /wp-content/uploads. Proto, abyste přepsali pravidlo Disallow: /wp-, potřebujete řádek Allow: */uploads , protože pro odkazy jako /wp-content/uploads/... Můžeme mít obrázky, které je třeba indexovat, a také mohou existovat nějaké stažené soubory, které není třeba skrývat. Allow: může být "před" nebo "po" Disallow: .

Zbývající řádky zakazují robotům „sledovat“ odkazy, které začínají:

Disallow: /cgi-bin - zavře adresář scripts na serveru
Disallow: /feed - zavře RSS zdroj blogu
Disallow: /trackback - zavře upozornění
Disallow: ?s= nebo Disallow: *?s= - zavře vyhledávací stránky
Disallow: */page/ - zavře všechny typy stránkování

Pravidlo Sitemap: http://example.com/sitemap.xml odkazuje robota na soubor se souborem Sitemap ve formátu XML. Pokud máte takový soubor na svém webu, napište k němu úplnou cestu. Těchto souborů může být několik, cestu ke každému pak uvádíme samostatně.

V řádku Host: site.ru označujeme hlavní zrcadlo webu. Pokud má web zrcadla (kopie webu v jiných doménách), pak aby je Yandex indexoval všechny stejně, musíte zadat hlavní zrcadlo. Hostitelská směrnice: rozumí pouze Yandex, Google nerozumí! Pokud web funguje pod protokolem https, musí být uveden v Host: Host: http://example.com

Z dokumentace Yandex: „Host je nezávislá směrnice a funguje kdekoli v souboru (průřezová).“ Proto jej umístíme na začátek nebo na úplný konec souboru, přes prázdný řádek.

Protože přítomnost otevřených zdrojů je vyžadována například pro Yandex Zen, když potřebujete připojit web ke kanálu (díky komentátoru „Digital“). Možná jsou jinde potřeba otevřené kanály.

Feedy mají zároveň v hlavičkách odpovědí svůj formát, díky kterému vyhledávače pochopí, že se nejedná o HTML stránku, ale feed a evidentně to zpracují nějak jinak.

Direktiva Host již není pro Yandex potřeba

Yandex zcela opouští direktivu Host a nahrazuje ji přesměrováním 301. Hostitele lze bezpečně odebrat ze souboru robots.txt. Je však důležité, aby všechna zrcadla webu měla přesměrování 301 na hlavní web (hlavní zrcadlo).

To je důležité: pravidla třídění před zpracováním

Yandex a Google zpracovávají příkazy Allow a Disallow nikoli v pořadí, ve kterém jsou specifikovány, ale nejprve je seřadí od krátkého pravidla po dlouhé a poté zpracují poslední odpovídající pravidlo:

User-agent: * Allow: */uploads Disallow: /wp-

se bude číst jako:

User-agent: * Disallow: /wp- Allow: */uploads

Chcete-li rychle pochopit a použít funkci řazení, zapamatujte si toto pravidlo: „Čím delší je pravidlo v souboru robots.txt, tím vyšší prioritu má. Pokud je délka pravidel stejná, přednost má direktiva Allow."

Možnost 2: Standardní soubor robots.txt pro WordPress

Nevím proč, ale jsem pro první možnost! Protože je to logičtější - není nutné zcela duplikovat sekci, aby bylo možné označit hostitelskou direktivu pro Yandex, která je průsečíková (rozuměná robotem kdekoli v šabloně, aniž by bylo uvedeno, na kterého robota se odkazuje). Pokud jde o nestandardní direktivu Allow, funguje pro Yandex a Google, a pokud neotevře složku pro nahrávání pro jiné roboty, kteří jí nerozumí, nebude to v 99% případů znamenat nic nebezpečného. Ještě jsem si nevšiml, že by první roboti nefungovali tak, jak by měli.

Výše uvedený kód je trochu nesprávný. Děkuji komentátorovi " " za upozornění na nesprávnost, i když jsem musel sám přijít na to, co to je. A na tohle jsem přišel (mohu se mýlit):

Někteří roboti (ne Yandex a Google) nerozumí více než 2 příkazům: User-agent: a Disallow:

Direktiva Yandex Host: musí být použita po Disallow:, protože někteří roboti (nikoli Yandex a Google) jí nemusí rozumět a obecně odmítají robots.txt. Samotnému Yandexu, soudě podle dokumentace, je absolutně jedno, kde a jak používat Host:, i když obvykle vytváříte robots.txt pouze s jedním řádkem Host: www.site.ru, abyste spojili všechna zrcadla stránek dohromady.

3. Sitemap: průsečíková směrnice pro Yandex a Google a zřejmě i pro mnoho dalších robotů, takže ji napíšeme na konec s prázdným řádkem a bude fungovat pro všechny roboty najednou.

Na základě těchto změn by správný kód měl vypadat takto:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Pojďme si to přidat za sebe

Pokud potřebujete zablokovat jakékoli další stránky nebo skupiny stránek, můžete níže přidat pravidlo (směrnici). Disallow:. Potřebujeme například zavřít všechny položky v kategorii z indexování zprávy, pak předtím Mapa webu: přidat pravidlo:

Disallow: /news

Zabraňuje robotům sledovat tyto odkazy:

http://example.com/novinky
http://example.com/novinky/drugoe-nazvanie/

Pokud potřebujete zavřít jakékoli výskyty /news , napište:

Disallow: */news

http://example.com/novinky
http://example.com/moje/novinky/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Direktivy robots.txt si můžete podrobněji prostudovat na stránce nápovědy Yandex (ale mějte na paměti, že ne všechna zde popsaná pravidla fungují pro Google).

Kontrola souboru Robots.txt a dokumentace

Správné fungování předepsaných pravidel můžete zkontrolovat pomocí následujících odkazů:

Yandex: http://webmaster.yandex.ru/robots.xml.
V Google se to dělá v Vyhledávací konzole. Potřebujete autorizaci a přítomnost webu v panelu webmastera...
Služba pro vytvoření souboru robots.txt: http://pr-cy.ru/robots/
Služba pro vytváření a kontrolu robots.txt: https://seolib.ru/tools/generate/robots/

Zeptal jsem se Yandex...

Položil jsem otázku v technice. Podpora Yandex ohledně intersekcionálního použití direktiv Host a Sitemap:

Otázka:

Ahoj!
Na svém blogu píšu článek o robots.txt. Rád bych dostal odpověď na tuto otázku (v dokumentaci jsem nenašel jasné „ano“):

Pokud potřebuji přilepit všechna zrcadla a k tomu použiji direktivu Host na samém začátku souboru robots.txt:
Host: site.ru User-agent: * Disallow: /asd
Bude hostitel: site.ru v tomto příkladu fungovat správně? Naznačí to robotům, že site.ru je hlavním zrcadlem? Tito. Tuto direktivu nepoužívám v sekci, ale samostatně (na začátku souboru), aniž bych uvedl, na kterého User-agenta se vztahuje.

Také jsem chtěl vědět, zda musí být direktiva Sitemap použita uvnitř sekce nebo může být použita mimo: například přes prázdný řádek po sekci?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml
Rozumí robot v tomto příkladu direktivě Sitemap?

Doufám, že od vás obdržím odpověď, která ukončí mé pochybnosti.

Odpovědět:

Ahoj!

Direktivy Host a Sitemap jsou průnikové, takže je robot použije bez ohledu na to, kde jsou v souboru robots.txt uvedeny.

--
S pozdravem Platon Shchukin
Služba podpory Yandex

Závěr

Je důležité si uvědomit, že změny v souboru robots.txt na již fungujícím webu budou patrné až po několika měsících (2–3 měsících).

Proslýchá se, že Google může někdy ignorovat pravidla v robots.txt a vzít stránku do indexu, pokud se domnívá, že stránka je velmi jedinečná a užitečná a v indexu prostě musí být. Jiné fámy však tuto hypotézu vyvracejí tím, že nezkušení optimalizátoři dokážou v robots.txt nesprávně specifikovat pravidla a zavřít tak potřebné stránky z indexace a ponechat nepotřebné. Spíš se přikláním k druhému předpokladu...

Dynamický soubor robots.txt

Ve WordPressu se požadavek na soubor robots.txt zpracovává samostatně a není vůbec nutné fyzicky vytvářet soubor robots.txt v rootu webu, navíc se to nedoporučuje, protože s tímto přístupem bude pro pluginy je velmi obtížné tento soubor změnit, a to je někdy nutné.

O tom, jak funguje dynamické vytváření souboru robots.txt, si přečtěte v popisu funkce a níže uvedu příklad, jak můžete obsah tohoto souboru měnit za běhu, pomocí háčku.

Chcete-li to provést, přidejte do souboru functions.php následující kód:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // ukončení práce PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay – časový limit pro šílené roboty (od roku 2018 se nebere v úvahu)

Yandex

Po analýze dopisů zaslaných naší podpoře za poslední dva roky ohledně problémů s indexováním jsme zjistili, že jedním z hlavních důvodů pomalého stahování dokumentů je nesprávně nakonfigurovaná direktiva Crawl-delay v robots.txt […] Aby majitelé stránek již nemuseli musíme se o to starat a Abychom zajistili, že se všechny skutečně potřebné webové stránky objeví a budou rychle aktualizovány ve vyhledávání, rozhodli jsme se opustit direktivu Crawl-delay.

Když robot Yandex skenuje web jako blázen a to vytváří zbytečné zatížení serveru. Můžete požádat robota, aby „zpomalil“.

Chcete-li to provést, musíte použít direktivu Crawl-delay. Udává dobu v sekundách, po kterou musí robot nečinně čekat (čekat), aby naskenoval každou následující stránku webu.

Pro kompatibilitu s roboty, kteří nedodržují standard robots.txt dobře, musí být Crawl-delay specifikováno ve skupině (v sekci User-Agent) ihned po Disallow a Allow

Yandex Robot rozumí zlomkovým hodnotám, například 0,5 (půl sekundy). To nezaručuje, že vyhledávací robot navštíví váš web každou půl sekundu, ale umožňuje vám to urychlit procházení webu.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Zpoždění procházení: 1,5 # časový limit 1,5 sekundy User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Zpoždění procházení: 2 # časový limit 2 sekundy

Google

Googlebot nerozumí direktivě Crawl-delay. Časový limit pro jeho roboty lze zadat na panelu webmastera.

Na službě avi1.ru si nyní můžete zakoupit propagaci SMM ve více než 7 nejoblíbenějších sociálních sítích. Zároveň věnujte pozornost poměrně nízkým nákladům na všechny služby webu.

Čas na čtení: 7 minut

Téměř každý projekt, který k nám přichází na audit nebo propagaci, má nesprávný soubor robots.txt a často vůbec chybí. To se děje proto, že při vytváření souboru se každý řídí svou představivostí, a ne pravidly. Pojďme zjistit, jak správně sestavit tento soubor, aby s ním vyhledávací roboti efektivně pracovali.

Proč potřebujete konfigurovat soubor robots.txt?

Robots.txt je soubor umístěný v kořenovém adresáři webu, který říká robotům vyhledávačů, ke kterým sekcím a stránkám webu mají přístup a ke kterým ne.

Nastavení robots.txt je důležitou součástí výsledků vyhledávače; správně nakonfigurovaní roboti také zvyšují výkon webu. Chybějící soubor Robots.txt nezabrání vyhledávačům v procházení a indexování vašeho webu, ale pokud tento soubor nemáte, můžete mít dva problémy:

Vyhledávací robot přečte celý web, což „podkope“ rozpočet na procházení. Rozpočet procházení je počet stránek, které je vyhledávací robot schopen procházet za určité časové období.

Bez souboru robots bude mít vyhledávač přístup k konceptům a skrytým stránkám, ke stovkám stránek používaných ke správě CMS. Bude je indexovat, a když dojde na potřebné stránky, které poskytují přímý obsah pro návštěvníky, rozpočet na procházení „dojde“.

Index může obsahovat přihlašovací stránku webu a další zdroje správce, takže je útočník může snadno sledovat a provést ddos útok nebo hacknout web.

Jak vyhledávací roboti vidí web s a bez robots.txt:

Syntaxe souboru robots.txt

Než začneme rozumět syntaxi a nastavovat soubor robots.txt, podívejme se, jak by měl vypadat „ideální soubor“:

Ale neměli byste to používat hned. Každý web nejčastěji vyžaduje vlastní nastavení, protože každý máme jinou strukturu webu a jiný CMS. Podívejme se na jednotlivé směrnice v pořadí.

User-agent

User-agent – definuje vyhledávacího robota, který se musí řídit pokyny popsanými v souboru. Pokud potřebujete oslovit všechny najednou, použijte ikonu *. Můžete také kontaktovat konkrétního vyhledávacího robota. Například Yandex a Google:

Pomocí této směrnice robot rozumí, které soubory a složky je zakázáno indexovat. Pokud chcete, aby byl celý váš web otevřen pro indexování, ponechte hodnotu Disallow prázdnou. Chcete-li po Disallow skrýt veškerý obsah na webu, vložte „/“.

Můžeme zabránit přístupu ke konkrétní složce, souboru nebo příponě souboru. V našem příkladu kontaktujeme všechny vyhledávací roboty a zablokujeme přístup k bitrixu, vyhledávací složce a rozšíření pdf.

Dovolit

Povolit vynutí indexování stránek a částí webu. Ve výše uvedeném příkladu kontaktujeme vyhledávacího robota Google, zablokujeme přístup do bitrixu, vyhledávací složky a přípony pdf. Ale ve složce bitrix vynutíme otevření 3 složek pro indexování: komponenty, js, nástroje.

Host – zrcadlo webu

Zrcadlový web je duplikátem hlavního webu. Zrcadla se používají pro různé účely: změna adresy, zabezpečení, snížení zatížení serveru atd.

Hostitel je jedním z nejdůležitějších pravidel. Pokud je toto pravidlo zapsáno, robot pochopí, které ze zrcadel webu by se mělo vzít v úvahu při indexování. Tato směrnice je nezbytná pro roboty Yandex a Mail.ru. Ostatní roboti budou toto pravidlo ignorovat. Hostitel je registrován pouze jednou!

U protokolů „https://“ a „http://“ se syntaxe v souboru robots.txt bude lišit.

Sitemap - mapa stránek

Sitemap je forma navigace na webu, která se používá k informování vyhledávačů o nových stránkách. Pomocí direktivy sitemap „násilně“ ukážeme robotovi, kde se mapa nachází.

Symboly v souboru robots.txt

Symboly použité v souboru: „/, *, $, #“.

Kontrola funkčnosti po nastavení souboru robots.txt

Poté, co jste umístili soubor Robots.txt na svůj web, musíte jej přidat a zkontrolovat ve správci webu Yandex a Google.

Kontrola Yandex:

Následujte tento odkaz.
Vyberte: Nastavení indexování - Analýza Robots.txt.

Kontrola Google:

Následujte tento odkaz.
Vyberte: Skenovat - Nástroj pro kontrolu souboru Robots.txt.

Tímto způsobem můžete zkontrolovat chyby v souboru robots.txt a v případě potřeby provést potřebné úpravy.

Obsah souboru musí být napsán velkými písmeny.
V direktivě Disallow je třeba zadat pouze jeden soubor nebo adresář.
Řádek "User-agent" nesmí být prázdný.
User-agent by měl vždy přijít před Disallow.
Pokud potřebujete zakázat indexování adresáře, nezapomeňte přidat lomítko.
Před nahráním souboru na server se ujistěte, že v něm nejsou syntaktické a pravopisné chyby.

Přeji ti úspěch!

Videorecenze 3 metod pro vytvoření a přizpůsobení souboru Robots.txt

Ahoj všichni! Dnes bych vám chtěl vyprávět o soubor robots.txt. Ano, na internetu se o tom hodně psalo, ale abych byl upřímný, sám jsem velmi dlouho nemohl pochopit, jak vytvořit správný soubor robots.txt. Nakonec jsem jeden vytvořil a je na všech mých blozích. Nepozoruji žádné problémy, robots.txt funguje v pořádku.

Robots.txt pro WordPress

Proč vlastně potřebujeme soubor robots.txt? Odpověď je stále stejná - . To znamená, že kompilace robots.txt je jednou z částí optimalizace webu pro vyhledávače (mimochodem, velmi brzy bude lekce, která bude věnována veškeré vnitřní optimalizaci webu na WordPressu. Proto ne nezapomeňte se přihlásit k odběru RSS, abyste nepřišli o zajímavé materiály.).

Jednou z funkcí tohoto souboru je zákaz indexování nepotřebné webové stránky. Také nastavuje adresu a uvádí to hlavní zrcadlo webu(stránky s nebo bez www).

Poznámka: pro vyhledávače jsou stejné stránky s www a bez www zcela odlišné stránky. Ale když si uvědomí, že obsah těchto stránek je stejný, vyhledávače je „slepí“ dohromady. Proto je důležité zaregistrovat hlavní zrcadlo webu do robots.txt. Chcete-li zjistit, která je hlavní (s www nebo bez www), stačí zadat do prohlížeče adresu vašeho webu, například s www, pokud jste automaticky přesměrováni na stejnou stránku bez www, pak hlavní zrcadlo vaše stránky jsou bez www. Doufám, že jsem to vysvětlil správně.

bylo:

Nyní (po přechodu na web byly www automaticky odstraněny a web se stal bez www):

Takže podle mého názoru tento cenný správný soubor robots.txt pro WordPress Můžete vidět níže.

Správně pro WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Uživatelský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Hostitel: webové stránky
Soubor Sitemap: https://site/sitemap.xml.gz
Soubor Sitemap: https://site/sitemap.xml

Vše uvedené výše musíte zkopírovat do textového dokumentu s příponou .txt, tedy tak, aby název souboru byl robots.txt. Tento textový dokument můžete vytvořit například pomocí programu. Jen nezapomeň, prosím změnit poslední tři řádky adresu na adresu vašeho webu. Soubor robots.txt by měl být umístěn v kořenovém adresáři blogu, tedy ve stejné složce, kde jsou umístěny složky wp-content, wp-admin atd.

Pro ty, kteří jsou příliš líní vytvořit tento textový soubor, můžete jednoduše opravit 3 řádky tam také.

Rád bych poznamenal, že se nemusíte přetěžovat technickými částmi, o kterých bude řeč níže. Přináším jim „poznání“, takříkajíc obecný rozhled, aby věděli, co je potřeba a proč.

Takže řádek:

User-agent

nastavuje pravidla pro některé vyhledávače: například „*“ (hvězdička) označuje, že pravidla platí pro všechny vyhledávače a co je níže

Uživatelský agent: Yandex

znamená, že tato pravidla platí pouze pro Yandex.

Zakázat
Zde „vhodíte“ sekce, které NEMUSÍ být indexovány vyhledávači. Například na stránce mám duplikát článků (opakování) s běžnými články a duplikace stránek má negativní dopad na propagaci ve vyhledávačích, proto je velmi žádoucí, aby tyto sektory byly uzavřeny před indexováním, což je co děláme pomocí tohoto pravidla:

Disallow: /tag

Takže ve výše uvedeném souboru robots.txt jsou téměř všechny nepotřebné sekce webu WordPress uzavřeny z indexování, to znamená, že vše nechte tak, jak je.

Hostitel

Zde nastavujeme hlavní zrcadlo webu, o kterém jsem mluvil těsně výše.

Sitemap

V posledních dvou řádcích specifikujeme adresu až dvou sitemap vytvořených pomocí .

Možné problémy

Přejděte do sekce Nastavení indexování –> Analýza Robots.txt:

Již tam klikněte na tlačítko „Načíst robots.txt z webu“ a poté klikněte na tlačítko „Zkontrolovat“:

Pokud se zobrazí něco jako následující zpráva, znamená to, že máte správný soubor robots.txt pro Yandex:

Můžete také přidat adresu libovolného článku na webu do „Seznamu adres URL“ a zkontrolovat, zda soubor robots.txt zakazuje indexování této stránky:

Jak vidíte, nevidíme žádný zákaz indexování stránek z robots.txt, což znamená, že je vše v pořádku :).

Doufám, že už nebudete mít žádné další otázky, jako například: jak vytvořit soubor robots.txt nebo jak tento soubor opravit. V této lekci jsem se vám pokusil ukázat to správné příklad souboru robots.txt:

Brzy se uvidíme!

P.s. Nedávno jsem, co zajímavého se stalo? 🙂

Mapa stránek výrazně zjednodušuje indexování vašeho blogu. Každý web a blog musí mít mapu webu. Ale také každý web a blog by měl mít soubor robotů.txt. Soubor robots.txt obsahuje sadu pokynů pro vyhledávací roboty. Dalo by se říci, že toto jsou pravidla chování vyhledávacích robotů na vašem blogu. Tento soubor také obsahuje cestu k souboru Sitemap vašeho blogu. A ve skutečnosti se správně sestaveným souborem robots.txt vyhledávací robot neztrácí drahocenný čas hledáním mapy webu a indexováním nepotřebných souborů.

Co je soubor robots.txt?

robots.txt– jedná se o textový soubor, který lze vytvořit v běžném „poznámkovém bloku“, který se nachází v kořenovém adresáři vašeho blogu a obsahuje pokyny pro vyhledávací roboty.

Tyto pokyny zabraňují vyhledávacím robotům v náhodném indexování všech souborů vašeho boha a zaměřují se na indexování přesně těch stránek, které by měly být zahrnuty do výsledků vyhledávání.

Pomocí tohoto souboru můžete zabránit indexování souborů modulu WordPress. Nebo, řekněme, tajná sekce vašeho blogu. Můžete zadat cestu k mapě vašeho blogu a hlavnímu zrcadlu vašeho blogu. Zde mám na mysli název vaší domény s www a bez www.

Indexování stránek s a bez robots.txt

Tento snímek obrazovky jasně ukazuje, jak soubor robots.txt zakazuje indexování určitých složek na webu. Bez souboru je vše na vašem webu dostupné robotovi.

Základní direktivy souboru robots.txt

Abyste porozuměli pokynům, které soubor robots.txt obsahuje, musíte rozumět základním příkazům (směrnicím).

User-agent– tento příkaz označuje přístup robota na váš web. Pomocí této směrnice můžete vytvořit instrukce individuálně pro každého robota.

User-agent: Yandex – pravidla pro robota Yandex

User-agent: * - pravidla pro všechny roboty

Disallow a Allow– směrnice o zákazu a povolení. Pomocí direktivy Disallow je indexování zakázáno, zatímco Allow to umožňuje.

Příklad zákazu:

User-agent: *

Disallow: / - zákaz na celém webu.

Uživatelský agent: Yandex

Disallow: /admin – zakáže robotu Yandex v přístupu ke stránkám umístěným ve složce admin.

Příklad rozlišení:

User-agent: *

Povolit: /foto

Disallow: / - zákaz na celém webu, kromě stránek umístěných ve složce fotografií.

Poznámka! direktiva Disallow: bez parametru vše povoluje a direktiva Allow: bez parametru vše zakazuje. A neměla by existovat direktiva Allow bez Disallow.

Sitemap– určuje cestu k mapě webu ve formátu xml.

Soubor Sitemap: https://site/sitemap.xml.gz

Soubor Sitemap: https://site/sitemap.xml

Hostitel– směrnice definuje hlavní zrcadlo vašeho blogu. Předpokládá se, že tato směrnice je předepsána pouze pro roboty Yandex. Tato směrnice by měla být uvedena na samém konci souboru robots.txt.

Uživatelský agent: Yandex

Disallow: /wp-includes

Hostitel: webové stránky

Poznámka! Adresa hlavního zrcadla je zadána bez určení protokolu pro přenos hypertextu (http://).

Jak vytvořit soubor robots.txt

Nyní, když jsme obeznámeni se základními příkazy souboru robots.txt, můžeme začít vytvářet náš soubor. Abyste si mohli vytvořit svůj vlastní soubor robots.txt s individuálním nastavením, musíte znát strukturu svého blogu.

Podíváme se na vytvoření standardního (univerzálního) souboru robots.txt pro blog WordPress. Vždy do něj můžete přidat vlastní nastavení.

Pojďme tedy začít. Budeme potřebovat běžný „poznámkový blok“, který se nachází v každém operačním systému Windows. Nebo TextEdit na MacOS.

Otevřete nový dokument a vložte do něj tyto příkazy:

User-agent: * Disallow: Sitemap: https://site/sitemap.xml.gz Sitemap: https://site/sitemap.xml User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: web

Nezapomeňte nahradit parametry direktiv Sitemap a Host svými vlastními.

Důležité! Při psaní příkazů je povolena pouze jedna mezera. Mezi direktivou a parametrem. Za žádných okolností nedávejte mezery za parametr nebo jen tak kamkoli.

Příklad: Disallow:<пробел>/krmit/

Tento příklad souboru robots.txt je univerzální a hodí se pro jakýkoli blog WordPress s CNC URL. Přečtěte si, co je to CNC. Pokud jste nenakonfigurovali CNC, doporučuji odstranit Disallow: /*?* Disallow: /?s= z navrhovaného souboru

Nahrání souboru robots.txt na server

Nejlepším způsobem pro tento druh manipulace je připojení FTP. Přečtěte si o tom, jak nastavit FTP připojení pro TotolCommander. Nebo můžete použít správce souborů na svém hostingu.

Budu používat FTP připojení na TotolCommander.

Síť > Připojit k serveru FTP.

Vyberte požadované připojení a klikněte na tlačítko „Připojit“.

Otevřete kořen blogu a zkopírujte náš soubor robots.txt stisknutím klávesy F5.

Kopírování souboru robots.txt na server

Nyní bude váš soubor robots.txt plnit své správné funkce. Přesto doporučuji analyzovat soubor robots.txt, abyste se ujistili, že v něm nejsou žádné chyby.

Chcete-li to provést, budete se muset přihlásit ke svému účtu správce webu Yandex nebo Google. Podívejme se na příklad Yandex. Zde můžete provést analýzu i bez potvrzení vašich práv na stránku. Vše, co potřebujete, je poštovní schránka Yandex.

Otevřete účet Yandex.webmaster.

Na hlavní stránce účtu správce webu otevřete odkaz "Šekrobotů.txt".

Pro analýzu budete muset zadat URL adresu svého blogu a kliknout na „ Stažení robotů.txt z webu" Jakmile je soubor stažen, klikněte na tlačítko "Šek".

Absence varovných položek znamená, že soubor robots.txt byl vytvořen správně.

Výsledek bude uveden níže. Kde je jasné a srozumitelné, které materiály je dovoleno ukazovat vyhledávacím robotům a které jsou zakázány.

Výsledek analýzy souboru robots.txt

Zde můžete provádět změny v souboru robots.txt a experimentovat, dokud nedosáhnete požadovaného výsledku. Pamatujte však, že soubor umístěný na vašem blogu se nemění. Chcete-li to provést, budete muset zkopírovat výsledek zde získaný do poznámkového bloku, uložit jej jako robots.txt a zkopírovat blog k vám.

Mimochodem, pokud vás zajímá, jak vypadá soubor robots.txt na něčím blogu, můžete se na něj klidně podívat. Chcete-li to provést, stačí k adrese webu přidat /robots.txt

https://site/robots.txt

Nyní je váš soubor robots.txt připraven. A nezapomeňte, že vytvoření souboru robots.txt neodkládejte, indexování vašeho blogu na něm bude záviset.

Pokud chcete vytvořit správný soubor robots.txt a zároveň mít jistotu, že do indexu vyhledávače budou zahrnuty pouze potřebné stránky, pak to lze provést automaticky pomocí pluginu.

To je vše co mám. Přeji vám všem úspěch. Pokud máte nějaké dotazy nebo doplnění, napište do komentářů.

Brzy se uvidíme.

S pozdravem Maxim Zaitsev.

Přihlaste se k odběru nových článků!

Účelem této příručky je pomoci webmasterům a správcům používat soubor robots.txt.

Úvod

Standard výjimky pro roboty je ve svém jádru velmi jednoduchý. Ve zkratce to funguje takto:

Když robot, který se řídí standardem, navštíví web, nejprve si vyžádá soubor s názvem „/robots.txt“. Pokud je takový soubor nalezen, robot v něm vyhledá pokyny zakazující indexování určitých částí webu.

Kam umístit soubor robots.txt

Robot si jednoduše vyžádá URL „/robots.txt“ na vašem webu; web je v tomto případě konkrétní hostitel na konkrétním portu.

Adresa URL webu	Adresa URL souboru Robots.txt
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.org:1234/robots.txt
http://w3.org/	http://w3.org/robots.txt

Na webu může být pouze jeden soubor „/robots.txt“. Soubor robots.txt byste například neměli umísťovat do uživatelských podadresářů – roboti je tam stejně hledat nebudou. Pokud chcete mít možnost vytvářet soubory robots.txt v podadresářích, potřebujete způsob, jak je programově shromáždit do jednoho souboru robots.txt umístěného v kořenovém adresáři webu. Můžeš použít .

Pamatujte, že v adresách URL se rozlišují velká a malá písmena a název souboru „/robots.txt“ musí být celý napsán malými písmeny.

Nesprávné umístění souboru robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt	Soubor není umístěn v kořenovém adresáři webu
ftp://ftp.w3.com/robots.txt	Roboti neindexují ftp
http://www.w3.org/Robots.txt	Název souboru není psán malými písmeny

Jak vidíte, soubor robots.txt by měl být umístěn výhradně v kořenovém adresáři webu.

Co napsat do souboru robots.txt

Soubor robots.txt obvykle obsahuje něco jako:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

V tomto příkladu je zakázáno indexování tří adresářů.

Všimněte si, že každý adresář je uveden na samostatném řádku - nemůžete napsat "Disallow: /cgi-bin/ /tmp/". Také nemůžete rozdělit jeden příkaz Disallow nebo User-agent do několika řádků, protože Konce řádků se používají k oddělení instrukcí od sebe navzájem.

Nelze použít ani regulární výrazy a zástupné znaky. „Hvězdička“ (*) v pokynu User-agent znamená „jakýkoli robot“. Pokyny jako „Disallow: *.gif“ nebo „User-agent: Ya*“ nejsou podporovány.

Konkrétní pokyny v souboru robots.txt závisí na vašem webu a na tom, čemu chcete zabránit v indexování. Zde jsou nějaké příklady:

Zablokujte indexování celého webu všemi roboty

User-agent: *
Disallow: /

Umožněte všem robotům indexovat celý web

User-agent: *
Disallow:

Nebo můžete jednoduše vytvořit prázdný soubor „/robots.txt“.

Zablokujte indexování pouze několika adresářů

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Zabránit indexování stránek pouze pro jednoho robota

Uživatelský agent: BadBot
Disallow: /

Umožněte jednomu robotovi indexovat web a všem ostatním zakázat

Uživatelský agent: Yandex
Disallow:

User-agent: *
Disallow: /

Zakázat indexování všech souborů kromě jednoho

To je docela obtížné, protože... neexistuje žádné prohlášení „Povolit“. Místo toho můžete přesunout všechny soubory kromě toho, kterému chcete povolit indexování, do podadresáře a zabránit jeho indexování:

User-agent: *
Disallow: /docs/

Nebo můžete zakázat indexování všech souborů:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html