itthon Vélemények

A robotok txt használata. Hogyan lehet szerkeszteni a robots txt fájlt. Könnyen létrehozhat fájlt bármely keresőmotorhoz

Ez a cikk egy példát tartalmaz a véleményem szerint a WordPress robots.txt fájljának optimális kódjára, amelyet webhelyein használhat.

Kezdésként emlékezzünk miért van szükséged a robotokra.txt- a robots.txt fájlra kizárólag a keresőrobotoknak van szükségük, hogy „megmondják” nekik, hogy az oldal mely részeit/oldalait kell felkeresniük, és melyeket nem. Azok az oldalak, amelyek látogatása nem engedélyezett, nem kerül be a keresőmotor indexébe (Yandex, Google stb.).

1. lehetőség: Optimális robots.txt kód a WordPress számára

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # az összes lekérdezési paraméter a főoldalon Disallow: /wp- # minden WP fájl: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # keresés Disallow: /search # search Disallow: /author/ # szerzői archívum Disallow: */beágyazás # minden beágyazás Disallow: */page/ # minden típusú oldalszámozás Engedélyezés: */feltöltések # megnyitott feltöltések Engedélyezés: /*/*.js # belül /wp - (/*/ - prioritás) Engedélyezés: /*/*.css # belül /wp- (/*/ - prioritás) Engedélyezés: /wp-*.png # kép a bővítményekben, a gyorsítótár mappájában stb. . Engedélyezés: /wp-*.jpg # kép a bővítményekben, a gyorsítótár mappájában stb. Engedélyezés: /wp-*.jpeg # kép a bővítményekben, a gyorsítótár mappájában stb. Engedélyezés: /wp-*.gif # kép a bővítményekben, a gyorsítótár mappájában stb. Engedélyezés: /wp-*.svg # kép a bővítményekben, a gyorsítótár mappájában stb. Engedélyezés: /wp-*.pdf # fájlok a bővítményekben, a gyorsítótár mappájában stb. Engedélyezés: /wp-admin/admin-ajax.php #Disallow: /wp/ #, ha a WP telepítve van a wp alkönyvtárban Webhelytérkép: http://example.com/sitemap.xml Webhelytérkép: http://example.com/ sitemap2.xml # másik fájl #Webhelytérkép: http://example.com/sitemap.xml.gz # tömörített verzió (.gz) # Kódverzió: 1.1 # Ne felejtse el módosítani a "site.ru" fájlt a webhelyére.

Kódelemzés:

A User-agent: * sorban jelezzük, hogy az alábbi szabályok minden keresőrobotra érvényesek *. Ha ezeknek a szabályoknak csak egy adott robotnál kell működniük, akkor a * helyett a robot nevét jelöljük (User-agent: Yandex, User-agent: Googlebot).

Az Allow: */uploads sorban szándékosan engedélyezzük a /feltöltést tartalmazó oldalak indexelését. Ez a szabály kötelező, mert fent tiltjuk a /wp-, és karakterekkel kezdődő oldalak indexelését /wp- tartalmazza /wp-content/uploads. Ezért a Disallow: /wp- szabály felülbírálásához szükség van az Allow: */uploads sorra, mert az olyan hivatkozásokhoz, mint pl. /wp-content/uploads/... Előfordulhat, hogy vannak olyan képeink, amelyeket indexelni kell, és lehetnek olyan letöltött fájlok is, amelyeket nem kell elrejteni. Allow: lehet "előtte" vagy "utána" Disallow: .

A fennmaradó sorok tiltják, hogy a robotok „kövessék” a következővel kezdődő hivatkozásokat:

Disallow: /cgi-bin - bezárja a parancsfájlok könyvtárát a kiszolgálón
Disallow: /feed - bezárja a blog RSS-hírcsatornáját
Disallow: /trackback – bezárja az értesítéseket
Disallow: ?s= vagy Disallow: *?s= - bezárja a keresési oldalakat
Disallow: */page/ - minden oldalszámozási típust bezár

A Webhelytérkép szabály: http://example.com/sitemap.xml a robotot egy XML formátumú webhelytérképet tartalmazó fájlra irányítja. Ha van ilyen fájl a webhelyén, írja be a teljes elérési utat. Több ilyen fájl is lehet, akkor mindegyikhez külön jelezzük az elérési utat.

A Host: site.ru sorban a webhely fő tükrét jelöljük. Ha egy webhelyen vannak tükrök (a webhely másolatai más tartományokban), akkor annak érdekében, hogy a Yandex mindegyiket egyformán indexelje, meg kell adnia a fő tükröt. Host direktíva: csak a Yandex érti, a Google nem! Ha a webhely https protokoll alatt működik, akkor a Host: Host: http://example.com helyen kell megadni

A Yandex dokumentációjából: "A gazdagép egy független direktíva, és a fájl bárhol működik (interszekcionális)." Ezért a fájl tetejére vagy a legvégére helyezzük, egy üres sorban.

Mivel a nyitott hírcsatornák jelenléte szükséges például a Yandex Zen esetében, amikor egy webhelyet egy csatornához kell csatlakoztatnia (hála a „Digital” kommentátornak). Lehetséges, hogy máshol nyílt hírcsatornákra van szükség.

Ugyanakkor a hírfolyamoknak saját formátumuk van a válaszfejlécekben, aminek köszönhetően a keresőmotorok megértik, hogy ez nem egy HTML oldal, hanem egy hírfolyam, és nyilván valahogy másképp dolgozzák fel.

A Host direktívára már nincs szükség a Yandex számára

A Yandex teljesen elhagyja a Host direktívát, és 301-es átirányításra cserélte. A gazdagép biztonságosan eltávolítható a robots.txt fájlból. Fontos azonban, hogy minden webhelytükör rendelkezzen 301-es átirányítással a fő webhelyre (főtükör).

Ez fontos: a szabályok rendezése a feldolgozás előtt

A Yandex és a Google nem a megadott sorrendben dolgozza fel az Engedélyezés és a Tiltás direktívákat, hanem először a rövid szabálytól a hosszúig rendezi őket, majd feldolgozza az utolsó egyező szabályt:

User-agent: * Engedélyezés: */feltöltések Disallow: /wp-

így lesz olvasható:

User-agent: * Disallow: /wp- Engedélyezés: */feltöltések

A rendezési funkció gyors megértéséhez és alkalmazásához ne feledje ezt a szabályt: „minél hosszabb a szabály a robots.txt fájlban, annál magasabb prioritású. Ha a szabályok hossza azonos, akkor az Allow direktíva élvez elsőbbséget."

2. lehetőség: Szabványos robots.txt a WordPresshez

Nem tudom miért, de én az első lehetőség mellett vagyok! Mivel logikusabb - nincs szükség a szakasz teljes megkettőzésére a Yandex Host direktívájának jelzéséhez, amely metszéspontos (a robot bárhol megérti a sablonban, anélkül, hogy jelezné, melyik robotra vonatkozik). Ami a nem szabványos Allow direktívát illeti, a Yandex és a Google számára működik, és ha nem nyitja meg a feltöltési mappát más robotok számára, amelyek nem értik, akkor az esetek 99% -ában ez nem jár semmi veszélyessel. Még nem vettem észre, hogy az első robotok nem úgy működnek, ahogy kellene.

A fenti kód kissé hibás. Köszönöm " " kommentátornak, hogy rámutatott a helytelenségre, bár magamnak kellett rájönnöm, hogy mi az. És erre jutottam (lehet tévedek):

Egyes robotok (nem a Yandex és a Google) nem értenek 2-nél több direktívát: User-agent: és Disallow:

A Yandex Host: direktívát a Disallow: után kell használni, mert előfordulhat, hogy egyes robotok (nem a Yandex és a Google) nem értik, és általában elutasítják a robots.txt fájlt. Magának a Yandexnek, a dokumentációból ítélve, teljesen mindegy, hogy hol és hogyan használja a Host:-t, még akkor sem, ha általában a robots.txt fájlt csak egy sorral hozza létre: Host: www.site.ru, hogy az összes webhelytükröt összeragassza.

3. Sitemap: metszéspontos direktíva a Yandexnek és a Google-nak, és nyilván sok más robotnak is, ezért a végére írjuk üres sorral, és minden robotra egyszerre fog működni.

E módosítások alapján a helyes kódnak így kell kinéznie:

Felhasználói ügynök: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Engedélyezés: /wp-admin/admin-ajax.php Gazda: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Engedélyezés: /wp-admin/admin-ajax.php Webhelytérkép: http://example.com/sitemap.xml

Tegyük hozzá magunknak

Ha le kell tiltania más oldalakat vagy oldalcsoportokat, az alábbiakban hozzáadhat egy szabályt (irányelvet). Letiltás:. Például egy kategória összes bejegyzését be kell zárnunk az indexelésből hírek, majd előtte Webhelytérkép: adjunk hozzá egy szabályt:

Disallow: /news

Megakadályozza, hogy a robotok kövessék az ilyen hivatkozásokat:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Ha le kell zárnia a /news előfordulásait, írja be:

Disallow: */news

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

A robots.txt direktívákat részletesebben tanulmányozhatja a Yandex súgóoldalán (de ne feledje, hogy nem minden ott leírt szabály működik a Google számára).

Robots.txt ellenőrzése és dokumentációja

Az alábbi linkeken ellenőrizheti, hogy az előírt szabályok megfelelően működnek-e:

Yandex: http://webmaster.yandex.ru/robots.xml.
A Google-nál ez megtörténik Search Console. Engedélyezésre és a webhely jelenlétére van szüksége a webmesteri panelen...
Szolgáltatás robots.txt fájl létrehozásához: http://pr-cy.ru/robots/
A robots.txt létrehozására és ellenőrzésére szolgáló szolgáltatás: https://seolib.ru/tools/generate/robots/

Megkérdeztem a Yandexet...

Feltettem egy kérdést a technikában. A Yandex támogatása a Host és a Sitemap direktívák metszéspontos használatával kapcsolatban:

Kérdés:

Helló!
Írok egy cikket a robots.txt-ről a blogomon. Erre a kérdésre szeretnék választ kapni (nem találtam egyértelmű „igen”-t a dokumentációban):

Ha össze kell ragasztanom az összes tükröt, és ehhez a robots.txt fájl legelején lévő Host direktívát használom:
Gazda: site.ru User-agent: * Disallow: /asd
A Host: site.ru megfelelően fog működni ebben a példában? Jelzi a robotoknak, hogy a site.ru a fő tükör? Azok. Ezt a direktívát nem egy szakaszban használom, hanem külön (a fájl elején), anélkül, hogy jelezném, melyik User-agentre vonatkozik.

Azt is szerettem volna tudni, hogy a Sitemap direktívát egy szakaszon belül kell-e használni, vagy kívül is: például egy üres sorban, egy szakasz után?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Webhelytérkép: http://example.com/sitemap.xml
Megérti-e a robot a webhelytérkép-irányelvet ebben a példában?

Remélem, olyan választ kapok Öntől, amely véget vet kétségeimnek.

Válasz:

Helló!

A Host és a Sitemap direktívák metszéspontosak, így azokat a robot fogja használni, függetlenül attól, hogy a robots.txt fájlban melyik helyen vannak megadva.

--
Üdvözlettel, Platon Shchukin
Yandex támogatási szolgáltatás

Következtetés

Fontos megjegyezni, hogy a robots.txt változásai egy már működő webhelyen csak néhány hónap (2-3 hónap) után lesznek észrevehetők.

A pletykák szerint a Google néha figyelmen kívül hagyhatja a robots.txt szabályait, és beviheti az oldalt az indexbe, ha úgy ítéli meg, hogy az oldal nagyon egyedi és hasznos, és egyszerűen szerepelnie kell az indexben. Más pletykák azonban cáfolják ezt a hipotézist azzal a ténnyel, hogy a tapasztalatlan optimalizálók hibásan határozhatják meg a szabályokat a robots.txt fájlban, és így bezárhatják a szükséges oldalakat az indexelés elől, és a feleslegeseket meghagyhatják. Én inkább a második feltevésre hajlok...

Dinamikus robots.txt

A WordPressben a robots.txt fájl kérése külön feldolgozásra kerül, és egyáltalán nem szükséges fizikailag létrehozni egy robots.txt fájlt az oldal gyökerében, ráadásul ez nem is ajánlott, mert ezzel a megközelítéssel a beépülő modulok számára nagyon nehéz megváltoztatni ezt a fájlt, és ez néha szükséges is.

Olvassa el a robots.txt fájl dinamikus létrehozásának működését a függvényleírásban, az alábbiakban pedig egy példát mutatok be, hogyan lehet menet közben, egy horog segítségével megváltoztatni ennek a fájlnak a tartalmát.

Ehhez adja hozzá a következő kódot a functions.php fájlhoz:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "Felhasználói ügynök: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\" n ", $sorok); die; // PHP munka leállítása)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Feltérképezési késleltetés – időtúllépés az őrült robotok számára (2018 óta nincs figyelembe véve)

Yandex

Az elmúlt két évben a támogatásunknak küldött, indexelési problémákkal kapcsolatos levelek elemzése után rájöttünk, hogy a dokumentumok lassú letöltésének egyik fő oka a robots.txt fájlban található helytelenül konfigurált Crawl-delay utasítás […] Így a webhelytulajdonosok többé nem aggódnia kell emiatt, és annak érdekében, hogy az összes valóban szükséges weboldal gyorsan megjelenjen és frissüljön a keresésben, úgy döntöttünk, hogy elhagyjuk a feltérképezés késleltetési irányelvét.

Amikor a Yandex robot őrülten pásztázza az oldalt, és ez szükségtelen terhelést okoz a szerveren. Megkérheti a robotot, hogy „lassítson”.

Ehhez a Crawl-delay utasítást kell használnia. Azt az időt jelzi másodpercben, ameddig a robotnak tétlenül (várakoznia) kell a webhely minden további oldalának átvizsgálásához.

A robots.txt szabványt nem jól követő robotokkal való kompatibilitás érdekében a Feltérképezés késleltetését meg kell adni a csoportban (a User-Agent részben) közvetlenül a Disallow és Allow után.

A Yandex Robot megérti a tört értékeket, például a 0,5-öt (fél másodperc). Ez nem garantálja, hogy a keresőrobot fél másodpercenként felkeresi az oldalát, de lehetővé teszi a webhely feltérképezésének felgyorsítását.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Feltérképezési késleltetés: 1,5 # időtúllépés 1,5 másodperc User-agent: * Disallow: /wp-admin Disallow: /wp-includes Engedélyezés: /wp-* . gif Feltérképezés késleltetése: 2 # időtúllépés 2 másodperc

Google

A Googlebot nem érti a Crawl-delay utasítást. A robotjainak időtúllépése a webmester panelen adható meg.

Az avi1.ru szolgáltatáson most már több mint 7 legnépszerűbb közösségi hálózaton vásárolhat SMM-promóciót. Ugyanakkor ügyeljen az összes webhelyszolgáltatás meglehetősen alacsony költségére.

Olvasási idő: 7 perc

Szinte minden audit vagy promóció céljából hozzánk érkező projektben hibás robots.txt fájl található, és gyakran teljesen hiányzik. Ez azért van így, mert a fájl létrehozásakor mindenkit a fantáziája vezérel, nem a szabályok. Gondoljuk át, hogyan állítsuk össze helyesen ezt a fájlt, hogy a keresőrobotok hatékonyan dolgozhassanak vele.

Miért kell konfigurálnia a robots.txt fájlt?

Robots.txt egy olyan fájl, amely egy webhely gyökérkönyvtárában található, és megmondja a keresőrobotoknak, hogy a webhely mely részeit és oldalait érhetik el és melyeket nem.

A robots.txt beállítása fontos része a keresőmotorok eredményeinek; a megfelelően konfigurált robotok a webhely teljesítményét is növelik. A hiányzó Robots.txt nem akadályozza meg a keresőmotorokat a webhely feltérképezésében és indexelésében, de ha nem rendelkezik ezzel a fájllal, akkor két problémája lehet:

A keresőrobot a teljes webhelyet beolvassa, ami „aláássa” a feltérképezési költségkeretet. A feltérképezési költségkeret azon oldalak száma, amelyeket egy keresőrobot képes feltérképezni egy bizonyos időn belül.

Robotfájl nélkül a keresőmotor hozzáférhet vázlat- és rejtett oldalakhoz, több száz, a CMS adminisztrálására használt oldalhoz. Indexelni fogja őket, és amikor a szükséges oldalakról van szó, amelyek közvetlen tartalmat biztosítanak a látogatók számára, a feltérképezési költségkeret „kimerül”.

Az index tartalmazhatja a webhely bejelentkezési oldalát és más rendszergazdai erőforrásokat, így a támadók könnyen nyomon követhetik őket, és ddos támadást hajthatnak végre vagy feltörhetik a webhelyet.

Hogyan látnak a keresőrobotok egy webhelyet robots.txt fájllal és anélkül:

A Robots.txt szintaxisa

Mielőtt elkezdenénk megérteni a szintaxist és beállítani a robots.txt fájlt, nézzük meg, hogyan kell kinéznie az „ideális fájlnak”:

De nem szabad azonnal használni. Minden webhelyhez leggyakrabban saját beállítások szükségesek, mivel mindannyiunknak más a webhelyszerkezete és más a CMS-je. Nézzük meg az egyes irányelveket sorban.

Felhasználói ügynök

User-agent – egy keresőrobotot határoz meg, amelynek követnie kell a fájlban leírt utasításokat. Ha mindenkinek egyszerre kell megszólítania, használja a * ikont. Felveheti a kapcsolatot egy adott keresőrobottal is. Például a Yandex és a Google:

Ezzel az irányelvvel a robot megérti, hogy mely fájlok és mappák indexelése tilos. Ha azt szeretné, hogy a teljes webhely nyitva legyen indexelésre, hagyja üresen a Disallow értéket. Ha el szeretné rejteni a webhely összes tartalmát a Disallow után, írja be a „/” jelet.

Megakadályozhatjuk egy adott mappához, fájlhoz vagy fájlkiterjesztéshez való hozzáférést. Példánkban minden keresőrobottal kapcsolatba lépünk, és letiltjuk a hozzáférést a bitrixhez, a keresési mappához és a pdf-kiterjesztéshez.

Lehetővé teszi

Engedélyezze a webhely oldalainak és szakaszainak indexelését. A fenti példában felvesszük a kapcsolatot a Google keresőrobotjával, letiltjuk a hozzáférést a bitrixhez, a keresési mappához és a pdf kiterjesztéshez. De a bitrix mappában 3 mappát kényszerítünk ki az indexelésre: összetevők, js, eszközök.

Gazda – oldaltükör

A tüköroldal a fő webhely másolata. A tükröket különféle célokra használják: cím megváltoztatására, biztonságra, a szerver terhelésének csökkentésére stb.

A fogadó az egyik legfontosabb szabály. Ha ez a szabály le van írva, a robot megérti, hogy a webhely melyik tükrét kell figyelembe venni az indexelésnél. Ez az irányelv szükséges a Yandex és a Mail.ru robotokhoz. Más robotok figyelmen kívül hagyják ezt a szabályt. A házigazda csak egyszer regisztrált!

A „https://” és „http://” protokollok esetében a robots.txt fájl szintaxisa eltérő lesz.

Oldaltérkép – oldaltérkép

A webhelytérkép a webhelynavigáció egy formája, amely arra szolgál, hogy tájékoztassa a keresőmotorokat az új oldalakról. A sitemap direktíva segítségével „kényszerítve” megmutatjuk a robotnak, hogy hol található a térkép.

Szimbólumok a robots.txt fájlban

A fájlban használt szimbólumok: „/, *, $, #”.

A működés ellenőrzése a robots.txt beállítása után

Miután elhelyezte a Robots.txt fájlt a webhelyén, hozzá kell adnia és ellenőriznie kell a Yandex és a Google webmesterében.

Yandex ellenőrzés:

Kövesse ezt a linket.
Válassza a következőket: Indexelési beállítások - Robots.txt elemzés.

Google ellenőrzés:

Kövesse ezt a linket.
Válassza a következőket: Vizsgálat – Robots.txt fájlellenőrző eszköz.

Így ellenőrizheti a robots.txt fájlban található hibákat, és szükség esetén elvégezheti a szükséges módosításokat.

A fájl tartalmát nagybetűkkel kell írni.
Csak egy fájlt vagy könyvtárat kell megadni a Disallow direktívában.
A „User-agent” sor nem lehet üres.
A felhasználói ügynöknek mindig a Disallow elé kell kerülnie.
Ne felejtsen el perjelet használni, ha le kell tiltania egy könyvtár indexelését.
Mielőtt feltöltene egy fájlt a szerverre, győződjön meg arról, hogy nincs-e benne szintaktikai és helyesírási hiba.

Sok sikert!

Videó áttekintése a Robots.txt fájl létrehozásának és testreszabásának 3 módszeréről

Sziasztok! Ma arról szeretnék mesélni robots.txt fájl. Igen, sokat írtak róla az interneten, de őszintén szólva, nagyon sokáig én magam sem értettem, hogyan kell elkészíteni a megfelelő robots.txt fájlt. Végül készítettem egyet, és minden blogomon megtalálható. Nem észlelek semmilyen problémát, a robots.txt tökéletesen működik.

Robots.txt a WordPresshez

Tulajdonképpen miért van szükség a robots.txt fájlra? A válasz továbbra is ugyanaz - . Vagyis a robots.txt fordítása a webhely keresőoptimalizálásának egyik része (mellesleg hamarosan lesz egy lecke, amelyet a webhely teljes belső optimalizálásának szentelünk a WordPress-en. Ezért ne felejtsen el előfizetni az RSS-re, hogy ne maradjon le érdekes anyagokról.).

Ennek a fájlnak az egyik funkciója indexelési tilalom szükségtelen weboldalak. Ezenkívül beállítja a címet és kimondja a fő dolgot oldaltükör(webhely www-vel vagy anélkül).

Megjegyzés: a keresőmotorok számára ugyanaz a webhely www-vel és www nélkül teljesen különböző webhelyek. De felismerve, hogy ezeknek a webhelyeknek a tartalma ugyanaz, a keresőmotorok „összeragasztják” őket. Ezért fontos, hogy a webhely fő tükrét regisztrálja a robots.txt fájlban. Ha meg szeretné tudni, melyik a fő (www-vel vagy www nélkül), csak írja be webhelye címét a böngészőbe, például www-vel, ha automatikusan átirányítunk ugyanarra a webhelyre www nélkül, akkor a fő tükör az Ön webhelye nem tartalmaz www. Remélem jól magyaráztam.

Volt:

Most (a webhelyre lépés után a www automatikusan törlődött, és a webhely www nélkül vált):

Szóval ez a kincses, véleményem szerint, helyes robots.txt a WordPress számára Alább láthatod.

WordPresshez megfelelő

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Felhasználói ügynök: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Házigazda: weboldal
Webhelytérkép: https://site/sitemap.xml.gz
Webhelytérkép: https://site/sitemap.xml

A fent leírtakat be kell másolnia egy szöveges dokumentumba .txt kiterjesztéssel, vagyis úgy, hogy a fájl neve robots.txt legyen. Ezt a szöveges dokumentumot például a program segítségével hozhatja létre. Csak ne felejtsd el, kérlek módosítsa az utolsó három sort címet a webhelye címére. A robots.txt fájlnak a blog gyökerében kell lennie, vagyis ugyanabban a mappában, ahol a wp-content, wp-admin stb.

Azok számára, akik lusták ezt a szöveges fájlt létrehozni, ott is egyszerűen javíthatnak 3 sort.

Szeretném megjegyezni, hogy nem kell túlterhelnie magát az alábbiakban tárgyalandó műszaki részekkel. „Tudásra”, úgymond általános kitekintésre hozom őket, hogy tudják, mire van szükség és miért.

Tehát a sor:

Felhasználói ügynök

szabályokat állít be bizonyos keresőmotorokhoz: például a „*” (csillag) azt jelzi, hogy a szabályok minden keresőmotorra érvényesek, és ami lent van

Felhasználói ügynök: Yandex

azt jelenti, hogy ezek a szabályok csak a Yandexre vonatkoznak.

Letiltás
Itt „dobja be” azokat a részeket, amelyeket NEM kell indexelnie a keresőmotoroknak. Például egy oldalon ismétlődő cikkem van (ismétlődés) a szokásos cikkekkel, és az oldalak duplikálása negatív hatással van a keresőmotorok promóciójára, ezért nagyon kívánatos, hogy ezeket a szektorokat le kell zárni az indexelésből, ami mit csinálunk ezzel a szabálysal:

Disallow: /tag

Tehát a fentebb megadott robots.txt-ben a WordPress oldalak szinte minden felesleges része le van zárva az indexelés elől, vagyis csak hagyjunk mindent úgy, ahogy van.

Házigazda

Itt állítjuk be az oldal fő tükrét, amiről fentebb beszéltem.

Webhelytérkép

Az utolsó két sorban legfeljebb két webhelytérkép címét adjuk meg, amelyek a használatával készültek.

Lehetséges problémák

Menjen a szakaszhoz Indexelési beállítások –> Robots.txt elemzés:

Már ott kattintson a „Robots.txt betöltése a webhelyről” gombra, majd kattintson az „Ellenőrzés” gombra:

Ha a következő üzenethez hasonlót lát, az azt jelenti, hogy a megfelelő robots.txt fájllal rendelkezik a Yandexhez:

A webhely bármely cikkének címét hozzáadhatja az „URL-ek listájához” annak ellenőrzéséhez, hogy a robots.txt tiltja-e az oldal indexelését:

Amint látja, nem látunk tiltást a robots.txt fájlból történő oldalindexelésre vonatkozóan, ami azt jelenti, hogy minden rendben van :).

Remélem, nem lesz több kérdése, például: hogyan kell összeállítani a robots.txt fájlt, vagy hogyan lehet helyesbíteni ezt a fájlt. Ebben a leckében megpróbáltam megmutatni a helyeset példa robots.txt:

Hamarosan találkozunk!

P.s. Nemrég, mi érdekes történt? 🙂

A webhelytérkép nagyban leegyszerűsíti a blog indexelését. Minden weboldalnak és blognak rendelkeznie kell oldaltérképpel. De minden webhelynek és blognak is kell lennie egy fájlnak robotok.txt. A robots.txt fájl utasításokat tartalmaz a keresőrobotokhoz. Mondhatni, ezek a keresőrobotok viselkedési szabályai a blogodon. Ez a fájl tartalmazza a blog webhelytérképének elérési útját is. Valójában egy helyesen összeállított robots.txt fájl esetén a keresőrobot nem vesztegeti az értékes időt a webhelytérkép keresésével és a szükségtelen fájlok indexelésével.

Mi az a robots.txt fájl?

robots.txt– ez egy normál „jegyzettömbben” létrehozható szöveges fájl, amely a blog gyökerében található, és a keresőrobotoknak szóló utasításokat tartalmazza.

Ezek az utasítások megakadályozzák, hogy a keresőrobotok véletlenszerűen indexeljék Isten összes fájlját, és pontosan azon oldalak indexelésére összpontosítanak, amelyeknek szerepelniük kell a keresési eredmények között.

Ezzel a fájllal megakadályozhatja a WordPress motorfájlok indexelését. Vagy mondjuk a blog titkos része. Megadhatja a blogtérkép elérési útját és a blog fő tükrét. Itt az Ön domainnevére gondolok www-vel és www nélkül.

Webhelyindexelés robots.txt fájllal és anélkül

Ez a képernyőkép egyértelműen megmutatja, hogy a robots.txt fájl hogyan tiltja bizonyos mappák indexelését a webhelyen. Fájl nélkül a webhelyén minden elérhető a robot számára.

A robots.txt fájl alapvető direktívái

A robots.txt fájl utasításainak megértéséhez meg kell értenie az alapvető parancsokat (irányelveket).

Felhasználói ügynök– ez a parancs a webhelyhez való robot hozzáférést jelzi. Ezzel az irányelvvel minden robothoz külön-külön hozhat létre utasításokat.

Felhasználói ügynök: Yandex – szabályok a Yandex robotra

User-agent: * - szabályok minden robotra

Letiltás és engedélyezés– tiltó és engedélyezési irányelvek. A Disallow direktíva használatával az indexelés tilos, míg az Allow engedélyezi.

Példa a tiltásra:

User-agent: *

Disallow: / - tiltás az egész oldalon.

Felhasználói ügynök: Yandex

Disallow: /admin – megtiltja, hogy a Yandex robot hozzáférjen az adminisztrációs mappában található oldalakhoz.

Példa a felbontásra:

User-agent: *

Engedélyezés: /photo

Disallow: / - tiltás a teljes webhelyen, kivéve a fotómappában található oldalakat.

Jegyzet! a Disallow direktíva: paraméter nélkül mindent engedélyez, az Allow direktíva: paraméter nélkül mindent tilt. És nem lehet Allow direktíva Disallow nélkül.

Webhelytérkép– megadja az oldaltérkép elérési útját xml formátumban.

Webhelytérkép: https://site/sitemap.xml.gz

Webhelytérkép: https://site/sitemap.xml

Házigazda– az irányelv meghatározza a blogod fő tükrét. Úgy gondolják, hogy ezt az irányelvet csak a Yandex robotokra írják elő. Ezt az utasítást a robots.txt fájl legvégén kell megadni.

Felhasználói ügynök: Yandex

Disallow: /wp-includes

Házigazda: weboldal

Jegyzet! A fő tükörcím a hipertext átviteli protokoll (http://) megadása nélkül kerül megadásra.

A robots.txt létrehozása

Most, hogy ismerjük a robots.txt fájl alapvető parancsait, megkezdhetjük a fájl létrehozását. Ahhoz, hogy saját robots.txt fájlt tudjon létrehozni az egyéni beállításokkal, ismernie kell blogja szerkezetét.

Megvizsgáljuk egy szabványos (univerzális) robots.txt fájl létrehozását egy WordPress bloghoz. Mindig hozzáadhatja saját beállításait.

Tehát kezdjük. Szükségünk lesz egy normál „jegyzettömbre”, amely minden Windows operációs rendszerben megtalálható. Vagy TextEdit MacOS-en.

Nyisson meg egy új dokumentumot, és illessze be a következő parancsokat:

User-agent: * Disallow: Webhelytérkép: https://site/sitemap.xml.gz Webhelytérkép: https://site/sitemap.xml Felhasználói ügynök: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages>Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site

Ne felejtse el lecserélni a Webhelytérkép és a Host direktívák paramétereit a sajátjával.

Fontos! Parancsok írásakor csak egy szóköz megengedett. Az irányelv és a paraméter között. Semmilyen körülmények között ne tegyen szóközt egy paraméter után, vagy csak bárhol.

Példa: Letiltás:<пробел>/feed/

Ez a példa robots.txt fájl univerzális, és minden CNC URL-lel rendelkező WordPress bloghoz illeszkedik. Olvassa el, mi az a CNC. Ha nem konfigurálta a CNC-t, javasoljuk, hogy távolítsa el a Disallow: /*?* Disallow: /?s= fájlt a javasolt fájlból

A robots.txt fájl feltöltése a szerverre

Az ilyen jellegű manipulációk legjobb módja az FTP kapcsolat. Olvassa el, hogyan állíthat be FTP-kapcsolatot a TotolCommander számára. Vagy használhat fájlkezelőt a tárhelyén.

FTP kapcsolatot fogok használni a TotolCommanderen.

Hálózat > Csatlakozás FTP-kiszolgálóhoz.

Válassza ki a kívánt kapcsolatot, majd kattintson a „Csatlakozás” gombra.

Nyissa meg a blog gyökerét, és másolja a robots.txt fájlt az F5 billentyű lenyomásával.

A robots.txt fájl másolása a szerverre

Mostantól a robots.txt fájl ellátja a megfelelő funkcióit. De továbbra is javaslom a robots.txt elemzését, hogy megbizonyosodjon arról, hogy nincsenek hibák.

Ehhez be kell jelentkeznie Yandex vagy Google webmester fiókjába. Nézzük a Yandex példáját. Itt az oldalhoz fűződő jogainak megerősítése nélkül is elvégezhet elemzést. Csak egy Yandex postafiókra van szüksége.

Nyissa meg a Yandex.webmaster fiókot.

Nyissa meg a linket a webmester fiókjának főoldalán "Jelölje berobotok.txt".

Az elemzéshez meg kell adnia blogja URL-címét, majd kattintson a „ Letöltés robotok.txt az oldalról" Amint a fájl letöltődött, kattintson a gombra "Jelölje be".

A figyelmeztető bejegyzések hiánya azt jelzi, hogy a robots.txt fájl megfelelően lett létrehozva.

Az eredményt az alábbiakban mutatjuk be. Ahol világos és érthető, hogy mely anyagokat szabad keresőrobotoknak bemutatni, és melyeket tilos.

A robots.txt fájl elemzésének eredménye

Itt módosíthatja a robots.txt fájlt, és addig kísérletezhet, amíg el nem éri a kívánt eredményt. De ne feledje, a blogon található fájl nem változik. Ehhez az itt kapott eredményt át kell másolnia egy jegyzettömbbe, el kell mentenie robots.txt formátumban, és át kell másolnia a blogot.

Egyébként ha kíváncsi vagy, hogy néz ki valakinek a blogján a robots.txt fájl, akkor nyugodtan megnézheted. Ehhez csak hozzá kell adnia a /robots.txt fájlt a webhely címéhez

https://site/robots.txt

A robots.txt elkészült. És ne feledje, ne halogassa a robots.txt fájl létrehozását, a blog indexelése attól függ.

Ha szeretné létrehozni a megfelelő robots.txt fájlt, és egyúttal biztos lehet benne, hogy csak a szükséges oldalak kerüljenek be a keresőmotor indexébe, akkor ez automatikusan megtehető a plugin segítségével.

Ez mindenem. Mindenkinek sok sikert kívánok. Ha bármilyen kérdése vagy kiegészítése van, írja meg a megjegyzésekben.

Hamarosan találkozunk.

Üdvözlettel, Maxim Zaitsev.

Iratkozz fel az új cikkekre!

Ennek az útmutatónak az a célja, hogy segítse a webmestereket és a rendszergazdákat a robots.txt használatában.

Bevezetés

A robotmentességi szabvány lényegében nagyon egyszerű. Röviden, ez így működik:

Amikor egy szabványt követő robot felkeres egy webhelyet, először egy „/robots.txt” nevű fájlt kér. Ha ilyen fájlt talál, a robot megkeresi a webhely bizonyos részeinek indexelését tiltó utasításokat.

Hol helyezze el a robots.txt fájlt

A robot egyszerűen lekéri a „/robots.txt” URL-t az Ön webhelyén; a webhely ebben az esetben egy adott gazdagép egy adott porton.

Webhely URL-je	Robots.txt fájl URL-je
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.org:1234/robots.txt
http://w3.org/	http://w3.org/robots.txt

A webhelyen csak egy „/robots.txt” fájl lehet. Például ne helyezze el a robots.txt fájlt a felhasználói alkönyvtárakba – a robotok úgysem ott fogják keresni őket. Ha szeretne robots.txt fájlokat létrehozni az alkönyvtárakba, akkor szüksége van egy módra, amellyel programozottan összegyűjtheti őket egyetlen robots.txt fájlba, amely a webhely gyökerében található. Te tudod használni .

Ne feledje, hogy az URL-ek megkülönböztetik a kis- és nagybetűket, és a „/robots.txt” fájlnevet teljes egészében kisbetűkkel kell írni.

A robots.txt rossz helye
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt	A fájl nem a webhely gyökerében található
ftp://ftp.w3.com/robots.txt	A robotok nem indexelik az ftp-t
http://www.w3.org/Robots.txt	A fájl neve nem kisbetűs

Amint látja, a robots.txt fájlt kizárólag a webhely gyökerében kell elhelyezni.

Mit kell írni a robots.txt fájlba

A robots.txt fájl általában a következőket tartalmazza:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Ebben a példában három könyvtár indexelése tilos.

Vegye figyelembe, hogy minden könyvtár külön sorban van felsorolva – nem írhatja be a "Disallow: /cgi-bin/ /tmp/" kifejezést. Ezenkívül nem oszthat fel egy Disallow vagy User-agent utasítást több sorra, mert A sortörések az utasítások egymástól való elválasztására szolgálnak.

Reguláris kifejezések és helyettesítő karakterek sem használhatók. A „csillag” (*) a User-agent utasításban azt jelenti, hogy „bármilyen robot”. Az olyan utasítások, mint a „Disallow: *.gif” vagy a „User-agent: Ya*” nem támogatottak.

A robots.txt fájlban található konkrét utasítások webhelyétől és attól függenek, hogy mitől szeretné megakadályozni az indexelését. Íme néhány példa:

Letiltja a teljes webhelyet, hogy minden robot indexelje

User-agent: *
Letiltás: /

Engedélyezze az összes robot számára a teljes webhely indexelését

User-agent: *
Letiltás:

Vagy egyszerűen létrehozhat egy üres „/robots.txt” fájlt.

Csak néhány könyvtárat tiltson le az indexelésből

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /privát/

A webhely indexelésének megakadályozása csak egy robotnál

Felhasználói ügynök: BadBot
Letiltás: /

Engedélyezze az egyik robotnak, hogy indexelje a webhelyet, és letiltja az összes többit

Felhasználói ügynök: Yandex
Letiltás:

User-agent: *
Letiltás: /

Egy kivételével az összes fájl indexelésének megtagadása

Ez elég nehéz, mert... nincs „Engedélyezés” utasítás. Ehelyett az összes fájlt áthelyezheti egy alkönyvtárba, kivéve azt, amelyiket indexelni szeretné, és megakadályozhatja annak indexelését:

User-agent: *
Disallow: /docs/

Vagy letilthatja az összes fájl indexelését:

User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html