Robotlar txt yordamida. Robotlar txt faylini qanday tahrirlash mumkin. Har qanday qidiruv tizimi uchun osongina fayl yarating

Ushbu maqolada WordPress uchun robots.txt fayli uchun optimal, mening fikrimcha, veb-saytlaringizda foydalanishingiz mumkin bo'lgan kod misoli mavjud.

Boshlash uchun, eslaylik nima uchun sizga robots.txt kerak- robots.txt fayli faqat qidiruv robotlariga saytning qaysi bo'limlari/sahifalariga tashrif buyurishi va qaysilariga kirmasligi kerakligini "aytib berish" uchun kerak. Tashrifdan yopilgan sahifalar qidiruv tizimi indeksiga kiritilmaydi (Yandex, Google va boshqalar).

Variant 1: WordPress uchun optimal robots.txt kodi

Foydalanuvchi-agent: * Ruxsat bermaslik: /cgi-bin # classic... Ruxsat bermaslik: /? # asosiy sahifadagi barcha so'rov parametrlari Ruxsat bermaslik: /wp- # barcha WP fayllari: /wp-json/, /wp-includes, /wp-content/plugins Ruxsat bermaslik: *?s= # qidiruv Ruxsat bermaslik: *&s= # qidiruv Ruxsat berish: /search # search Ruxsat berish: /author/ # muallif arxivi Ruxsat bermaslik: */embed # all embeddings Ruxsat bermaslik: */page/ # barcha turdagi sahifalar Ruxsat bering: */uploads # open uploads Ruxsat bering: /*/*.js # ichida /wp - (/*/ - ustuvorlik uchun) Ruxsat bering: /*/*.css # ichida /wp- (/*/ - ustuvorlik uchun) Ruxsat bering: /wp-*.png # plaginlardagi rasmlar, kesh papkasi va hokazo. . Ruxsat bering: /wp-*.jpg # plaginlarda, kesh papkasida va hokazo. Ruxsat bering: /wp-*.jpeg # plaginlarda, kesh papkasida va hokazo. Ruxsat bering: /wp-*.gif # plaginlarda, kesh papkasida va hokazo. Ruxsat bering: /wp-*.svg # plaginlarda, kesh papkasida va hokazo. Ruxsat bering: /wp-*.pdf # plaginlardagi fayllar, kesh papkasi va hokazo. Ruxsat berish: /wp-admin/admin-ajax.php #Ruxsat bermaslik: /wp/ # WP wp pastki katalogiga o'rnatilganda Sayt xaritasi: http://example.com/sitemap.xml Sayt xaritasi: http://example.com/ sitemap2.xml # boshqa fayl #Saytxaritasi: http://example.com/sitemap.xml.gz # siqilgan versiya (.gz) # Kod versiyasi: 1.1 # Saytingizga `site.ru` ni o'zgartirishni unutmang.

Kod tahlili:

    User-agent: * qatorida biz quyida keltirilgan barcha qoidalar barcha qidiruv robotlari uchun ishlashini bildiramiz *. Agar sizga ushbu qoidalar faqat bitta aniq robot uchun ishlashi kerak bo'lsa, * o'rniga robot nomini ko'rsatamiz (Foydalanuvchi-agent: Yandex, Foydalanuvchi-agent: Googlebot).

    Ruxsat berish: */uploads qatorida biz /yuklashlarni o'z ichiga olgan sahifalarga ataylab indekslanishiga ruxsat beramiz. Bu qoida majburiydir, chunki yuqorida biz /wp- va bilan boshlangan sahifalarni indekslashni taqiqlaymiz /wp- kiritilgan /wp-content/uploads. Shuning uchun, Disallow: /wp- qoidasini bekor qilish uchun sizga Ruxsat berish: */uploads qatori kerak, chunki bu kabi havolalar uchun. /wp-content/uploads/... Bizda indekslanishi kerak bo'lgan rasmlar bo'lishi mumkin, shuningdek, yashirishning hojati yo'q ba'zi yuklab olingan fayllar ham bo'lishi mumkin. Ruxsat berish: "oldin" yoki "keyin" bo'lishi mumkin Ruxsat bermaslik: .

    Qolgan satrlar robotlarga quyidagi bilan boshlanadigan havolalarni “kuzatishini” taqiqlaydi:

    • Ruxsat berish: /cgi-bin - serverdagi skriptlar katalogini yopadi
    • Ruxsat bermaslik: /feed - blogning RSS tasmasini yopadi
    • Disallow: /trackback - bildirishnomalarni yopadi
    • Ruxsat berish: ?s= yoki ruxsat berish: *?s= - qidiruv sahifalarini yopadi
    • Ruxsat bermaslik: */page/ - sahifalashning barcha turlarini yopadi
  1. Sayt xaritasi qoidasi: http://example.com/sitemap.xml robotni XML formatidagi sayt xaritasi bo'lgan faylga qaratadi. Agar sizning saytingizda shunday fayl bo'lsa, unga to'liq yo'lni yozing. Bunday fayllar bir nechta bo'lishi mumkin, keyin biz har biriga alohida yo'lni ko'rsatamiz.

    Xost: site.ru qatorida biz saytning asosiy oynasini ko'rsatamiz. Agar saytning nometalllari (boshqa domenlardagi sayt nusxalari) bo'lsa, Yandex ularning barchasini teng ravishda indekslashi uchun siz asosiy oynani ko'rsatishingiz kerak. Xost direktivasi: faqat Yandex tushunadi, Google tushunmaydi! Agar sayt https protokoli ostida ishlayotgan bo'lsa, u holda u Xost: Xost: http://example.com da ko'rsatilishi kerak.

    Yandex hujjatlaridan: "Xost mustaqil direktivdir va faylning istalgan joyida ishlaydi (kesishma)." Shuning uchun, biz uni bo'sh qator orqali faylning yuqori qismiga yoki eng oxiriga qo'yamiz.

Chunki ochiq tasmalarning mavjudligi, masalan, Yandex Zen uchun, saytni kanalga ulash kerak bo'lganda ("Digital" sharhlovchisiga rahmat). Ehtimol, boshqa joylarda ochiq ozuqalar kerak.

Shu bilan birga, tasmalar javob sarlavhalarida o'z formatiga ega, buning natijasida qidiruv tizimlari bu HTML sahifasi emas, balki tasma ekanligini tushunishadi va aniqki, uni qandaydir tarzda qayta ishlashadi.

Yandex uchun Host direktivasi endi kerak emas

Yandex Xost direktivasidan butunlay voz kechdi va uni 301 yo'naltirish bilan almashtirdi. Xostni robots.txt dan xavfsiz olib tashlash mumkin. Biroq, barcha sayt nometalllari asosiy saytga (asosiy oyna) 301 yo'naltirishga ega bo'lishi muhimdir.

Bu muhim: ishlov berishdan oldin tartiblash qoidalari

Yandex va Google "Ruxsat berish" va "Ruxsat berish" direktivalarini ular ko'rsatilgan tartibda emas, balki avval ularni qisqa qoidadan uzungacha tartiblaydi, so'ngra oxirgi mos keladigan qoidani qayta ishlaydi:

Foydalanuvchi-agent: * Ruxsat berish: */yuklashlar Ruxsat bermaslik: /wp-

quyidagicha o'qiladi:

Foydalanuvchi-agent: * Ruxsat bermaslik: /wp- Ruxsat berish: */yuklashlar

Saralash xususiyatini tezda tushunish va qo'llash uchun ushbu qoidani esda tuting: “robots.txt-dagi qoida qanchalik uzoq bo'lsa, uning ustuvorligi shunchalik yuqori bo'ladi. Agar qoidalar uzunligi bir xil bo'lsa, u holda ruxsat berish direktivasiga ustunlik beriladi."

Variant 2: WordPress uchun standart robots.txt

Nima uchunligini bilmayman, lekin men birinchi variantni yoqlayman! Chunki bu mantiqiyroq - kesishuvchi bo'lgan Yandex uchun Host direktivasini ko'rsatish uchun bo'limni to'liq takrorlashning hojati yo'q (robot shablonning istalgan joyida, qaysi robotga tegishli ekanligini ko'rsatmasdan tushunadi). Nostandart Allow direktivasiga kelsak, u Yandex va Google uchun ishlaydi va agar u buni tushunmaydigan boshqa robotlar uchun yuklashlar papkasini ochmasa, 99% hollarda bu xavfli hech narsaga olib kelmaydi. Men hali birinchi robotlar kerakli darajada ishlamasligini payqamadim.

Yuqoridagi kod biroz noto'g'ri. Noto'g'rilikni ko'rsatgani uchun sharhlovchiga " " rahmat, garchi bu nima ekanligini o'zim aniqlashim kerak edi. Va men o'ylab topgan narsam (xato bo'lishim mumkin):

    Ba'zi robotlar (Yandeks va Google emas) 2 dan ortiq direktivani tushunmaydi: User-agent: va Ruxsat bermaslik:

  1. Yandex Host: direktivasi Disallow: dan keyin ishlatilishi kerak, chunki ba'zi robotlar (Yandex va Google emas) buni tushunmasligi va umuman robots.txt faylini rad etishi mumkin. Yandex-ning o'zi, hujjatlarga ko'ra, Xost-dan qayerda va qanday foydalanishni mutlaqo qiziqtirmaydi: hatto barcha sayt oynalarini bir-biriga yopishtirish uchun robots.txt-ni faqat bitta qatorli Xost: www.site.ru yaratsangiz ham.

3. Sayt xaritasi: Yandex va Google va boshqa ko'plab robotlar uchun kesishuvchi direktiv, shuning uchun biz uni oxirida bo'sh qator bilan yozamiz va u bir vaqtning o'zida barcha robotlar uchun ishlaydi.

Ushbu tuzatishlarga asoslanib, to'g'ri kod quyidagicha ko'rinishi kerak:

Foydalanuvchi-agent: Yandex Taqiqlash: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-json/ Ruxsat berish: /wp-login.php Ruxsat berish: /wp-register.php Ruxsat bermaslik: */embed Taqiqlash: */page/ Ruxsat berish: /cgi-bin Ruxsat berish: *?s= Ruxsat berish: /wp-admin/admin-ajax.php Xost: site.ru User-agent: * Ruxsat bermaslik: /wp-admin Ruxsat bermaslik : /wp-includes Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-json/ Ruxsat berish: /wp-login.php Ruxsat berish: /wp-register.php Ruxsat berish: */embed Ruxsat berish: */page/ Ruxsat berish: / cgi-bin Ruxsat bermaslik: *?s= Ruxsat berish: /wp-admin/admin-ajax.php Sayt xaritasi: http://example.com/sitemap.xml

Keling, buni o'zimiz uchun qo'shamiz

Agar boshqa sahifalar yoki sahifalar guruhlarini bloklashingiz kerak bo'lsa, quyida qoida (direktiva) qo'shishingiz mumkin Ruxsat bermaslik:. Misol uchun, biz indekslashdan toifadagi barcha yozuvlarni yopishimiz kerak Yangiliklar, keyin oldin Sayt xaritasi: qoida qo'shing:

Ruxsat bermaslik: /news

Bu robotlarning bunday havolalarni kuzatishiga to'sqinlik qiladi:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Agar /news ning har qanday hodisasini yopish kerak bo'lsa, yozing:

Ruxsat bermaslik: */news

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Siz robots.txt direktivalarini Yandex yordam sahifasida batafsil o'rganishingiz mumkin (lekin u erda tavsiflangan barcha qoidalar Google uchun ishlamasligini yodda tuting).

Robots.txt tekshiruvi va hujjatlari

Belgilangan qoidalar to'g'ri ishlayotganligini quyidagi havolalar orqali tekshirishingiz mumkin:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Google'da bu amalga oshiriladi Qidiruv konsoli. Sizga avtorizatsiya va veb-master panelida sayt mavjudligi kerak...
  • robots.txt faylini yaratish xizmati: http://pr-cy.ru/robots/
  • Robots.txt yaratish va tekshirish xizmati: https://seolib.ru/tools/generate/robots/

Men Yandexdan so'radim ...

Men texnikada savol berdim. Xost va Sayt xaritasi ko'rsatmalaridan kesishishda foydalanish bo'yicha Yandex yordami:

Savol:

Salom!
Men blogimda robots.txt haqida maqola yozyapman. Men bu savolga javob olmoqchiman (hujjatlarda aniq "ha" topmadim):

Agar men barcha nometalllarni yopishtirishim kerak bo'lsa va buning uchun men robots.txt faylining boshida Xost direktivasidan foydalanaman:

Xost: site.ru Foydalanuvchi-agent: * Ruxsat bermaslik: /asd

Xost: site.ru ushbu misolda to'g'ri ishlaydimi? Bu robotlarga site.ru asosiy oyna ekanligini ko'rsatadimi? Bular. Men ushbu direktivani bo'limda emas, balki alohida (fayl boshida) qaysi User-agentga tegishli ekanligini ko'rsatmasdan foydalanaman.

Bundan tashqari, men Sayt xaritasi direktivasi bo'lim ichida ishlatilishi kerakmi yoki undan tashqarida foydalanish mumkinmi yoki yo'qligini bilmoqchi edim: masalan, bo'sh qator orqali, bo'limdan keyin?

Foydalanuvchi-agent: Yandex taqiqlash: /asd Foydalanuvchi-agent: * Ruxsat bermaslik: /asd Sayt xaritasi: http://example.com/sitemap.xml

Robot ushbu misoldagi Sayt xaritasi direktivasini tushunadimi?

Sizdan shubhalarimga chek qo'yadigan javob olasiz degan umiddaman.

Javob:

Salom!

Xost va Sayt xaritasi direktivalari kesishadi, shuning uchun ular robots.txt faylida ko'rsatilgan joydan qat'i nazar, robot tomonidan foydalaniladi.

--
Hurmat bilan, Platon Shchukin
Yandex qo'llab-quvvatlash xizmati

Xulosa

Shuni yodda tutish kerakki, allaqachon ishlaydigan saytdagi robots.txt-dagi o'zgarishlar bir necha oydan keyin (2-3 oy) sezilarli bo'ladi.

Google ba'zan robots.txt-dagi qoidalarni e'tiborsiz qoldirishi va sahifani juda noyob va foydali deb hisoblasa va indeksda bo'lishi kerak deb hisoblasa, uni indeksga kiritishi mumkinligi haqida mish-mishlar mavjud. Biroq, boshqa mish-mishlar tajribasiz optimallashtiruvchilar robots.txt-dagi qoidalarni noto'g'ri ko'rsatishi va shu bilan kerakli sahifalarni indeksatsiyadan yopishi va keraksizlarini qoldirishi mumkinligi bilan bu farazni rad etadi. Men ikkinchi taxminga ko'proq moyilman ...

Dynamic robots.txt

WordPress-da robots.txt fayliga so'rov alohida qayta ishlanadi va saytning ildizida robots.txt faylini jismonan yaratish shart emas, bundan tashqari, bu tavsiya etilmaydi, chunki bu yondashuv bilan u shunday bo'ladi. plaginlar uchun ushbu faylni o'zgartirish juda qiyin va bu ba'zan kerak.

Funktsiya tavsifida robots.txt faylini dinamik yaratish qanday ishlashi haqida o'qing va quyida men ushbu fayl tarkibini ilgak orqali tezda qanday o'zgartirishingiz mumkinligiga misol keltiraman.

Buning uchun functions.php faylingizga quyidagi kodni qo'shing:

Add_action("do_robotstxt", "my_robotstxt"); funktsiya my_robotstxt())( $lines = [ "Foydalanuvchi-agent: *", "Ruxsat bermaslik: /wp-admin/", "Ruxsat bermaslik: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); o'lim; // PHP ishini tugatish)

Foydalanuvchi-agent: * Ruxsat bermaslik: /wp-admin/ Ruxsat bermaslik: /wp-includes/

Crawl-delay - aqldan ozgan robotlar uchun vaqt tugashi (2018 yildan beri hisobga olinmaydi)

Yandex

Oxirgi ikki yil davomida indekslash masalalari boʻyicha qoʻllab-quvvatlashimizga yoʻllangan xatlarni tahlil qilib, biz hujjatlarni sekin yuklab olishning asosiy sabablaridan biri robots.txt faylida notoʻgʻri sozlangan Crawl-delay direktivasi ekanligini aniqladik […] Bu haqda tashvishlanishingiz kerak va barcha kerakli veb-sayt sahifalari qidiruvda tezda paydo bo'lishini va yangilanishini ta'minlash uchun biz Crawl-delay direktivasidan voz kechishga qaror qildik.

Yandex roboti saytni aqldan ozgandek skanerlaganda va bu serverda keraksiz yuk hosil qiladi. Siz robotdan "sekinlashishini" so'rashingiz mumkin.

Buning uchun siz Crawl-delay direktivasidan foydalanishingiz kerak. Bu robot saytning har bir keyingi sahifasini skanerlash uchun bo'sh turishi (kutish) kerak bo'lgan vaqtni soniyalarda ko'rsatadi.

Robots.txt standartiga yaxshi amal qilmaydigan robotlar bilan mos kelishi uchun "Ruxsat berish" va "Ruxsat berish" dan so'ng darhol guruhda (Foydalanuvchi-Agent bo'limida) Crawl-delay ko'rsatilishi kerak.

Yandex Robot kasr qiymatlarini tushunadi, masalan, 0,5 (yarim soniya). Bu qidiruv robotining saytingizga har yarim soniyada tashrif buyurishini kafolatlamaydi, lekin bu sizga saytni skanerlashni tezlashtirish imkonini beradi.

Foydalanuvchi-agent: Yandex Ruxsat bermaslik: /wp-admin Ruxsat bermaslik: /wp-o'z ichiga oladi Crawl-kechikish: 1,5 # vaqt tugashi 1,5 soniya Foydalanuvchi-agent: * Ruxsat bermaslik: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /wp-* . gif Crawl-kechikish: 2 # vaqt tugashi 2 soniya

Google

Googlebot Crawl-delay direktivasini tushunmaydi. Uning robotlari uchun kutish vaqti webmaster panelida belgilanishi mumkin.

Avi1.ru xizmatida siz 7 dan ortiq eng mashhur ijtimoiy tarmoqlarda SMM reklamasini xarid qilishingiz mumkin. Shu bilan birga, barcha sayt xizmatlarining arzonligiga e'tibor bering.

O'qish vaqti: 7 daqiqa


Bizga audit yoki reklama uchun kelgan deyarli har bir loyihada noto'g'ri robots.txt fayli mavjud va ko'pincha u umuman yo'qoladi. Buning sababi, faylni yaratishda hamma qoidalarga emas, balki o'z tasavvurlariga asoslanadi. Keling, qidiruv robotlari u bilan samarali ishlashi uchun ushbu faylni qanday qilib to'g'ri tuzishni aniqlaylik.

Nima uchun robots.txt faylini sozlashingiz kerak?

Robots.txt- bu saytning asosiy katalogida joylashgan fayl bo'lib, u qidiruv tizimi robotlariga saytning qaysi bo'limlari va sahifalariga kirishi mumkinligini va qaysi biriga kira olmasligini bildiradi.

robots.txt faylini o'rnatish qidiruv tizimi natijalarining muhim qismidir; to'g'ri sozlangan robotlar ham sayt ish faoliyatini oshiradi. Yo'qolgan Robots.txt qidiruv tizimlarining saytingizni skanerlashi va indekslanishini to'xtata olmaydi, lekin agar sizda bu fayl bo'lmasa, sizda ikkita muammo bo'lishi mumkin:

    Qidiruv roboti butun saytni o'qiydi, bu esa sudraluvchi byudjetni "yo'q qiladi". Budjetni skanerlash - bu qidiruv roboti ma'lum vaqt ichida skanerlashi mumkin bo'lgan sahifalar soni.

    Robotlar fayli bo'lmasa, qidiruv tizimi qoralama va yashirin sahifalarga, CMSni boshqarish uchun ishlatiladigan yuzlab sahifalarga kirish huquqiga ega bo'ladi. U ularni indekslaydi va tashrif buyuruvchilar uchun to'g'ridan-to'g'ri tarkibni ta'minlaydigan kerakli sahifalarga kelganda, skanerlash byudjeti "tugaydi".

    Indeks saytga kirish sahifasini va boshqa administrator resurslarini o'z ichiga olishi mumkin, shuning uchun tajovuzkor ularni osongina kuzatishi va ddos ​​hujumini amalga oshirishi yoki saytni buzishi mumkin.

Qidiruv robotlari saytni robots.txt bilan va bo'lmagan holda qanday ko'radi:


Robots.txt sintaksisi

Sintaksisni tushunish va robots.txt faylini o'rnatishni boshlashdan oldin, keling, "ideal fayl" qanday ko'rinishini ko'rib chiqaylik:


Lekin siz uni darhol ishlatmasligingiz kerak. Har bir sayt ko'pincha o'z sozlamalarini talab qiladi, chunki bizda har xil sayt tuzilishi va turli CMS mavjud. Keling, har bir direktivani tartibda ko'rib chiqaylik.

Foydalanuvchi-agent

User-agent - faylda tasvirlangan ko'rsatmalarga amal qilishi kerak bo'lgan qidiruv robotini belgilaydi. Agar siz bir vaqtning o'zida hammaga murojaat qilishingiz kerak bo'lsa, * belgisidan foydalaning. Bundan tashqari, ma'lum bir qidiruv robotiga murojaat qilishingiz mumkin. Masalan, Yandex va Google:


Ushbu direktiva yordamida robot qaysi fayl va papkalarni indekslash taqiqlanganligini tushunadi. Agar butun saytingiz indekslash uchun ochiq boʻlishini istasangiz, “Ruxsat berish” qiymatini boʻsh qoldiring. Taqiqlashdan keyin saytdagi barcha tarkibni yashirish uchun “/” belgisini qo'ying.

Muayyan jild, fayl yoki fayl kengaytmasiga kirishni oldini olishimiz mumkin. Bizning misolimizda biz barcha qidiruv robotlari bilan bog'lanamiz va bitrix, qidiruv papkasi va pdf kengaytmasiga kirishni bloklaymiz.


Ruxsat bering

Saytning sahifalari va bo'limlarini indekslashga majburlash. Yuqoridagi misolda biz Google qidiruv robotiga murojaat qilamiz, bitrixga, qidiruv papkasiga va pdf kengaytmasiga kirishni bloklaymiz. Ammo bitrix papkasida biz indekslash uchun 3 ta jildni ochishga majbur qilamiz: komponentlar, js, asboblar.


Xost - sayt oynasi

Oynali sayt asosiy saytning dublikatidir. Ko'zgular turli maqsadlarda qo'llaniladi: manzilni o'zgartirish, xavfsizlik, serverdagi yukni kamaytirish va boshqalar.

Xost eng muhim qoidalardan biridir. Agar ushbu qoida yozilsa, robot indekslash uchun saytning qaysi ko'zgularini hisobga olish kerakligini tushunadi. Ushbu direktiv Yandex va Mail.ru robotlari uchun zarur. Boshqa robotlar bu qoidani e'tiborsiz qoldiradilar. Xost faqat bir marta ro'yxatdan o'tgan!

"https://" va "http://" protokollari uchun robots.txt faylidagi sintaksis boshqacha bo'ladi.

Sayt xaritasi - sayt xaritasi

Sayt xaritasi qidiruv tizimlarini yangi sahifalar haqida xabardor qilish uchun foydalaniladigan sayt navigatsiyasi shaklidir. Sayt xaritasi direktivasidan foydalanib, biz robotga xarita joylashgan joyni "majburiy" ko'rsatamiz.


robots.txt-dagi belgilar

Faylda ishlatiladigan belgilar: “/, *, $, #”.


robots.txt faylini o'rnatgandan so'ng funksionallikni tekshirish

Robots.txt-ni veb-saytingizga joylashtirganingizdan so'ng, uni Yandex va Google webmasteriga qo'shishingiz va tekshirishingiz kerak.

Yandex tekshiruvi:

  1. Ushbu havolani kuzatib boring.
  2. Tanlang: Indekslash sozlamalari - Robots.txt tahlili.

Google tekshiruvi:

  1. Ushbu havolani kuzatib boring.
  2. Tanlang: Scan - Robots.txt faylini tekshirish vositasi.

Shunday qilib, siz robots.txt faylida xatolar mavjudligini tekshirishingiz va kerak bo'lganda kerakli o'zgarishlarni amalga oshirishingiz mumkin.

  1. Fayl mazmuni katta harflar bilan yozilishi kerak.
  2. Disallow direktivasida faqat bitta fayl yoki katalog ko'rsatilishi kerak.
  3. "Foydalanuvchi-agent" qatori bo'sh bo'lmasligi kerak.
  4. Foydalanuvchi-agent har doim ruxsat berishdan oldin kelishi kerak.
  5. Agar siz katalogni indekslashni o'chirib qo'yishingiz kerak bo'lsa, chiziq chizig'ini qo'shishni unutmang.
  6. Faylni serverga yuklashdan oldin uni sintaksis va imlo xatolari bor-yo‘qligini tekshirib ko‘ring.

Sizga muvaffaqiyatlar tilayman!

Robots.txt faylini yaratish va sozlashning 3 usulini video ko'rib chiqish

Hammaga salom! Bugun men sizga bu haqda aytib bermoqchiman robots.txt fayli. Ha, bu haqda Internetda juda ko'p yozilgan, lekin rostini aytsam, men o'zim juda uzoq vaqt davomida robots.txt faylini qanday yaratishni tushunolmadim. Men bittasini yaratdim va u mening barcha bloglarimda. Men hech qanday muammo sezmadim, robots.txt juda yaxshi ishlaydi.

WordPress uchun Robots.txt

Nima uchun, aslida, bizga robots.txt kerak? Javob hali ham bir xil -. Ya'ni, robots.txt ni kompilyatsiya qilish sayt qidiruv tizimini optimallashtirish qismlaridan biridir (Aytgancha, juda tez orada WordPressda saytni barcha ichki optimallashtirishga bag'ishlangan dars bo'ladi. Shuning uchun bunday qilmang. Qiziqarli materiallarni o'tkazib yubormaslik uchun RSS-ga obuna bo'lishni unutmang.).

Ushbu faylning funktsiyalaridan biri indekslashni taqiqlash keraksiz veb-sayt sahifalari. Shuningdek, u manzilni belgilaydi va asosiy narsani bildiradi sayt oynasi(www bilan yoki wwwsiz sayt).

Eslatma: qidiruv tizimlari uchun www bilan bir xil va wwwsiz bir xil saytlar butunlay boshqa saytlardir. Ammo, bu saytlarning mazmuni bir xil ekanligini tushunib, qidiruv tizimlari ularni bir-biriga "yopishadi". Shuning uchun saytning asosiy oynasini robots.txt da ro'yxatdan o'tkazish muhimdir. Qaysi biri asosiy ekanligini bilish uchun (www bilan yoki wwwsiz) brauzerda saytingiz manzilini yozish kifoya, masalan www bilan, agar siz avtomatik ravishda wwwsiz bir xil saytga yo'naltirilsa, u holda saytning asosiy oynasi. saytingiz wwwsiz. Umid qilamanki, men buni to'g'ri tushuntirdim.

edi:

Endi (saytga kirgandan so'ng, www avtomatik ravishda o'chirildi va sayt wwwsiz bo'lib qoldi):

Demak, bu qadrli, menimcha, WordPress uchun to'g'ri robots.txt Quyida ko'rishingiz mumkin.

WordPress uchun to'g'ri

Foydalanuvchi-agent: *
Ruxsat bermaslik: /cgi-bin
Ruxsat bermaslik: /wp-admin
Ruxsat bermaslik: /wp-includes

Ruxsat bermaslik: /wp-content/cache
Ruxsat bermaslik: /wp-content/themes
Ruxsat bermaslik: /trackback
Ruxsat bermaslik: */trackback
Ruxsat bermaslik: */*/trackback
Ruxsat bermaslik: */*/feed/*/
Ruxsat bermaslik: */feed
Ruxsat bermaslik: /*?*
Ruxsat bermaslik: / teg

Foydalanuvchi-agent: Yandex
Ruxsat bermaslik: /cgi-bin
Ruxsat bermaslik: /wp-admin
Ruxsat bermaslik: /wp-includes
Ruxsat bermaslik: /wp-content/plugins
Ruxsat bermaslik: /wp-content/cache
Ruxsat bermaslik: /wp-content/themes
Ruxsat bermaslik: /trackback
Ruxsat bermaslik: */trackback
Ruxsat bermaslik: */*/trackback
Ruxsat bermaslik: */*/feed/*/
Ruxsat bermaslik: */feed
Ruxsat bermaslik: /*?*
Ruxsat bermaslik: / teg
Xost: veb-sayt
Sayt xaritasi: https://site/sitemap.xml.gz
Sayt xaritasi: https://site/sitemap.xml

Yuqorida keltirilgan hamma narsani .txt kengaytmali matn hujjatiga ko'chirishingiz kerak, ya'ni fayl nomi robots.txt bo'lishi uchun. Ushbu matn hujjatini, masalan, dastur yordamida yaratishingiz mumkin. Faqat unutmang, iltimos oxirgi uchta qatorni o'zgartiring veb-saytingiz manziliga manzil. Robots.txt fayli blogning ildizida, ya'ni wp-content, wp-admin va hokazo papkalar joylashgan papkada joylashgan bo'lishi kerak.

Ushbu matn faylini yaratishga juda dangasa bo'lganlar uchun siz u erda 3 qatorni ham tuzatishingiz mumkin.

Shuni ta'kidlashni istardimki, siz quyida muhokama qilinadigan texnik qismlar bilan o'zingizni ortiqcha yuklashingiz shart emas. Men ularni "bilim" uchun, ta'bir joiz bo'lsa, umumiy nuqtai nazarga olib kelaman, ular nima kerakligini va nima uchun kerakligini bilishlari uchun.

Shunday qilib, chiziq:

Foydalanuvchi-agent

ba'zi qidiruv tizimlari uchun qoidalarni belgilaydi: masalan, "*" (yulduzcha) qoidalar barcha qidiruv tizimlari uchun ekanligini va quyida nima ekanligini bildiradi.

Foydalanuvchi-agent: Yandex

bu qoidalar faqat Yandex uchun ekanligini anglatadi.

Ruxsat bermaslik
Bu erda siz qidiruv tizimlari tomonidan indekslanishi shart bo'lmagan bo'limlarni "tashlaysiz". Masalan, mening sahifamda muntazam maqolalar bilan maqolalar dublikati (takrorlash) bor va sahifalarning takrorlanishi qidiruv tizimini reklama qilishga salbiy ta'sir qiladi, shuning uchun ushbu sektorlarni indeksatsiyadan yopib qo'yish kerak. biz ushbu qoida yordamida nima qilamiz:

Ruxsat bermaslik: / teg

Shunday qilib, yuqorida keltirilgan robots.txt da WordPress saytining deyarli barcha keraksiz bo'limlari indeksatsiyadan yopilgan, ya'ni hamma narsani avvalgidek qoldiring.

Xost

Bu erda biz yuqorida aytib o'tgan saytning asosiy oynasini o'rnatdik.

Sayt xaritasi

Oxirgi ikki qatorda biz yordamida yaratilgan ikkitagacha sayt xaritalarining manzilini belgilaymiz.

Mumkin muammolar

Bo'limga o'ting Indekslash sozlamalari -> Robots.txt tahlili:

U erda allaqachon "Saytdan robots.txt yuklash" tugmasini bosing va keyin "Tekshirish" tugmasini bosing:

Agar siz quyidagi xabarga o'xshash narsani ko'rsangiz, demak sizda Yandex uchun to'g'ri robots.txt mavjud:

Shuningdek, robots.txt ushbu sahifani indekslashni taqiqlashini tekshirish uchun saytdagi istalgan maqolaning manzilini “URLlar roʻyxati”ga qoʻshishingiz mumkin:

Ko'rib turganingizdek, biz robots.txt dan sahifani indekslashda hech qanday taqiqni ko'rmayapmiz, demak, hamma narsa tartibda :).

Umid qilamanki, sizda boshqa savollar bo'lmaydi, masalan: robots.txt faylini qanday yaratish yoki bu faylni qanday qilib to'g'rilash. Ushbu darsda men sizga to'g'riligini ko'rsatishga harakat qildim misol robots.txt:

Ko'rishguncha!

P.s. Yaqinda men, nima qiziq bo'ldi? 🙂

Sayt xaritasi blogingizni indekslashni sezilarli darajada osonlashtiradi. Har bir veb-sayt va blogda sayt xaritasi bo'lishi kerak. Bundan tashqari, har bir veb-sayt va blogda fayl bo'lishi kerak robotlar.Xabar. robots.txt faylida qidiruv robotlari uchun ko'rsatmalar to'plami mavjud. Bu sizning blogingizdagi qidiruv robotlarining xatti-harakatlari qoidalari deb aytishingiz mumkin. Ushbu faylda blogingizning sayt xaritasiga yo'l ham mavjud. Va, aslida, to'g'ri tuzilgan robots.txt fayli bilan qidiruv roboti sayt xaritasini qidirish va keraksiz fayllarni indekslash uchun qimmatli vaqtni behuda sarflamaydi.

robots.txt fayli nima?

robots.txt- bu qidiruv robotlari uchun ko'rsatmalarni o'z ichiga olgan blogingizning ildizida joylashgan oddiy "bloknot" da yaratilishi mumkin bo'lgan matnli fayl.

Ushbu ko'rsatmalar qidiruv robotlarining barcha xudolaringizning fayllarini tasodifiy indeksatsiya qilishiga yo'l qo'ymaydi va qidiruv natijalariga kiritilishi kerak bo'lgan sahifalarni indekslashga e'tibor beradi.

Ushbu fayldan foydalanib, siz WordPress dvigatel fayllarini indekslashni oldini olishingiz mumkin. Yoki, aytaylik, blogingizning maxfiy bo'limi. Siz o'z blogingiz xaritasiga yo'lni va blogingizning asosiy oynasini belgilashingiz mumkin. Bu yerda men sizning domen nomingizni www bilan va wwwsiz.

Saytni robots.txt bilan va robotsiz indekslash

Ushbu skrinshotda robots.txt fayli saytdagi ba'zi papkalarni indekslashni qanday taqiqlashi aniq ko'rsatilgan. Faylsiz saytingizdagi hamma narsa robot uchun mavjud.

robots.txt faylining asosiy direktivalari

robots.txt faylidagi ko'rsatmalarni tushunish uchun siz asosiy buyruqlarni (direktivalarni) tushunishingiz kerak.

Foydalanuvchi-agent– bu buyruq robotning saytingizga kirishini bildiradi. Ushbu direktivadan foydalanib, siz har bir robot uchun alohida ko'rsatmalar yaratishingiz mumkin.

Foydalanuvchi-agent: Yandex – Yandex robotining qoidalari

Foydalanuvchi-agent: * - barcha robotlar uchun qoidalar

Ruxsat bermaslik va ruxsat berish- taqiqlash va ruxsat berish bo'yicha ko'rsatmalar. Disallow direktivasidan foydalangan holda indekslash taqiqlanadi, Ruxsat berish esa ruxsat beradi.

Taqiqlashga misol:

Foydalanuvchi-agent: *

Ruxsat bermaslik: / - butun saytni taqiqlash.

Foydalanuvchi-agent: Yandex

Ruxsat bermaslik: /admin – Yandex robotining administrator papkasida joylashgan sahifalarga kirishini taqiqlaydi.

Rezolyutsiyaga misol:

Foydalanuvchi-agent: *

Ruxsat bering: /foto

Ruxsat bermaslik: / - fotosuratlar papkasida joylashgan sahifalar bundan mustasno, butun saytni taqiqlash.

Eslatma! Disallow direktivasi: parametrsiz hamma narsaga ruxsat beradi va Allow direktivasi parametrsiz hamma narsani taqiqlaydi. Va ruxsat berishsiz ruxsat berish direktivasi bo'lmasligi kerak.

Sayt xaritasi- xml formatida sayt xaritasiga yo'lni belgilaydi.

Sayt xaritasi: https://site/sitemap.xml.gz

Sayt xaritasi: https://site/sitemap.xml

Xost– direktiv blogingizning asosiy oynasini belgilaydi. Ushbu ko'rsatma faqat Yandex robotlari uchun belgilangan deb ishoniladi. Ushbu direktiv robots.txt faylining eng oxirida ko'rsatilishi kerak.

Foydalanuvchi-agent: Yandex

Ruxsat bermaslik: /wp-includes

Xost: veb-sayt

Eslatma! Asosiy oyna manzili gipermatnni uzatish protokoli (http://) ko'rsatilmagan holda ko'rsatiladi.

robots.txt faylini qanday yaratish mumkin

Endi biz robots.txt faylining asosiy buyruqlari bilan tanishganimizdan so'ng, faylimizni yaratishni boshlashimiz mumkin. Shaxsiy sozlamalaringiz bilan robots.txt faylini yaratish uchun siz blogingiz tuzilishini bilishingiz kerak.

WordPress blogi uchun standart (universal) robots.txt faylini yaratishni ko'rib chiqamiz. Unga har doim o'z sozlamalaringizni qo'shishingiz mumkin.

Shunday qilib, keling, boshlaylik. Bizga har bir Windows operatsion tizimida mavjud bo'lgan oddiy "bloknot" kerak bo'ladi. Yoki MacOS da TextEdit.

Yangi hujjat oching va unga quyidagi buyruqlarni joylashtiring:

User-agent: * Ruxsat bermaslik: Sayt xaritasi: https://site/sitemap.xml.gz Sayt xaritasi: https://site/sitemap.xml Foydalanuvchi-agent: Yandex Taqiqlash: /wp-login.php Ruxsat bermaslik: /wp-register .php Taqiqlash: /cgi-bin Ruxsat berish: /wp-admin Ruxsat berish: /wp-includes Ruxsat berish: /xmlrpc.php Ruxsat berish: /wp-content/plugins Ruxsat berish: /wp-content/cache Ruxsat berish: /wp-content/themes Ruxsat berish: /wp-content/languages ​​Taqiqlash: /category/*/* Ruxsat berish: /trackback Ruxsat berish: */trackback Ruxsat berish: */*/trackback Ruxsat berish: /teg/ Ruxsat berish: /feed/ Ruxsat berish: */*/ feed/ */ Ruxsat berish: */feed Ruxsat berish: */*/feed Ruxsat berish: /?feed= Ruxsat berish: /*?* Ruxsat berish: /?s= Xost: sayt

Sayt xaritasi va Xost ko'rsatmalarining parametrlarini o'zingizniki bilan almashtirishni unutmang.

Muhim! Buyruqlarni yozishda faqat bitta bo'shliqqa ruxsat beriladi. Direktiv va parametr o'rtasida. Hech qanday holatda parametrdan keyin yoki biron bir joyda bo'sh joy qo'ymasligingiz kerak.

Misol: Ruxsat bermaslik:<пробел>/feed/

Ushbu misol robots.txt fayli universaldir va CNC URL manzillari bo'lgan har qanday WordPress blogiga mos keladi. CNC nima ekanligini o'qing. Agar siz CNC-ni sozlamagan bo'lsangiz, tavsiya etilgan fayldan Disallow: /*?* Disallow: /?s= ni olib tashlashni tavsiya qilaman.

robots.txt fayli serverga yuklanmoqda

Bunday manipulyatsiyaning eng yaxshi usuli FTP ulanishidir. TotolCommander uchun FTP ulanishini qanday o'rnatish haqida o'qing. Yoki hostingda fayl boshqaruvchisidan foydalanishingiz mumkin.

Men TotolCommander-da FTP ulanishidan foydalanaman.

Tarmoq > FTP serveriga ulanish.

Kerakli ulanishni tanlang va "Ulanish" tugmasini bosing.

Blogning ildizini oching va F5 tugmachasini bosib robots.txt faylimizdan nusxa oling.

robots.txt serverga nusxalanmoqda

Endi sizning robots.txt faylingiz o'z vazifalarini bajaradi. Lekin men hali ham xatolik yo'qligiga ishonch hosil qilish uchun robots.txt ni tahlil qilishni tavsiya qilaman.

Buning uchun siz Yandex yoki Google webmaster hisobingizga kirishingiz kerak bo'ladi. Keling, Yandex misolini ko'rib chiqaylik. Bu yerda siz saytga bo'lgan huquqlaringizni tasdiqlamasdan ham tahlil o'tkazishingiz mumkin. Sizga kerak bo'lgan yagona narsa - Yandex pochta qutisi.

Yandex.webmaster hisobini oching.

Webmaster hisobining asosiy sahifasida havolani oching "Tekshirishrobotlar.Xabar".

Tahlil qilish uchun siz blogingizning URL manzilini kiritishingiz va “ Yuklab olish robotlar.txt saytidan" Fayl yuklab olingandan so'ng tugmani bosing "Tekshirish".

Ogohlantirish yozuvlarining yo'qligi robots.txt fayli to'g'ri yaratilganligini ko'rsatadi.

Natija quyida taqdim etiladi. Robotlarni qidirish uchun qaysi materiallarni ko'rsatishga ruxsat berilgan va qaysi biri taqiqlanganligi aniq va tushunarli bo'lganda.

robots.txt faylini tahlil qilish natijasi

Bu yerda siz robots.txt ga o'zgartirishlar kiritishingiz va kerakli natijaga erishguningizcha tajriba qilishingiz mumkin. Ammo unutmangki, blogingizda joylashgan fayl o'zgarmaydi. Buning uchun siz bu yerda olingan natijani bloknotga nusxalashingiz, uni robots.txt sifatida saqlashingiz va blogni o'zingizga nusxalashingiz kerak bo'ladi.

Aytgancha, kimningdir blogida robots.txt fayli qanday ko'rinishini qiziqtirgan bo'lsangiz, uni osongina ko'rishingiz mumkin. Buning uchun sayt manziliga /robots.txt qo'shishingiz kifoya

https://site/robots.txt

Endi robots.txt faylingiz tayyor. Va esda tutingki, robots.txt faylini yaratishni kechiktirmang, blogingizni indekslash bunga bog'liq bo'ladi.

Agar siz to'g'ri robots.txt ni yaratmoqchi bo'lsangiz va shu bilan birga qidiruv tizimi indeksiga faqat kerakli sahifalar kiritilishiga ishonch hosil qilsangiz, bu plagin yordamida avtomatik ravishda amalga oshirilishi mumkin.

Menda bor narsa shu. Barchangizga muvaffaqiyatlar tilayman. Savollaringiz yoki qo'shimchalaringiz bo'lsa, izohlarda yozing.

Ko'rishguncha.

Hurmat bilan, Maksim Zaitsev.

Yangi maqolalarga obuna bo'ling!

Ushbu qo'llanmaning maqsadi veb-ustalar va ma'murlarga robots.txt dan foydalanishga yordam berishdir.

Kirish

Robotdan ozod qilish standarti juda oddiy. Qisqasi, u shunday ishlaydi:

Standartga amal qiladigan robot saytga tashrif buyurganida, u avval "/robots.txt" deb nomlangan faylni so'raydi. Agar shunday fayl topilsa, Robot uni saytning ayrim qismlarini indekslashni taqiqlovchi ko'rsatmalarni qidiradi.

robots.txt faylini qaerga joylashtirish kerak

Robot saytingizdagi "/robots.txt" URL manzilini so'raydi; bu holda sayt ma'lum bir portdagi maxsus xostdir.

Sayt URL Robots.txt fayl URL manzili
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Saytda faqat bitta fayl "/robots.txt" bo'lishi mumkin. Misol uchun, siz robots.txt faylini foydalanuvchi pastki kataloglariga joylashtirmasligingiz kerak - robotlar ularni baribir u erda qidirmaydi. Agar siz pastki kataloglarda robots.txt fayllarini yaratish imkoniyatiga ega bo'lishni istasangiz, ularni dasturli ravishda saytning ildizida joylashgan yagona robots.txt fayliga yig'ish usuli kerak. foydalanishingiz mumkin.

Esda tutingki, URL manzillar katta-kichik harflarga sezgir va fayl nomi “/robots.txt” butunlay kichik harflar bilan yozilishi kerak.

robots.txt faylining joylashuvi noto‘g‘ri
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Fayl saytning ildizida joylashgan emas
ftp://ftp.w3.com/robots.txt Robotlar ftp ni indekslamaydi
http://www.w3.org/Robots.txt Fayl nomi kichik harfda emas

Ko'rib turganingizdek, robots.txt fayli faqat saytning ildiziga joylashtirilishi kerak.

robots.txt faylida nima yozish kerak

robots.txt faylida odatda quyidagilar mavjud:

Foydalanuvchi-agent: *
Ruxsat bermaslik: /cgi-bin/
Ruxsat bermaslik: /tmp/
Ruxsat bermaslik: /~joe/

Ushbu misolda uchta katalogni indekslash taqiqlangan.

E'tibor bering, har bir katalog alohida satrda joylashgan - siz "Disallow: /cgi-bin/ /tmp/" deb yoza olmaysiz. Bundan tashqari, bitta Ruxsat berish yoki User-agent bayonotini bir nechta qatorlarga bo'lish mumkin emas, chunki Satr uzilishlari ko'rsatmalarni bir-biridan ajratish uchun ishlatiladi.

Oddiy iboralar va joker belgilar ham ishlatilmaydi. Foydalanuvchi-agent yo'riqnomasidagi "yulduzcha" (*) "har qanday robot" degan ma'noni anglatadi. “Ruxsat bermaslik: *.gif” yoki “Foydalanuvchi-agent: Ya*” kabi ko‘rsatmalar qo‘llab-quvvatlanmaydi.

Robots.txt-dagi maxsus ko'rsatmalar saytingizga va indekslanishini oldini olishni xohlagan narsangizga bog'liq. Mana bir nechta misollar:

Butun saytni barcha robotlar tomonidan indekslanishini bloklang

Foydalanuvchi-agent: *
Ruxsat bermaslik: /

Barcha robotlarga butun saytni indekslashiga ruxsat bering

Foydalanuvchi-agent: *
Ruxsat bermaslik:

Yoki siz shunchaki bo'sh "/robots.txt" faylini yaratishingiz mumkin.

Indekslashdan faqat bir nechta kataloglarni bloklang

Foydalanuvchi-agent: *
Ruxsat bermaslik: /cgi-bin/
Ruxsat bermaslik: /tmp/
Ruxsat bermaslik: /private/

Faqat bitta robot uchun saytni indekslashni oldini olish

Foydalanuvchi-agent: BadBot
Ruxsat bermaslik: /

Bitta robotga saytni indekslash va boshqalarni rad etishiga ruxsat bering

Foydalanuvchi-agent: Yandex
Ruxsat bermaslik:

Foydalanuvchi-agent: *
Ruxsat bermaslik: /

Indekslashdan boshqa barcha fayllarni rad eting

Bu juda qiyin, chunki ... "Ruxsat berish" iborasi mavjud emas. Buning o'rniga, indekslash uchun ruxsat bermoqchi bo'lgan fayldan tashqari barcha fayllarni quyi katalogga ko'chirishingiz va uni indekslanishini oldini olishingiz mumkin:

Foydalanuvchi-agent: *
Ruxsat bermaslik: /docs/

Yoki indekslash taqiqlangan barcha fayllarni taqiqlashingiz mumkin:

Foydalanuvchi-agent: *
Ruxsat bermaslik: /private.html
Ruxsat bermaslik: /foo.html
Ruxsat bermaslik: /bar.html