bahay Mga pagsusuri

Gamit ang robots txt. Paano i-edit ang robots txt file. Madaling lumikha ng isang file para sa anumang search engine

Ang artikulong ito ay naglalaman ng isang halimbawa ng pinakamainam, sa palagay ko, code para sa robots.txt file para sa WordPress, na magagamit mo sa iyong mga website.

Upang magsimula, tandaan natin bakit kailangan mo ng robots.txt- ang robots.txt file ay kailangan lamang para sa mga search robot na "sabihin" sa kanila kung aling mga seksyon/pahina ng site ang bibisitahin at kung alin ang hindi nila dapat bisitahin. Ang mga pahinang sarado mula sa pagbisita ay hindi isasama sa index ng search engine (Yandex, Google, atbp.).

Opsyon 1: Pinakamainam na robots.txt code para sa WordPress

Ahente ng gumagamit: * Huwag Payagan: /cgi-bin # classic... Huwag Payagan: /? # lahat ng mga parameter ng query sa pangunahing pahina Huwag Payagan: /wp- # lahat ng WP file: /wp-json/, /wp-includes, /wp-content/plugins Huwag Payagan: *?s= # paghahanap Huwag Payagan: *&s= # paghahanap I-disallow: /search # search Disallow: /author/ # author archive I-disallow: */embed # all embeddings Huwag Payagan: */page/ # lahat ng uri ng pagination Payagan: */uploads # open uploads Allow: /*/*.js # sa loob /wp - (/*/ - para sa priyoridad) Payagan: /*/*.css # sa loob /wp- (/*/ - para sa priyoridad) Payagan: /wp-*.png # mga larawan sa mga plugin, folder ng cache, atbp . Payagan: /wp-*.jpg # mga larawan sa mga plugin, folder ng cache, atbp. Payagan: /wp-*.jpeg # mga larawan sa mga plugin, folder ng cache, atbp. Payagan: /wp-*.gif # mga larawan sa mga plugin, folder ng cache, atbp. Payagan: /wp-*.svg # mga larawan sa mga plugin, folder ng cache, atbp. Payagan: /wp-*.pdf # file sa mga plugin, cache folder, atbp. Payagan: /wp-admin/admin-ajax.php #Disallow: /wp/ # kapag naka-install ang WP sa wp subdirectory Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2. xml # isa pang file #Sitemap: http://example.com/sitemap.xml.gz # compressed version (.gz) # Code version: 1.1 # Huwag kalimutang palitan ang `site.ru` sa iyong site.

Pagsusuri ng code:

Sa User-agent: * linya ipinapahiwatig namin na ang lahat ng mga panuntunan sa ibaba ay gagana para sa lahat ng mga robot sa paghahanap *. Kung kailangan mo ang mga panuntunang ito upang gumana lamang para sa isang partikular na robot, sa halip na * ipinapahiwatig namin ang pangalan ng robot (User-agent: Yandex, User-agent: Googlebot).

Sa linyang Allow: */uploads, sinasadya naming payagan ang mga page na naglalaman ng /uploads na ma-index. Ang panuntunang ito ay sapilitan, dahil sa itaas ay ipinagbabawal namin ang pag-index ng mga pahina na nagsisimula sa /wp- , at /wp- kasama sa /wp-content/uploads. Samakatuwid, upang ma-override ang Disallow: /wp- rule, kailangan mo ang linyang Allow: */uploads , dahil para sa mga link tulad ng /wp-content/uploads/... Maaaring mayroon tayong mga larawan na kailangang i-index, at maaaring mayroon ding mga na-download na file na hindi na kailangang itago. Payagan: maaaring "bago" o "pagkatapos" Huwag Payagan: .

Ang natitirang mga linya ay nagbabawal sa mga robot na "sumusunod" sa mga link na nagsisimula sa:

Disallow: /cgi-bin - isinasara ang direktoryo ng mga script sa server
Disallow: /feed - isinasara ang RSS feed ng blog
Huwag payagan: /trackback - isinasara ang mga notification
Huwag Payagan: ?s= o Huwag Payagan: *?s= - isinasara ang mga pahina sa paghahanap
Disallow: */page/ - isinasara ang lahat ng uri ng pagination

Ang panuntunan ng Sitemap: http://example.com/sitemap.xml itinuturo ang robot sa isang file na may sitemap sa XML na format. Kung mayroon kang ganoong file sa iyong site, pagkatapos ay isulat ang buong landas dito. Maaaring may ilang mga ganoong file, pagkatapos ay ipahiwatig namin ang landas sa bawat isa nang hiwalay.

Sa linyang Host: site.ru ipinapahiwatig namin ang pangunahing salamin ng site. Kung ang isang site ay may mga salamin (mga kopya ng site sa iba pang mga domain), pagkatapos ay upang mai-index ng Yandex ang lahat ng ito nang pantay, kailangan mong tukuyin ang pangunahing salamin. Direktiba ng host: Yandex lang ang nakakaintindi, hindi naiintindihan ng Google! Kung gumagana ang site sa ilalim ng https protocol, dapat itong tukuyin sa Host: Host: http://example.com

Mula sa dokumentasyon ng Yandex: "Ang host ay isang independiyenteng direktiba at gumagana saanman sa file (intersectional)." Samakatuwid, inilalagay namin ito sa tuktok o sa pinakadulo ng file, sa pamamagitan ng isang walang laman na linya.

Dahil ang pagkakaroon ng mga bukas na feed ay kinakailangan, halimbawa, para sa Yandex Zen, kapag kailangan mong ikonekta ang isang site sa isang channel (salamat sa komentarista na "Digital"). Marahil ay kailangan ang mga bukas na feed sa ibang lugar.

Kasabay nito, ang mga feed ay may sariling format sa mga header ng tugon, salamat sa kung saan ang mga search engine ay nauunawaan na ito ay hindi isang HTML na pahina, ngunit isang feed at, malinaw naman, pinoproseso ito sa ibang paraan.

Ang direktiba ng Host ay hindi na kailangan para sa Yandex

Ganap na inabandona ng Yandex ang direktiba ng Host at pinalitan ito ng 301 redirect. Maaaring ligtas na maalis ang host mula sa robots.txt. Gayunpaman, mahalaga na ang lahat ng mga salamin ng site ay may 301 na pag-redirect sa pangunahing site (pangunahing salamin).

Mahalaga ito: pag-uuri ng mga panuntunan bago iproseso

Pinoproseso ng Yandex at Google ang mga direktiba na Allow at Disallow hindi ayon sa pagkakasunud-sunod kung saan tinukoy ang mga ito, ngunit ayusin muna ang mga ito mula sa maikling panuntunan hanggang sa mahaba, at pagkatapos ay iproseso ang huling pagtutugma ng panuntunan:

Ahente ng gumagamit: * Pahintulutan: */mga pag-upload Disallow: /wp-

ay mababasa bilang:

Ahente ng gumagamit: * Huwag Pahintulutan: /wp- Payagan: */uploads

Upang mabilis na maunawaan at mailapat ang tampok na pag-uuri, tandaan ang panuntunang ito: “kung mas mahaba ang panuntunan sa robots.txt, mas mataas ang priyoridad nito. Kung pareho ang haba ng mga panuntunan, ibibigay ang priyoridad sa Allow directive."

Opsyon 2: Karaniwang robots.txt para sa WordPress

Hindi ko alam kung bakit, ngunit ako ay para sa unang pagpipilian! Dahil ito ay mas lohikal - hindi na kailangang ganap na i-duplicate ang seksyon upang ipahiwatig ang Host directive para sa Yandex, na intersectional (naiintindihan ng robot kahit saan sa template, nang hindi ipinapahiwatig kung aling robot ang tinutukoy nito). Tulad ng para sa hindi karaniwang direktiba na Pahintulutan, gumagana ito para sa Yandex at Google, at kung hindi nito bubuksan ang folder ng mga pag-upload para sa iba pang mga robot na hindi naiintindihan ito, kung gayon sa 99% ng mga kaso ay hindi ito magkakaroon ng anumang mapanganib. Hindi ko pa napansin na ang mga unang robot ay hindi gumagana ayon sa nararapat.

Medyo mali ang code sa itaas. Salamat sa komentarista na " " sa pagturo ng hindi tama, kahit na kailangan kong malaman kung ano ito sa aking sarili. At ito ang aking naisip (maaaring mali ako):

Ang ilang robot (hindi Yandex at Google) ay hindi nakakaintindi ng higit sa 2 direktiba: User-agent: at Disallow:

Dapat gamitin ang Yandex Host: directive pagkatapos ng Disallow:, dahil maaaring hindi ito maintindihan ng ilang robot (hindi Yandex at Google) at sa pangkalahatan ay tanggihan ang robots.txt. Ang Yandex mismo, sa paghusga sa dokumentasyon, ay talagang walang pakialam kung saan at paano gamitin ang Host:, kahit na sa pangkalahatan ay gumagawa ka ng robots.txt gamit lamang ang isang linyang Host: www.site.ru upang idikit ang lahat ng mga salamin ng site.

3. Sitemap: isang intersectional na direktiba para sa Yandex at Google at tila para sa maraming iba pang mga robot, kaya isinulat namin ito sa dulo na may walang laman na linya at gagana ito para sa lahat ng mga robot nang sabay-sabay.

Batay sa mga pagbabagong ito, ang tamang code ay dapat magmukhang ganito:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */i-embed ang Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Idagdag natin ito para sa ating sarili

Kung kailangan mong i-block ang anumang iba pang mga pahina o pangkat ng mga pahina, maaari kang magdagdag ng panuntunan (direktiba) sa ibaba Huwag payagan:. Halimbawa, kailangan nating isara ang lahat ng mga entry sa isang kategorya mula sa pag-index balita, pagkatapos noon Sitemap: magdagdag ng panuntunan:

Huwag payagan: /news

Pinipigilan nito ang mga robot sa pagsunod sa mga naturang link:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Kung kailangan mong isara ang anumang paglitaw ng /news , pagkatapos ay isulat ang:

Huwag payagan: */balita

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Maaari mong pag-aralan ang mga direktiba ng robots.txt nang mas detalyado sa pahina ng tulong ng Yandex (ngunit tandaan na hindi lahat ng mga panuntunang inilarawan doon ay gumagana para sa Google).

Robots.txt check at dokumentasyon

Maaari mong suriin kung gumagana nang tama ang mga iniresetang panuntunan gamit ang mga sumusunod na link:

Yandex: http://webmaster.yandex.ru/robots.xml.
Sa Google ito ay ginagawa sa Search console. Kailangan mo ng pahintulot at pagkakaroon ng site sa panel ng webmaster...
Serbisyo para sa paglikha ng robots.txt file: http://pr-cy.ru/robots/
Serbisyo para sa paggawa at pagsuri ng robots.txt: https://seolib.ru/tools/generate/robots/

Tinanong ko si Yandex...

Tanong ko sa tech. Suporta ng Yandex hinggil sa intersectional na paggamit ng mga direktiba ng Host at Sitemap:

Tanong:

Kamusta!
Nagsusulat ako ng artikulo tungkol sa robots.txt sa aking blog. Gusto kong makatanggap ng sagot sa tanong na ito (Wala akong nakitang malinaw na "oo" sa dokumentasyon):

Kung kailangan kong idikit ang lahat ng salamin at para dito ginagamit ko ang direktiba ng Host sa pinakasimula ng robots.txt file:
Host: site.ru User-agent: * Disallow: /asd
Gagana ba nang tama ang Host: site.ru sa halimbawang ito? Ipapahiwatig ba nito sa mga robot na ang site.ru ang pangunahing salamin? Yung. Ginagamit ko ang direktiba na ito hindi sa isang seksyon, ngunit hiwalay (sa simula ng file) nang hindi ipinapahiwatig kung aling User-agent ang tinutukoy nito.

Nais ko ring malaman kung ang direktiba ng Sitemap ay dapat gamitin sa loob ng isang seksyon o maaari ba itong gamitin sa labas: halimbawa, sa pamamagitan ng isang walang laman na linya, pagkatapos ng seksyon?
User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml
Mauunawaan ba ng robot ang direktiba ng Sitemap sa halimbawang ito?

Umaasa akong makatanggap ng sagot mula sa iyo na magwawakas sa aking mga pagdududa.

Sagot:

Kamusta!

Intersectional ang mga direktiba ng Host at Sitemap, kaya gagamitin ang mga ito ng robot anuman ang lugar sa robots.txt file kung saan tinukoy ang mga ito.

--
Taos-puso, Platon Shchukin
Serbisyo ng suporta sa Yandex

Konklusyon

Mahalagang tandaan na ang mga pagbabago sa robots.txt sa isang gumaganang site ay mapapansin lamang pagkatapos ng ilang buwan (2-3 buwan).

May mga alingawngaw na kung minsan ay maaaring balewalain ng Google ang mga panuntunan sa robots.txt at dalhin ang isang pahina sa index kung isasaalang-alang nito na ang pahina ay napaka-natatangi at kapaki-pakinabang at ito ay dapat na nasa index. Gayunpaman, pinabulaanan ng iba pang mga tsismis ang hypothesis na ito sa pamamagitan ng katotohanan na ang mga walang karanasan na mga optimizer ay maaaring maling tukuyin ang mga panuntunan sa robots.txt at sa gayon ay isara ang mga kinakailangang pahina mula sa pag-index at mag-iwan ng mga hindi kailangan. Ako ay mas hilig sa pangalawang palagay...

Dynamic na robots.txt

Sa WordPress, ang kahilingan para sa robots.txt file ay pinoproseso nang hiwalay at hindi kinakailangan na pisikal na lumikha ng isang robots.txt file sa ugat ng site, bukod dito, hindi ito inirerekomenda, dahil sa diskarteng ito ito ay magiging napakahirap para sa mga plugin na baguhin ang file na ito, at kung minsan ito ay kinakailangan.

Basahin ang tungkol sa kung paano gumagana ang dynamic na paglikha ng isang robots.txt file sa paglalarawan ng function, at sa ibaba ay magbibigay ako ng isang halimbawa kung paano mo mababago ang mga nilalaman ng file na ito sa mabilisang, sa pamamagitan ng isang hook.

Upang gawin ito, idagdag ang sumusunod na code sa iyong functions.php file:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); mamatay; // wakasan ang gawaing PHP)

Ahente ng gumagamit: * Huwag payagan: /wp-admin/ Huwag payagan: /wp-includes/

Crawl-delay - timeout para sa mga nakatutuwang robot (hindi isinasaalang-alang mula noong 2018)

Yandex

Sa pagkakaroon ng pagsusuri ng mga liham sa nakalipas na dalawang taon sa aming suporta patungkol sa mga isyu sa pag-index, nalaman namin na ang isa sa mga pangunahing dahilan ng mabagal na pag-download ng mga dokumento ay isang hindi wastong na-configure na direktiba sa Crawl-delay sa robots.txt […] Para hindi na ang mga may-ari ng site kailangang mag-alala tungkol dito at Upang matiyak na ang lahat ng talagang kinakailangang mga pahina ng website ay lilitaw at na-update sa paghahanap nang mabilis, nagpasya kaming abandunahin ang direktiba sa Crawl-delay.

Kapag na-scan ng Yandex robot ang site na parang baliw at lumilikha ito ng hindi kinakailangang pag-load sa server. Maaari mong hilingin sa robot na "magpabagal."

Upang gawin ito, kailangan mong gamitin ang direktiba ng Crawl-delay. Ito ay nagpapahiwatig ng oras sa mga segundo na ang robot ay dapat idle (maghintay) upang i-scan ang bawat kasunod na pahina ng site.

Para sa pagiging tugma sa mga robot na hindi sumusunod sa pamantayan ng robots.txt nang maayos, dapat na tukuyin ang Crawl-delay sa pangkat (sa seksyong User-Agent) kaagad pagkatapos ng Disallow at Allow

Naiintindihan ng Yandex Robot ang mga fractional na halaga, halimbawa, 0.5 (kalahating segundo). Hindi nito ginagarantiyahan na bibisitahin ng search robot ang iyong site bawat kalahating segundo, ngunit pinapayagan ka nitong pabilisin ang pag-crawl sa site.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1.5 # timeout 1.5 seconds User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Crawl-delay: 2 # timeout 2 segundo

Google

Hindi naiintindihan ng Googlebot ang direktiba ng Crawl-delay. Maaaring tukuyin ang timeout para sa mga robot nito sa panel ng webmaster.

Sa serbisyo ng avi1.ru maaari ka na ngayong bumili ng promosyon ng SMM sa higit sa 7 sa mga pinakasikat na social network. Kasabay nito, bigyang-pansin ang medyo mababang halaga ng lahat ng mga serbisyo sa site.

Oras ng pagbabasa: 7 minuto

Halos lahat ng proyektong dumarating sa amin para sa pag-audit o pag-promote ay may maling robots.txt file, at kadalasan ay nawawala ito nang buo. Nangyayari ito dahil kapag gumagawa ng isang file, ang lahat ay ginagabayan ng kanilang imahinasyon, at hindi ng mga patakaran. Alamin natin kung paano ibubuo nang tama ang file na ito upang epektibong gumana ang mga search robot dito.

Bakit kailangan mong i-configure ang robots.txt?

Robots.txt ay isang file na matatagpuan sa root directory ng isang site na nagsasabi sa mga robot ng search engine kung aling mga seksyon at pahina ng site ang maaari nilang ma-access at hindi nila ma-access.

Ang pag-set up ng robots.txt ay isang mahalagang bahagi sa mga resulta ng search engine; pinapataas din ng mga robot na maayos na na-configure ang pagganap ng site. Ang nawawalang Robots.txt ay hindi makakapigil sa mga search engine sa pag-crawl at pag-index ng iyong site, ngunit kung wala kang file na ito, maaaring mayroon kang dalawang problema:

Babasahin ng search robot ang buong site, na "papanghinain" ang badyet sa pag-crawl. Ang crawling budget ay ang bilang ng mga page na nagagawa ng search robot na i-crawl sa isang partikular na yugto ng panahon.

Kung walang robots file, ang search engine ay magkakaroon ng access sa draft at mga nakatagong pahina, sa daan-daang mga pahina na ginamit upang pangasiwaan ang CMS. Ii-index nito ang mga ito, at pagdating sa mga kinakailangang page na nagbibigay ng direktang nilalaman para sa mga bisita, ang badyet sa pag-crawl ay "maubos."

Maaaring kasama sa index ang page sa pag-login ng site at iba pang mapagkukunan ng administrator, kaya madaling masubaybayan ng isang attacker ang mga ito at magsagawa ng ddos attack o hack sa site.

Paano nakikita ng mga search robot ang isang site na mayroon at walang robots.txt:

Robots.txt syntax

Bago natin simulan ang pag-unawa sa syntax at pag-set up ng robots.txt, tingnan natin kung ano dapat ang hitsura ng “ideal file”:

Ngunit hindi mo ito dapat gamitin kaagad. Ang bawat site ay kadalasang nangangailangan ng sarili nitong mga setting, dahil lahat tayo ay may iba't ibang istraktura ng site at iba't ibang CMS. Tingnan natin ang bawat direktiba sa pagkakasunud-sunod.

Ahente ng gumagamit

User-agent - tumutukoy sa isang search robot na dapat sundin ang mga tagubiling inilarawan sa file. Kung kailangan mong tugunan ang lahat nang sabay-sabay, gamitin ang icon na *. Maaari ka ring makipag-ugnayan sa isang partikular na robot sa paghahanap. Halimbawa, Yandex at Google:

Gamit ang direktiba na ito, naiintindihan ng robot kung aling mga file at folder ang ipinagbabawal na ma-index. Kung gusto mong maging bukas ang iyong buong site para sa pag-index, iwanang walang laman ang Disallow value. Upang itago ang lahat ng nilalaman sa site pagkatapos ng Disallow, ilagay ang "/".

Maaari naming pigilan ang pag-access sa isang partikular na folder, file o extension ng file. Sa aming halimbawa, nakikipag-ugnayan kami sa lahat ng mga robot sa paghahanap at hinarangan ang pag-access sa bitrix, folder ng paghahanap at ang extension ng pdf.

Payagan

Pahintulutan na ma-index ang mga pahina at seksyon ng site. Sa halimbawa sa itaas, nakikipag-ugnayan kami sa Google search robot, hinarangan ang pag-access sa bitrix, folder ng paghahanap at ang extension ng pdf. Ngunit sa bitrix folder pinipilit naming buksan ang 3 folder para sa pag-index: mga bahagi, js, mga tool.

Host - salamin ng site

Ang mirror site ay isang duplicate ng pangunahing site. Ginagamit ang mga salamin para sa iba't ibang layunin: pagbabago ng address, seguridad, pagbabawas ng pagkarga sa server, atbp.

Ang host ay isa sa pinakamahalagang panuntunan. Kung isusulat ang panuntunang ito, mauunawaan ng robot kung alin sa mga salamin ng site ang dapat isaalang-alang para sa pag-index. Ang direktiba na ito ay kinakailangan para sa mga robot ng Yandex at Mail.ru. Hindi papansinin ng ibang mga robot ang panuntunang ito. Isang beses lang nakarehistro ang host!

Para sa mga protocol na "https://" at "http://", ang syntax sa robots.txt file ay magiging iba.

Sitemap - mapa ng site

Ang sitemap ay isang anyo ng site navigation na ginagamit upang ipaalam sa mga search engine ang tungkol sa mga bagong page. Gamit ang direktiba ng sitemap, "sapilitan" naming ipinapakita ang robot kung saan matatagpuan ang mapa.

Mga simbolo sa robots.txt

Mga simbolo na ginamit sa file: “/, *, $, #”.

Sinusuri ang functionality pagkatapos mag-set up ng robots.txt

Pagkatapos mong mailagay ang Robots.txt sa iyong website, kailangan mong idagdag at suriin ito sa Yandex at Google webmaster.

Yandex check:

Sundin ang link na ito.
Piliin: Mga setting ng pag-index - Pagsusuri ng Robots.txt.

Google check:

Sundin ang link na ito.
Piliin ang: Scan - Robots.txt file inspection tool.

Sa ganitong paraan maaari mong suriin ang iyong robots.txt para sa mga error at gawin ang mga kinakailangang pagsasaayos kung kinakailangan.

Ang mga nilalaman ng file ay dapat na nakasulat sa malalaking titik.
Isang file o direktoryo lang ang kailangang tukuyin sa Disallow directive.
Ang linyang "User-agent" ay hindi dapat walang laman.
Dapat palaging mauuna ang user-agent bago ang Disallow.
Huwag kalimutang magsama ng slash kung kailangan mong huwag paganahin ang pag-index ng isang direktoryo.
Bago mag-upload ng file sa server, tiyaking suriin ito para sa mga error sa syntax at spelling.

Nais kong tagumpay ka!

Pagsusuri ng video ng 3 paraan para sa paggawa at pag-customize ng Robots.txt file

Kamusta kayong lahat! Ngayon gusto kong sabihin sa iyo ang tungkol sa robots.txt file. Oo, maraming naisulat tungkol dito sa Internet, ngunit, sa totoo lang, sa napakatagal na panahon ako mismo ay hindi maintindihan kung paano lumikha ng tamang robots.txt. Nakagawa ako ng isa at nasa lahat ng blog ko. Wala akong napapansing problema, gumagana nang maayos ang robots.txt.

Robots.txt para sa WordPress

Bakit, sa katunayan, kailangan mo ng robots.txt? Ang sagot ay pareho pa rin - . Iyon ay, ang pag-compile ng robots.txt ay isa sa mga bahagi ng search engine optimization ng isang site (nga pala, sa lalong madaling panahon magkakaroon ng isang aral na ilalaan sa lahat ng panloob na pag-optimize ng isang site sa WordPress. Samakatuwid, huwag kalimutang mag-subscribe sa RSS upang hindi makaligtaan ang mga kagiliw-giliw na materyales.).

Isa sa mga function ng file na ito ay pagbabawal sa pag-index hindi kinakailangang mga pahina ng website. Itinatakda din nito ang address at isinasaad ang pangunahing bagay salamin ng site(site na mayroon o walang www).

Tandaan: para sa mga search engine, ang parehong site na may www at walang www ay ganap na magkaibang mga site. Ngunit, napagtatanto na ang nilalaman ng mga site na ito ay pareho, ang mga search engine ay "pinagdikit" ang mga ito. Samakatuwid, mahalagang irehistro ang pangunahing salamin ng site sa robots.txt. Upang malaman kung alin ang pangunahing (may www o walang www), i-type lamang ang address ng iyong site sa browser, halimbawa, gamit ang www, kung awtomatiko kang na-redirect sa parehong site nang walang www, pagkatapos ay ang pangunahing salamin ng ang iyong site ay walang www. Sana naipaliwanag ko ito ng tama.

ay:

Ngayon (pagkatapos pumunta sa site, ang www ay awtomatikong tinanggal, at ang site ay naging walang www):

Kaya, ang isang ito ay pinahahalagahan, sa aking palagay, tamang robots.txt para sa WordPress Maaari mong makita sa ibaba.

Tama para sa WordPress

Ahente ng gumagamit: *
Huwag payagan: /cgi-bin
Huwag payagan: /wp-admin
Huwag payagan: /wp-includes

Huwag payagan: /wp-content/cache
Huwag payagan: /wp-content/themes
Huwag payagan: /trackback
Huwag payagan: */trackback
Huwag payagan: */*/trackback
Huwag payagan: */*/feed/*/
Huwag payagan: */feed
Huwag payagan: /*?*
Huwag payagan: /tag

Ahente ng gumagamit: Yandex
Huwag payagan: /cgi-bin
Huwag payagan: /wp-admin
Huwag payagan: /wp-includes
Huwag payagan: /wp-content/plugins
Huwag payagan: /wp-content/cache
Huwag payagan: /wp-content/themes
Huwag payagan: /trackback
Huwag payagan: */trackback
Huwag payagan: */*/trackback
Huwag payagan: */*/feed/*/
Huwag payagan: */feed
Huwag payagan: /*?*
Huwag payagan: /tag
Host: website
Sitemap: https://site/sitemap.xml.gz
Sitemap: https://site/sitemap.xml

Kailangan mong kopyahin ang lahat ng ibinigay sa itaas sa isang text na dokumento na may extension na .txt, ibig sabihin, upang ang pangalan ng file ay robots.txt. Maaari mong likhain ang dokumentong ito ng teksto, halimbawa, gamit ang programa. Huwag mo lang kalimutan, please baguhin ang huling tatlong linya address sa address ng iyong website. Ang robots.txt file ay dapat na matatagpuan sa ugat ng blog, iyon ay, sa parehong folder kung saan matatagpuan ang wp-content, wp-admin, atbp. na mga folder.

Para sa mga tamad na gumawa ng text file na ito, maaari mo ring itama ang 3 linya doon.

Gusto kong tandaan na hindi mo kailangang labis na pasanin ang iyong sarili sa mga teknikal na bahagi na tatalakayin sa ibaba. Dinadala ko sila para sa "kaalaman", kumbaga, isang pangkalahatang pananaw, para malaman nila kung ano ang kailangan at bakit.

Kaya ang linya:

Ahente ng gumagamit

nagtatakda ng mga panuntunan para sa ilang search engine: halimbawa, "*" (asterisk) ay nagpapahiwatig na ang mga panuntunan ay para sa lahat ng mga search engine, at kung ano ang nasa ibaba

Ahente ng gumagamit: Yandex

nangangahulugan na ang mga patakarang ito ay para lamang sa Yandex.

Huwag payagan
Dito mo "itinapon" ang mga seksyon na HINDI kailangang i-index ng mga search engine. Halimbawa, sa isang pahina mayroon akong duplicate ng mga artikulo (pag-uulit) na may mga regular na artikulo, at ang pagdoble ng mga pahina ay may negatibong epekto sa promosyon ng search engine, samakatuwid, lubos na kanais-nais na ang mga sektor na ito ay kailangang sarado mula sa pag-index, na kung saan ay ano ang ginagawa namin gamit ang panuntunang ito:

Huwag payagan: /tag

Kaya, sa robots.txt na ibinigay sa itaas, halos lahat ng hindi kinakailangang mga seksyon ng isang WordPress site ay sarado mula sa pag-index, ibig sabihin, iwanan lamang ang lahat ng ito.

Host

Dito namin itinakda ang pangunahing salamin ng site, na pinag-usapan ko sa itaas.

Sitemap

Sa huling dalawang linya, tinukoy namin ang address ng hanggang dalawang sitemap na ginawa gamit ang .

Mga posibleng problema

Pumunta sa seksyon Mga setting ng pag-index -> Pagsusuri ng Robots.txt:

Naroon na, mag-click sa button na "Mag-load ng robots.txt mula sa site", at pagkatapos ay mag-click sa button na "Suriin":

Kung makakita ka ng tulad ng sumusunod na mensahe, nangangahulugan ito na mayroon kang tamang robots.txt para sa Yandex:

Maaari mo ring idagdag ang address ng anumang artikulo sa site sa "Listahan ng mga URL" upang suriin kung ipinagbabawal ng robots.txt ang pag-index ng pahinang ito:

Gaya ng nakikita mo, wala kaming nakikitang anumang pagbabawal sa pag-index ng pahina mula sa robots.txt, na nangangahulugang maayos ang lahat :).

Sana ay wala ka nang mga tanong, gaya ng: kung paano gumawa ng robots.txt o kung paano gawing tama ang file na ito. Sa araling ito sinubukan kong ipakita sa iyo ang tama halimbawa robots.txt:

Hanggang sa muli!

P.s. Kamakailan lang, ano ang kawili-wiling nangyari? 🙂

Ang mapa ng site ay lubos na nagpapasimple sa pag-index ng iyong blog. Bawat website at blog ay dapat may site map. Ngunit dapat ding may file ang bawat website at blog mga robot.txt. Ang robots.txt file ay naglalaman ng isang set ng mga tagubilin para sa mga search robot. Masasabi mong ito ang mga patakaran ng pag-uugali para sa mga search robot sa iyong blog. Ang file na ito ay naglalaman din ng landas patungo sa sitemap ng iyong blog. At, sa katunayan, na may wastong pagkakabuo ng robots.txt file, ang search robot ay hindi nag-aaksaya ng mahalagang oras sa paghahanap ng sitemap at pag-index ng mga hindi kinakailangang file.

Ano ang robots.txt file?

robots.txt– ito ay isang text file na maaaring malikha sa isang regular na “notepad”, na matatagpuan sa ugat ng iyong blog, na naglalaman ng mga tagubilin para sa mga robot sa paghahanap.

Pinipigilan ng mga tagubiling ito ang mga search robot mula sa random na pag-index ng lahat ng mga file ng iyong diyos, at tumuon sa pag-index nang eksakto sa mga pahinang iyon na dapat isama sa mga resulta ng paghahanap.

Gamit ang file na ito, mapipigilan mo ang pag-index ng mga file ng WordPress engine. O, sabihin nating, ang lihim na seksyon ng iyong blog. Maaari mong tukuyin ang path sa iyong blog map at ang pangunahing salamin ng iyong blog. Narito ang ibig kong sabihin ang iyong domain name na may www at walang www.

Pag-index ng site na mayroon at walang robots.txt

Malinaw na ipinapakita ng screenshot na ito kung paano ipinagbabawal ng robots.txt file ang pag-index ng ilang partikular na folder sa site. Kung walang file, lahat ng nasa iyong site ay available sa robot.

Mga pangunahing direktiba ng robots.txt file

Upang maunawaan ang mga tagubilin na naglalaman ng robots.txt file, kailangan mong maunawaan ang mga pangunahing command (direktiba).

Ahente ng gumagamit– ang command na ito ay nagpapahiwatig ng robot access sa iyong site. Gamit ang direktiba na ito, maaari kang lumikha ng mga tagubilin nang paisa-isa para sa bawat robot.

User-agent: Yandex – mga panuntunan para sa Yandex robot

User-agent: * - mga panuntunan para sa lahat ng robot

Huwag Payagan at Payagan– mga direktiba ng pagbabawal at pahintulot. Gamit ang Disallow directive, ipinagbabawal ang pag-index, habang pinapayagan ito ng Allow.

Halimbawa ng pagbabawal:

Ahente ng gumagamit: *

Huwag payagan: / - pagbabawal sa buong site.

Ahente ng gumagamit: Yandex

Disallow: /admin – ipinagbabawal ang Yandex robot na i-access ang mga page na matatagpuan sa admin folder.

Halimbawa ng resolusyon:

Ahente ng gumagamit: *

Payagan: /photo

Huwag payagan: / - ipagbawal ang buong site, maliban sa mga pahina na matatagpuan sa folder ng larawan.

Tandaan! ang Disallow directive: na walang parameter ay nagpapahintulot sa lahat, at ang Allow directive: walang parameter na nagbabawal sa lahat. At hindi dapat magkaroon ng Allow directive nang walang Disallow.

Sitemap– tumutukoy sa landas patungo sa mapa ng site sa xml na format.

Sitemap: https://site/sitemap.xml.gz

Sitemap: https://site/sitemap.xml

Host– ang direktiba ay tumutukoy sa pangunahing salamin ng iyong blog. Ito ay pinaniniwalaan na ang direktiba na ito ay inireseta lamang para sa mga robot ng Yandex. Dapat na tukuyin ang direktiba na ito sa pinakadulo ng robots.txt file.

Ahente ng gumagamit: Yandex

Huwag payagan: /wp-includes

Host: website

Tandaan! Ang pangunahing mirror address ay tinukoy nang hindi tinukoy ang hypertext transfer protocol (http://).

Paano gumawa ng robots.txt

Ngayong pamilyar na tayo sa mga pangunahing utos ng robots.txt file, maaari na nating simulan ang paggawa ng ating file. Upang makagawa ng sarili mong robots.txt file gamit ang iyong mga indibidwal na setting, kailangan mong malaman ang istraktura ng iyong blog.

Titingnan natin ang paggawa ng isang standard (unibersal) na robots.txt file para sa isang WordPress blog. Maaari mong palaging idagdag ang iyong sariling mga setting dito.

Kaya simulan na natin. Kakailanganin namin ang isang regular na "notepad", na matatagpuan sa bawat operating system ng Windows. O TextEdit sa MacOS.

Magbukas ng bagong dokumento at i-paste ang mga command na ito dito:

Ahente ng gumagamit: * Huwag Payagan: Sitemap: https://site/sitemap.xml.gz Sitemap: https://site/sitemap.xml Ahente ng gumagamit: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site

Huwag kalimutang palitan ang mga parameter ng Sitemap at mga direktiba ng Host ng iyong sarili.

Mahalaga! Kapag nagsusulat ng mga utos, isang puwang lamang ang pinapayagan. Sa pagitan ng direktiba at parameter. Sa anumang pagkakataon dapat kang maglagay ng mga puwang pagkatapos ng isang parameter o kahit saan.

Halimbawa: Huwag payagan:<пробел>/magpakain/

Ang halimbawang robots.txt file na ito ay pangkalahatan at umaangkop sa anumang WordPress blog na may mga CNC URL. Basahin ang tungkol sa kung ano ang CNC. Kung hindi mo pa na-configure ang CNC, inirerekomenda kong alisin ang Disallow: /*?* Disallow: /?s= mula sa iminungkahing file

Pag-upload ng robots.txt file sa server

Ang pinakamahusay na paraan para sa ganitong uri ng pagmamanipula ay isang koneksyon sa FTP. Basahin ang tungkol sa kung paano mag-set up ng FTP na koneksyon para sa TotolCommander. O maaari kang gumamit ng file manager sa iyong pagho-host.

Gagamit ako ng FTP na koneksyon sa TotolCommander.

Network > Kumonekta sa FTP server.

Piliin ang nais na koneksyon at i-click ang pindutang "Kumonekta".

Buksan ang ugat ng blog at kopyahin ang aming robots.txt file sa pamamagitan ng pagpindot sa F5 key.

Kinokopya ang robots.txt sa server

Ngayon, gagawin ng iyong robots.txt file ang mga wastong function nito. Ngunit inirerekomenda ko pa rin ang pagsusuri sa robots.txt upang matiyak na walang mga error.

Upang gawin ito, kakailanganin mong mag-log in sa iyong Yandex o Google webmaster account. Tingnan natin ang halimbawa ng Yandex. Dito maaari kang magsagawa ng pagsusuri kahit na hindi kinukumpirma ang iyong mga karapatan sa site. Ang kailangan mo lang ay isang Yandex mailbox.

Buksan ang Yandex.webmaster account.

Sa pangunahing pahina ng account ng webmaster, buksan ang link "Tingnan momga robot.txt".

Upang pag-aralan, kakailanganin mong ilagay ang URL address ng iyong blog at i-click ang “ I-download mga robot.txt mula sa site" Sa sandaling ma-download ang file, i-click ang pindutan "Suriin".

Ang kawalan ng mga entry ng babala ay nagpapahiwatig na ang robots.txt file ay ginawa nang tama.

Ang resulta ay ipapakita sa ibaba. Kung saan malinaw at nauunawaan kung aling mga materyales ang pinapayagang ipakita sa mga robot sa paghahanap at kung alin ang ipinagbabawal.

Ang resulta ng pagsusuri sa robots.txt file

Dito maaari kang gumawa ng mga pagbabago sa robots.txt at mag-eksperimento hanggang sa makuha mo ang gusto mong resulta. Ngunit tandaan, ang file na matatagpuan sa iyong blog ay hindi nagbabago. Upang gawin ito, kakailanganin mong kopyahin ang resulta na nakuha dito sa isang notepad, i-save ito bilang robots.txt at kopyahin ang blog sa iyo.

Siyanga pala, kung nagtataka ka kung ano ang hitsura ng robots.txt file sa blog ng isang tao, madali mo itong makikita. Para magawa ito, kailangan mo lang idagdag ang /robots.txt sa address ng site

https://site/robots.txt

Ngayon ay handa na ang iyong robots.txt. At tandaan, huwag ipagpaliban ang paggawa ng robots.txt file, ang pag-index ng iyong blog ay nakasalalay dito.

Kung nais mong lumikha ng tamang robots.txt at sa parehong oras siguraduhin na ang mga kinakailangang pahina lamang ang isasama sa index ng search engine, pagkatapos ay maaari itong awtomatikong gawin gamit ang plugin.

Yun lang ang meron ako. Nais kong tagumpay kayong lahat. Kung mayroon kang anumang mga katanungan o karagdagan, sumulat sa mga komento.

Hanggang sa muli.

Pinakamahusay na pagbati, Maxim Zaitsev.

Mag-subscribe sa mga bagong artikulo!

Ang layunin ng gabay na ito ay tulungan ang mga webmaster at administrator na gumamit ng robots.txt.

Panimula

Ang pamantayan sa pagbubukod ng robot ay napakasimple sa core nito. Sa madaling salita, ito ay gumagana tulad nito:

Kapag ang isang robot na sumusunod sa pamantayan ay bumisita sa isang site, humihiling muna ito ng file na tinatawag na "/robots.txt." Kung may nakitang file, hahanapin ito ng Robot para sa mga tagubilin na nagbabawal sa pag-index ng ilang bahagi ng site.

Saan ilalagay ang robots.txt file

Hinihiling lang ng robot ang URL na "/robots.txt" sa iyong site; ang site sa kasong ito ay isang partikular na host sa isang partikular na port.

URL ng Site	URL ng robots.txt file
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.org:1234/robots.txt
http://w3.org/	http://w3.org/robots.txt

Maaari lamang magkaroon ng isang file na "/robots.txt" sa site. Halimbawa, hindi mo dapat ilagay ang robots.txt file sa mga subdirectory ng user - hindi rin sila hahanapin ng mga robot doon. Kung gusto mong makalikha ng mga robots.txt na file sa mga subdirectory, kailangan mo ng paraan para mangolekta ng mga ito sa isang solong robots.txt file na matatagpuan sa ugat ng site. Pwede mong gamitin .

Tandaan na ang mga URL ay case sensitive at ang pangalan ng file na "/robots.txt" ay dapat na nakasulat nang buo sa lowercase.

Maling lokasyon ng robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt	Ang file ay hindi matatagpuan sa ugat ng site
ftp://ftp.w3.com/robots.txt	Ang mga robot ay hindi nag-index ng ftp
http://www.w3.org/Robots.txt	Wala sa lowercase ang pangalan ng file

Gaya ng nakikita mo, dapat na eksklusibong ilagay ang robots.txt file sa ugat ng site.

Ano ang isusulat sa robots.txt file

Ang robots.txt file ay karaniwang naglalaman ng tulad ng:

Ahente ng gumagamit: *
Huwag payagan: /cgi-bin/
Huwag payagan: /tmp/
Huwag payagan: /~joe/

Sa halimbawang ito, ipinagbabawal ang pag-index ng tatlong direktoryo.

Tandaan na ang bawat direktoryo ay nakalista sa isang hiwalay na linya - hindi mo maaaring isulat ang "Disallow: /cgi-bin/ /tmp/". Hindi mo rin maaaring hatiin ang isang Disallow o User-agent na pahayag sa ilang linya, dahil Ang mga line break ay ginagamit upang paghiwalayin ang mga tagubilin sa bawat isa.

Hindi rin magagamit ang mga regular na expression at wildcard. Ang "asterisk" (*) sa tagubilin ng User-agent ay nangangahulugang "anumang robot". Ang mga tagubilin tulad ng "Huwag Payagan: *.gif" o "User-agent: Ya*" ay hindi suportado.

Ang mga partikular na tagubilin sa robots.txt ay nakadepende sa iyong site at kung ano ang gusto mong pigilan na ma-index. Narito ang ilang halimbawa:

I-block ang buong site mula sa pag-index ng lahat ng mga robot

Ahente ng gumagamit: *
Huwag payagan: /

Payagan ang lahat ng mga robot na i-index ang buong site

Ahente ng gumagamit: *
Huwag payagan:

O maaari kang gumawa ng isang walang laman na file na "/robots.txt".

I-block lamang ang ilang mga direktoryo mula sa pag-index

Ahente ng gumagamit: *
Huwag payagan: /cgi-bin/
Huwag payagan: /tmp/
Huwag payagan: /pribado/

Pigilan ang pag-index ng site para sa isang robot lamang

Ahente ng gumagamit: BadBot
Huwag payagan: /

Payagan ang isang robot na i-index ang site at tanggihan ang lahat ng iba pa

Ahente ng gumagamit: Yandex
Huwag payagan:

Ahente ng gumagamit: *
Huwag payagan: /

Tanggihan ang lahat ng mga file maliban sa isa mula sa pag-index

Ito ay medyo mahirap, dahil... walang pahayag na "Pahintulutan". Sa halip, maaari mong ilipat ang lahat ng mga file maliban sa isa na gusto mong payagan para sa pag-index sa isang subdirectory at pigilan itong ma-index:

Ahente ng gumagamit: *
Huwag payagan: /docs/

O maaari mong ipagbawal ang lahat ng mga file na ipinagbabawal sa pag-index:

Ahente ng gumagamit: *
Huwag payagan: /private.html
Huwag payagan: /foo.html
Huwag payagan: /bar.html