Օգտագործելով ռոբոտներ txt. Ինչպես խմբագրել robots txt ֆայլը: Հեշտությամբ ստեղծեք ֆայլ ցանկացած որոնման համակարգի համար

Այս հոդվածը պարունակում է WordPress-ի համար robots.txt ֆայլի օպտիմալ, իմ կարծիքով, կոդի օրինակ, որը կարող եք օգտագործել ձեր կայքերում։

Սկզբից հիշենք ինչու է ձեզ անհրաժեշտ robots.txt- robots.txt ֆայլն անհրաժեշտ է բացառապես որոնող ռոբոտներին, որպեսզի «ասեն» նրանց կայքի որ բաժինները/էջերը այցելեն և որոնք չպետք է այցելեն: Այն էջերը, որոնք փակ են այցելությունից, չեն ներառվի որոնման համակարգի ինդեքսում (Yandex, Google և այլն):

Տարբերակ 1. WordPress-ի օպտիմալ robots.txt կոդը

Օգտատեր-գործակալ՝ * Թույլ չտալ՝ /cgi-bin # classic... Արգելել՝ /? Հարցման բոլոր պարամետրերը գլխավոր էջում Արգելել՝ /wp- # բոլոր WP ֆայլերը՝ /wp-json/, /wp-includes, /wp-content/plugins Արգելել՝ *?s= # որոնել Արգելել՝ *&s= # որոնել Արգելել՝ /որոնել # որոնել Արգելել՝ /հեղինակ/ # հեղինակի արխիվ Արգելել՝ */embed # բոլոր ներկառուցումները Արգելել՝ */page/ # բոլոր տեսակի էջադրումը Թույլատրել՝ */uploads # բաց վերբեռնումներ Թույլատրել՝ /*/*.js # ներսում /wp - (/*/ - առաջնահերթության համար) Թույլատրել՝ /*/*.css # inside /wp- (/*/ - առաջնահերթության համար) Թույլատրել՝ /wp-*.png # պատկերներ հավելվածներում, քեշի թղթապանակում և այլն: . Թույլատրել՝ /wp-*.jpg # պատկերներ հավելվածներում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-*.jpeg # պատկերներ հավելվածներում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-*.gif # պատկերներ պլագիններում, քեշի պանակում և այլն: Թույլատրել՝ /wp-*.svg # պատկերներ հավելվածներում, քեշի պանակում և այլն: Թույլատրել՝ /wp-*.pdf # ֆայլեր պլագիններում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-admin/admin-ajax.php #Արգելել՝ /wp/ #, երբ WP-ն տեղադրված է wp ենթագրքում Կայքի քարտեզ՝ http://example.com/sitemap.xml Կայքի քարտեզ՝ http://example.com/ կայքի քարտեզ 2. xml # այլ ֆայլ #Կայքի քարտեզ՝ http://example.com/sitemap.xml.gz # սեղմված տարբերակ (.gz) # Կոդի տարբերակ՝ 1.1 # Մի մոռացեք փոխել «site.ru»-ն ձեր կայք։

Կոդի վերլուծություն.

    User-agent: * տողում մենք նշում ենք, որ ստորև նշված բոլոր կանոնները կաշխատեն բոլոր որոնման ռոբոտների համար *: Եթե ​​Ձեզ անհրաժեշտ են այս կանոնները միայն մեկ կոնկրետ ռոբոտի համար աշխատելու համար, ապա *-ի փոխարեն նշում ենք ռոբոտի անունը (User-agent՝ Yandex, User-agent՝ Googlebot):

    Թույլատրել. Այս կանոնը պարտադիր է, քանի որ վերևում մենք արգելում ենք ինդեքսավորել էջերը, որոնք սկսվում են /wp--ով և /wp-մեջ ներառված /wp-content/uploads. Հետևաբար, Disallow: /wp- կանոնը վերացնելու համար ձեզ անհրաժեշտ է Allow տողը. */uploads, քանի որ նման հղումների համար. /wp-content/uploads/...Մենք կարող ենք ունենալ նկարներ, որոնք պետք է ինդեքսավորվեն, և կարող են լինել նաև որոշ ներբեռնված ֆայլեր, որոնք թաքցնելու կարիք չկա: Թույլատրել՝ կարող է լինել «առաջ» կամ «հետո» Արգելել՝ .

    Մնացած տողերը ռոբոտներին արգելում են «հետևել» հղումներին, որոնք սկսվում են հետևյալով.

    • Թույլ չտալ. /cgi-bin - փակում է սկրիպտների գրացուցակը սերվերի վրա
    • Թույլ չտալ. /feed - փակում է բլոգի RSS հոսքը
    • Թույլ չտալ. /trackback - փակում է ծանուցումները
    • Արգելել՝ ?s= կամ Արգելել՝ *?s= - փակում է որոնման էջերը
    • Թույլ չտալ՝ */page/ - փակում է բոլոր տեսակի էջադրումները
  1. Կայքի քարտեզի կանոնը՝ http://example.com/sitemap.xml, ռոբոտին ուղղորդում է դեպի XML ձևաչափով կայքի քարտեզով ֆայլ: Եթե ​​դուք ունեք նման ֆայլ ձեր կայքում, ապա գրեք դրա ամբողջական ուղին: Այդպիսի մի քանի ֆայլ կարող է լինել, այնուհետև մենք նշում ենք յուրաքանչյուրի ուղին առանձին։

    Հյուրընկալող՝ site.ru տողում մենք նշում ենք կայքի հիմնական հայելին: Եթե ​​կայքը ունի հայելիներ (այլ տիրույթների կայքի պատճենները), ապա որպեսզի Yandex-ը բոլորին հավասարապես ինդեքսավորի, դուք պետք է նշեք հիմնական հայելին։ Հոսթի հրահանգ. միայն Yandex-ը հասկանում է, Google-ը չի հասկանում: Եթե ​​կայքը գործում է https արձանագրության ներքո, ապա այն պետք է նշվի Host: Host: http://example.com

    Yandex-ի փաստաթղթերից. «Հոսթն անկախ հրահանգ է և աշխատում է ֆայլի ցանկացած կետում (միջսեկցիոն): Հետևաբար, մենք այն դնում ենք ֆայլի վերևում կամ հենց վերջում՝ դատարկ տողի միջով։

Քանի որ բաց հոսքերի առկայությունը պահանջվում է, օրինակ, Yandex Zen-ի համար, երբ անհրաժեշտ է կայք միացնել ալիքին (շնորհիվ «Թվային» մեկնաբանի): Թերևս բաց հոսքեր են անհրաժեշտ այլ տեղ:

Միևնույն ժամանակ, հոսքերը պատասխանների վերնագրերում ունեն իրենց ձևաչափը, որի շնորհիվ որոնիչները հասկանում են, որ սա HTML էջ չէ, այլ հոսք և, ակնհայտորեն, այն ինչ-որ կերպ այլ կերպ են մշակում։

Yandex-ի համար Host հրահանգն այլևս անհրաժեշտ չէ

Yandex-ը ամբողջությամբ հրաժարվում է Host հրահանգից և այն փոխարինել է 301 վերահղումով։ Հոսթը կարող է ապահով կերպով հեռացվել robots.txt-ից: Այնուամենայնիվ, կարևոր է, որ կայքի բոլոր հայելիներն ունենան 301 վերահղում դեպի հիմնական կայք (հիմնական հայելի):

Սա կարևոր է՝ տեսակավորման կանոնները վերամշակումից առաջ

Yandex-ը և Google-ը մշակում են «Թույլատրել և թույլ չտալ» հրահանգները ոչ այն հաջորդականությամբ, որով դրանք նշված են, այլ նախ դասակարգում են դրանք կարճ կանոնից երկար, այնուհետև մշակում են վերջին համապատասխան կանոնը.

Օգտագործող-գործակալ՝ * Թույլատրել՝ */վերբեռնումներ Արգելել՝ /wp-

կկարդա այսպես.

Օգտագործող-գործակալ՝ * Թույլ չտալ՝ /wp- Թույլատրել՝ */վերբեռնումներ

Տեսակավորման առանձնահատկությունն արագ հասկանալու և կիրառելու համար հիշեք այս կանոնը. «որքան երկար է կանոնը robots.txt-ում, այնքան այն ավելի առաջնահերթություն ունի: Եթե ​​կանոնների երկարությունը նույնն է, ապա առաջնահերթությունը տրվում է «Թույլատրել» հրահանգին»:

Տարբերակ 2. Ստանդարտ robots.txt WordPress-ի համար

Չգիտեմ ինչու, բայց ես կողմ եմ առաջին տարբերակին: Որովհետև դա ավելի տրամաբանական է. կարիք չկա ամբողջությամբ կրկնօրինակել բաժինը՝ Yandex-ի համար Host դիրեկտիվը նշելու համար, որը խաչմերուկ է (ռոբոտը հասկանում է կաղապարի ցանկացած կետում՝ առանց նշելու, թե որ ռոբոտին է այն վերաբերում): Ինչ վերաբերում է «Թույլատրել» ոչ ստանդարտ հրահանգին, ապա այն աշխատում է Yandex-ի և Google-ի համար, և եթե այն չի բացում վերբեռնումների թղթապանակը այլ ռոբոտների համար, որոնք չեն հասկանում այն, ապա 99% դեպքերում դա ոչ մի վտանգավոր բան չի հանգեցնի: Ես դեռ չեմ նկատել, որ առաջին ռոբոտները չեն աշխատում այնպես, ինչպես պետք է:

Վերոնշյալ կոդը մի փոքր սխալ է։ Շնորհակալություն մեկնաբանին «» սխալը մատնանշելու համար, չնայած ես ինքս պետք է պարզեի, թե դա ինչ է։ Եվ սա այն է, ինչ ես հանգեցի (ես կարող եմ սխալվել).

    Որոշ ռոբոտներ (ոչ Yandex-ը և Google-ը) չեն հասկանում 2-ից ավելի հրահանգներ՝ User-agent և Disallow:

  1. Yandex Host: հրահանգը պետք է օգտագործվի Disallow:-ից հետո, քանի որ որոշ ռոբոտներ (ոչ Yandex-ը և Google-ը) կարող են չհասկանալ այն և ընդհանրապես մերժել robots.txt-ը: Ինքը՝ Yandex-ը, դատելով փաստաթղթերից, բացարձակապես չի հետաքրքրում, թե որտեղ և ինչպես օգտագործել Host-ը, նույնիսկ եթե դուք ընդհանուր առմամբ ստեղծում եք robots.txt ընդամենը մեկ տողով Host՝ www.site.ru, որպեսզի սոսնձեք կայքի բոլոր հայելիները:

3. Կայքի քարտեզ. խաչմերուկային հրահանգ Yandex-ի և Google-ի և, ըստ երևույթին, շատ այլ ռոբոտների համար, այնպես որ մենք այն գրում ենք վերջում դատարկ տողով և այն կաշխատի միանգամից բոլոր ռոբոտների համար:

Այս փոփոխությունների հիման վրա ճիշտ ծածկագիրը պետք է այսպիսի տեսք ունենա.

Օգտատիրոջ գործակալ. Yandex Արգելել. /wp-admin Արգելել. /wp-includes Արգելել. /wp-content/plugins Թույլ չտալ. */embed Արգելել. /wp-includes Արգելել. /wp-content/plugins Արգելել. /wp-json/ Արգելել. /wp-login.php Արգելել. cgi-bin Արգելել՝ *?s= Թույլատրել՝ /wp-admin/admin-ajax.php Կայքի քարտեզ՝ http://example.com/sitemap.xml

Ավելացնենք մեզ համար

Եթե ​​Ձեզ անհրաժեշտ է արգելափակել որևէ այլ էջ կամ էջերի խումբ, կարող եք ներքևում ավելացնել կանոն (դիրեկտիվ): Արգելել՝. Օրինակ, մենք պետք է փակենք կատեգորիայի բոլոր գրառումները ինդեքսավորումից նորություններ, ապա առաջ Կայքի քարտեզ:ավելացնել կանոն.

Արգելել՝ /նորություններ

Այն թույլ չի տալիս ռոբոտներին հետևել հետևյալ հղումներին.

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Եթե ​​Ձեզ անհրաժեշտ է փակել /news -ի ցանկացած երևույթ, ապա գրեք.

Արգելել՝ */news

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Դուք կարող եք ավելի մանրամասն ուսումնասիրել robots.txt հրահանգները Yandex-ի օգնության էջում (սակայն հիշեք, որ այնտեղ նկարագրված ոչ բոլոր կանոններն են աշխատում Google-ի համար):

Robots.txt ստուգում և փաստաթղթեր

Դուք կարող եք ստուգել, ​​թե արդյոք սահմանված կանոնները ճիշտ են աշխատում՝ օգտագործելով հետևյալ հղումները.

  • Յանդեքս՝ http://webmaster.yandex.ru/robots.xml:
  • Google-ում դա արվում է Որոնման վահանակ. Ձեզ անհրաժեշտ է թույլտվություն և կայքի առկայությունը վեբ-վարպետի վահանակում...
  • robots.txt ֆայլ ստեղծելու ծառայություն՝ http://pr-cy.ru/robots/
  • Ծառայություն robots.txt ստեղծելու և ստուգելու համար՝ https://seolib.ru/tools/generate/robots/

Ես հարցրեցի Yandex-ին...

Ես տեխ. Yandex-ի աջակցություն Հոսթի և Կայքի քարտեզի հրահանգների խաչմերուկային օգտագործման վերաբերյալ.

Հարց:

Բարեւ Ձեզ!
Ես հոդված եմ գրում robots.txt-ի մասին իմ բլոգում: Ես կցանկանայի ստանալ այս հարցի պատասխանը (փաստաթղթերում ես հստակ «այո» չեմ գտել).

Եթե ​​ես պետք է սոսնձեմ բոլոր հայելիները, և դրա համար ես օգտագործում եմ Host հրահանգը robots.txt ֆայլի հենց սկզբում.

Հաղորդավար՝ site.ru Օգտվողի գործակալ. * Արգելել՝ /asd

Արդյո՞ք Host: site.ru-ն ճիշտ կաշխատի այս օրինակում: Արդյո՞ք դա ռոբոտներին ցույց կտա, որ site.ru-ն գլխավոր հայելին է: Նրանք. Ես օգտագործում եմ այս հրահանգը ոչ թե բաժնում, այլ առանձին (ֆայլի սկզբում)՝ չնշելով, թե որ User-agent-ին է այն վերաբերում։

Ես նաև ուզում էի իմանալ, թե արդյոք Կայքի քարտեզի հրահանգը պետք է օգտագործվի բաժնի ներսում, թե կարող է օգտագործվել դրսում. օրինակ, դատարկ տողի միջոցով, բաժնից հետո:

Օգտվողի գործակալ. Yandex Արգելել. /asd Օգտվողի գործակալ. * Արգելել. /asd Կայքի քարտեզ՝ http://example.com/sitemap.xml

Արդյո՞ք ռոբոտը կհասկանա Կայքի քարտեզի հրահանգը այս օրինակում:

Հուսով եմ ձեզնից պատասխան կստանամ, որը վերջ կդնի իմ կասկածներին։

Պատասխան.

Բարեւ Ձեզ!

Host-ի և Sitemap-ի հրահանգները խաչմերուկ են, ուստի դրանք կօգտագործվեն ռոբոտի կողմից՝ անկախ robots.txt ֆայլի այն տեղից, որտեղ դրանք նշված են:

--
Հարգանքներով՝ Պլատոն Շչուկին
Yandex-ի աջակցության ծառայություն

Եզրակացություն

Կարևոր է հիշել, որ robots.txt-ում փոփոխություններն արդեն աշխատող կայքում նկատելի կլինեն միայն մի քանի ամիս հետո (2-3 ամիս):

Խոսակցություններ կան, որ Google-ը երբեմն կարող է անտեսել robots.txt-ի կանոնները և էջ վերցնել ինդեքսում, եթե համարում է, որ էջը շատ յուրահատուկ և օգտակար է, և այն պարզապես պետք է լինի ինդեքսում։ Այնուամենայնիվ, այլ լուրերը հերքում են այս վարկածը նրանով, որ անփորձ օպտիմիզատորները կարող են սխալ կերպով նշել կանոնները robots.txt-ում և այդպիսով փակել անհրաժեշտ էջերը ինդեքսավորումից և թողնել ավելորդները: Ես ավելի շատ հակված եմ երկրորդ ենթադրությանը...

Դինամիկ robots.txt

WordPress-ում robots.txt ֆայլի հարցումը մշակվում է առանձին, և ամենևին էլ պարտադիր չէ կայքի արմատում ֆիզիկապես ստեղծել robots.txt ֆայլ, ավելին, խորհուրդ չի տրվում, քանի որ այս մոտեցմամբ դա կլինի. Փլագինների համար շատ դժվար է փոխել այս ֆայլը, և դա երբեմն անհրաժեշտ է:

Կարդացեք այն մասին, թե ինչպես է աշխատում robots.txt ֆայլի դինամիկ ստեղծումը ֆունկցիայի նկարագրության մեջ, իսկ ներքևում ես օրինակ կբերեմ, թե ինչպես կարող եք փոխել այս ֆայլի բովանդակությունը անմիջապես կեռիկի միջոցով:

Դա անելու համար ձեր functions.php ֆայլին ավելացրեք հետևյալ կոդը.

Add_action ("do_robotstxt", "my_robotstxt"); ֆունկցիա my_robotstxt())( $lines = [ "Օգտվողի գործակալ. *", "Արգելել. /wp-admin/", "Արգելել. /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // դադարեցնել PHP-ի աշխատանքը)

Օգտատիրոջ գործակալ. * Արգելել՝ /wp-admin/ Արգելել՝ /wp-includes/

Crawl-relay - խելագար ռոբոտների ժամանակի դադարեցում (հաշվի չի առնվում 2018 թվականից)

Յանդեքս

Վերլուծելով վերջին երկու տարվա ընթացքում մեր աջակցությանն ուղղված նամակները՝ կապված ինդեքսավորման խնդիրների հետ, մենք պարզեցինք, որ փաստաթղթերի դանդաղ ներբեռնման հիմնական պատճառներից մեկը robots.txt-ում սխալ կազմաձևված Crawl-relay հրահանգն է, որպեսզի կայքի սեփականատերերն այլևս չլինեն: պետք է անհանգստանալ այս մասին և ապահովելու, որ բոլոր իսկապես անհրաժեշտ վեբ էջերը հայտնվեն և արագ թարմացվեն որոնման մեջ, մենք որոշեցինք հրաժարվել Crawl-relay հրահանգից:

Երբ Yandex ռոբոտը խելագարի պես սկանավորում է կայքը, և դա ավելորդ բեռ է ստեղծում սերվերի վրա։ Դուք կարող եք խնդրել ռոբոտին «դանդաղեցնել»:

Դա անելու համար դուք պետք է օգտագործեք Crawl-relay հրահանգը: Այն ցույց է տալիս վայրկյաններով այն ժամանակը, երբ ռոբոտը պետք է անգործության մատնվի (սպասի) կայքի յուրաքանչյուր հաջորդ էջը սկանավորելու համար:

Ռոբոտների հետ համատեղելիության համար, որոնք լավ չեն հետևում robots.txt ստանդարտին, Crawl-relay-ը պետք է նշվի խմբում (Օգտվող-Գործակալ բաժնում) Արգելել և Թույլատրել անմիջապես հետո:

Yandex Robot-ը հասկանում է կոտորակային արժեքները, օրինակ՝ 0,5 (կես վայրկյան): Սա չի երաշխավորում, որ որոնիչ ռոբոտը կայցելի ձեր կայք ամեն կես վայրկյանը մեկ, սակայն թույլ է տալիս արագացնել կայքի սողալը։

Օգտատիրոջ գործակալ. Յանդեքս Արգելել. /wp-admin Արգելել. gif Սողալ-հետաձգում. 2 # դադար՝ 2 վայրկյան

Google

Googlebot-ը չի հասկանում «Crawl-relay» հրահանգը: Իր ռոբոտների համար ժամկետը կարող է նշվել վեբ-վարպետի վահանակում:

Avi1.ru ծառայությունում այժմ կարող եք ձեռք բերել SMM-ի խթանում ավելի քան 7 ամենահայտնի սոցիալական ցանցերում: Միևնույն ժամանակ, ուշադրություն դարձրեք կայքի բոլոր ծառայությունների բավականին ցածր արժեքին:

Ընթերցանության ժամանակը. 7 րոպե


Գրեթե յուրաքանչյուր նախագիծ, որը գալիս է մեզ աուդիտի կամ առաջխաղացման համար, ունի սխալ robots.txt ֆայլ, և հաճախ այն ընդհանրապես բացակայում է: Դա տեղի է ունենում, քանի որ ֆայլ ստեղծելիս յուրաքանչյուրն առաջնորդվում է իր երևակայությամբ, այլ ոչ թե կանոններով։ Եկեք պարզենք, թե ինչպես ճիշտ կազմել այս ֆայլը, որպեսզի որոնողական ռոբոտները արդյունավետ աշխատեն դրա հետ:

Ինչու՞ պետք է կարգավորել robots.txt-ը:

Robots.txtֆայլ է, որը գտնվում է կայքի արմատական ​​գրացուցակում, որը որոնողական ռոբոտներին ասում է, թե կայքի որ բաժիններն ու էջերը կարող են մուտք գործել, և որոնք՝ ոչ:

Robots.txt-ի կարգավորումը կարևոր մասն է որոնման համակարգի արդյունքներում, ճիշտ կազմաձևված ռոբոտները նաև մեծացնում են կայքի արդյունավետությունը: Robots.txt-ի բացակայությունը չի խանգարի որոնման համակարգերին սողալ և ինդեքսավորել ձեր կայքը, բայց եթե չունեք այս ֆայլը, կարող եք ունենալ երկու խնդիր.

    Որոնող ռոբոտը կկարդա ամբողջ կայքը, ինչը «կխաթարի» սողացող բյուջեն։ Սողացող բյուջեն էջերի քանակն է, որը որոնող ռոբոտը կարողանում է սողալ որոշակի ժամանակահատվածում:

    Առանց ռոբոտների ֆայլի, որոնողական համակարգը մուտք կունենա դեպի սևագիր և թաքնված էջեր, հարյուրավոր էջեր, որոնք օգտագործվում են CMS-ը կառավարելու համար: Այն ինդեքսավորելու է դրանք, և երբ խոսքը գնում է այցելուների համար ուղղակի բովանդակություն տրամադրող անհրաժեշտ էջերի մասին, սողացող բյուջեն «կսպառվի»։

    Ցուցանիշը կարող է ներառել կայքի մուտքի էջը և ադմինիստրատորի այլ ռեսուրսներ, այնպես որ հարձակվողը կարող է հեշտությամբ հետևել նրանց և իրականացնել ddos ​​հարձակում կամ կոտրել կայքը:

Ինչպես են որոնման ռոբոտները տեսնում կայքը robots.txt-ով և առանց դրա:


Robots.txt շարահյուսություն

Նախքան սկսենք հասկանալ շարահյուսությունը և տեղադրել robots.txt-ը, եկեք տեսնենք, թե ինչպիսին պետք է լինի «իդեալական ֆայլը»:


Բայց դուք չպետք է անմիջապես օգտագործեք այն: Յուրաքանչյուր կայք ամենից հաճախ պահանջում է իր կարգավորումները, քանի որ մենք բոլորս ունենք կայքի տարբեր կառուցվածք և տարբեր CMS: Դիտարկենք յուրաքանչյուր հրահանգ ըստ հերթականության:

Օգտատեր-գործակալ

User-agent - սահմանում է որոնման ռոբոտ, որը պետք է հետևի ֆայլում նկարագրված հրահանգներին: Եթե ​​Ձեզ անհրաժեշտ է միանգամից դիմել բոլորին, օգտագործեք * պատկերակը: Կարող եք նաև կապվել հատուկ որոնման ռոբոտի հետ: Օրինակ, Yandex-ը և Google-ը.


Օգտագործելով այս հրահանգը, ռոբոտը հասկանում է, թե որ ֆայլերն ու թղթապանակներն են արգելված ինդեքսավորվել: Եթե ​​ցանկանում եք, որ ձեր ամբողջ կայքը բաց լինի ինդեքսավորման համար, թողեք Արգելել արժեքը դատարկ: Թույլ չտալուց հետո կայքի ողջ բովանդակությունը թաքցնելու համար դրեք «/»:

Մենք կարող ենք կանխել մուտքը կոնկրետ թղթապանակ, ֆայլ կամ ֆայլի ընդլայնում: Մեր օրինակում մենք կապվում ենք որոնման բոլոր ռոբոտների հետ և արգելափակում մուտքը դեպի bitrix, որոնման թղթապանակ և pdf ընդլայնում:


Թույլատրել

Թույլ տվեք ինդեքսավորել կայքի էջերն ու բաժինները: Վերևի օրինակում մենք կապվում ենք Google որոնման ռոբոտի հետ, արգելափակում ենք մուտքը bitrix, որոնման թղթապանակ և pdf ընդլայնում: Բայց bitrix թղթապանակում մենք ստիպում ենք բացել 3 թղթապանակ ինդեքսավորման համար՝ բաղադրիչներ, js, գործիքներ։


Հյուրընկալ - կայքի հայելին

Հայելային կայքը հիմնական կայքի կրկնօրինակն է: Հայելիներն օգտագործվում են տարբեր նպատակներով՝ հասցեի փոփոխություն, անվտանգություն, սերվերի բեռի նվազեցում և այլն։

Հոսթն ամենակարևոր կանոններից մեկն է: Եթե ​​այս կանոնը գրվի, ռոբոտը կհասկանա, թե կայքի հայելիներից որն է պետք հաշվի առնել ինդեքսավորման համար: Այս հրահանգը անհրաժեշտ է Yandex և Mail.ru ռոբոտների համար: Մյուս ռոբոտները անտեսելու են այս կանոնը: Հոսթինգը գրանցվում է միայն մեկ անգամ:

«https://» և «http://» արձանագրությունների համար robots.txt ֆայլի շարահյուսությունը տարբեր կլինի:

Կայքի քարտեզ - կայքի քարտեզ

Կայքի քարտեզը կայքի նավիգացիայի ձև է, որն օգտագործվում է նոր էջերի մասին որոնման համակարգերին տեղեկացնելու համար: Օգտագործելով կայքի քարտեզի հրահանգը, մենք «ստիպողաբար» ցույց ենք տալիս ռոբոտին, թե որտեղ է գտնվում քարտեզը:


Խորհրդանիշները robots.txt-ում

Ֆայլում օգտագործվող նշանները՝ «/, *, $, #»:


Ֆունկցիոնալության ստուգում robots.txt-ը տեղադրելուց հետո

Այն բանից հետո, երբ դուք տեղադրել եք Robots.txt-ը ձեր կայքում, դուք պետք է ավելացնեք և ստուգեք այն Yandex-ում և Google-ի վեբ-վարպետում:

Yandex ստուգում.

  1. Հետևեք այս հղմանը:
  2. Ընտրեք. Ինդեքսավորման կարգավորումներ - Robots.txt վերլուծություն:

Google ստուգում.

  1. Հետևեք այս հղմանը:
  2. Ընտրեք՝ Scan - Robots.txt ֆայլերի ստուգման գործիք:

Այս կերպ դուք կարող եք ստուգել ձեր robots.txt-ը սխալների համար և անհրաժեշտության դեպքում կատարել անհրաժեշտ ճշգրտումները:

  1. Ֆայլի բովանդակությունը պետք է գրված լինի մեծատառով:
  2. Թույլատրել հրահանգում պետք է նշել միայն մեկ ֆայլ կամ գրացուցակ:
  3. «User-agent» տողը չպետք է դատարկ լինի:
  4. User-agent-ը միշտ պետք է առաջանա Disallow-ից առաջ:
  5. Մի մոռացեք ներառել կտրվածք, եթե ձեզ անհրաժեշտ է անջատել գրացուցակի ինդեքսավորումը:
  6. Նախքան ֆայլը սերվեր վերբեռնելը, համոզվեք, որ ստուգեք այն շարահյուսական և ուղղագրական սխալների համար:

Ձեզ հաջողություն եմ ցանկանում!

Robots.txt ֆայլը ստեղծելու և հարմարեցնելու 3 եղանակների տեսագրություն

Բարեւ բոլորին! Այսօր ես կցանկանայի ձեզ պատմել դրա մասին robots.txt ֆայլ. Այո, ինտերնետում շատ է գրվել այդ մասին, բայց, ճիշտն ասած, շատ երկար ժամանակ ես ինքս չէի կարողանում հասկանալ, թե ինչպես ստեղծել ճիշտ robots.txt: Ես վերջացրի, որ պատրաստեցի մեկը, և այն կա իմ բոլոր բլոգներում: Ես ոչ մի խնդիր չեմ նկատում, robots.txt-ը լավ է աշխատում:

Robots.txt WordPress-ի համար

Իրականում ինչո՞ւ է մեզ անհրաժեշտ robots.txt: Պատասխանը դեռ նույնն է. Այսինքն, robots.txt-ի կազմումը կայքի որոնման համակարգի օպտիմալացման մասերից մեկն է (ի դեպ, շատ շուտով կլինի դաս, որը նվիրված կլինի WordPress-ում կայքի բոլոր ներքին օպտիմիզացմանը։ Հետևաբար, մի՛ մոռացեք բաժանորդագրվել RSS-ին, որպեսզի բաց չթողնեք հետաքրքիր նյութեր։)

Այս ֆայլի գործառույթներից մեկն է ինդեքսավորման արգելքավելորդ կայքերի էջեր. Այն նաև սահմանում է հասցեն և նշում է հիմնականը կայքի հայելի(կայք www-ով կամ առանց):

Նշում. որոնման համակարգերի համար նույն կայքը www-ով և առանց www-ով բոլորովին տարբեր կայքեր են: Բայց, հասկանալով, որ այս կայքերի բովանդակությունը նույնն է, որոնիչները դրանք «սոսնձում են»։ Ուստի կարևոր է գրանցել կայքի հիմնական հայելին robots.txt-ում։ Պարզելու համար, թե որն է հիմնականը (www-ով կամ առանց www-ով), պարզապես բրաուզերում մուտքագրեք ձեր կայքի հասցեն, օրինակ՝ www-ով, եթե ավտոմատ կերպով վերահասցեավորվեք նույն կայք առանց www-ի, ապա հիմնական հայելին. Ձեր կայքը առանց www. Հուսով եմ, որ ճիշտ եմ բացատրել:

էր.

Այժմ (կայք գնալուց հետո www ավտոմատ կերպով ջնջվեցին, և կայքը դարձավ առանց www).

Այսպիսով, այս թանկագին մեկը, իմ կարծիքով, ճիշտ robots.txt-ը WordPress-ի համարԴուք կարող եք տեսնել ստորև.

Ճիշտ է WordPress-ի համար

Օգտագործող-գործակալ՝ *
Արգելել՝ /cgi-bin
Թույլ չտալ՝ /wp-admin
Թույլ չտալ՝ /wp-includes

Արգելել՝ /wp-content/cache
Արգելել՝ /wp-content/themes
Թույլ չտալ՝ /trackback
Թույլ չտալ՝ */trackback
Թույլ չտալ՝ */*/trackback
Արգելել՝ */*/feed/*/
Արգելել՝ */feed
Արգելել՝ /*?*
Թույլ չտալ՝ /պիտակ

Օգտագործող-գործակալ՝ Yandex
Արգելել՝ /cgi-bin
Թույլ չտալ՝ /wp-admin
Թույլ չտալ՝ /wp-includes
Արգելել՝ /wp-content/plugins
Արգելել՝ /wp-content/cache
Արգելել՝ /wp-content/themes
Թույլ չտալ՝ /trackback
Թույլ չտալ՝ */trackback
Թույլ չտալ՝ */*/trackback
Արգելել՝ */*/feed/*/
Արգելել՝ */feed
Արգելել՝ /*?*
Թույլ չտալ՝ /պիտակ
Հյուրընկալող՝ կայք
Կայքի քարտեզ՝ https://site/sitemap.xml.gz
Կայքի քարտեզ՝ https://site/sitemap.xml

Դուք պետք է պատճենեք վերևում տրված ամեն ինչ տեքստային փաստաթղթի մեջ .txt ընդլայնմամբ, այսինքն, որպեսզի ֆայլի անունը լինի robots.txt: Դուք կարող եք ստեղծել այս տեքստային փաստաթուղթը, օրինակ, օգտագործելով ծրագիրը: Պարզապես մի մոռացեք, խնդրում եմ փոխել վերջին երեք տողերըհասցեն ձեր կայքի հասցեին: robots.txt ֆայլը պետք է գտնվի բլոգի արմատում, այսինքն՝ այն նույն թղթապանակում, որտեղ գտնվում են wp-content, wp-admin և այլն թղթապանակները։

Նրանց համար, ովքեր չափազանց ծույլ են ստեղծել այս տեքստային ֆայլը, կարող եք պարզապես ուղղել 3 տող այնտեղ նույնպես։

Կցանկանայի նշել, որ ձեզ հարկավոր չէ ծանրաբեռնել ձեզ այն տեխնիկական մասերով, որոնք կքննարկվեն ստորև: Ես դրանք բերում եմ «գիտելիքի», այսպես ասած, ընդհանուր հայացքի համար, որ իմանան, թե ինչ է պետք և ինչու։

Այսպիսով, տողը.

Օգտատեր-գործակալ

սահմանում է կանոններ որոշ որոնման համակարգերի համար. օրինակ, «*» (աստղանիշ) ցույց է տալիս, որ կանոնները նախատեսված են բոլոր որոնման համակարգերի համար, և ինչ կա ստորև

Օգտագործող-գործակալ՝ Yandex

նշանակում է, որ այս կանոնները միայն Yandex-ի համար են:

Արգելել
Այստեղ դուք «ներցնում եք» բաժինները, որոնք կարիք չունեն ինդեքսավորվելու որոնման համակարգերի կողմից: Օրինակ, իմ էջում ես ունեմ հոդվածների կրկնօրինակ (կրկնություն) կանոնավոր հոդվածներով, և էջերի կրկնօրինակումը բացասաբար է անդրադառնում որոնման համակարգի առաջխաղացման վրա, հետևաբար, շատ ցանկալի է, որ այդ հատվածները փակվեն ինդեքսավորումից, ինչը. ինչ ենք մենք անում՝ օգտագործելով այս կանոնը.

Թույլ չտալ՝ /պիտակ

Այսպիսով, վերը տրված robots.txt-ում WordPress կայքի գրեթե բոլոր ավելորդ բաժինները փակված են ինդեքսավորումից, այսինքն՝ ամեն ինչ թողեք այնպես, ինչպես կա:

Հյուրընկալող

Այստեղ մենք տեղադրեցինք կայքի հիմնական հայելին, որի մասին ես խոսեցի հենց վերևում:

Կայքի քարտեզ

Վերջին երկու տողերում մենք նշում ենք մինչև երկու կայքի քարտեզի հասցեն, որոնք ստեղծվել են օգտագործելով .

Հնարավոր խնդիրներ

Գնացեք բաժին Ինդեքսավորման կարգավորումներ –> Robots.txt վերլուծություն.

Արդեն այնտեղ կտտացրեք «Բեռնել robots.txt կայքից» կոճակը, այնուհետև կտտացրեք «Ստուգեք» կոճակը.

Եթե ​​տեսնում եք հետևյալ հաղորդագրության նման մի բան, դա նշանակում է, որ դուք ունեք ճիշտ robots.txt Yandex-ի համար.

Կարող եք նաև ավելացնել կայքի ցանկացած հոդվածի հասցեն «URL-ների ցանկում»՝ ստուգելու, թե արդյոք robots.txt-ն արգելում է այս էջի ինդեքսավորումը.

Ինչպես տեսնում եք, մենք որևէ արգելք չենք տեսնում robots.txt-ից էջի ինդեքսավորման համար, ինչը նշանակում է, որ ամեն ինչ կարգին է :):

Հուսով եմ, որ դուք այլևս հարցեր չեք ունենա, օրինակ՝ ինչպես գրել robots.txt կամ ինչպես ճիշտ դարձնել այս ֆայլը: Այս դասում ես փորձեցի ցույց տալ ձեզ ճիշտը օրինակ robots.txt:

Կհանդիպենք շուտով:

P.s. Բոլորովին վերջերս ես, ինչ հետաքրքիր է տեղի ունեցել: 🙂

Կայքի քարտեզը զգալիորեն հեշտացնում է ձեր բլոգի ինդեքսավորումը: Յուրաքանչյուր կայք և բլոգ պետք է ունենա կայքի քարտեզ: Բայց նաև յուրաքանչյուր կայք և բլոգ պետք է ունենա ֆայլ ռոբոտներ.txt. Robots.txt ֆայլը պարունակում է մի շարք հրահանգներ որոնման ռոբոտների համար: Կարելի է ասել, որ սրանք ձեր բլոգում որոնման ռոբոտների վարքագծի կանոններն են: Այս ֆայլը պարունակում է նաև ձեր բլոգի կայքի քարտեզի ուղին: Եվ, փաստորեն, ճիշտ կազմված robots.txt ֆայլի դեպքում որոնող ռոբոտը թանկարժեք ժամանակ չի ծախսում կայքի քարտեզ փնտրելու և ավելորդ ֆայլերի ինդեքսավորման վրա:

Ի՞նչ է robots.txt ֆայլը:

robots.txt– սա տեքստային ֆայլ է, որը կարող է ստեղծվել սովորական «նոթատետրում», որը գտնվում է ձեր բլոգի արմատում և պարունակում է որոնման ռոբոտների հրահանգներ:

Այս հրահանգները թույլ չեն տալիս որոնողական ռոբոտներին պատահականորեն ինդեքսավորել ձեր Աստծո բոլոր ֆայլերը և կենտրոնանալ հենց այն էջերի ինդեքսավորման վրա, որոնք պետք է ներառվեն որոնման արդյունքներում:

Օգտագործելով այս ֆայլը, դուք կարող եք կանխել WordPress շարժիչի ֆայլերի ինդեքսավորումը: Կամ, ասենք, ձեր բլոգի գաղտնի բաժինը։ Դուք կարող եք նշել ձեր բլոգի քարտեզի ուղին և ձեր բլոգի հիմնական հայելին: Այստեղ ես նկատի ունեմ ձեր տիրույթի անունը www և առանց www.

Կայքի ինդեքսավորում robots.txt-ով և առանց դրա

Այս սքրինշոթը հստակ ցույց է տալիս, թե ինչպես է robots.txt ֆայլն արգելում կայքում որոշ թղթապանակների ինդեքսավորումը: Առանց ֆայլի, ձեր կայքում ամեն ինչ հասանելի է ռոբոտին:

robots.txt ֆայլի հիմնական հրահանգները

Robots.txt ֆայլի պարունակած հրահանգները հասկանալու համար դուք պետք է հասկանաք հիմնական հրամանները (դիրեկտիվները):

Օգտատեր-գործակալ– այս հրամանը ցույց է տալիս ռոբոտի մուտքը ձեր կայք: Օգտագործելով այս հրահանգը, դուք կարող եք անհատական ​​հրահանգներ ստեղծել յուրաքանչյուր ռոբոտի համար:

Օգտագործող-գործակալ. Yandex – կանոններ Yandex ռոբոտի համար

Օգտագործող-գործակալ. * - կանոններ բոլոր ռոբոտների համար

Թույլ չտալ և թույլ տալ- արգելման և թույլտվության հրահանգներ: Օգտագործելով Արգելել հրահանգը, ինդեքսավորումն արգելված է, մինչդեռ Թույլատրել թույլ է տալիս:

Արգելքի օրինակ.

Օգտագործող-գործակալ՝ *

Արգելել. / - արգելել ամբողջ կայքը:

Օգտագործող-գործակալ՝ Yandex

Թույլ չտալ. /admin – արգելում է Yandex ռոբոտին մուտք գործել ադմինիստրատորի պանակում գտնվող էջեր:

Բանաձեւի օրինակ.

Օգտագործող-գործակալ՝ *

Թույլատրել՝ /լուսանկար

Թույլ չտալ. / - արգելել ամբողջ կայքը, բացառությամբ լուսանկարների պանակում գտնվող էջերի:

Նշում! Արգելել հրահանգը՝ առանց պարամետրի թույլ է տալիս ամեն ինչ, իսկ Թույլատրել հրահանգը՝ առանց պարամետրի, արգելում է ամեն ինչ: Եվ չպետք է լինի «Թույլատրել» հրահանգը առանց «Արգելելու»:

Կայքի քարտեզ– նշում է կայքի քարտեզի ուղին xml ձևաչափով:

Կայքի քարտեզ՝ https://site/sitemap.xml.gz

Կայքի քարտեզ՝ https://site/sitemap.xml

Հյուրընկալող– հրահանգը սահմանում է ձեր բլոգի հիմնական հայելին: Ենթադրվում է, որ այս հրահանգը նախատեսված է միայն Yandex ռոբոտների համար։ Այս հրահանգը պետք է նշվի robots.txt ֆայլի վերջում:

Օգտագործող-գործակալ՝ Yandex

Թույլ չտալ՝ /wp-includes

Հյուրընկալող՝ կայք

Նշում! Հիմնական հայելային հասցեն նշվում է առանց հիպերտեքստի փոխանցման արձանագրության (http://) նշելու:

Ինչպես ստեղծել robots.txt

Այժմ, երբ մենք ծանոթ ենք robots.txt ֆայլի հիմնական հրամաններին, կարող ենք սկսել մեր ֆայլի ստեղծումը: Որպեսզի ստեղծեք ձեր սեփական robots.txt ֆայլը ձեր անհատական ​​կարգավորումներով, դուք պետք է իմանաք ձեր բլոգի կառուցվածքը:

Մենք կանդրադառնանք WordPress բլոգի համար ստանդարտ (ունիվերսալ) robots.txt ֆայլի ստեղծմանը: Դուք միշտ կարող եք դրան ավելացնել ձեր սեփական կարգավորումները:

Այսպիսով, եկեք սկսենք: Մեզ անհրաժեշտ կլինի սովորական «նոթատետր», որը կարելի է գտնել յուրաքանչյուր Windows օպերացիոն համակարգում: Կամ TextEdit MacOS-ում:

Բացեք նոր փաստաթուղթ և տեղադրեք այս հրամանները դրա մեջ.

Օգտատիրոջ գործակալ. * Արգելել. Կայքի քարտեզ. .php Արգելել. /cgi-bin Արգելել. /wp-admin Արգելել. /wp-includes Արգելել. Արգելել՝ /wp-content/languages ​​Արգելել՝ /category/*/* Արգելել. feed/ */ Արգելել՝ */feed Արգելել՝ */*/feed Արգելել.

Մի մոռացեք փոխարինել Կայքի քարտեզի և հյուրընկալող հրահանգների պարամետրերը ձեր սեփականով:

Կարևոր. Հրամաններ գրելիս թույլատրվում է միայն մեկ բացատ: Հրահանգի և պարամետրի միջև: Ոչ մի դեպքում չպետք է բացատներ դնեք պարամետրից հետո կամ պարզապես որևէ տեղ:

Օրինակ: Արգելել՝<пробел>/feed/

Այս օրինակ robots.txt ֆայլը ունիվերսալ է և համապատասխանում է ցանկացած WordPress բլոգի CNC URL-ներով: Կարդացեք այն մասին, թե ինչ է CNC-ն: Եթե ​​դուք չեք կարգավորել CNC-ը, խորհուրդ եմ տալիս հեռացնել Disallow: /*?* Disallow: /?s= առաջարկվող ֆայլից:

robots.txt ֆայլի վերբեռնում սերվեր

Այս տեսակի մանիպուլյացիայի լավագույն միջոցը FTP կապն է: Կարդացեք, թե ինչպես ստեղծել FTP կապ TotolCommander-ի համար: Կամ կարող եք օգտագործել ֆայլերի կառավարիչ ձեր հոսթինգում:

Ես կօգտագործեմ FTP կապ TotolCommander-ում:

Ցանց > Միացեք FTP սերվերին:

Ընտրեք ցանկալի կապը և սեղմեք «Միացեք» կոճակը:

Բացեք բլոգի արմատը և պատճենեք մեր robots.txt ֆայլը՝ սեղմելով F5 ստեղնը:

robots.txt-ի պատճենումը սերվերին

Այժմ ձեր robots.txt ֆայլը կկատարի իր պատշաճ գործառույթները: Բայց ես դեռ խորհուրդ եմ տալիս վերլուծել robots.txt-ը, որպեսզի համոզվեք, որ սխալներ չկան:

Դա անելու համար դուք պետք է մուտք գործեք ձեր Yandex կամ Google webmaster հաշիվ: Եկեք նայենք Yandex-ի օրինակին: Այստեղ դուք կարող եք վերլուծություն անցկացնել նույնիսկ առանց կայքի նկատմամբ ձեր իրավունքները հաստատելու: Ձեզ անհրաժեշտ է միայն Yandex փոստարկղ:

Բացեք Yandex.webmaster հաշիվը:

Վեբ վարպետի հաշվի գլխավոր էջում բացեք հղումը «Ստուգեքռոբոտներ.txt".

Վերլուծելու համար դուք պետք է մուտքագրեք ձեր բլոգի URL հասցեն և սեղմեք « Բեռնել ռոբոտներ.txt կայքից« Հենց որ ֆայլը ներբեռնվի, սեղմեք կոճակը «Ստուգել».

Նախազգուշացնող գրառումների բացակայությունը ցույց է տալիս, որ robots.txt ֆայլը ճիշտ է ստեղծվել:

Արդյունքը կներկայացնենք ստորև։ Որտեղ պարզ և հասկանալի է, թե որ նյութերն են թույլատրվում ցուցադրել որոնող ռոբոտներին, և որոնք են արգելված:

robots.txt ֆայլի վերլուծության արդյունքը

Այստեղ դուք կարող եք փոփոխություններ կատարել robots.txt-ում և փորձարկել մինչև ստանաք ձեր ուզած արդյունքը: Բայց հիշեք, որ ձեր բլոգում տեղադրված ֆայլը չի ​​փոխվում: Դա անելու համար ձեզ հարկավոր է այստեղ ստացված արդյունքը պատճենել նոթատետրում, պահպանել այն որպես robots.txt և պատճենել բլոգը ձեզ:

Ի դեպ, եթե ձեզ հետաքրքրում է, թե ինչ տեսք ունի robots.txt ֆայլը ինչ-որ մեկի բլոգում, կարող եք հեշտությամբ նայել այն։ Դա անելու համար պարզապես պետք է կայքի հասցեին ավելացնել /robots.txt

https://site/robots.txt

Այժմ ձեր robots.txt-ը պատրաստ է: Եվ հիշեք, մի հետաձգեք robots.txt ֆայլի ստեղծումը, ձեր բլոգի ինդեքսավորումը կախված կլինի դրանից:

Եթե ​​ցանկանում եք ստեղծել ճիշտ robots.txt-ը և միևնույն ժամանակ վստահ լինել, որ որոնման համակարգի ինդեքսում կներառվեն միայն անհրաժեշտ էջերը, ապա դա կարող է կատարվել ավտոմատ կերպով՝ օգտագործելով plugin-ը:

Դա այն ամենն է, ինչ ես ունեմ: Բոլորիդ հաջողություն եմ մաղթում։ Եթե ​​ունեք հարցեր կամ հավելումներ, գրեք մեկնաբանություններում։

Կհանդիպենք շուտով:

Հարգանքներով՝ Մաքսիմ Զայցև։

Բաժանորդագրվեք նոր հոդվածներին:

Այս ուղեցույցի նպատակն է օգնել վեբ վարպետներին և ադմինիստրատորներին օգտագործել robots.txt:

Ներածություն

Ռոբոտի ազատման ստանդարտն իր հիմքում շատ պարզ է: Մի խոսքով, այն աշխատում է այսպես.

Երբ ռոբոտը, որը հետևում է ստանդարտին, այցելում է կայք, այն նախ պահանջում է ֆայլ, որը կոչվում է «/robots.txt»: Նման ֆայլ գտնելու դեպքում Robot-ը որոնում է այն կայքի որոշ մասերի ինդեքսավորումն արգելող հրահանգների համար:

Որտեղ տեղադրել robots.txt ֆայլը

Ռոբոտը պարզապես խնդրում է «/robots.txt» URL-ը ձեր կայքում, այս դեպքում կայքը հատուկ հոսթ է կոնկրետ նավահանգստում:

Կայքի URL Robots.txt ֆայլի URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Կայքում կարող է լինել միայն մեկ ֆայլ «/robots.txt»: Օրինակ, դուք չպետք է տեղադրեք robots.txt ֆայլը օգտվողների ենթագրքերում. ռոբոտները, այնուամենայնիվ, դրանք այնտեղ չեն փնտրի: Եթե ​​ցանկանում եք կարողանալ ստեղծել robots.txt ֆայլեր ենթագրքերում, ապա ձեզ անհրաժեշտ է միջոց՝ դրանք ծրագրային կերպով հավաքելու մեկ robots.txt ֆայլի մեջ, որը գտնվում է կայքի սկզբում: Դուք կարող եք օգտագործել.

Հիշեք, որ URL-ները մեծատառերի զգայուն են, և ֆայլի անունը «/robots.txt» պետք է ամբողջությամբ գրված լինի փոքրատառով:

robots.txt-ի սխալ տեղադրություն
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Ֆայլը գտնվում է կայքի սկզբում
ftp://ftp.w3.com/robots.txt Ռոբոտները չեն ինդեքսավորում ftp
http://www.w3.org/Robots.txt Ֆայլի անունը փոքրատառ չէ

Ինչպես տեսնում եք, robots.txt ֆայլը պետք է տեղադրվի բացառապես կայքի սկզբում:

Ինչ գրել robots.txt ֆայլում

Robots.txt ֆայլը սովորաբար պարունակում է նման բան.

Օգտագործող-գործակալ՝ *
Արգելել՝ /cgi-bin/
Արգելել՝ /tmp/
Արգելել՝ /~ joe/

Այս օրինակում արգելված է երեք գրացուցակների ինդեքսավորում:

Նկատի ունեցեք, որ յուրաքանչյուր գրացուցակ նշված է առանձին տողում. դուք չեք կարող գրել «Disallow: /cgi-bin/ /tmp/»: Դուք նաև չեք կարող մի քանի տողերի բաժանել «Disllow» կամ «User-agent» հայտարարությունը, քանի որ Տողերի ընդմիջումները օգտագործվում են հրահանգները միմյանցից բաժանելու համար:

Չի կարող օգտագործվել նաև կանոնավոր արտահայտություններ և նիշերը: «Աստղանիշ» (*) User-agent հրահանգում նշանակում է «ցանկացած ռոբոտ»: Հրահանգները, ինչպիսիք են «Անջատել՝ *.gif» կամ «Օգտատիրոջ գործակալ. Ya*» չեն աջակցվում:

Robots.txt-ի հատուկ հրահանգները կախված են ձեր կայքից և նրանից, թե ինչ եք ուզում կանխել ինդեքսավորվելը: Ահա մի քանի օրինակներ.

Արգելափակել ամբողջ կայքը բոլոր ռոբոտների կողմից ինդեքսավորվելու համար

Օգտագործող-գործակալ՝ *
Արգելել՝ /

Թույլ տվեք բոլոր ռոբոտներին ինդեքսավորել ամբողջ կայքը

Օգտագործող-գործակալ՝ *
Արգելել՝

Կամ կարող եք պարզապես դատարկ ֆայլ ստեղծել «/robots.txt»:

Արգելափակել միայն մի քանի դիրեկտորիաների ինդեքսավորումը

Օգտագործող-գործակալ՝ *
Արգելել՝ /cgi-bin/
Արգելել՝ /tmp/
Արգելել՝ /մասնավոր/

Կանխել կայքի ինդեքսավորումը միայն մեկ ռոբոտի համար

Օգտագործող-գործակալ՝ BadBot
Արգելել՝ /

Թույլ տվեք մեկ ռոբոտին ինդեքսավորել կայքը և հերքել մյուսներին

Օգտագործող-գործակալ՝ Yandex
Արգելել՝

Օգտագործող-գործակալ՝ *
Արգելել՝ /

Մերժել բոլոր ֆայլերը, բացի մեկից, ինդեքսավորումից

Սա բավականին դժվար է, քանի որ... «Թույլատրել» հայտարարություն չկա: Փոխարենը, դուք կարող եք տեղափոխել բոլոր ֆայլերը, բացառությամբ այն ֆայլի, որը ցանկանում եք թույլատրել ինդեքսավորել ենթացանց և կանխել դրա ինդեքսավորումը.

Օգտագործող-գործակալ՝ *
Արգելել՝ /docs/

Կամ կարող եք արգելել ինդեքսավորման արգելված բոլոր ֆայլերը.

Օգտագործող-գործակալ՝ *
Արգելել՝ /private.html
Արգելել՝ /foo.html
Արգելել՝ /bar.html