სახლში მიმოხილვები

რობოტების txt გამოყენებით. როგორ დაარედაქტიროთ robots txt ფაილი. მარტივად შექმენით ფაილი ნებისმიერი საძიებო სისტემისთვის

ეს სტატია შეიცავს WordPress-ისთვის robots.txt ფაილის ოპტიმალური, ჩემი აზრით, კოდის მაგალითს, რომელიც შეგიძლიათ გამოიყენოთ თქვენს ვებსაიტებზე.

დასაწყისისთვის, გავიხსენოთ რატომ გჭირდებათ robots.txt- robots.txt ფაილი საჭიროა ექსკლუზიურად იმისთვის, რომ საძიებო რობოტებმა „უთხრეს“ საიტის რომელ განყოფილებებს/გვერდებს უნდა ეწვიონ და რომელს არ უნდა ეწვიონ. გვერდები, რომლებიც დახურულია სტუმრობისგან, არ შედის საძიებო სისტემის ინდექსში (Yandex, Google და ა.შ.).

ვარიანტი 1: ოპტიმალური robots.txt კოდი WordPress-ისთვის

მომხმარებლის აგენტი: * არ დაუშვას: /cgi-bin # classic... არ დაუშვას: /? # მოთხოვნის ყველა პარამეტრი მთავარ გვერდზე არ დაუშვას: /wp- # ყველა WP ფაილი: /wp-json/, /wp-includes, /wp-content/plugins აკრძალვა: *?s= # ძიება აკრძალვა: *&s= # ძიება აკრძალვა: /search # search არ დაუშვას: /author/ # ავტორის არქივი დაშვება: */embed # all embeddings აკრძალვა: */page/ # ყველა ტიპის პაგინაციის დაშვება: */ატვირთვები # ღია ატვირთვის დაშვება: /*/*.js # შიგნით /wp - (/*/ - პრიორიტეტისთვის) დაშვება: /*/*.css # inside /wp- (/*/ - პრიორიტეტისთვის) დაშვება: /wp-*.png # სურათები დანამატებში, ქეშის საქაღალდეში და ა.შ. . დაუშვით: /wp-*.jpg # სურათი დანამატებში, ქეშის საქაღალდეში და ა.შ. დაუშვით: /wp-*.jpeg # სურათი დანამატებში, ქეშის საქაღალდეში და ა.შ. დაუშვით: /wp-*.gif # სურათი დანამატებში, ქეშის საქაღალდეში და ა.შ. დაშვება: /wp-*.svg # სურათები დანამატებში, ქეშის საქაღალდეში და ა.შ. დაშვება: /wp-*.pdf # ფაილი დანამატებში, ქეშის საქაღალდეში და ა.შ. დაშვება: /wp-admin/admin-ajax.php #Disallow: /wp/ # როცა WP დაინსტალირებულია wp ქვედირექტორიაში საიტის რუკა: http://example.com/sitemap.xml საიტის რუკა: http://example.com/ sitemap2.xml # სხვა ფაილი #Sitemap: http://example.com/sitemap.xml.gz # შეკუმშული ვერსია (.gz) # კოდის ვერსია: 1.1 # არ დაგავიწყდეთ შეცვალოთ `site.ru` თქვენს საიტზე.

კოდის ანალიზი:

User-agent: * ხაზში ჩვენ მივუთითებთ, რომ ქვემოთ მოცემული ყველა წესი იმუშავებს ყველა საძიებო რობოტზე *. თუ ეს წესები მხოლოდ ერთ კონკრეტულ რობოტზე მუშაობისთვის გჭირდებათ, მაშინ *-ის ნაცვლად ჩვენ მივუთითებთ რობოტის სახელს (მომხმარებლის აგენტი: Yandex, მომხმარებელი-აგენტი: Googlebot).

Allow: */uploads ხაზში ჩვენ განზრახ ვუშვებთ გვერდებს, რომლებიც შეიცავს /uploads ინდექსირებას. ეს წესი სავალდებულოა, რადგან ზემოთ ჩვენ კრძალავს /wp- და დაწყებული გვერდების ინდექსირებას /wp-შეიცავს /wp-content/ატვირთვები. ამიტომ, Disallow: /wp- წესის გასაუქმებლად, საჭიროა ხაზი Allow: */uploads, რადგან მსგავსი ბმულებისთვის /wp-content/ატვირთვები/...ჩვენ შეიძლება გვქონდეს სურათები, რომლებიც საჭიროებს ინდექსირებას, ასევე შეიძლება იყოს გადმოწერილი ფაილები, რომელთა დამალვაც არ არის საჭირო. დაშვება: შეიძლება იყოს „ადრე“ ან „შემდეგ“ აკრძალვა: .

დარჩენილი სტრიქონები კრძალავს რობოტებს „მიყვეს“ ბმულებს, რომლებიც იწყება:

Disallow: /cgi-bin - ხურავს სკრიპტების დირექტორიას სერვერზე
Disallow: /feed - ხურავს ბლოგის RSS არხს
აკრძალვა: /trackback - ხურავს შეტყობინებებს
Disallow: ?s= ან Disallow: *?s= - ხურავს საძიებო გვერდებს
აკრძალვა: */page/ - ხურავს ყველა ტიპის პაგინაციას

საიტის რუქის წესი: http://example.com/sitemap.xml მიუთითებს რობოტს ფაილზე საიტის რუქით XML ფორმატში. თუ თქვენ გაქვთ ასეთი ფაილი თქვენს საიტზე, დაწერეთ მისი სრული გზა. შეიძლება რამდენიმე ასეთი ფაილი იყოს, შემდეგ თითოეულს ცალკე მივუთითებთ გზას.

ხაზში Host: site.ru ჩვენ მივუთითებთ საიტის მთავარ სარკეს. თუ საიტს აქვს სარკეები (საიტის ასლები სხვა დომენებზე), მაშინ იმისათვის, რომ Yandex-მა ყველა თანაბრად მოახდინოს ინდექსირება, თქვენ უნდა მიუთითოთ მთავარი სარკე. მასპინძლის დირექტივა: მხოლოდ Yandex-ს ესმის, Google-ს არ ესმის! თუ საიტი მუშაობს https პროტოკოლით, მაშინ ის უნდა იყოს მითითებული Host: Host: http://example.com

Yandex-ის დოკუმენტაციიდან: „ჰოსტი დამოუკიდებელი დირექტივაა და მუშაობს ფაილის ნებისმიერ ადგილას (გადაკვეთა).“ ამიტომ, ჩვენ მას ვათავსებთ ფაილის ზედა ან ბოლოში, ცარიელი ხაზის მეშვეობით.

იმის გამო, რომ ღია არხების არსებობა საჭიროა, მაგალითად, Yandex Zen-ისთვის, როდესაც გჭირდებათ საიტის არხთან დაკავშირება (კომენტატორის "ციფრული" წყალობით). ალბათ ღია არხები საჭიროა სხვაგან.

ამავდროულად, არხებს აქვთ საკუთარი ფორმატი პასუხის სათაურებში, რის წყალობითაც საძიებო სისტემებს ესმით, რომ ეს არ არის HTML გვერდი, არამედ არხი და, ცხადია, მას რაღაცნაირად განსხვავებულად ამუშავებენ.

მასპინძლის დირექტივა აღარ არის საჭირო Yandex-ისთვის

Yandex მთლიანად ტოვებს მასპინძლის დირექტივას და შეცვალა იგი 301 გადამისამართებით. ჰოსტი შეიძლება უსაფრთხოდ წაიშალოს robots.txt-დან. თუმცა, მნიშვნელოვანია, რომ საიტის ყველა სარკეს ჰქონდეს 301 გადამისამართება მთავარ საიტზე (მთავარი სარკე).

ეს მნიშვნელოვანია: დახარისხების წესები დამუშავებამდე

Yandex და Google ამუშავებენ Allow and Disallow დირექტივებს არა იმ თანმიმდევრობით, რომლითაც ისინი მითითებულია, მაგრამ ჯერ ახარისხებენ მათ მოკლე წესიდან გრძელამდე და შემდეგ ამუშავებენ ბოლო შესატყვის წესს:

მომხმარებლის აგენტი: * დაშვება: */ატვირთვების აკრძალვა: /wp-

წაიკითხება როგორც:

მომხმარებლის აგენტი: * აკრძალვა: /wp- დაშვება: */ატვირთვები

დალაგების ფუნქციის სწრაფად გასაგებად და გამოსაყენებლად, გახსოვდეთ ეს წესი: „რაც უფრო გრძელია წესი robots.txt-ში, მით უფრო მაღალი პრიორიტეტი აქვს მას. თუ წესების ხანგრძლივობა ერთნაირია, მაშინ უპირატესობა ენიჭება Allow დირექტივას“.

ვარიანტი 2: სტანდარტული robots.txt WordPress-ისთვის

არ ვიცი რატომ, მაგრამ მე პირველი ვარიანტის მომხრე ვარ! იმიტომ, რომ ეს უფრო ლოგიკურია - არ არის საჭირო განყოფილების სრული დუბლირება, რათა მიუთითოთ მასპინძელი დირექტივა Yandex-ისთვის, რომელიც არის კვეთა (რობოტი ესმის შაბლონის ნებისმიერ წერტილში, იმის მითითების გარეშე, რომელ რობოტს ეხება). რაც შეეხება არასტანდარტულ Allow დირექტივას, ის მუშაობს Yandex-სა და Google-ზე და თუ ის არ გახსნის ატვირთვის საქაღალდეს სხვა რობოტებისთვის, რომლებსაც ეს არ ესმით, მაშინ 99% შემთხვევაში ეს არ გამოიწვევს რაიმე საშიშს. მე ჯერ არ შემიმჩნევია, რომ პირველი რობოტები არ მუშაობენ ისე, როგორც უნდა.

ზემოთ მოყვანილი კოდი ცოტა არასწორია. მადლობა კომენტატორს " ", რომ მიუთითა უზუსტობაზე, თუმცა მე თვითონ უნდა გამერკვია რა იყო ეს. და ეს არის ის, რაც მე გამოვედი (შეიძლება ვცდებოდე):

ზოგიერთ რობოტს (არა Yandex-ს და Google-ს) არ ესმის 2-ზე მეტი დირექტივა: User-agent: და Disallow:

Yandex Host: დირექტივა უნდა იქნას გამოყენებული Disallow:-ის შემდეგ, რადგან ზოგიერთმა რობოტმა (არა Yandex-მა და Google-მა) შეიძლება ვერ გაიგოს და ზოგადად უარყოს robots.txt. თავად Yandex-ს, თუ ვიმსჯელებთ დოკუმენტაციის მიხედვით, აბსოლუტურად არ აინტერესებს სად და როგორ გამოიყენოს Host:, მაშინაც კი, თუ თქვენ ზოგადად ქმნით robots.txt-ს მხოლოდ ერთი ხაზის მასპინძელზე: www.site.ru, რათა დააწებოთ საიტის ყველა სარკე.

3. საიტის რუკა: კვეთის დირექტივა Yandex-ისა და Google-ისთვის და, როგორც ჩანს, ბევრი სხვა რობოტისთვისაც, ასე რომ ჩვენ მას ბოლოს ვწერთ ცარიელი ხაზით და ის ერთდროულად იმუშავებს ყველა რობოტზე.

ამ ცვლილებებზე დაყრდნობით, სწორი კოდი ასე უნდა გამოიყურებოდეს:

მომხმარებლის აგენტი: Yandex-ის აკრძალვა: /wp-admin აკრძალვა: /wp-includes არ დაუშვას: /wp-content/plugins არ დაუშვას: /wp-json/ არ დაუშვას: /wp-login.php არ დაუშვას: /wp-register.php: */embed არ დაუშვას: */გვერდი/ არ დაუშვას: /cgi-bin არ დაუშვას: *?s= დაშვება: /wp-admin/admin-ajax.php ჰოსტი: site.ru მომხმარებლის აგენტი: * აკრძალვა: /wp-admin არ დაუშვას : /wp-includes აკრძალვა: /wp-content/plugins აკრძალვა: /wp-json/ არ დაუშვას: /wp-login.php აკრძალვა: /wp-register.php აკრძალვა: */embed არ დაუშვას: */page/ არ დაუშვას: / cgi-bin აკრძალვა: *?s= დაშვება: /wp-admin/admin-ajax.php საიტის რუკა: http://example.com/sitemap.xml

ჩვენ თვითონ დავამატოთ

თუ გჭირდებათ სხვა გვერდის ან გვერდების ჯგუფის დაბლოკვა, შეგიძლიათ ქვემოთ დაამატოთ წესი (დირექტივა). აკრძალვა:. მაგალითად, ჩვენ უნდა დავხუროთ ყველა ჩანაწერი კატეგორიაში ინდექსაციისგან ახალი ამბები, შემდეგ ადრე საიტის რუკა:დაამატე წესი:

აკრძალვა: /ახალი ამბები

ის ხელს უშლის რობოტებს შემდეგი ბმულების მიყოლაში:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

თუ გსურთ დახუროთ /ახალი ამბების ნებისმიერი შემთხვევა, მაშინ დაწერეთ:

აკრძალვა: */ახალი ამბები

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

შეგიძლიათ უფრო დეტალურად შეისწავლოთ robots.txt დირექტივები Yandex-ის დახმარების გვერდზე (მაგრამ გახსოვდეთ, რომ იქ აღწერილი ყველა წესი არ მუშაობს Google-ისთვის).

Robots.txt შემოწმება და დოკუმენტაცია

თქვენ შეგიძლიათ შეამოწმოთ, მუშაობს თუ არა დადგენილი წესები სწორად შემდეგი ბმულების გამოყენებით:

Yandex: http://webmaster.yandex.ru/robots.xml.
Google-ში ეს კეთდება საძიებო კონსოლი. გჭირდებათ ავტორიზაცია და საიტის არსებობა ვებმასტერ პანელში...
robots.txt ფაილის შექმნის სერვისი: http://pr-cy.ru/robots/
robots.txt შექმნისა და შემოწმების სერვისი: https://seolib.ru/tools/generate/robots/

Yandex-ს ვკითხე...

კითხვა დავსვი ტექნიკურში. Yandex-ის მხარდაჭერა მასპინძლისა და საიტის რუქის დირექტივების კვეთის გამოყენებასთან დაკავშირებით:

Კითხვა:

გამარჯობა!
ჩემს ბლოგზე ვწერ სტატიას robots.txt-ის შესახებ. მსურს ამ კითხვაზე პასუხის მიღება (დოკუმენტაციაში აშკარა "დიახ" ვერ ვიპოვე):

თუ მჭირდება ყველა სარკის დაწებება და ამისთვის ვიყენებ Host-ის დირექტივას robots.txt ფაილის დასაწყისში:
მასპინძელი: site.ru მომხმარებლის აგენტი: * აკრძალვა: /asd
სწორად იმუშავებს Host: site.ru ამ მაგალითში? მიუთითებს თუ არა რობოტებზე, რომ site.ru არის მთავარი სარკე? იმათ. მე ვიყენებ ამ დირექტივას არა განყოფილებაში, არამედ ცალკე (ფაილის დასაწყისში) იმის მითითების გარეშე, რომელ User-agent-ს ეხება.

ასევე მინდოდა გამეგო, საიტის რუქის დირექტივა უნდა იქნას გამოყენებული განყოფილების შიგნით თუ შეიძლება მისი გამოყენება გარეთ: მაგალითად, ცარიელი ხაზის მეშვეობით, სექციის შემდეგ?
მომხმარებლის აგენტი: Yandex Disallow: /asd მომხმარებლის აგენტი: * არ დაუშვას: /asd საიტის რუკა: http://example.com/sitemap.xml
გაიგებს რობოტი საიტის რუქის დირექტივას ამ მაგალითში?

იმედია მივიღებ თქვენგან პასუხს, რომელიც ბოლო მოეღება ჩემს ეჭვებს.

პასუხი:

გამარჯობა!

მასპინძელი და საიტის რუქის დირექტივები ურთიერთდაკავშირებულია, ამიტომ მათ გამოიყენებს რობოტი, მიუხედავად იმისა, თუ რა ადგილია robots.txt ფაილში, სადაც მითითებულია.

--
პატივისცემით, პლატონ შჩუკინი
Yandex-ის მხარდაჭერის სერვისი

დასკვნა

მნიშვნელოვანია გვახსოვდეს, რომ ცვლილებები robots.txt-ში უკვე მომუშავე საიტზე შესამჩნევი იქნება მხოლოდ რამდენიმე თვის შემდეგ (2-3 თვე).

არსებობს ჭორები, რომ გუგლს შეუძლია ზოგჯერ უგულებელყოს robots.txt-ის წესები და გვერდი შეიყვანოს ინდექსში, თუ ჩათვლის, რომ გვერდი ძალიან უნიკალური და სასარგებლოა და ის უბრალოდ უნდა იყოს ინდექსში. თუმცა, სხვა ჭორები უარყოფენ ამ ჰიპოთეზას იმით, რომ გამოუცდელ ოპტიმიზატორებს შეუძლიათ არასწორად განსაზღვრონ წესები robots.txt-ში და ამით დახურონ საჭირო გვერდები ინდექსაციისგან და დატოვონ არასაჭირო. მე უფრო მეორე ვარაუდისკენ ვარ მიდრეკილი...

დინამიური რობოტები.txt

WordPress-ში robots.txt ფაილის მოთხოვნა ცალ-ცალკე მუშავდება და საერთოდ არ არის საჭირო საიტის root-ში robots.txt ფაილის ფიზიკურად შექმნა, უფრო მეტიც, ეს არ არის რეკომენდებული, რადგან ამ მიდგომით ეს იქნება ძალიან რთულია დანამატებისთვის ამ ფაილის შეცვლა და ეს ზოგჯერ აუცილებელია.

წაიკითხეთ იმის შესახებ, თუ როგორ მუშაობს robots.txt ფაილის დინამიური შექმნა ფუნქციის აღწერაში, ქვემოთ კი მე მივცემ მაგალითს, თუ როგორ შეგიძლიათ შეცვალოთ ამ ფაილის შიგთავსი პირდაპირ, კაკლის მეშვეობით.

ამისათვის დაამატეთ შემდეგი კოდი თქვენს functions.php ფაილს:

Add_action ("do_robotstxt", "my_robotstxt"); ფუნქცია my_robotstxt())( $lines = [ "მომხმარებლის აგენტი: *", "აკრძალვა: /wp-admin/", "აკრძალვა: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // PHP მუშაობის შეწყვეტა)

მომხმარებლის აგენტი: * აკრძალვა: /wp-admin/ აკრძალვა: /wp-includes/

Crawl-dalay - შეშლილი რობოტების დროინდელი პერიოდი (არ არის გათვალისწინებული 2018 წლიდან)

Yandex

ბოლო ორი წლის განმავლობაში ჩვენი მხარდაჭერის წერილების ანალიზით, ინდექსირების საკითხებთან დაკავშირებით, აღმოვაჩინეთ, რომ დოკუმენტების ნელი ჩამოტვირთვის ერთ-ერთი მთავარი მიზეზი არის არასწორად კონფიგურირებული Crawl-dalay დირექტივა robots.txt-ში […] ასე რომ, საიტის მფლობელები აღარ არიან. უნდა ვიფიქროთ ამაზე და იმისთვის, რომ ყველა ნამდვილად საჭირო ვებგვერდი გამოჩნდება და სწრაფად განახლდება ძიებაში, გადავწყვიტეთ უარი თქვან Crawl-dalay დირექტივაზე.

როდესაც Yandex რობოტი გიჟივით ასკანირებს საიტს და ეს ქმნის არასაჭირო დატვირთვას სერვერზე. შეგიძლიათ რობოტს სთხოვოთ „შეანელოს“.

ამისათვის თქვენ უნდა გამოიყენოთ Crawl-delay დირექტივა. ის მიუთითებს დროს წამებში, როდესაც რობოტი უნდა იყოს უმოქმედო (მოიცადოს) საიტის ყოველი მომდევნო გვერდის სკანირებისთვის.

რობოტებთან თავსებადობისთვის, რომლებიც კარგად არ იცავენ robots.txt სტანდარტს, Crawl-delay უნდა იყოს მითითებული ჯგუფში (მომხმარებლის აგენტის განყოფილებაში) დაუშვებლად და ნებადართულის შემდეგ.

Yandex Robot-ს ესმის წილადური მნიშვნელობები, მაგალითად, 0.5 (ნახევარი წამი). ეს არ იძლევა იმის გარანტიას, რომ საძიებო რობოტი თქვენს საიტს ყოველ ნახევარ წამში ეწვევა, მაგრამ ის საშუალებას გაძლევთ დააჩქაროთ საიტის სეირნობა.

მომხმარებლის აგენტი: Yandex-ის აკრძალვა: /wp-admin აკრძალვა: /wp-includes Crawl-delay: 1.5 # timeout 1.5 წამი მომხმარებლის აგენტი: * აკრძალვა: /wp-admin აკრძალვა: /wp- მოიცავს დაშვება: /wp-* . gif Crawl-dalay: 2 # timeout 2 წამი

Google

Googlebot-ს არ ესმის Crawl-dalay დირექტივა. მისი რობოტების ვადაა მითითებული ვებმასტერის პანელში.

avi1.ru სერვისზე ახლა შეგიძლიათ შეიძინოთ SMM აქცია 7-ზე მეტ პოპულარულ სოციალურ ქსელში. ამავდროულად, ყურადღება მიაქციეთ საიტის ყველა სერვისის საკმაოდ დაბალ ღირებულებას.

Კითხვის დრო: 7 წუთი

თითქმის ყველა პროექტს, რომელიც ჩვენთან მოდის აუდიტის ან პოპულარიზაციისთვის, აქვს არასწორი robots.txt ფაილი და ხშირად ის საერთოდ აკლია. ეს იმიტომ ხდება, რომ ფაილის შექმნისას ყველა ხელმძღვანელობს თავისი ფანტაზიით და არა წესებით. მოდით გავარკვიოთ, როგორ სწორად შევადგინოთ ეს ფაილი, რათა საძიებო რობოტებმა ეფექტურად იმუშაონ მასთან.

რატომ გჭირდებათ robots.txt-ის კონფიგურაცია?

Robots.txtარის ფაილი, რომელიც მდებარეობს საიტის ძირეულ დირექტორიაში, რომელიც ეუბნება საძიებო სისტემებს რობოტებს, რომელ განყოფილებებსა და გვერდებზე შეუძლიათ წვდომა და რომელზე არა.

robots.txt-ის დაყენება მნიშვნელოვანი ნაწილია საძიებო სისტემის შედეგებში; სწორად კონფიგურირებული რობოტები ასევე ზრდის საიტის მუშაობას. Robots.txt-ის გამოტოვება არ შეაჩერებს საძიებო სისტემებს თქვენი საიტის ცოცვასა და ინდექსირებას, მაგრამ თუ ეს ფაილი არ გაქვთ, შეიძლება ორი პრობლემა შეგექმნათ:

საძიებო რობოტი წაიკითხავს მთელ საიტს, რაც "ძირს უთხრის" მცოცავ ბიუჯეტს. მცოცავი ბიუჯეტი არის გვერდების რაოდენობა, რომლებზეც საძიებო რობოტს შეუძლია გარკვეული პერიოდის განმავლობაში დაცოცოს.

რობოტების ფაილის გარეშე, საძიებო სისტემას ექნება წვდომა შედგენილ და დამალულ გვერდებზე, ასობით გვერდებზე, რომლებიც გამოიყენება CMS-ის ადმინისტრირებისთვის. ის მოახდინებს მათ ინდექსირებას და როდესაც საქმე ეხება აუცილებელ გვერდებს, რომლებიც პირდაპირ შინაარსს აწვდიან ვიზიტორებისთვის, მცოცავი ბიუჯეტი „დაიწურება“.

ინდექსი შეიძლება შეიცავდეს საიტის შესვლის გვერდს და სხვა ადმინისტრატორის რესურსებს, ასე რომ, თავდამსხმელს შეუძლია ადვილად აკონტროლოს ისინი და განახორციელოს ddos შეტევა ან გატეხოს საიტი.

როგორ ხედავენ საძიებო რობოტები საიტს robots.txt-ით და მის გარეშე:

Robots.txt სინტაქსი

სანამ დავიწყებთ სინტაქსის გაგებას და robots.txt-ის დაყენებას, მოდით შევხედოთ როგორი უნდა იყოს „იდეალური ფაილი“:

მაგრამ თქვენ არ უნდა გამოიყენოთ იგი დაუყოვნებლივ. თითოეული საიტი ყველაზე ხშირად მოითხოვს საკუთარ პარამეტრებს, რადგან ჩვენ ყველას გვაქვს საიტის განსხვავებული სტრუქტურა და განსხვავებული CMS. მოდით შევხედოთ თითოეულ დირექტივას თანმიმდევრობით.

მომხმარებელი-აგენტი

მომხმარებელი-აგენტი - განსაზღვრავს საძიებო რობოტს, რომელიც უნდა შეასრულოს ფაილში აღწერილი ინსტრუქციები. თუ გჭირდებათ ყველას ერთდროულად მიმართვა, გამოიყენეთ * ხატულა. თქვენ ასევე შეგიძლიათ დაუკავშირდეთ კონკრეტულ საძიებო რობოტს. მაგალითად, Yandex და Google:

ამ დირექტივის გამოყენებით რობოტს ესმის, რომელი ფაილების და საქაღალდეების ინდექსირება აკრძალულია. თუ გსურთ, რომ თქვენი მთელი საიტი ღია იყოს ინდექსაციისთვის, დატოვეთ დაუშვებელი მნიშვნელობა ცარიელი. დაუშვებლობის შემდეგ საიტზე მთელი შინაარსის დასამალად, დააყენეთ „/“.

ჩვენ შეგვიძლია აღვკვეთოთ წვდომა კონკრეტულ საქაღალდეზე, ფაილზე ან ფაილის გაფართოებაზე. ჩვენს მაგალითში, ჩვენ ვუკავშირდებით ყველა საძიებო რობოტს და ვბლოკავთ წვდომას bitrix-ზე, საძიებო საქაღალდეზე და pdf გაფართოებაზე.

დაშვება

მიეცით უფლება საიტის გვერდებისა და სექციების ინდექსირებას. ზემოთ მოცემულ მაგალითში, ჩვენ ვუკავშირდებით Google-ის საძიებო რობოტს, ვბლოკავთ წვდომას bitrix-ზე, საძიებო საქაღალდეზე და pdf გაფართოებაზე. მაგრამ ბიტრიქსის საქაღალდეში ჩვენ ვაიძულებთ გავხსნათ 3 საქაღალდე ინდექსაციისთვის: კომპონენტები, js, ინსტრუმენტები.

მასპინძელი - საიტის სარკე

სარკის საიტი არის მთავარი საიტის დუბლიკატი. სარკეები გამოიყენება სხვადასხვა მიზნით: მისამართის შეცვლა, უსაფრთხოება, სერვერზე დატვირთვის შემცირება და ა.შ.

მასპინძელი ერთ-ერთი ყველაზე მნიშვნელოვანი წესია. თუ ეს წესი ჩაიწერება, რობოტი მიხვდება, საიტის რომელი სარკე უნდა იყოს გათვალისწინებული ინდექსაციისთვის. ეს დირექტივა აუცილებელია Yandex და Mail.ru რობოტებისთვის. სხვა რობოტები უგულებელყოფენ ამ წესს. მასპინძელი რეგისტრირებულია მხოლოდ ერთხელ!

"https://" და "http://" პროტოკოლებისთვის, robots.txt ფაილში სინტაქსი განსხვავებული იქნება.

საიტის რუკა - საიტის რუკა

საიტის რუკა არის საიტის ნავიგაციის ფორმა, რომელიც გამოიყენება საძიებო სისტემებში ახალი გვერდების შესახებ ინფორმირებისთვის. საიტის რუქის დირექტივის გამოყენებით, ჩვენ "იძულებით" ვაჩვენებთ რობოტს, სადაც მდებარეობს რუკა.

სიმბოლოები robots.txt-ში

ფაილში გამოყენებული სიმბოლოები: “/, *, $, #”.

ფუნქციონირების შემოწმება robots.txt-ის დაყენების შემდეგ

მას შემდეგ რაც Robots.txt განათავსებთ თქვენს ვებსაიტზე, თქვენ უნდა დაამატოთ და შეამოწმოთ ის Yandex-სა და Google-ის ვებმასტერში.

Yandex შემოწმება:

მიჰყევით ამ ბმულს.
აირჩიეთ: ინდექსირების პარამეტრები - Robots.txt ანალიზი.

Google შემოწმება:

მიჰყევით ამ ბმულს.
აირჩიეთ: Scan - Robots.txt ფაილის შემოწმების ინსტრუმენტი.

ამ გზით თქვენ შეგიძლიათ შეამოწმოთ თქვენი robots.txt შეცდომებზე და საჭიროების შემთხვევაში განახორციელოთ საჭირო კორექტირება.

ფაილის შინაარსი უნდა იყოს დაწერილი დიდი ასოებით.
Disallow დირექტივაში მხოლოდ ერთი ფაილი ან დირექტორია უნდა იყოს მითითებული.
ხაზი "მომხმარებლის აგენტი" არ უნდა იყოს ცარიელი.
მომხმარებლის აგენტი ყოველთვის უნდა იყოს გაუქმებამდე.
ნუ დაგავიწყდებათ, რომ შეიყვანოთ ხაზი, თუ გსურთ გამორთოთ დირექტორიაში ინდექსირება.
სანამ ფაილს სერვერზე ატვირთავთ, დარწმუნდით, რომ შეამოწმეთ სინტაქსისა და მართლწერის შეცდომები.

Წარმატებას გისურვებ!

ვიდეო მიმოხილვა Robots.txt ფაილის შექმნისა და მორგების 3 მეთოდის შესახებ

Სალამი ყველას! დღეს მინდა მოგიყვეთ ამის შესახებ robots.txt ფაილი. დიახ, ამის შესახებ ბევრი დაიწერა ინტერნეტში, მაგრამ, მართალი გითხრათ, ძალიან დიდი ხნის განმავლობაში მე თვითონ ვერ გავიგე, როგორ შევქმნა სწორი robots.txt. მე დავასრულე ერთი და ის ყველა ჩემს ბლოგზეა. პრობლემას ვერ ვამჩნევ, robots.txt კარგად მუშაობს.

Robots.txt WordPress-ისთვის

სინამდვილეში, რატომ გჭირდებათ robots.txt? პასუხი ისევ იგივეა - . ანუ robots.txt-ის შედგენა არის საიტის საძიებო სისტემის ოპტიმიზაციის ერთ-ერთი ნაწილი (სხვათა შორის, ძალიან მალე იქნება გაკვეთილი, რომელიც დაეთმობა საიტის ყველა შიდა ოპტიმიზაციას WordPress-ზე. ამიტომ ნუ დაივიწყეთ RSS-ის გამოწერა, რათა არ გამოტოვოთ საინტერესო მასალები.).

ამ ფაილის ერთ-ერთი ფუნქციაა ინდექსირების აკრძალვაარასაჭირო ვებ გვერდები. ის ასევე ადგენს მისამართს და ასახელებს მთავარს საიტის სარკე(საიტი www-ით ან მის გარეშე).

შენიშვნა: საძიებო სისტემებისთვის ერთი და იგივე საიტი www-ით და www-ის გარეშე სრულიად განსხვავებული საიტებია. მაგრამ, იმის გაცნობიერებით, რომ ამ საიტების შინაარსი ერთი და იგივეა, საძიებო სისტემები მათ ერთმანეთში „წებებენ“. ამიტომ მნიშვნელოვანია საიტის მთავარი სარკის რეგისტრაცია robots.txt-ში. იმის გასარკვევად, რომელია მთავარი (www-ით თუ www-ის გარეშე), უბრალოდ ჩაწერეთ თქვენი საიტის მისამართი ბრაუზერში, მაგალითად, www, თუ ავტომატურად გადამისამართდებით იმავე საიტზე www-ის გარეშე, მაშინ მთავარი სარკე. თქვენი საიტი არ არის www. იმედია სწორად ავხსენი.

იყო:

ახლა (საიტზე წასვლის შემდეგ, www ავტომატურად წაიშალა და საიტი გახდა www-ის გარეშე):

ასე რომ, ეს ძვირფასი, ჩემი აზრით, სწორი robots.txt WordPress-ისთვისშეგიძლიათ იხილოთ ქვემოთ.

სწორია WordPress-ისთვის

მომხმარებლის აგენტი: *
აკრძალვა: /cgi-bin
აკრძალვა: /wp-admin
აკრძალვა: /wp-includes

აკრძალვა: /wp-content/ქეში
აკრძალვა: /wp-content/themes
აკრძალვა: /trackback
აკრძალვა: */trackback
აკრძალვა: */*/trackback
აკრძალვა: */*/feed/*/
აკრძალვა: */feed
აკრძალვა: /*?*
აკრძალვა: / tag

მომხმარებლის აგენტი: Yandex
აკრძალვა: /cgi-bin
აკრძალვა: /wp-admin
აკრძალვა: /wp-includes
აკრძალვა: /wp-content/plugins
აკრძალვა: /wp-content/ქეში
აკრძალვა: /wp-content/themes
აკრძალვა: /trackback
აკრძალვა: */trackback
აკრძალვა: */*/trackback
აკრძალვა: */*/feed/*/
აკრძალვა: */feed
აკრძალვა: /*?*
აკრძალვა: / tag
მასპინძელი: ვებგვერდი
საიტის რუკა: https://site/sitemap.xml.gz
საიტის რუკა: https://site/sitemap.xml

თქვენ უნდა დააკოპიროთ ყველაფერი ზემოთ მოცემული ტექსტურ დოკუმენტში .txt გაფართოებით, ანუ ისე, რომ ფაილის სახელი იყოს robots.txt. თქვენ შეგიძლიათ შექმნათ ეს ტექსტური დოკუმენტი, მაგალითად, პროგრამის გამოყენებით. უბრალოდ არ დაგავიწყდეს, გთხოვ შეცვალეთ ბოლო სამი ხაზიმისამართი თქვენი ვებსაიტის მისამართზე. robots.txt ფაილი უნდა განთავსდეს ბლოგის root-ში, ანუ იმავე საქაღალდეში, სადაც მდებარეობს wp-content, wp-admin და ა.შ.

მათთვის, ვისაც ძალიან ეზარება ამ ტექსტური ფაილის შექმნა, შეგიძლიათ უბრალოდ შეასწოროთ 3 სტრიქონი იქაც.

მინდა აღვნიშნო, რომ თქვენ არ გჭირდებათ ზედმეტი დატვირთვა ტექნიკური ნაწილებით, რომლებიც ქვემოთ იქნება განხილული. „ცოდნისთვის“, ასე ვთქვათ, ზოგადი ხედვისთვის მოვიყვან, რომ იცოდნენ, რა არის საჭირო და რატომ.

ასე რომ ხაზი:

მომხმარებელი-აგენტი

ადგენს წესებს ზოგიერთი საძიებო სისტემისთვის: მაგალითად, „*“ (ვარსკვლავი) მიუთითებს, რომ წესები ყველა საძიებო სისტემისთვისაა და რა არის ქვემოთ

მომხმარებლის აგენტი: Yandex

ნიშნავს, რომ ეს წესები მხოლოდ Yandex-ისთვისაა.

აკრძალვა
აქ თქვენ „ჩააგდებთ“ სექციებს, რომლებსაც საძიებო სისტემების მიერ ინდექსირება არ სჭირდება. მაგალითად, გვერდზე მაქვს სტატიების დუბლიკატი (განმეორება) რეგულარული სტატიებით და გვერდების დუბლირება უარყოფითად აისახება საძიებო სისტემის პოპულარიზაციაზე, ამიტომ ძალიან სასურველია, რომ ეს სექტორები დაიხუროს ინდექსაციისგან, რაც რას ვაკეთებთ ამ წესის გამოყენებით:

აკრძალვა: / tag

ასე რომ, ზემოთ მოცემულ robots.txt-ში, WordPress საიტის თითქმის ყველა არასაჭირო განყოფილება დახურულია ინდექსაციისგან, ანუ დატოვეთ ყველაფერი ისე, როგორც არის.

მასპინძელი

აქ დავაყენეთ საიტის მთავარი სარკე, რომელზეც ზემოთ ვისაუბრე.

საიტის რუკა

ბოლო ორ სტრიქონში ჩვენ ვაზუსტებთ მდე ორი საიტის რუქის მისამართს, რომლებიც შექმნილია .

შესაძლო პრობლემები

გადადით განყოფილებაში ინდექსირების პარამეტრები –> Robots.txt ანალიზი:

უკვე იქ, დააჭირეთ ღილაკს "Load robots.txt საიტიდან" და შემდეგ დააჭირეთ ღილაკს "შემოწმება":

თუ ხედავთ შემდეგ შეტყობინებას, ეს ნიშნავს, რომ თქვენ გაქვთ სწორი robots.txt Yandex-ისთვის:

თქვენ ასევე შეგიძლიათ დაამატოთ საიტის ნებისმიერი სტატიის მისამართი „URL-ების სიაში“, რათა შეამოწმოთ, კრძალავს თუ არა robots.txt ამ გვერდის ინდექსირებას:

როგორც ხედავთ, ჩვენ ვერ ვხედავთ რაიმე აკრძალვას robots.txt-დან გვერდის ინდექსირებაზე, რაც ნიშნავს, რომ ყველაფერი რიგზეა :).

იმედი მაქვს, აღარ გექნებათ კითხვები, როგორიცაა: როგორ შევადგინოთ robots.txt ან როგორ გავასწოროთ ეს ფაილი. ამ გაკვეთილზე შევეცადე გაჩვენოთ სწორი მაგალითი robots.txt:

Მალე გნახავ!

პ.ს. სულ ახლახან, რა მოხდა საინტერესო? 🙂

საიტის რუკა მნიშვნელოვნად ამარტივებს თქვენი ბლოგის ინდექსირებას. ყველა ვებსაიტს და ბლოგს უნდა ჰქონდეს საიტის რუკა. მაგრამ ასევე ყველა ვებსაიტს და ბლოგს უნდა ჰქონდეს ფაილი რობოტები.ტექსტი. robots.txt ფაილი შეიცავს ინსტრუქციების კომპლექტს საძიებო რობოტებისთვის. შეიძლება ითქვას, რომ ეს არის თქვენს ბლოგზე საძიებო რობოტების ქცევის წესები. ეს ფაილი ასევე შეიცავს გზას თქვენი ბლოგის საიტის რუქისკენ. და, ფაქტობრივად, სწორად შედგენილი robots.txt ფაილით, საძიებო რობოტი არ ხარჯავს ძვირფას დროს საიტის რუქის ძიებასა და არასაჭირო ფაილების ინდექსირებაში.

რა არის robots.txt ფაილი?

robots.txt– ეს არის ტექსტური ფაილი, რომელიც შეიძლება შეიქმნას ჩვეულებრივ „ნოუთში“, რომელიც მდებარეობს თქვენი ბლოგის ძირში და შეიცავს ინსტრუქციებს საძიებო რობოტებისთვის.

ეს ინსტრუქციები ხელს უშლის საძიებო რობოტებს თქვენი ღმერთის ყველა ფაილის შემთხვევით ინდექსირებას და ფოკუსირებულია ზუსტად იმ გვერდების ინდექსირებაზე, რომლებიც უნდა იყოს შეტანილი ძიების შედეგებში.

ამ ფაილის გამოყენებით, თქვენ შეგიძლიათ თავიდან აიცილოთ WordPress ძრავის ფაილების ინდექსირება. ან, ვთქვათ, თქვენი ბლოგის საიდუმლო განყოფილება. თქვენ შეგიძლიათ მიუთითოთ ბლოგის რუკის გზა და თქვენი ბლოგის მთავარი სარკე. აქ ვგულისხმობ თქვენს დომენურ სახელს www-ით და www-ის გარეშე.

საიტის ინდექსირება robots.txt-ით და მის გარეშე

ეს სკრინშოტი ნათლად აჩვენებს, თუ როგორ კრძალავს robots.txt ფაილი საიტზე გარკვეული საქაღალდეების ინდექსირებას. ფაილის გარეშე, თქვენს საიტზე ყველაფერი ხელმისაწვდომია რობოტისთვის.

robots.txt ფაილის ძირითადი დირექტივები

იმისათვის, რომ გაიგოთ ინსტრუქციები, რომლებსაც შეიცავს robots.txt ფაილი, თქვენ უნდა გესმოდეთ ძირითადი ბრძანებები (დირექტივები).

მომხმარებელი-აგენტი- ეს ბრძანება მიუთითებს რობოტის წვდომაზე თქვენს საიტზე. ამ დირექტივის გამოყენებით, თქვენ შეგიძლიათ შექმნათ ინსტრუქციები ინდივიდუალურად თითოეული რობოტისთვის.

მომხმარებლის აგენტი: Yandex – წესები Yandex რობოტისთვის

მომხმარებლის აგენტი: * - წესები ყველა რობოტისთვის

აკრძალვა და დაშვება– აკრძალვისა და ნებართვის დირექტივები. Disallow დირექტივის გამოყენებით, ინდექსირება აკრძალულია, ხოლო Allow საშუალებას იძლევა.

აკრძალვის მაგალითი:

მომხმარებლის აგენტი: *

აკრძალვა: / - აკრძალვა მთელ საიტზე.

მომხმარებლის აგენტი: Yandex

აკრძალვა: /admin – კრძალავს Yandex რობოტს წვდომას ადმინისტრატორის საქაღალდეში მდებარე გვერდებზე.

რეზოლუციის მაგალითი:

მომხმარებლის აგენტი: *

დაშვება: /ფოტო

აკრძალვა: / - აკრძალვა მთელ საიტზე, გარდა ფოტო საქაღალდეში მდებარე გვერდებისა.

Შენიშვნა! აკრძალვის დირექტივა: პარამეტრის გარეშე ყველაფერს იძლევა, და ნებადართული დირექტივა: პარამეტრის გარეშე კრძალავს ყველაფერს. და არ უნდა არსებობდეს Allow დირექტივა Disallow გარეშე.

საიტის რუკა– განსაზღვრავს გზას საიტის რუქისკენ xml ფორმატში.

საიტის რუკა: https://site/sitemap.xml.gz

საიტის რუკა: https://site/sitemap.xml

მასპინძელი– დირექტივა განსაზღვრავს თქვენი ბლოგის მთავარ სარკეს. ითვლება, რომ ეს დირექტივა განკუთვნილია მხოლოდ Yandex რობოტებისთვის. ეს დირექტივა უნდა იყოს მითითებული robots.txt ფაილის ბოლოს.

მომხმარებლის აგენტი: Yandex

აკრძალვა: /wp-includes

მასპინძელი: ვებგვერდი

Შენიშვნა! მთავარი სარკის მისამართი მითითებულია ჰიპერტექსტის გადაცემის პროტოკოლის (http://) მითითების გარეშე.

როგორ შევქმნათ robots.txt

ახლა, როდესაც ჩვენ ვიცნობთ robots.txt ფაილის ძირითად ბრძანებებს, შეგვიძლია დავიწყოთ ჩვენი ფაილის შექმნა. იმისათვის, რომ შექმნათ თქვენი საკუთარი robots.txt ფაილი თქვენი ინდივიდუალური პარამეტრებით, თქვენ უნდა იცოდეთ თქვენი ბლოგის სტრუქტურა.

ჩვენ შევხედავთ სტანდარტული (უნივერსალური) robots.txt ფაილის შექმნას WordPress ბლოგისთვის. თქვენ ყოველთვის შეგიძლიათ დაამატოთ მას თქვენი საკუთარი პარამეტრები.

ასე რომ, დავიწყოთ. ჩვენ დაგვჭირდება რეგულარული "ნოუთაპარი", რომელიც გვხვდება ყველა Windows ოპერაციულ სისტემაში. ან TextEdit MacOS-ზე.

გახსენით ახალი დოკუმენტი და ჩასვით ეს ბრძანებები მასში:

მომხმარებლის აგენტი: * არ დაუშვას: საიტის რუკა: https://site/sitemap.xml.gz საიტის რუკა: https://site/sitemap.xml მომხმარებლის აგენტი: Yandex Disallow: /wp-login.php არ დაუშვას: /wp-register .php აკრძალვა: /cgi-bin აკრძალვა: /wp-admin აკრძალვა: /wp-includes აკრძალვა: /xmlrpc.php აკრძალვა: /wp-content/plugins აკრძალვა: /wp-content/ქეში აკრძალვა: /wp-content/themes აკრძალვა: /wp-content/languages აკრძალვა: /category/*/* აკრძალვა: /trackback აკრძალვა: */trackback აკრძალვა: */*/trackback არ დაუშვას: /tag/ აკრძალვა: /feed/ აკრძალვა: */*/ feed/ */ აკრძალვა: */feed აკრძალვა: */*/feed გამოუშვება: /?feed= არ დაუშვას: /*?* აკრძალვა: /?s= მასპინძელი: საიტი

არ დაგავიწყდეთ საიტის რუქის და მასპინძლის დირექტივების პარამეტრების შეცვლა თქვენით.

Მნიშვნელოვანი! ბრძანებების წერისას მხოლოდ ერთი სივრცეა დაშვებული. დირექტივასა და პარამეტრს შორის. არავითარ შემთხვევაში არ უნდა განათავსოთ სივრცეები პარამეტრის შემდეგ ან უბრალოდ სადმე.

მაგალითი: აკრძალვა:<пробел>/კვება/

ეს მაგალითი robots.txt ფაილი არის უნივერსალური და შეესაბამება ნებისმიერ WordPress ბლოგს CNC URL-ებით. წაიკითხეთ რა არის CNC. თუ არ გაქვთ კონფიგურირებული CNC, გირჩევთ წაშალოთ Disallow: /*?* Disallow: /?s= შემოთავაზებული ფაილიდან

robots.txt ფაილის სერვერზე ატვირთვა

ამ სახის მანიპულაციის საუკეთესო გზაა FTP კავშირი. წაიკითხეთ, თუ როგორ უნდა დააყენოთ FTP კავშირი TotolCommander-ისთვის. ან შეგიძლიათ გამოიყენოთ ფაილების მენეჯერი თქვენს ჰოსტინგზე.

მე გამოვიყენებ FTP კავშირს TotolCommander-ზე.

ქსელი > FTP სერვერთან დაკავშირება.

აირჩიეთ სასურველი კავშირი და დააჭირეთ ღილაკს "დაკავშირება".

გახსენით ბლოგის ფესვი და დააკოპირეთ ჩვენი robots.txt ფაილი F5 კლავიშის დაჭერით.

robots.txt სერვერზე კოპირება

ახლა თქვენი robots.txt ფაილი შეასრულებს თავის შესაბამის ფუნქციებს. მაგრამ მაინც გირჩევთ robots.txt-ის გაანალიზებას, რათა დარწმუნდეთ, რომ შეცდომები არ არის.

ამისათვის თქვენ უნდა შეხვიდეთ თქვენს Yandex ან Google webmaster ანგარიშში. მოდით შევხედოთ Yandex-ის მაგალითს. აქ თქვენ შეგიძლიათ ჩაატაროთ ანალიზი საიტზე თქვენი უფლებების დადასტურების გარეშეც. ყველაფერი რაც თქვენ გჭირდებათ არის Yandex საფოსტო ყუთი.

გახსენით Yandex.webmaster ანგარიში.

ვებმასტერის ანგარიშის მთავარ გვერდზე გახსენით ბმული "Ჩეკირობოტები.ტექსტი".

ანალიზისთვის, თქვენ უნდა შეიყვანოთ თქვენი ბლოგის URL მისამართი და დააწკაპუნოთ " ჩამოტვირთვა რობოტები.txt საიტიდან" ფაილის გადმოტვირთვისთანავე დააჭირეთ ღილაკს "Ჩეკი".

გამაფრთხილებელი ჩანაწერების არარსებობა მიუთითებს, რომ robots.txt ფაილი სწორად შეიქმნა.

შედეგი წარმოდგენილი იქნება ქვემოთ. სადაც ნათელი და გასაგებია, თუ რომელი მასალების ჩვენებაა დაშვებული რობოტების საძიებო სისტემაში და რომელი აკრძალულია.

robots.txt ფაილის ანალიზის შედეგი

აქ შეგიძლიათ შეიტანოთ ცვლილებები robots.txt-ში და ექსპერიმენტი გააკეთოთ, სანამ სასურველ შედეგს არ მიიღებთ. მაგრამ გახსოვდეთ, რომ თქვენს ბლოგზე განთავსებული ფაილი არ იცვლება. ამისათვის თქვენ მოგიწევთ აქ მიღებული შედეგი დააკოპიროთ ნოუთბუქში, შეინახოთ როგორც robots.txt და დააკოპიროთ ბლოგი თქვენთვის.

სხვათა შორის, თუ გაინტერესებთ, როგორ გამოიყურება robots.txt ფაილი ვინმეს ბლოგზე, შეგიძლიათ მარტივად შეხედოთ მას. ამისათვის თქვენ უბრალოდ უნდა დაამატოთ /robots.txt საიტის მისამართს

https://site/robots.txt

ახლა თქვენი robots.txt მზად არის. და გახსოვდეთ, ნუ გადადებთ robots.txt ფაილის შექმნას, თქვენი ბლოგის ინდექსირება მასზე იქნება დამოკიდებული.

თუ გსურთ შექმნათ სწორი robots.txt და ამავე დროს დარწმუნებული იყოთ, რომ საძიებო სისტემის ინდექსში მხოლოდ საჭირო გვერდები იქნება ჩართული, მაშინ ეს შეიძლება გაკეთდეს ავტომატურად მოდულის გამოყენებით.

სულ ეს მაქვს. ყველას წარმატებებს გისურვებთ. თუ თქვენ გაქვთ რაიმე შეკითხვები ან დამატებები, დაწერეთ კომენტარებში.

Მალე გნახავ.

პატივისცემით, მაქსიმ ზაიცევი.

გამოიწერეთ ახალი სტატიები!

ამ სახელმძღვანელოს მიზანია დაეხმაროს ვებ მასტერებსა და ადმინისტრატორებს robots.txt-ის გამოყენებაში.

შესავალი

რობოტის გათავისუფლების სტანდარტი თავის არსში ძალიან მარტივია. მოკლედ ასე მუშაობს:

როდესაც რობოტი, რომელიც მიჰყვება სტანდარტს, ეწვევა საიტს, ის ჯერ ითხოვს ფაილს სახელწოდებით "/robots.txt". თუ ასეთი ფაილი აღმოჩნდება, რობოტი მას ეძებს ინსტრუქციებს, რომლებიც კრძალავს საიტის გარკვეული ნაწილების ინდექსირებას.

სად განვათავსოთ robots.txt ფაილი

რობოტი უბრალოდ ითხოვს URL "/robots.txt" თქვენს საიტზე; საიტი ამ შემთხვევაში არის კონკრეტული ჰოსტი კონკრეტულ პორტზე.

საიტის URL	Robots.txt ფაილის URL
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.org:1234/robots.txt
http://w3.org/	http://w3.org/robots.txt

საიტზე შეიძლება იყოს მხოლოდ ერთი ფაილი "/robots.txt". მაგალითად, თქვენ არ უნდა მოათავსოთ robots.txt ფაილი მომხმარებლის ქვედირექტორიებში - რობოტები მათ იქ მაინც არ ეძებენ. თუ გსურთ, რომ შეძლოთ robots.txt ფაილების შექმნა ქვედირექტორიებში, მაშინ გჭირდებათ გზა მათი პროგრამულად შეგროვების ერთ robots.txt ფაილში, რომელიც მდებარეობს საიტის ძირში. Შეგიძლია გამოიყენო .

გახსოვდეთ, რომ URL-ები არის რეგისტრის მგრძნობიარე და ფაილის სახელი „/robots.txt“ უნდა იყოს დაწერილი მთლიანად მცირე ასოებით.

robots.txt-ის არასწორი მდებარეობა
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt	ფაილი არ არის განთავსებული საიტის ძირში
ftp://ftp.w3.com/robots.txt	რობოტები არ ახდენენ ftp-ის ინდექსირებას
http://www.w3.org/Robots.txt	ფაილის სახელი არ არის პატარა ასოებით

როგორც ხედავთ, robots.txt ფაილი უნდა განთავსდეს ექსკლუზიურად საიტის ძირში.

რა უნდა ჩაწეროთ robots.txt ფაილში

robots.txt ფაილი ჩვეულებრივ შეიცავს რაღაცას:

მომხმარებლის აგენტი: *
აკრძალვა: /cgi-bin/
აკრძალვა: /tmp/
აკრძალვა: /~ჯო/

ამ მაგალითში სამი დირექტორიის ინდექსირება აკრძალულია.

გაითვალისწინეთ, რომ თითოეული დირექტორია ჩამოთვლილია ცალკე ხაზზე - თქვენ არ შეგიძლიათ დაწეროთ "Disallow: /cgi-bin/ /tmp/". თქვენ ასევე არ შეგიძლიათ დაყოთ ერთი Disallow ან User-agent განცხადება რამდენიმე სტრიქონად, რადგან ხაზის წყვეტები გამოიყენება ინსტრუქციების ერთმანეთისგან განცალკევებისთვის.

ასევე არ შეიძლება გამოყენებულ იქნას რეგულარული გამონათქვამები და სიმბოლოები. მომხმარებლის აგენტის ინსტრუქციაში "ვარსკვლავი" (*) ნიშნავს "ნებისმიერ რობოტს". ინსტრუქციები, როგორიცაა „აკრძალვა: *.gif“ ან „მომხმარებლის აგენტი: Ya*“ არ არის მხარდაჭერილი.

robots.txt-ის კონკრეტული ინსტრუქციები დამოკიდებულია თქვენს საიტზე და იმაზე, თუ რა გსურთ თავიდან აიცილოთ ინდექსირება. Აი ზოგიერთი მაგალითი:

დაბლოკეთ მთელი საიტი ყველა რობოტის მიერ ინდექსაციისგან

მომხმარებლის აგენტი: *
აკრძალვა:/

მიეცით საშუალება ყველა რობოტს განახორციელოს მთელი საიტის ინდექსირება

მომხმარებლის აგენტი: *
აკრძალვა:

ან შეგიძლიათ უბრალოდ შექმნათ ცარიელი ფაილი "/robots.txt".

დაბლოკეთ მხოლოდ რამდენიმე დირექტორია ინდექსაციისგან

მომხმარებლის აგენტი: *
აკრძალვა: /cgi-bin/
აკრძალვა: /tmp/
აკრძალვა: /პირადი/

საიტის ინდექსირების თავიდან აცილება მხოლოდ ერთი რობოტისთვის

მომხმარებლის აგენტი: BadBot
აკრძალვა:/

მიეცით საშუალება ერთ რობოტს მოახდინოს საიტის ინდექსირება და უარყოს ყველა დანარჩენი

მომხმარებლის აგენტი: Yandex
აკრძალვა:

მომხმარებლის აგენტი: *
აკრძალვა:/

უარყოთ ყველა ფაილი, გარდა ერთისა, ინდექსაციისგან

ეს საკმაოდ რთულია, რადგან... არ არის განცხადება "ნებადართული". ამის ნაცვლად, თქვენ შეგიძლიათ გადაიტანოთ ყველა ფაილი, გარდა იმისა, რომლის ინდექსირებაც გსურთ ქვედირექტორიაში და თავიდან აიცილოთ მისი ინდექსირება:

მომხმარებლის აგენტი: *
აკრძალვა: /docs/

ან შეგიძლიათ აკრძალოთ ყველა ფაილი, რომელსაც აკრძალულია ინდექსირება:

მომხმარებლის აგენტი: *
აკრძალვა: /private.html
აკრძალვა: /foo.html
აკრძალვა: /bar.html