Χρήση ρομπότ txt. Πώς να επεξεργαστείτε το αρχείο txt του robots. Δημιουργήστε εύκολα ένα αρχείο για οποιαδήποτε μηχανή αναζήτησης

Αυτό το άρθρο περιέχει ένα παράδειγμα του βέλτιστου, κατά τη γνώμη μου, κώδικα για το αρχείο robots.txt για WordPress, τον οποίο μπορείτε να χρησιμοποιήσετε στους ιστότοπούς σας.

Για αρχή, ας θυμηθούμε γιατί χρειάζεστε το robots.txt- το αρχείο robots.txt χρειάζεται αποκλειστικά για τα ρομπότ αναζήτησης να τους «λένε» ποιες ενότητες/σελίδες του ιστότοπου να επισκεφτούν και ποιες δεν πρέπει να επισκεφτούν. Οι σελίδες που έχουν κλείσει από επίσκεψη δεν θα περιλαμβάνονται στο ευρετήριο της μηχανής αναζήτησης (Yandex, Google, κ.λπ.).

Επιλογή 1: Βέλτιστος κώδικας robots.txt για WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # όλες οι παράμετροι ερωτήματος στην κύρια σελίδα Απαγόρευση: /wp- # όλα τα αρχεία WP: /wp-json/, /wp-includes, /wp-content/plugins Απαγόρευση: *?s= # αναζήτηση Απαγόρευση: *&s= # αναζήτηση Disallow: /search # search Απαγόρευση: /author/ # αρχείο συγγραφέα Απαγόρευση: */embed # all embeddings Disallow: */page/ # όλοι οι τύποι σελιδοποίησης Επιτρέπονται: */uploads # open uploads Allow: /*/*.js # εντός /wp - (/*/ - για προτεραιότητα) Να επιτρέπεται: /*/*.css # inside /wp- (/*/ - για προτεραιότητα) Να επιτρέπεται: /wp-*.png # εικόνες σε προσθήκες, φάκελος προσωρινής μνήμης κ.λπ. . Να επιτρέπονται: /wp-*.jpg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.jpeg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.gif # εικόνες σε πρόσθετα, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.svg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.pdf # αρχεία σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπεται: /wp-admin/admin-ajax.php #Disallow: /wp/ # όταν το WP είναι εγκατεστημένο στον υποκατάλογο wp Χάρτης ιστότοπου: http://example.com/sitemap.xml Χάρτης ιστότοπου: http://example.com/ sitemap2. xml # άλλο αρχείο #Sitemap: http://example.com/sitemap.xml.gz # συμπιεσμένη έκδοση (.gz) # Έκδοση κώδικα: 1.1 # Μην ξεχάσετε να αλλάξετε το "site.ru" στον ιστότοπό σας.

Ανάλυση κώδικα:

    Στη γραμμή User-agent: * υποδεικνύουμε ότι όλοι οι παρακάτω κανόνες θα λειτουργούν για όλα τα ρομπότ αναζήτησης *. Εάν χρειάζεστε αυτούς τους κανόνες για να λειτουργούν μόνο για ένα συγκεκριμένο ρομπότ, τότε αντί για * υποδεικνύουμε το όνομα του ρομπότ (User-agent: Yandex, User-agent: Googlebot).

    Στη γραμμή Allow: */uploads, επιτρέπουμε σκόπιμα την ευρετηρίαση σελίδων που περιέχουν /uploads. Αυτός ο κανόνας είναι υποχρεωτικός, γιατί παραπάνω, απαγορεύουμε την ευρετηρίαση σελίδων που ξεκινούν με /wp- και /wp-συμπεριλαμβανεται σε /wp-content/uploads. Επομένως, για να παρακάμψετε τον κανόνα Disallow: /wp-, χρειάζεστε τη γραμμή Allow: */uploads , γιατί για συνδέσμους όπως /wp-content/uploads/...Ενδέχεται να έχουμε εικόνες που πρέπει να ευρετηριαστούν και μπορεί επίσης να υπάρχουν κάποια ληφθέντα αρχεία που δεν χρειάζεται να κρύψουμε. Να επιτρέπεται: μπορεί να είναι "πριν" ή "μετά" Απαγόρευση: .

    Οι υπόλοιπες γραμμές απαγορεύουν στα ρομπότ να «ακολουθούν» συνδέσμους που ξεκινούν με:

    • Disallow: /cgi-bin - κλείνει τον κατάλογο σεναρίων στο διακομιστή
    • Disallow: /feed - κλείνει τη ροή RSS του ιστολογίου
    • Disallow: /trackback - κλείνει τις ειδοποιήσεις
    • Disallow: ?s= ή Disallow: *?s= - κλείνει τις σελίδες αναζήτησης
    • Disallow: */page/ - κλείνει όλους τους τύπους σελιδοποίησης
  1. Ο κανόνας του χάρτη ιστότοπου: http://example.com/sitemap.xml οδηγεί το ρομπότ σε ένα αρχείο με χάρτη ιστότοπου σε μορφή XML. Εάν έχετε ένα τέτοιο αρχείο στον ιστότοπό σας, τότε γράψτε την πλήρη διαδρομή προς αυτό. Μπορεί να υπάρχουν πολλά τέτοια αρχεία, τότε υποδεικνύουμε τη διαδρομή προς το καθένα ξεχωριστά.

    Στη γραμμή Host: site.ru υποδεικνύουμε τον κύριο καθρέφτη του ιστότοπου. Εάν ένας ιστότοπος έχει καθρέφτες (αντίγραφα του ιστότοπου σε άλλους τομείς), τότε για να τα ευρετηριάσει όλα εξίσου το Yandex, πρέπει να καθορίσετε τον κύριο καθρέφτη. Οδηγία κεντρικού υπολογιστή: μόνο η Yandex καταλαβαίνει, η Google δεν καταλαβαίνει! Εάν ο ιστότοπος λειτουργεί σύμφωνα με το πρωτόκολλο https, τότε πρέπει να καθοριστεί στο Host: Host: http://example.com

    Από την τεκμηρίωση του Yandex: "Ο κεντρικός υπολογιστής είναι μια ανεξάρτητη οδηγία και λειτουργεί οπουδήποτε στο αρχείο (διατομή)." Επομένως, το βάζουμε στην κορυφή ή στο τέλος του αρχείου, μέσα από μια κενή γραμμή.

Επειδή απαιτείται η παρουσία ανοιχτών ροών, για παράδειγμα, για το Yandex Zen, όταν πρέπει να συνδέσετε έναν ιστότοπο σε ένα κανάλι (χάρη στον σχολιαστή "Digital"). Ίσως χρειάζονται ανοιχτές τροφοδοσίες αλλού.

Ταυτόχρονα, οι ροές έχουν τη δική τους μορφή στις κεφαλίδες απόκρισης, χάρη στις οποίες οι μηχανές αναζήτησης κατανοούν ότι αυτή δεν είναι μια σελίδα HTML, αλλά μια τροφοδοσία και, προφανώς, την επεξεργάζονται κάπως διαφορετικά.

Η οδηγία Host δεν χρειάζεται πλέον για το Yandex

Η Yandex εγκαταλείπει εντελώς την οδηγία Host και την έχει αντικαταστήσει με μια ανακατεύθυνση 301. Ο κεντρικός υπολογιστής μπορεί να αφαιρεθεί με ασφάλεια από το robots.txt. Ωστόσο, είναι σημαντικό όλοι οι καθρέφτες ιστότοπου να έχουν ανακατεύθυνση 301 στον κύριο ιστότοπο (κύριος καθρέφτης).

Αυτό είναι σημαντικό: κανόνες ταξινόμησης πριν από την επεξεργασία

Η Yandex και η Google επεξεργάζονται τις οδηγίες Αποδοχή και Απαγόρευση όχι με τη σειρά με την οποία καθορίζονται, αλλά πρώτα τις ταξινομούν από σύντομο κανόνα σε μεγάλο και στη συνέχεια επεξεργάζονται τον τελευταίο κανόνα αντιστοίχισης:

User-agent: * Allow: */uploads Disallow: /wp-

θα διαβαστεί ως εξής:

User-agent: * Disallow: /wp- Allow: */uploads

Για να κατανοήσετε γρήγορα και να εφαρμόσετε τη δυνατότητα ταξινόμησης, θυμηθείτε αυτόν τον κανόνα: «όσο μεγαλύτερος είναι ο κανόνας στο robots.txt, τόσο μεγαλύτερη προτεραιότητα έχει. Εάν το μήκος των κανόνων είναι το ίδιο, τότε δίνεται προτεραιότητα στην οδηγία Allow».

Επιλογή 2: Τυπικό robots.txt για WordPress

Δεν ξέρω γιατί, αλλά είμαι υπέρ της πρώτης επιλογής! Επειδή είναι πιο λογικό - δεν χρειάζεται να αντιγράψετε εντελώς την ενότητα για να υποδείξετε την οδηγία Host για το Yandex, η οποία είναι διατομεακή (καταλαβαίνεται από το ρομπότ οπουδήποτε στο πρότυπο, χωρίς να υποδεικνύει σε ποιο ρομπότ αναφέρεται). Όσον αφορά την μη τυπική οδηγία Allow, λειτουργεί για Yandex και Google και εάν δεν ανοίξει το φάκελο μεταφορτώσεων για άλλα ρομπότ που δεν την καταλαβαίνουν, τότε στο 99% των περιπτώσεων αυτό δεν συνεπάγεται τίποτα επικίνδυνο. Δεν έχω παρατηρήσει ακόμη ότι τα πρώτα ρομπότ δεν λειτουργούν όπως θα έπρεπε.

Ο παραπάνω κωδικός είναι λίγο λανθασμένος. Ευχαριστώ τον σχολιαστή " " για την επισήμανση της ανακρίβειας, αν και έπρεπε να καταλάβω τι ήταν ο ίδιος. Και αυτό είναι που κατέληξα (μπορεί να κάνω λάθος):

    Ορισμένα ρομπότ (όχι το Yandex και η Google) δεν κατανοούν περισσότερες από 2 οδηγίες: User-agent: και Disallow:

  1. Η οδηγία Yandex Host: πρέπει να χρησιμοποιείται μετά το Disallow:, επειδή ορισμένα ρομπότ (όχι το Yandex και η Google) ενδέχεται να μην την κατανοούν και γενικά να απορρίπτουν το robots.txt. Η ίδια η Yandex, κρίνοντας από την τεκμηρίωση, δεν ενδιαφέρεται καθόλου πού και πώς να χρησιμοποιήσετε το Host:, ακόμα κι αν γενικά δημιουργείτε το robots.txt με μία μόνο γραμμή Host: www.site.ru για να κολλήσετε όλους τους καθρέφτες του ιστότοπου μαζί.

3. Χάρτης ιστότοπου: μια διατομεακή οδηγία για το Yandex και την Google και προφανώς και για πολλά άλλα ρομπότ, οπότε το γράφουμε στο τέλος με μια κενή γραμμή και θα λειτουργήσει για όλα τα ρομπότ ταυτόχρονα.

Με βάση αυτές τις τροπολογίες, ο σωστός κωδικός θα πρέπει να μοιάζει με αυτό:

Πράκτορας χρήστη: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Χάρτης ιστότοπου: http://example.com/sitemap.xml

Ας το προσθέσουμε μόνοι μας

Εάν πρέπει να αποκλείσετε άλλες σελίδες ή ομάδες σελίδων, μπορείτε να προσθέσετε έναν κανόνα (οδηγία) παρακάτω Απαγορεύω:. Για παράδειγμα, πρέπει να κλείσουμε όλες τις καταχωρήσεις σε μια κατηγορία από την ευρετηρίαση Νέα, τότε πριν Χάρτης ιστότοπου:προσθέστε έναν κανόνα:

Απαγόρευση: /ειδήσεις

Εμποδίζει τα ρομπότ να ακολουθούν τέτοιους συνδέσμους:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Εάν πρέπει να κλείσετε τυχόν εμφανίσεις του /news , τότε γράψτε:

Απαγόρευση: */ειδήσεις

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Μπορείτε να μελετήσετε τις οδηγίες του robots.txt με περισσότερες λεπτομέρειες στη σελίδα βοήθειας του Yandex (αλλά να έχετε κατά νου ότι δεν λειτουργούν όλοι οι κανόνες που περιγράφονται εκεί για την Google).

Έλεγχος και τεκμηρίωση του Robots.txt

Μπορείτε να ελέγξετε εάν οι προβλεπόμενοι κανόνες λειτουργούν σωστά χρησιμοποιώντας τους παρακάτω συνδέσμους:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Στο Google αυτό γίνεται στο Κονσόλα αναζήτησης. Χρειάζεστε εξουσιοδότηση και την παρουσία του ιστότοπου στον πίνακα webmaster...
  • Υπηρεσία για τη δημιουργία αρχείου robots.txt: http://pr-cy.ru/robots/
  • Υπηρεσία για τη δημιουργία και τον έλεγχο robots.txt: https://seolib.ru/tools/generate/robots/

Ρώτησα την Yandex...

Έκανα μια ερώτηση στην τεχνολογία. Υποστήριξη Yandex σχετικά με τη διατομεακή χρήση των οδηγιών Host και Sitemap:

Ερώτηση:

Γειά σου!
Γράφω ένα άρθρο για το robots.txt στο ιστολόγιό μου. Θα ήθελα να λάβω μια απάντηση σε αυτήν την ερώτηση (δεν βρήκα ξεκάθαρο "ναι" στην τεκμηρίωση):

Εάν πρέπει να κολλήσω όλους τους καθρέφτες και για αυτό χρησιμοποιώ την οδηγία Host στην αρχή του αρχείου robots.txt:

Κεντρικός υπολογιστής: site.ru Πράκτορας χρήστη: * Απαγόρευση: /asd

Θα λειτουργήσει σωστά το Host: site.ru σε αυτό το παράδειγμα; Θα δείξει στα ρομπότ ότι το site.ru είναι ο κύριος καθρέφτης; Εκείνοι. Χρησιμοποιώ αυτήν την οδηγία όχι σε μια ενότητα, αλλά χωριστά (στην αρχή του αρχείου) χωρίς να υποδεικνύω σε ποιον χρήστη-πράκτορα αναφέρεται.

Ήθελα επίσης να μάθω εάν η οδηγία Χάρτη ιστότοπου πρέπει να χρησιμοποιείται μέσα σε μια ενότητα ή μπορεί να χρησιμοποιηθεί εκτός: για παράδειγμα, μέσω μιας κενή γραμμής, μετά από μια ενότητα;

Πράκτορας χρήστη: Yandex Disallow: /asd User-agent: * Disallow: /asd Χάρτης ιστότοπου: http://example.com/sitemap.xml

Θα κατανοήσει το ρομπότ την οδηγία για τον χάρτη ιστότοπου σε αυτό το παράδειγμα;

Ελπίζω να λάβω μια απάντηση από εσάς που θα βάλει τέλος στις αμφιβολίες μου.

Απάντηση:

Γειά σου!

Οι οδηγίες Host και Sitemap είναι διατομεακές, επομένως θα χρησιμοποιηθούν από το ρομπότ ανεξάρτητα από τη θέση στο αρχείο robots.txt όπου καθορίζονται.

--
Με εκτίμηση, Platon Shchukin
Υπηρεσία υποστήριξης Yandex

συμπέρασμα

Είναι σημαντικό να θυμάστε ότι οι αλλαγές στο robots.txt σε έναν ήδη λειτουργικό ιστότοπο θα είναι ορατές μόνο μετά από αρκετούς μήνες (2-3 μήνες).

Υπάρχουν φήμες ότι η Google μπορεί μερικές φορές να αγνοήσει τους κανόνες στο robots.txt και να εισάγει μια σελίδα στο ευρετήριο, εάν θεωρεί ότι η σελίδα είναι πολύ μοναδική και χρήσιμη και απλώς πρέπει να βρίσκεται στο ευρετήριο. Ωστόσο, άλλες φήμες διαψεύδουν αυτήν την υπόθεση από το γεγονός ότι οι άπειροι βελτιστοποιητές μπορούν να καθορίσουν εσφαλμένα τους κανόνες στο robots.txt και έτσι να κλείσουν τις απαραίτητες σελίδες από την ευρετηρίαση και να αφήσουν περιττές. Τείνω περισσότερο στη δεύτερη υπόθεση...

Dynamic robots.txt

Στο WordPress, το αίτημα για το αρχείο robots.txt επεξεργάζεται ξεχωριστά και δεν είναι καθόλου απαραίτητο να δημιουργηθεί φυσικά ένα αρχείο robots.txt στη ρίζα του ιστότοπου, επιπλέον, αυτό δεν συνιστάται, γιατί με αυτήν την προσέγγιση θα είναι πολύ δύσκολο για τα πρόσθετα να αλλάξουν αυτό το αρχείο και αυτό μερικές φορές είναι απαραίτητο.

Διαβάστε σχετικά με το πώς λειτουργεί η δυναμική δημιουργία ενός αρχείου robots.txt στην περιγραφή της λειτουργίας και παρακάτω θα δώσω ένα παράδειγμα για το πώς μπορείτε να αλλάξετε τα περιεχόμενα αυτού του αρχείου αμέσως, μέσω ενός γάντζου.

Για να το κάνετε αυτό, προσθέστε τον ακόλουθο κώδικα στο αρχείο functions.php:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // τερματισμός της εργασίας PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay - timeout για τρελά ρομπότ (δεν λαμβάνεται υπόψη από το 2018)

Yandex

Έχοντας αναλύσει επιστολές τα τελευταία δύο χρόνια προς την υποστήριξή μας σχετικά με ζητήματα ευρετηρίασης, ανακαλύψαμε ότι ένας από τους κύριους λόγους για την αργή λήψη των εγγράφων είναι μια εσφαλμένα ρυθμισμένη οδηγία καθυστέρησης ανίχνευσης στο robots.txt […] Έτσι ώστε οι ιδιοκτήτες ιστότοπων να μην είναι πλέον πρέπει να ανησυχείτε για αυτό και Για να διασφαλίσουμε ότι όλες οι πραγματικά απαραίτητες σελίδες ιστότοπου εμφανίζονται και ενημερώνονται γρήγορα στην αναζήτηση, αποφασίσαμε να εγκαταλείψουμε την οδηγία για την καθυστέρηση ανίχνευσης.

Όταν το ρομπότ Yandex σαρώνει τον ιστότοπο σαν τρελό και αυτό δημιουργεί περιττό φορτίο στον διακομιστή. Μπορείτε να ζητήσετε από το ρομπότ να «επιβραδύνει».

Για να το κάνετε αυτό, πρέπει να χρησιμοποιήσετε την οδηγία Crawl-Delay. Υποδεικνύει το χρόνο σε δευτερόλεπτα που το ρομπότ πρέπει να παραμείνει σε αδράνεια (αναμονή) για να σαρώσει κάθε επόμενη σελίδα του ιστότοπου.

Για συμβατότητα με ρομπότ που δεν ακολουθούν καλά το τυπικό robots.txt, η καθυστέρηση ανίχνευσης πρέπει να καθοριστεί στην ομάδα (στην ενότητα User-Agent) αμέσως μετά το Disallow and Allow

Το Yandex Robot κατανοεί τις κλασματικές τιμές, για παράδειγμα, 0,5 (μισό δευτερόλεπτο). Αυτό δεν εγγυάται ότι το ρομπότ αναζήτησης θα επισκέπτεται τον ιστότοπό σας κάθε μισό δευτερόλεπτο, αλλά σας επιτρέπει να επιταχύνετε την ανίχνευση του ιστότοπου.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 seconds User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Καθυστέρηση ανίχνευσης: 2 # timeout 2 δευτερόλεπτα

Google

Το Googlebot δεν κατανοεί την οδηγία για την καθυστέρηση ανίχνευσης. Το χρονικό όριο για τα ρομπότ του μπορεί να καθοριστεί στον πίνακα webmaster.

Στην υπηρεσία avi1.ru μπορείτε πλέον να αγοράσετε προώθηση SMM σε περισσότερα από 7 από τα πιο δημοφιλή κοινωνικά δίκτυα. Ταυτόχρονα, δώστε προσοχή στο αρκετά χαμηλό κόστος όλων των υπηρεσιών του ιστότοπου.

Χρόνος διαβασματός: 7 λεπτά


Σχεδόν κάθε έργο που έρχεται σε εμάς για έλεγχο ή προώθηση έχει ένα εσφαλμένο αρχείο robots.txt και συχνά λείπει εντελώς. Αυτό συμβαίνει γιατί κατά τη δημιουργία ενός αρχείου, ο καθένας καθοδηγείται από τη φαντασία του και όχι από τους κανόνες. Ας μάθουμε πώς να συνθέσουμε σωστά αυτό το αρχείο, ώστε τα ρομπότ αναζήτησης να συνεργάζονται αποτελεσματικά μαζί του.

Γιατί χρειάζεται να διαμορφώσετε το robots.txt;

Robots.txtείναι ένα αρχείο που βρίσκεται στον ριζικό κατάλογο ενός ιστότοπου και ενημερώνει τα ρομπότ των μηχανών αναζήτησης σε ποιες ενότητες και σελίδες του ιστότοπου μπορούν να έχουν πρόσβαση και σε ποιες όχι.

Η ρύθμιση του robots.txt είναι ένα σημαντικό μέρος στα αποτελέσματα των μηχανών αναζήτησης· τα σωστά διαμορφωμένα ρομπότ αυξάνουν επίσης την απόδοση του ιστότοπου. Η έλλειψη του Robots.txt δεν θα εμποδίσει τις μηχανές αναζήτησης να ανιχνεύουν και να ευρετηριάζουν τον ιστότοπό σας, αλλά αν δεν έχετε αυτό το αρχείο, ενδέχεται να έχετε δύο προβλήματα:

    Το ρομπότ αναζήτησης θα διαβάσει ολόκληρο τον ιστότοπο, κάτι που θα «υπονομεύσει» τον προϋπολογισμό ανίχνευσης. Ο προϋπολογισμός ανίχνευσης είναι ο αριθμός των σελίδων που μπορεί να ανιχνεύσει ένα ρομπότ αναζήτησης σε μια συγκεκριμένη χρονική περίοδο.

    Χωρίς αρχείο robots, η μηχανή αναζήτησης θα έχει πρόσβαση σε πρόχειρες και κρυφές σελίδες, σε εκατοντάδες σελίδες που χρησιμοποιούνται για τη διαχείριση του CMS. Θα τα ευρετηριάσει και όταν πρόκειται για τις απαραίτητες σελίδες που παρέχουν άμεσο περιεχόμενο στους επισκέπτες, ο προϋπολογισμός ανίχνευσης θα «εξαντληθεί».

    Το ευρετήριο μπορεί να περιλαμβάνει τη σελίδα σύνδεσης του ιστότοπου και άλλους πόρους διαχειριστή, έτσι ώστε ένας εισβολέας να μπορεί εύκολα να τους παρακολουθήσει και να πραγματοποιήσει μια επίθεση ddos ​​ή να παραβιάσει τον ιστότοπο.

Πώς τα ρομπότ αναζήτησης βλέπουν έναν ιστότοπο με και χωρίς robots.txt:


Σύνταξη Robots.txt

Πριν αρχίσουμε να κατανοούμε τη σύνταξη και να ρυθμίσουμε το robots.txt, ας δούμε πώς θα πρέπει να είναι το "ιδανικό αρχείο":


Αλλά δεν πρέπει να το χρησιμοποιήσετε αμέσως. Κάθε ιστότοπος τις περισσότερες φορές απαιτεί τις δικές του ρυθμίσεις, αφού όλοι έχουμε διαφορετική δομή τοποθεσίας και διαφορετικό CMS. Ας δούμε κάθε οδηγία με τη σειρά.

Χρήστης-πράκτορας

User-agent - ορίζει ένα ρομπότ αναζήτησης που πρέπει να ακολουθεί τις οδηγίες που περιγράφονται στο αρχείο. Εάν πρέπει να απευθυνθείτε σε όλους ταυτόχρονα, χρησιμοποιήστε το εικονίδιο *. Μπορείτε επίσης να επικοινωνήσετε με ένα συγκεκριμένο ρομπότ αναζήτησης. Για παράδειγμα, Yandex και Google:


Χρησιμοποιώντας αυτήν την οδηγία, το ρομπότ κατανοεί ποια αρχεία και φακέλους απαγορεύεται να ευρετηριαστούν. Εάν θέλετε ολόκληρος ο ιστότοπός σας να είναι ανοιχτός για δημιουργία ευρετηρίου, αφήστε κενή την τιμή Απαγόρευση. Για να αποκρύψετε όλο το περιεχόμενο στον ιστότοπο μετά την Απαγόρευση, βάλτε "/".

Μπορούμε να αποτρέψουμε την πρόσβαση σε συγκεκριμένο φάκελο, αρχείο ή επέκταση αρχείου. Στο παράδειγμά μας, επικοινωνούμε με όλα τα ρομπότ αναζήτησης και αποκλείουμε την πρόσβαση στο bitrix, στο φάκελο αναζήτησης και στην επέκταση pdf.


Επιτρέπω

Να επιτρέπεται η ευρετηρίαση αναγκαστικών σελίδων και ενοτήτων του ιστότοπου. Στο παραπάνω παράδειγμα, επικοινωνούμε με το ρομπότ αναζήτησης Google, αποκλείουμε την πρόσβαση στο bitrix, στον φάκελο αναζήτησης και στην επέκταση pdf. Αλλά στον φάκελο bitrix ανοίγουμε αναγκαστικά 3 φακέλους για ευρετηρίαση: components, js, tools.


Host - καθρέφτης τοποθεσίας

Ο ιστότοπος mirror είναι διπλότυπο του κύριου ιστότοπου. Οι καθρέφτες χρησιμοποιούνται για διάφορους σκοπούς: αλλαγή διεύθυνσης, ασφάλεια, μείωση του φόρτου του διακομιστή κ.λπ.

Ο οικοδεσπότης είναι ένας από τους πιο σημαντικούς κανόνες. Εάν αυτός ο κανόνας καταγραφεί, το ρομπότ θα καταλάβει ποιοι από τους καθρέφτες του ιστότοπου πρέπει να ληφθούν υπόψη για την ευρετηρίαση. Αυτή η οδηγία είναι απαραίτητη για τα ρομπότ Yandex και Mail.ru. Άλλα ρομπότ θα αγνοήσουν αυτόν τον κανόνα. Ο οικοδεσπότης εγγράφεται μόνο μία φορά!

Για τα πρωτόκολλα "https://" και "http://", η σύνταξη στο αρχείο robots.txt θα είναι διαφορετική.

Χάρτης ιστότοπου - χάρτης τοποθεσίας

Ο χάρτης ιστότοπου είναι μια μορφή πλοήγησης ιστότοπου που χρησιμοποιείται για την ενημέρωση των μηχανών αναζήτησης σχετικά με νέες σελίδες. Χρησιμοποιώντας την οδηγία χάρτη ιστότοπου, δείχνουμε «αναγκαστικά» στο ρομπότ που βρίσκεται ο χάρτης.


Σύμβολα στο robots.txt

Σύμβολα που χρησιμοποιούνται στο αρχείο: "/, *, $, #".


Έλεγχος λειτουργικότητας μετά τη ρύθμιση του robots.txt

Αφού τοποθετήσετε το Robots.txt στον ιστότοπό σας, πρέπει να το προσθέσετε και να το ελέγξετε στο Yandex και στο webmaster της Google.

Έλεγχος Yandex:

  1. Ακολουθήστε αυτόν τον σύνδεσμο.
  2. Επιλέξτε: Ρυθμίσεις ευρετηρίου - Ανάλυση Robots.txt.

Έλεγχος Google:

  1. Ακολουθήστε αυτόν τον σύνδεσμο.
  2. Επιλέξτε: Σάρωση - Εργαλείο επιθεώρησης αρχείων Robots.txt.

Με αυτόν τον τρόπο μπορείτε να ελέγξετε το robots.txt για σφάλματα και να κάνετε τις απαραίτητες προσαρμογές εάν είναι απαραίτητο.

  1. Τα περιεχόμενα του αρχείου πρέπει να είναι γραμμένα με κεφαλαία γράμματα.
  2. Μόνο ένα αρχείο ή κατάλογος πρέπει να καθοριστεί στην οδηγία Απαγόρευση.
  3. Η γραμμή "User-agent" δεν πρέπει να είναι κενή.
  4. Ο χρήστης-πράκτορας πρέπει πάντα να βρίσκεται πριν από την Απαγόρευση.
  5. Μην ξεχάσετε να συμπεριλάβετε μια κάθετο εάν πρέπει να απενεργοποιήσετε την ευρετηρίαση ενός καταλόγου.
  6. Πριν ανεβάσετε ένα αρχείο στον διακομιστή, φροντίστε να το ελέγξετε για συντακτικά και ορθογραφικά λάθη.

Σου εύχομαι επιτυχία!

Ανασκόπηση βίντεο 3 μεθόδων για τη δημιουργία και την προσαρμογή του αρχείου Robots.txt

Γεια σε όλους! Σήμερα θα ήθελα να σας μιλήσω για αρχείο robots.txt. Ναι, έχουν γραφτεί πολλά για αυτό στο Διαδίκτυο, αλλά, για να είμαι ειλικρινής, για πολύ καιρό δεν μπορούσα να καταλάβω πώς να δημιουργήσω το σωστό robots.txt. Κατέληξα να φτιάξω ένα και υπάρχει σε όλα τα blog μου. Δεν παρατηρώ κανένα πρόβλημα, το robots.txt λειτουργεί μια χαρά.

Robots.txt για WordPress

Γιατί, στην πραγματικότητα, χρειάζεστε το robots.txt; Η απάντηση είναι ακόμα η ίδια - . Δηλαδή, η μεταγλώττιση του robots.txt είναι ένα από τα μέρη της βελτιστοποίησης μηχανών αναζήτησης ενός ιστότοπου (παρεμπιπτόντως, πολύ σύντομα θα υπάρξει ένα μάθημα που θα αφιερωθεί σε όλη την εσωτερική βελτιστοποίηση ενός ιστότοπου στο WordPress. Επομένως, μην ξεχάστε να εγγραφείτε στο RSS για να μην χάσετε ενδιαφέρον υλικό.).

Μία από τις λειτουργίες αυτού του αρχείου είναι απαγόρευση ευρετηρίασηςπεριττές ιστοσελίδες. Ορίζει επίσης τη διεύθυνση και δηλώνει το κύριο πράγμα καθρέφτης τοποθεσίας(ιστοσελίδα με ή χωρίς www).

Σημείωση: για τις μηχανές αναζήτησης, ο ίδιος ιστότοπος με www και χωρίς www είναι εντελώς διαφορετικοί ιστότοποι. Όμως, συνειδητοποιώντας ότι το περιεχόμενο αυτών των τοποθεσιών είναι το ίδιο, οι μηχανές αναζήτησης τους «κολλούν» μεταξύ τους. Επομένως, είναι σημαντικό να καταχωρήσετε τον κύριο καθρέφτη του ιστότοπου στο robots.txt. Για να μάθετε ποιος είναι ο κύριος (με www ή χωρίς www), απλώς πληκτρολογήστε τη διεύθυνση του ιστότοπού σας στο πρόγραμμα περιήγησης, για παράδειγμα, με www, εάν ανακατευθυνθείτε αυτόματα στον ίδιο ιστότοπο χωρίς www, τότε ο κύριος καθρέφτης του Ο ιστότοπός σας είναι χωρίς www. Ελπίζω να το εξήγησα σωστά.

Ήταν:

Τώρα (μετά τη μετάβαση στον ιστότοπο, το www διαγράφηκαν αυτόματα και ο ιστότοπος έγινε χωρίς www):

Λοιπόν, αυτό το πολύτιμο, κατά τη γνώμη μου, σωστό robots.txt για WordPressΜπορείτε να δείτε παρακάτω.

Σωστό για WordPress

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes

Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /*?*
Απαγόρευση: /tag

Πράκτορας χρήστη: Yandex
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /*?*
Απαγόρευση: /tag
Διοργανωτής: ιστοσελίδα
Χάρτης ιστότοπου: https://site/sitemap.xml.gz
Χάρτης ιστότοπου: https://site/sitemap.xml

Πρέπει να αντιγράψετε όλα όσα αναφέρονται παραπάνω σε ένα έγγραφο κειμένου με την επέκταση .txt, δηλαδή, έτσι ώστε το όνομα του αρχείου να είναι robots.txt. Μπορείτε να δημιουργήσετε αυτό το έγγραφο κειμένου, για παράδειγμα, χρησιμοποιώντας το πρόγραμμα. Απλά μην ξεχνάς, σε παρακαλώ αλλάξτε τις τρεις τελευταίες γραμμέςδιεύθυνση στη διεύθυνση του ιστότοπού σας. Το αρχείο robots.txt θα πρέπει να βρίσκεται στη ρίζα του ιστολογίου, δηλαδή στον ίδιο φάκελο όπου βρίσκονται οι φάκελοι wp-content, wp-admin κ.λπ.

Για όσους είναι πολύ τεμπέληδες για να δημιουργήσουν αυτό το αρχείο κειμένου, μπορείτε απλώς να διορθώσετε 3 γραμμές και εκεί.

Θα ήθελα να σημειώσω ότι δεν χρειάζεται να επιβαρύνεστε υπερβολικά με τα τεχνικά μέρη που θα συζητηθούν παρακάτω. Τους φέρνω για «γνώση», ας πούμε, μια γενική άποψη, για να ξέρουν τι χρειάζεται και γιατί.

Η γραμμή λοιπόν:

Χρήστης-πράκτορας

ορίζει κανόνες για ορισμένες μηχανές αναζήτησης: για παράδειγμα, το "*" (αστερίσκος) υποδεικνύει ότι οι κανόνες είναι για όλες τις μηχανές αναζήτησης και ό,τι φαίνεται παρακάτω

Πράκτορας χρήστη: Yandex

σημαίνει ότι αυτοί οι κανόνες είναι μόνο για το Yandex.

Απαγορεύω
Εδώ "πετάς" ενότητες που ΔΕΝ χρειάζεται να ευρετηριαστούν από τις μηχανές αναζήτησης. Για παράδειγμα, σε μια σελίδα έχω ένα αντίγραφο άρθρων (επανάληψη) με κανονικά άρθρα και η αντιγραφή σελίδων έχει αρνητικό αντίκτυπο στην προώθηση της μηχανής αναζήτησης, επομένως, είναι πολύ επιθυμητό αυτοί οι τομείς να πρέπει να κλείσουν από την ευρετηρίαση, το οποίο είναι τι κάνουμε χρησιμοποιώντας αυτόν τον κανόνα:

Απαγόρευση: /tag

Έτσι, στο robots.txt που δίνεται παραπάνω, σχεδόν όλες οι περιττές ενότητες ενός ιστότοπου WordPress είναι κλειστές από την ευρετηρίαση, δηλαδή, απλώς αφήστε τα πάντα ως έχουν.

Πλήθος

Εδώ ορίσαμε τον κεντρικό καθρέφτη του ιστότοπου, για τον οποίο μίλησα ακριβώς παραπάνω.

Χάρτης ιστότοπου

Στις δύο τελευταίες γραμμές καθορίζουμε τη διεύθυνση έως και δύο χαρτών ιστότοπου που δημιουργήθηκαν με τη χρήση .

Πιθανά προβλήματα

Μεταβείτε στην ενότητα Ρυθμίσεις ευρετηρίου –> Ανάλυση Robots.txt:

Ήδη εκεί, κάντε κλικ στο κουμπί «Φόρτωση robots.txt από τον ιστότοπο» και, στη συνέχεια, κάντε κλικ στο κουμπί «Έλεγχος»:

Αν δείτε κάτι σαν το ακόλουθο μήνυμα, σημαίνει ότι έχετε το σωστό robots.txt για το Yandex:

Μπορείτε επίσης να προσθέσετε τη διεύθυνση οποιουδήποτε άρθρου στον ιστότοπο στη "Λίστα διευθύνσεων URL" για να ελέγξετε εάν το robots.txt απαγορεύει την ευρετηρίαση αυτής της σελίδας:

Όπως μπορείτε να δείτε, δεν βλέπουμε καμία απαγόρευση στην ευρετηρίαση σελίδων από το robots.txt, πράγμα που σημαίνει ότι όλα είναι εντάξει :).

Ελπίζω να μην έχετε άλλες ερωτήσεις, όπως: πώς να συνθέσετε το robots.txt ή πώς να διορθώσετε αυτό το αρχείο. Σε αυτό το μάθημα προσπάθησα να σας δείξω το σωστό παράδειγμα robots.txt:

Τα λέμε σύντομα!

ΥΣΤΕΡΟΓΡΑΦΟ. Πολύ πρόσφατα, τι ενδιαφέρον συνέβη; 🙂

Ένας χάρτης ιστότοπου απλοποιεί σημαντικά την ευρετηρίαση του ιστολογίου σας. Κάθε ιστότοπος και ιστολόγιο πρέπει να έχει χάρτη τοποθεσίας. Αλλά και κάθε ιστότοπος και blog πρέπει να έχει ένα αρχείο ρομπότ.κείμενο. Το αρχείο robots.txt περιέχει ένα σύνολο οδηγιών για ρομπότ αναζήτησης. Θα μπορούσατε να πείτε ότι αυτοί είναι οι κανόνες συμπεριφοράς για τα ρομπότ αναζήτησης στο ιστολόγιό σας. Αυτό το αρχείο περιέχει επίσης τη διαδρομή προς τον χάρτη ιστότοπου του ιστολογίου σας. Και, στην πραγματικότητα, με ένα σωστά διαμορφωμένο αρχείο robots.txt, το ρομπότ αναζήτησης δεν χάνει πολύτιμο χρόνο αναζητώντας έναν χάρτη ιστότοπου και ευρετηρίαση περιττών αρχείων.

Τι είναι το αρχείο robots.txt;

robots.txt– αυτό είναι ένα αρχείο κειμένου που μπορεί να δημιουργηθεί σε ένα κανονικό «σημειωματάριο», που βρίσκεται στη ρίζα του ιστολογίου σας, που περιέχει οδηγίες για ρομπότ αναζήτησης.

Αυτές οι οδηγίες αποτρέπουν τα ρομπότ αναζήτησης από την τυχαία ευρετηρίαση όλων των αρχείων του θεού σας και εστιάζουν στην ευρετηρίαση ακριβώς εκείνων των σελίδων που θα πρέπει να περιλαμβάνονται στα αποτελέσματα αναζήτησης.

Χρησιμοποιώντας αυτό το αρχείο, μπορείτε να αποτρέψετε την ευρετηρίαση αρχείων μηχανών WordPress. Ή, ας πούμε, το μυστικό τμήμα του ιστολογίου σας. Μπορείτε να καθορίσετε τη διαδρομή προς τον χάρτη του ιστολογίου σας και τον κύριο καθρέφτη του ιστολογίου σας. Εδώ εννοώ το όνομα τομέα σας με www και χωρίς www.

Ευρετηρίαση ιστότοπου με και χωρίς robots.txt

Αυτό το στιγμιότυπο οθόνης δείχνει ξεκάθαρα πώς το αρχείο robots.txt απαγορεύει τη δημιουργία ευρετηρίου ορισμένων φακέλων στον ιστότοπο. Χωρίς αρχείο, όλα στον ιστότοπό σας είναι διαθέσιμα στο ρομπότ.

Βασικές οδηγίες του αρχείου robots.txt

Για να κατανοήσετε τις οδηγίες που περιέχει το αρχείο robots.txt, πρέπει να κατανοήσετε τις βασικές εντολές (οδηγίες).

Χρήστης-πράκτορας– αυτή η εντολή υποδεικνύει πρόσβαση ρομπότ στον ιστότοπό σας. Χρησιμοποιώντας αυτήν την οδηγία, μπορείτε να δημιουργήσετε οδηγίες ξεχωριστά για κάθε ρομπότ.

Χρήστης-πράκτορας: Yandex – κανόνες για το ρομπότ Yandex

Χρήστης-πράκτορας: * - κανόνες για όλα τα ρομπότ

Απαγόρευση και Αποδοχή– οδηγίες απαγόρευσης και αδειοδότησης. Χρησιμοποιώντας την οδηγία Disallow, η δημιουργία ευρετηρίου απαγορεύεται, ενώ το Allow το επιτρέπει.

Παράδειγμα απαγόρευσης:

Πράκτορας χρήστη: *

Απαγόρευση: / - απαγόρευση σε ολόκληρο τον ιστότοπο.

Πράκτορας χρήστη: Yandex

Disallow: /admin – απαγορεύει στο ρομπότ Yandex την πρόσβαση σε σελίδες που βρίσκονται στο φάκελο διαχειριστή.

Παράδειγμα ανάλυσης:

Πράκτορας χρήστη: *

Να επιτρέπεται: /φωτογραφία

Απαγόρευση: / - αποκλεισμός σε ολόκληρο τον ιστότοπο, εκτός από τις σελίδες που βρίσκονται στο φάκελο φωτογραφιών.

Σημείωση! η οδηγία Απαγόρευση: χωρίς παράμετρο επιτρέπει τα πάντα και η οδηγία Αποδοχή: χωρίς παράμετρο απαγορεύει τα πάντα. Και δεν πρέπει να υπάρχει οδηγία Allow χωρίς Disallow.

Χάρτης ιστότοπου– καθορίζει τη διαδρομή προς τον χάρτη τοποθεσίας σε μορφή xml.

Χάρτης ιστότοπου: https://site/sitemap.xml.gz

Χάρτης ιστότοπου: https://site/sitemap.xml

Πλήθος– η οδηγία ορίζει τον κύριο καθρέφτη του ιστολογίου σας. Πιστεύεται ότι αυτή η οδηγία προδιαγράφεται μόνο για ρομπότ Yandex. Αυτή η οδηγία θα πρέπει να προσδιορίζεται στο τέλος του αρχείου robots.txt.

Πράκτορας χρήστη: Yandex

Disallow: /wp-includes

Διοργανωτής: ιστοσελίδα

Σημείωση! Η κύρια διεύθυνση καθρέφτη καθορίζεται χωρίς να προσδιορίζεται το πρωτόκολλο μεταφοράς υπερκειμένου (http://).

Πώς να δημιουργήσετε το robots.txt

Τώρα που είμαστε εξοικειωμένοι με τις βασικές εντολές του αρχείου robots.txt, μπορούμε να ξεκινήσουμε τη δημιουργία του αρχείου μας. Για να δημιουργήσετε το δικό σας αρχείο robots.txt με τις μεμονωμένες ρυθμίσεις σας, πρέπει να γνωρίζετε τη δομή του ιστολογίου σας.

Θα εξετάσουμε τη δημιουργία ενός τυπικού (καθολικού) αρχείου robots.txt για ένα ιστολόγιο WordPress. Μπορείτε πάντα να προσθέσετε τις δικές σας ρυθμίσεις σε αυτό.

Ας ξεκινήσουμε λοιπόν. Θα χρειαστούμε ένα κανονικό «σημειωματάριο», το οποίο βρίσκεται σε κάθε λειτουργικό σύστημα Windows. Ή TextEdit σε MacOS.

Ανοίξτε ένα νέο έγγραφο και επικολλήστε αυτές τις εντολές σε αυτό:

Πράκτορας χρήστη: * Απαγόρευση: Χάρτης ιστότοπου: https://site/sitemap.xml.gz Χάρτης ιστότοπου: https://site/sitemap.xml Πράκτορας χρήστη: Yandex Disallow: /wp-login.php Απαγόρευση: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Απαγόρευση: /wp-content/cache Απαγόρευση: /wp-content/themes Disallow: /wp-content/languages Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site

Μην ξεχάσετε να αντικαταστήσετε τις παραμέτρους των οδηγιών Sitemap και Host με τις δικές σας.

Σπουδαίος! Όταν γράφετε εντολές, επιτρέπεται μόνο ένα διάστημα. Μεταξύ οδηγίας και παραμέτρου. Σε καμία περίπτωση δεν πρέπει να βάζετε κενά μετά από μια παράμετρο ή οπουδήποτε.

Παράδειγμα: Απαγορεύω:<пробел>/ταίζω/

Αυτό το παράδειγμα αρχείου robots.txt είναι καθολικό και ταιριάζει σε οποιοδήποτε ιστολόγιο WordPress με διευθύνσεις URL CNC. Διαβάστε τι είναι το CNC. Εάν δεν έχετε ρυθμίσει τις παραμέτρους του CNC, προτείνω να αφαιρέσετε το Disallow: /*?* Disallow: /?s= από το προτεινόμενο αρχείο

Μεταφόρτωση του αρχείου robots.txt στον διακομιστή

Ο καλύτερος τρόπος για αυτό το είδος χειρισμού είναι μια σύνδεση FTP. Διαβάστε σχετικά με τον τρόπο ρύθμισης μιας σύνδεσης FTP για το TotolCommander. Ή μπορείτε να χρησιμοποιήσετε έναν διαχειριστή αρχείων στη φιλοξενία σας.

Θα χρησιμοποιήσω μια σύνδεση FTP στο TotolCommander.

Δίκτυο > Σύνδεση σε διακομιστή FTP.

Επιλέξτε την επιθυμητή σύνδεση και κάντε κλικ στο κουμπί "Σύνδεση".

Ανοίξτε τη ρίζα του ιστολογίου και αντιγράψτε το αρχείο robots.txt πατώντας το πλήκτρο F5.

Αντιγραφή robots.txt στον διακομιστή

Τώρα το αρχείο robots.txt θα εκτελέσει τις σωστές λειτουργίες του. Ωστόσο, συνιστώ να αναλύσετε το robots.txt για να βεβαιωθείτε ότι δεν υπάρχουν σφάλματα.

Για να το κάνετε αυτό, θα χρειαστεί να συνδεθείτε στον λογαριασμό σας στο Yandex ή στο Google webmaster. Ας δούμε το παράδειγμα του Yandex. Εδώ μπορείτε να κάνετε μια ανάλυση ακόμη και χωρίς να επιβεβαιώσετε τα δικαιώματά σας στον ιστότοπο. Το μόνο που χρειάζεστε είναι ένα γραμματοκιβώτιο Yandex.

Ανοίξτε τον λογαριασμό Yandex.webmaster.

Στην κύρια σελίδα του λογαριασμού του webmaster, ανοίξτε τον σύνδεσμο "Ελεγχοςρομπότ.κείμενο".

Για ανάλυση, θα χρειαστεί να εισαγάγετε τη διεύθυνση URL του ιστολογίου σας και να κάνετε κλικ στο " Κατεβάστε ρομπότ.txt από τον ιστότοπο" Μόλις γίνει λήψη του αρχείου, κάντε κλικ στο κουμπί "Ελεγχος".

Η απουσία προειδοποιητικών καταχωρήσεων υποδεικνύει ότι το αρχείο robots.txt δημιουργήθηκε σωστά.

Το αποτέλεσμα θα παρουσιαστεί παρακάτω. Όπου είναι σαφές και κατανοητό ποια υλικά επιτρέπεται να εμφανίζονται σε ρομπότ αναζήτησης και ποια απαγορεύονται.

Το αποτέλεσμα της ανάλυσης του αρχείου robots.txt

Εδώ μπορείτε να κάνετε αλλαγές στο robots.txt και να πειραματιστείτε μέχρι να έχετε το αποτέλεσμα που θέλετε. Αλλά θυμηθείτε, το αρχείο που βρίσκεται στο ιστολόγιό σας δεν αλλάζει. Για να το κάνετε αυτό, θα χρειαστεί να αντιγράψετε το αποτέλεσμα που λάβατε εδώ σε ένα σημειωματάριο, να το αποθηκεύσετε ως robots.txt και να αντιγράψετε το ιστολόγιο σε εσάς.

Παρεμπιπτόντως, αν αναρωτιέστε πώς είναι το αρχείο robots.txt στο ιστολόγιο κάποιου, μπορείτε εύκολα να το δείτε. Για να το κάνετε αυτό, πρέπει απλώς να προσθέσετε το /robots.txt στη διεύθυνση του ιστότοπου

https://site/robots.txt

Τώρα το robots.txt σας είναι έτοιμο. Και να θυμάστε, μην αναβάλλετε τη δημιουργία του αρχείου robots.txt, η δημιουργία ευρετηρίου του ιστολογίου σας θα εξαρτηθεί από αυτό.

Εάν θέλετε να δημιουργήσετε το σωστό robots.txt και ταυτόχρονα να είστε σίγουροι ότι μόνο οι απαραίτητες σελίδες θα συμπεριληφθούν στο ευρετήριο της μηχανής αναζήτησης, τότε αυτό μπορεί να γίνει αυτόματα χρησιμοποιώντας το πρόσθετο.

Αυτό είναι το μόνο που έχω. Εύχομαι σε όλους επιτυχία. Εάν έχετε οποιεσδήποτε ερωτήσεις ή προσθήκες, γράψτε στα σχόλια.

Τα λέμε σύντομα.

Με εκτίμηση, Maxim Zaitsev.

Εγγραφείτε σε νέα άρθρα!

Ο σκοπός αυτού του οδηγού είναι να βοηθήσει τους webmasters και τους διαχειριστές να χρησιμοποιούν το robots.txt.

Εισαγωγή

Το πρότυπο εξαίρεσης ρομπότ είναι πολύ απλό στον πυρήνα του. Εν ολίγοις, λειτουργεί ως εξής:

Όταν ένα ρομπότ που ακολουθεί το πρότυπο επισκέπτεται έναν ιστότοπο, ζητά πρώτα ένα αρχείο που ονομάζεται "/robots.txt". Εάν βρεθεί ένα τέτοιο αρχείο, το ρομπότ το αναζητά για οδηγίες που απαγορεύουν την ευρετηρίαση ορισμένων τμημάτων του ιστότοπου.

Πού να τοποθετήσετε το αρχείο robots.txt

Το ρομπότ απλώς ζητά τη διεύθυνση URL "/robots.txt" στον ιστότοπό σας· ο ιστότοπος σε αυτήν την περίπτωση είναι ένας συγκεκριμένος κεντρικός υπολογιστής σε μια συγκεκριμένη θύρα.

URL ιστότοπου URL αρχείου Robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Μπορεί να υπάρχει μόνο ένα αρχείο "/robots.txt" στον ιστότοπο. Για παράδειγμα, δεν πρέπει να τοποθετήσετε το αρχείο robots.txt σε υποκαταλόγους χρηστών - τα ρομπότ δεν θα τα αναζητήσουν ούτως ή άλλως εκεί. Εάν θέλετε να μπορείτε να δημιουργήσετε αρχεία robots.txt σε υποκαταλόγους, τότε χρειάζεστε έναν τρόπο να τα συλλέξετε μέσω προγραμματισμού σε ένα μεμονωμένο αρχείο robots.txt που βρίσκεται στη ρίζα του ιστότοπου. Μπορείς να χρησιμοποιήσεις .

Να θυμάστε ότι οι διευθύνσεις URL κάνουν διάκριση πεζών-κεφαλαίων και το όνομα αρχείου "/robots.txt" πρέπει να είναι γραμμένο εξ ολοκλήρου με πεζά.

Λανθασμένη τοποθεσία του robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Το αρχείο δεν βρίσκεται στη ρίζα του ιστότοπου
ftp://ftp.w3.com/robots.txt Τα ρομπότ δεν ευρετηριάζουν ftp
http://www.w3.org/Robots.txt Το όνομα του αρχείου δεν είναι με πεζά

Όπως μπορείτε να δείτε, το αρχείο robots.txt θα πρέπει να τοποθετείται αποκλειστικά στη ρίζα του ιστότοπου.

Τι να γράψετε στο αρχείο robots.txt

Το αρχείο robots.txt συνήθως περιέχει κάτι σαν:

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin/
Απαγόρευση: /tmp/
Απαγόρευση: /~joe/

Σε αυτό το παράδειγμα, η ευρετηρίαση τριών καταλόγων απαγορεύεται.

Σημειώστε ότι κάθε κατάλογος παρατίθεται σε ξεχωριστή γραμμή - δεν μπορείτε να γράψετε "Disallow: /cgi-bin/ /tmp/". Επίσης, δεν μπορείτε να χωρίσετε μια δήλωση Disallow ή User-agent σε πολλές γραμμές, επειδή Οι αλλαγές γραμμής χρησιμοποιούνται για να διαχωριστούν οι οδηγίες μεταξύ τους.

Δεν μπορούν να χρησιμοποιηθούν ούτε κανονικές εκφράσεις και χαρακτήρες μπαλαντέρ. Ο "αστερίσκος" (*) στην εντολή User-agent σημαίνει "οποιοδήποτε ρομπότ". Οδηγίες όπως "Disallow: *.gif" ή "User-agent: Ya*" δεν υποστηρίζονται.

Οι συγκεκριμένες οδηγίες στο robots.txt εξαρτώνται από τον ιστότοπό σας και από το τι θέλετε να αποτρέψετε από την ευρετηρίαση. Να μερικά παραδείγματα:

Αποκλείστε ολόκληρο τον ιστότοπο από τη δημιουργία ευρετηρίου από όλα τα ρομπότ

Πράκτορας χρήστη: *
Απαγόρευση: /

Να επιτρέπεται σε όλα τα ρομπότ να ευρετηριάζουν ολόκληρο τον ιστότοπο

Πράκτορας χρήστη: *
Απαγορεύω:

Ή μπορείτε απλά να δημιουργήσετε ένα κενό αρχείο "/robots.txt".

Αποκλείστε μόνο μερικούς καταλόγους από την ευρετηρίαση

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin/
Απαγόρευση: /tmp/
Απαγόρευση: /ιδιωτικό/

Αποτρέψτε την ευρετηρίαση ιστότοπου μόνο για ένα ρομπότ

Χρήστης-πράκτορας: BadBot
Απαγόρευση: /

Επιτρέψτε σε ένα ρομπότ να ευρετηριάσει τον ιστότοπο και να αρνηθεί όλα τα άλλα

Πράκτορας χρήστη: Yandex
Απαγορεύω:

Πράκτορας χρήστη: *
Απαγόρευση: /

Απορρίψτε όλα τα αρχεία εκτός από ένα από τη δημιουργία ευρετηρίου

Αυτό είναι αρκετά δύσκολο, γιατί... δεν υπάρχει δήλωση «Να επιτρέπεται». Αντίθετα, μπορείτε να μετακινήσετε όλα τα αρχεία εκτός από αυτό που θέλετε να επιτρέψετε την ευρετηρίαση σε έναν υποκατάλογο και να αποτρέψετε την ευρετηρίασή του:

Πράκτορας χρήστη: *
Απαγόρευση: /docs/

Ή μπορείτε να απαγορεύσετε όλα τα αρχεία στα οποία απαγορεύεται η δημιουργία ευρετηρίου:

Πράκτορας χρήστη: *
Απαγόρευση: /private.html
Απαγόρευση: /foo.html
Απαγόρευση: /bar.html