Korištenje robota txt. Kako urediti robots txt datoteku. Jednostavno kreirajte datoteku za bilo koju tražilicu

Ovaj članak sadrži primjer optimalnog, po mom mišljenju, koda za datoteku robots.txt za WordPress, koju možete koristiti na svojim web stranicama.

Za početak, prisjetimo se zašto vam treba robots.txt- datoteka robots.txt je potrebna isključivo za robote za pretraživanje kako bi im "rekao" koje sekcije/stranice stranice da posjete, a koje ne bi trebali posjetiti. Stranice koje su zatvorene od posjeta neće biti uključene u indeks pretraživača (Yandex, Google, itd.).

Opcija 1: Optimalni robots.txt kod za WordPress

Korisnički agent: * Disallow: /cgi-bin # classic... Disallow: /? # svi parametri upita na glavnoj stranici Disallow: /wp- # svi WP fajlovi: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # pretraga Disallow: /search # search Disallow: /author/ # arhiva autora Disallow: */embed # sve ugradnje Disallow: */page/ # sve vrste paginacije Dozvoli: */uploads # otvori uploads Dozvoli: /*/*.js # unutar /wp - (/*/ - za prioritet) Dozvoli: /*/*.css # unutar /wp- (/*/ - za prioritet) Dozvoli: /wp-*.png # slike u dodacima, keš folderu, itd . Dozvoli: /wp-*.jpg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.jpeg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.gif # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.svg # slike u dodacima, keš folderu, itd. Dozvoli: /wp-*.pdf # datoteke u dodacima, keš folderu, itd. Dozvoli: /wp-admin/admin-ajax.php #Disallow: /wp/ # kada je WP instaliran u poddirektorijumu wp Mapa sajta: http://example.com/sitemap.xml Mapa sajta: http://example.com/ sitemap2.xml # druga datoteka #Sitemap: http://example.com/sitemap.xml.gz # komprimirana verzija (.gz) # Verzija koda: 1.1 # Ne zaboravite promijeniti `site.ru` na svoju web lokaciju.

Analiza koda:

    U redu User-agent: * označavamo da će sva pravila u nastavku raditi za sve robote za pretraživanje *. Ako vam je potrebno da ova pravila rade samo za jednog određenog robota, tada umjesto * navodimo ime robota (Korisnički agent: Yandex, Korisnički agent: Googlebot).

    U redu Dozvoli: */uploads, namjerno dozvoljavamo indeksiranje stranica koje sadrže /uploads. Ovo pravilo je obavezno, jer iznad zabranjujemo indeksiranje stranica koje počinju sa /wp- i /wp- uključeno u /wp-content/uploads. Stoga, da biste poništili Disallow: /wp- pravilo, potrebna vam je linija Allow: */uploads , jer za veze kao što je /wp-content/uploads/... Možda imamo slike koje treba indeksirati, a mogu biti i neke preuzete datoteke koje nema potrebe za skrivanjem. Dozvoli: može biti "prije" ili "poslije" Disallow: .

    Preostale linije zabranjuju robotima da "prate" veze koje počinju sa:

    • Disallow: /cgi-bin - zatvara direktorij skripti na serveru
    • Disallow: /feed - zatvara RSS feed bloga
    • Disallow: /trackback - zatvara obavještenja
    • Disallow: ?s= ili Disallow: *?s= - zatvara stranice za pretraživanje
    • Disallow: */page/ - zatvara sve tipove paginacije
  1. Pravilo za Sitemap: http://example.com/sitemap.xml upućuje robota na datoteku sa mapom stranice u XML formatu. Ako imate takvu datoteku na svojoj web lokaciji, napišite punu putanju do nje. Takvih datoteka može biti nekoliko, a zatim označavamo put do svake od njih posebno.

    U redu Host: site.ru označavamo glavno ogledalo stranice. Ako web-mjesto ima ogledala (kopije web-mjesta na drugim domenima), tada da bi ih Yandex sve jednako indeksirao, morate navesti glavno ogledalo. Direktiva domaćina: samo Yandex razumije, Google ne razumije! Ako web lokacija radi po https protokolu, onda se mora navesti u Host: Host: http://example.com

    Iz Yandex dokumentacije: “Host je nezavisna direktiva i radi bilo gdje u datoteci (presjek).” Stoga ga stavljamo na vrh ili na sam kraj datoteke, kroz prazan red.

Zato što je potrebno prisustvo otvorenih feedova, na primjer, za Yandex Zen, kada trebate povezati web lokaciju s kanalom (zahvaljujući komentatoru “Digital”). Možda su otvoreni izvori potrebni negdje drugdje.

Istovremeno, feedovi imaju svoj format u zaglavljima odgovora, zahvaljujući kojem pretraživači razumiju da ovo nije HTML stranica, već feed i, očito, obrađuju ga nekako drugačije.

Direktiva Host više nije potrebna za Yandex

Yandex potpuno napušta Host direktivu i zamijenio ju je 301 preusmjeravanjem. Host se može sigurno ukloniti iz robots.txt. Međutim, važno je da svi ogledali stranice imaju 301 preusmjeravanje na glavnu stranicu (glavno ogledalo).

Ovo je važno: pravila sortiranja prije obrade

Yandex i Google obrađuju direktive Allow i Disallow ne onim redoslijedom kojim su navedene, već ih prvo sortiraju od kratkog do dugog pravila, a zatim obrađuju posljednje podudarno pravilo:

Korisnički agent: * Dozvoli: */uploads Disallow: /wp-

će se čitati kao:

Korisnički agent: * Disallow: /wp- Dozvoli: */uploads

Da biste brzo razumjeli i primijenili funkciju sortiranja, zapamtite ovo pravilo: „što je duže pravilo u robots.txt, to ima veći prioritet. Ako je dužina pravila ista, onda se prioritet daje direktivi Allow."

Opcija 2: Standardni robots.txt za WordPress

Ne znam zašto, ali ja sam za prvu opciju! Zato što je logičnije - nema potrebe za potpuno dupliranje odeljka da bi se naznačila Host direktiva za Yandex, koja je intersekcijska (razumije je robot bilo gdje u predlošku, bez navođenja na kojeg se robota odnosi). Što se tiče nestandardne direktive Allow, ona radi za Yandex i Google, a ako ne otvori mapu za otpremanje za druge robote koji je ne razumiju, onda u 99% slučajeva to neće značiti ništa opasno. Još nisam primijetio da prvi roboti ne rade kako bi trebali.

Gornji kod je malo netačan. Hvala komentatoru " " što je ukazao na netačnost, iako sam morao sam da shvatim šta je to. I evo šta sam smislio (možda grešim):

    Neki roboti (ne Yandex i Google) ne razumiju više od 2 direktive: User-agent: i Disallow:

  1. Direktiva Yandex Host: mora se koristiti nakon Disallow:, jer je neki roboti (ne Yandex i Google) možda neće razumjeti i općenito odbijaju robots.txt. Sam Yandex, sudeći po dokumentaciji, apsolutno ne mari gdje i kako koristiti Host:, čak i ako generalno kreirate robots.txt sa samo jednom linijom Host: www.site.ru kako biste zalijepili sva ogledala stranice.

3. Sitemap: intersekcijska direktiva za Yandex i Google i očigledno za mnoge druge robote, tako da je napišemo na kraju sa praznim redom i radit će za sve robote odjednom.

Na osnovu ovih izmjena, ispravan kod bi trebao izgledati ovako:

Korisnički agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Dozvoli: /wp-admin/admin-ajax.php Host: site.ru Korisnički agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Dozvoli: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Dodajmo to za sebe

Ako trebate blokirati bilo koje druge stranice ili grupe stranica, možete dodati pravilo (direktivu) ispod Zabraniti:. Na primjer, moramo zatvoriti sve unose u kategoriji iz indeksiranja vijesti, zatim prije Sitemap: dodaj pravilo:

Disallow: /news

To sprječava robote da slijede takve linkove:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Ako trebate zatvoriti bilo koje pojavljivanje /news , onda napišite:

Disallow: */news

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Možete detaljnije proučiti direktive robots.txt na stranici pomoći Yandexa (ali imajte na umu da ne funkcioniraju sva pravila koja su tamo opisana za Google).

Robots.txt provjera i dokumentacija

Da li propisana pravila funkcionišu ispravno možete provjeriti na sljedećim linkovima:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • U Google-u se to radi u Search console. Potrebna vam je autorizacija i prisustvo stranice na webmaster panelu...
  • Usluga za kreiranje datoteke robots.txt: http://pr-cy.ru/robots/
  • Servis za kreiranje i provjeru robots.txt: https://seolib.ru/tools/generate/robots/

Pitao sam Yandex...

Postavio sam pitanje u tehnici. Yandex podrška u vezi sa intersekcionalnom upotrebom direktiva Host i Sitemap:

Pitanje:

Zdravo!
Pišem članak o robots.txt na svom blogu. Želio bih da dobijem odgovor na ovo pitanje (nisam našao jasno "da" u dokumentaciji):

Ako trebam zalijepiti sva ogledala i za to koristim Host direktivu na samom početku datoteke robots.txt:

Host: site.ru Korisnički agent: * Disallow: /asd

Hoće li Host: site.ru ispravno raditi u ovom primjeru? Hoće li robotima ukazati da je site.ru glavno ogledalo? One. Koristim ovu direktivu ne u odeljku, već odvojeno (na početku datoteke) bez navođenja na koji se User-agent odnosi.

Također sam želio znati da li se direktiva Sitemap mora koristiti unutar odjeljka ili se može koristiti izvan: na primjer, kroz prazan red, nakon odjeljka?

Korisnički agent: Yandex Disallow: /asd Korisnički agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml

Hoće li robot razumjeti Sitemap direktivu u ovom primjeru?

Nadam se da ću od vas dobiti odgovor koji će okončati moje sumnje.

odgovor:

Zdravo!

Direktive Host i Sitemap su međusobno povezane, tako da će ih robot koristiti bez obzira na mjesto u datoteci robots.txt gdje su specificirane.

--
S poštovanjem, Platon Shchukin
Yandex usluga podrške

Zaključak

Važno je zapamtiti da će promjene u robots.txt na web-stranici koja već radi biti primjetna tek nakon nekoliko mjeseci (2-3 mjeseca).

Postoje glasine da Google ponekad može zanemariti pravila u robots.txt i uzeti stranicu u indeks ako smatra da je stranica vrlo jedinstvena i korisna i da jednostavno mora biti u indeksu. Međutim, druge glasine pobijaju ovu hipotezu činjenicom da neiskusni optimizatori mogu pogrešno specificirati pravila u robots.txt i tako zatvoriti potrebne stranice od indeksiranja i ostaviti nepotrebne. Skloniji sam drugoj pretpostavci...

Dynamic robots.txt

U WordPress-u se zahtjev za datoteku robots.txt obrađuje zasebno i uopće nije potrebno fizički kreirati robots.txt datoteku u korijenu stranice, štoviše, to se ne preporučuje, jer će ovakvim pristupom biti vrlo je teško za dodatke promijeniti ovu datoteku, a to je ponekad neophodno.

O tome kako funkcionira dinamičko kreiranje robots.txt datoteke pročitajte u opisu funkcije, a u nastavku ću dati primjer kako možete mijenjati sadržaj ove datoteke u hodu, putem kuke.

Da biste to učinili, dodajte sljedeći kod u datoteku functions.php:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "Korisnički agent: *", "Zabraniti: /wp-admin/", "Zabraniti: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // prekinuti PHP rad)

Korisnički agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Puzanje-kašnjenje - vremensko ograničenje za lude robote (ne uzima se u obzir od 2018.)

Yandex

Analizirajući pisma naše podrške u protekle dvije godine u vezi s problemima indeksiranja, otkrili smo da je jedan od glavnih razloga sporog preuzimanja dokumenata pogrešno konfigurisana direktiva o kašnjenju indeksiranja u robots.txt […] Tako da vlasnici stranica više ne Moramo brinuti o ovome i Kako bismo osigurali da se sve zaista potrebne stranice web stranice pojavljuju i brzo ažuriraju u pretraživanju, odlučili smo napustiti direktivu o odlaganju indeksiranja.

Kada Yandex robot skenira stranicu kao lud i to stvara nepotrebno opterećenje na serveru. Možete zamoliti robota da "uspori".

Da biste to učinili, trebate koristiti direktivu Crawl-delay. Označava vrijeme u sekundama koje robot mora u mirovanju (čekati) da skenira svaku narednu stranicu stranice.

Za kompatibilnost sa robotima koji ne prate dobro standard robots.txt, odlaganje indeksiranja mora biti navedeno u grupi (u odjeljku User-Agent) odmah nakon Disallow i Allow

Yandex Robot razumije razlomke vrijednosti, na primjer, 0,5 (pola sekunde). Ovo ne garantuje da će robot za pretraživanje posjećivati ​​vašu stranicu svake pola sekunde, ali vam omogućava da ubrzate indeksiranje stranice.

Korisnički agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Odlaganje indeksiranja: 1,5 # timeout 1,5 sekundi Korisnički agent: * Disallow: /wp-admin Disallow: /wp-includes Dozvoli: /wp-* . gif Kašnjenje puzanja: 2 # timeout 2 sekunde

Google

Googlebot ne razumije direktivu o kašnjenju indeksiranja. Vremensko ograničenje za njegove robote može se odrediti na panelu webmastera.

Na servisu avi1.ru sada možete kupiti SMM promociju na više od 7 najpopularnijih društvenih mreža. Istovremeno, obratite pažnju na prilično nisku cijenu svih usluga web stranice.

vrijeme čitanja: 7 minuta


Skoro svaki projekat koji nam dođe na reviziju ili promociju ima neispravan robots.txt fajl, a često i potpuno nedostaje. To se događa jer se prilikom kreiranja datoteke svi vode svojom maštom, a ne pravilima. Hajde da shvatimo kako pravilno sastaviti ovu datoteku tako da roboti za pretragu efikasno rade s njom.

Zašto trebate konfigurirati robots.txt?

Robots.txt je datoteka koja se nalazi u korijenskom direktoriju stranice i govori robotima tražilice kojim dijelovima i stranicama stranice mogu pristupiti, a kojima ne.

Postavljanje robots.txt je važan dio u rezultatima tražilice; pravilno konfigurirani roboti također povećavaju performanse stranice. Nedostatak Robots.txt neće spriječiti pretraživače da indeksiraju i indeksiraju vašu web lokaciju, ali ako nemate ovu datoteku, možda ćete imati dva problema:

    Robot za pretraživanje će pročitati cijelu stranicu, što će „potkopati“ budžet za pretraživanje. Budžet za indeksiranje je broj stranica koje robot za pretraživanje može indeksirati u određenom vremenskom periodu.

    Bez datoteke robota, pretraživač će imati pristup nacrtima i skrivenim stranicama, stotinama stranica koje se koriste za administriranje CMS-a. Indeksiraće ih, a kada dođe do potrebnih stranica koje pružaju direktan sadržaj za posetioce, budžet za indeksiranje će „ponestati“.

    Indeks može uključivati ​​stranicu za prijavu na web lokaciju i druge administratorske resurse, tako da ih napadač može lako pratiti i izvršiti ddos ​​napad ili hakirati web lokaciju.

Kako roboti za pretraživanje vide web lokaciju sa i bez robots.txt:


Robots.txt sintaksa

Prije nego počnemo razumijevati sintaksu i postavljamo robots.txt, pogledajmo kako bi "idealna datoteka" trebala izgledati:


Ali ne biste ga trebali odmah koristiti. Svaki sajt najčešće zahteva svoja podešavanja, jer svi imamo drugačiju strukturu sajta i drugačiji CMS. Pogledajmo svaku direktivu redom.

Korisnički agent

Korisnički agent - definira robota za pretraživanje koji mora slijediti upute opisane u datoteci. Ako se trebate obratiti svima odjednom, koristite ikonu *. Također možete kontaktirati određenog robota za pretraživanje. Na primjer, Yandex i Google:


Koristeći ovu direktivu, robot razumije koje datoteke i mape je zabranjeno indeksirati. Ako želite da vaša cijela stranica bude otvorena za indeksiranje, ostavite vrijednost Disallow praznu. Da biste sakrili sav sadržaj na stranici nakon Disallow, stavite “/”.

Možemo spriječiti pristup određenom folderu, datoteci ili ekstenziji datoteke. U našem primjeru kontaktiramo sve robote za pretraživanje i blokiramo pristup bitrixu, folderu za pretraživanje i pdf ekstenziji.


Dopustiti

Dozvoli prisiljavanje stranica i odjeljaka web mjesta da budu indeksirani. U gornjem primjeru kontaktiramo Google robota za pretraživanje, blokiramo pristup bitrixu, folderu za pretraživanje i pdf ekstenziji. Ali u bitrix folderu prisiljavamo da otvorimo 3 foldera za indeksiranje: komponente, js, alati.


Host - ogledalo stranice

Zrcalna stranica je duplikat glavne stranice. Ogledala se koriste u razne svrhe: promjenu adrese, sigurnost, smanjenje opterećenja servera itd.

Domaćin je jedno od najvažnijih pravila. Ako se ovo pravilo zapiše, robot će razumjeti koji od ogledala stranice treba uzeti u obzir za indeksiranje. Ova direktiva je neophodna za Yandex i Mail.ru robote. Drugi roboti će zanemariti ovo pravilo. Domaćin je registrovan samo jednom!

Za protokole “https://” i “http://”, sintaksa u datoteci robots.txt bit će drugačija.

Sitemap - mapa stranice

Mapa sajta je oblik navigacije sajtom koji se koristi za informisanje pretraživača o novim stranicama. Koristeći Sitemap direktivu, "prisilno" pokazujemo robotu gdje se mapa nalazi.


Simboli u robots.txt

Simboli koji se koriste u datoteci: “/, *, $, #”.


Provjera funkcionalnosti nakon postavljanja robots.txt

Nakon što postavite Robots.txt na svoju web stranicu, morate ga dodati i provjeriti u Yandex i Google webmasteru.

Yandex provjera:

  1. Pratite ovaj link.
  2. Odaberite: Postavke indeksiranja - Analiza robota.txt.

Google provjera:

  1. Pratite ovaj link.
  2. Odaberite: Scan - Robots.txt alat za pregled datoteke.

Na ovaj način možete provjeriti da li vaš robots.txt ima grešaka i izvršiti potrebna podešavanja ako je potrebno.

  1. Sadržaj datoteke mora biti napisan velikim slovima.
  2. Samo jedna datoteka ili direktorij treba biti specificiran u direktivi Disallow.
  3. Red "Korisnički agent" ne smije biti prazan.
  4. Korisnički agent uvijek treba doći prije Disallow.
  5. Ne zaboravite uključiti kosu crtu ako trebate onemogućiti indeksiranje direktorija.
  6. Prije nego što otpremite datoteku na server, provjerite ima li sintaksičkih i pravopisnih grešaka.

Želim ti uspjeh!

Video pregled 3 metode za kreiranje i prilagođavanje datoteke Robots.txt

Zdravo svima! Danas bih želeo da vam pričam o tome robots.txt fajl. Da, dosta se pisalo o tome na Internetu, ali, da budem iskren, jako dugo nisam mogao shvatiti kako da kreiram ispravan robots.txt. Na kraju sam napravio jednu i nalazi se na svim mojim blogovima. Ne primjećujem nikakve probleme, robots.txt radi sasvim dobro.

Robots.txt za WordPress

Zašto nam je, zapravo, potreban robots.txt? Odgovor je i dalje isti - . Odnosno, kompajliranje robots.txt je jedan od delova optimizacije sajta za pretraživače (usput rečeno, vrlo brzo će biti lekcija koja će biti posvećena celokupnoj internoj optimizaciji sajta na WordPress-u. Stoga nemojte zaboravite da se pretplatite na RSS kako ne biste propustili zanimljive materijale.).

Jedna od funkcija ove datoteke je zabrana indeksiranja nepotrebne web stranice. Također postavlja adresu i navodi glavnu stvar site mirror(stranica sa ili bez www).

Napomena: za pretraživače, ista stranica sa www i bez www su potpuno različite stranice. Ali, shvatajući da je sadržaj ovih sajtova isti, pretraživači ih „lepe“ zajedno. Stoga je važno registrirati glavno ogledalo stranice u robots.txt. Da biste saznali koja je glavna (sa www ili bez www), samo ukucajte adresu svoje stranice u pretraživač, na primjer, sa www, ako ste automatski preusmjereni na istu stranicu bez www, onda glavno ogledalo stranice Vaša stranica je bez www. Nadam se da sam to tačno objasnio.

Bio:

Sada (nakon odlaska na stranicu, www su automatski izbrisani, a stranica je postala bez www):

Dakle, ovaj dragi, po mom mišljenju, ispravan robots.txt za WordPress Možete vidjeti ispod.

Ispravno za WordPress

Korisnički agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Korisnički agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Domaćin: web stranica
Mapa sajta: https://site/sitemap.xml.gz
Mapa sajta: https://site/sitemap.xml

Sve gore navedeno morate kopirati u tekstualni dokument sa ekstenzijom .txt, odnosno tako da ime datoteke bude robots.txt. Ovaj tekstualni dokument možete kreirati, na primjer, pomoću programa. Samo ne zaboravi, molim te promijenite zadnja tri reda adresu na adresu Vaše web stranice. Datoteka robots.txt treba da se nalazi u korenu bloga, odnosno u istom folderu gde se nalaze folderi wp-content, wp-admin itd.

Za one koji su previše lijeni da kreiraju ovu tekstualnu datoteku, možete jednostavno ispraviti 3 reda i tamo.

Želio bih napomenuti da se ne morate previše opterećivati ​​tehničkim dijelovima o kojima će biti riječi u nastavku. Dovodim ih na „znanje“, da tako kažem, opšti pogled, da znaju šta je potrebno i zašto.

Dakle, linija:

Korisnički agent

postavlja pravila za neki pretraživač: na primjer, “*” (zvjezdica) označava da su pravila za sve tražilice, a ono što je ispod

Korisnički agent: Yandex

znači da su ova pravila samo za Yandex.

Disallow
Ovdje „ubacujete“ sekcije koje NE moraju indeksirati pretraživači. Na primjer, na stranici imam duplikat članaka (ponavljanje) sa redovnim člancima, a dupliranje stranica negativno utiče na promociju pretraživača, stoga je vrlo poželjno da se ovi sektori zatvore iz indeksiranja, što je šta radimo koristeći ovo pravilo:

Disallow: /tag

Dakle, u gore navedenom robots.txt-u gotovo svi nepotrebni dijelovi WordPress stranice su zatvoreni od indeksiranja, odnosno ostavite sve kako jeste.

Domaćin

Ovdje postavljamo glavno ogledalo stranice, o čemu sam govorio malo iznad.

Sitemap

U posljednja dva reda navodimo adresu do dva sitemapa kreirana pomoću .

Mogući problemi

Idi na odjeljak Postavke indeksiranja –> Analiza Robots.txt:

Već tamo kliknite na dugme „Učitaj robots.txt sa sajta“, a zatim kliknite na dugme „Proveri“:

Ako vidite nešto poput sljedeće poruke, to znači da imate ispravan robots.txt za Yandex:

Također možete dodati adresu bilo kojeg članka na web stranici na “List URL-ova” da provjerite da li robots.txt zabranjuje indeksiranje ove stranice:

Kao što vidite, ne vidimo nikakvu zabranu indeksiranja stranica iz robots.txt, što znači da je sve u redu :).

Nadam se da nećete imati više pitanja, kao što su: kako sastaviti robots.txt ili kako ispraviti ovu datoteku. U ovoj lekciji pokušao sam da vam pokažem tačno primjer robots.txt:

Vidimo se uskoro!

P.s. Nedavno sam, šta se zanimljivo dogodilo? 🙂

Mapa stranice uvelike pojednostavljuje indeksiranje vašeg bloga. Svaka web stranica i blog moraju imati mapu stranice. Ali isto tako svaka web stranica i blog treba da imaju fajl roboti.poruka. Datoteka robots.txt sadrži skup instrukcija za robote za pretraživanje. Mogli biste reći da su ovo pravila ponašanja za robote za pretraživanje na vašem blogu. Ovaj fajl takođe sadrži putanju do mape sajta vašeg bloga. I, u stvari, sa ispravno sastavljenom datotekom robots.txt, robot za pretraživanje ne gubi dragocjeno vrijeme tražeći mapu web-lokacije i indeksirajući nepotrebne datoteke.

Šta je datoteka robots.txt?

robots.txt– ovo je tekstualni fajl koji se može kreirati u običnoj „beležnici“, koja se nalazi u korenu vašeg bloga, koja sadrži uputstva za robote za pretragu.

Ove upute sprječavaju robote za pretraživanje da nasumično indeksiraju sve datoteke vašeg Boga i fokusiraju se na indeksiranje upravo onih stranica koje bi trebale biti uključene u rezultate pretraživanja.

Koristeći ovu datoteku, možete spriječiti indeksiranje datoteka WordPress motora. Ili, recimo, tajni dio vašeg bloga. Možete odrediti putanju do mape vašeg bloga i glavnog ogledala vašeg bloga. Ovdje mislim na ime vaše domene sa www i bez www.

Indeksiranje stranice sa i bez robots.txt

Ovaj snimak ekrana jasno pokazuje kako datoteka robots.txt zabranjuje indeksiranje određenih fascikli na sajtu. Bez datoteke, robotu je dostupno sve na vašoj web lokaciji.

Osnovne direktive datoteke robots.txt

Da biste razumjeli instrukcije koje sadrži datoteka robots.txt, morate razumjeti osnovne naredbe (direktive).

Korisnički agent– ova komanda označava robotski pristup vašoj web lokaciji. Koristeći ovu direktivu, možete kreirati instrukcije pojedinačno za svakog robota.

Korisnički agent: Yandex – pravila za Yandex robota

Korisnički agent: * - pravila za sve robote

Disallow i Allow– direktive o zabrani i dozvolama. Koristeći Disallow direktivu, indeksiranje je zabranjeno, dok Allow to dozvoljava.

Primjer zabrane:

Korisnički agent: *

Disallow: / - zabrana na cijelom sajtu.

Korisnički agent: Yandex

Disallow: /admin – zabranjuje Yandex robotu da pristupa stranicama koje se nalaze u admin folderu.

Primjer rezolucije:

Korisnički agent: *

Dozvoli: /foto

Disallow: / - zabrana na cijelom sajtu, osim stranica koje se nalaze u folderu fotografija.

Bilješka! direktiva Disallow: bez parametra dozvoljava sve, a direktiva Allow: bez parametra sve zabranjuje. I ne bi trebalo da postoji direktiva Allow bez Disallow.

Sitemap– specificira putanju do mape stranice u xml formatu.

Mapa sajta: https://site/sitemap.xml.gz

Mapa sajta: https://site/sitemap.xml

Domaćin– direktiva definiše glavno ogledalo vašeg bloga. Vjeruje se da je ova direktiva propisana samo za Yandex robote. Ovu direktivu treba navesti na samom kraju datoteke robots.txt.

Korisnički agent: Yandex

Disallow: /wp-includes

Domaćin: web stranica

Bilješka! Glavna adresa ogledala je navedena bez specificiranja protokola za prijenos hiperteksta (http://).

Kako kreirati robots.txt

Sada kada smo upoznati sa osnovnim komandama datoteke robots.txt, možemo početi kreirati našu datoteku. Da biste kreirali sopstvenu datoteku robots.txt sa svojim individualnim postavkama, morate znati strukturu svog bloga.

Pogledaćemo kreiranje standardne (univerzalne) datoteke robots.txt za WordPress blog. Uvijek mu možete dodati vlastita podešavanja.

Pa počnimo. Trebat će nam običan “notepad” koji se nalazi u svakom Windows operativnom sistemu. Ili TextEdit na MacOS-u.

Otvorite novi dokument i zalijepite ove komande u njega:

Korisnički agent: * Disallow: Mapa sajta: https://site/sitemap.xml.gz Mapa sajta: https://site/sitemap.xml Korisnički agent: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages ​​Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: site

Ne zaboravite da zamenite parametre Sitemap i Host direktiva svojim.

Bitan! Prilikom pisanja naredbi dozvoljen je samo jedan razmak. Između direktive i parametra. Ni pod kojim okolnostima ne smijete stavljati razmake nakon parametra ili bilo gdje.

Primjer: Zabraniti:<пробел>/nahrani/

Ovaj primjer datoteke robots.txt je univerzalan i odgovara svakom WordPress blogu sa CNC URL-ovima. Pročitajte šta je CNC. Ako niste konfigurisali CNC, preporučujem da uklonite Disallow: /*?* Disallow: /?s= iz predloženog fajla

Prijenos datoteke robots.txt na server

Najbolji način za ovu vrstu manipulacije je FTP veza. Pročitajte o tome kako postaviti FTP vezu za TotolCommander. Ili možete koristiti upravitelj datoteka na svom hostingu.

Koristit ću FTP vezu na TotolCommanderu.

Mreža > Poveži se na FTP server.

Odaberite željenu vezu i kliknite na dugme "Poveži".

Otvorite korijen bloga i kopirajte našu robots.txt datoteku pritiskom na tipku F5.

Kopiranje robots.txt na server

Sada će vaša datoteka robots.txt obavljati svoje ispravne funkcije. Ali ipak preporučujem analizu robots.txt kako biste bili sigurni da nema grešaka.

Da biste to učinili, morat ćete se prijaviti na svoj Yandex ili Google webmaster račun. Pogledajmo primjer Yandexa. Ovdje možete provesti analizu čak i bez potvrđivanja svojih prava na stranicu. Sve što vam treba je Yandex poštansko sanduče.

Otvorite račun Yandex.webmastera.

Na glavnoj stranici računa webmastera otvorite vezu „Provjeriroboti.poruka".

Za analizu, morat ćete unijeti URL adresu svog bloga i kliknuti na “ Skinuti roboti.txt sa sajta" Čim se datoteka preuzme, kliknite na dugme "Provjeri".

Odsustvo unosa upozorenja ukazuje da je datoteka robots.txt ispravno kreirana.

Rezultat će biti predstavljen u nastavku. Gdje je jasno i razumljivo koji materijali se smiju prikazivati ​​robotima za pretraživanje, a koji su zabranjeni.

Rezultat analize datoteke robots.txt

Ovdje možete unijeti izmjene u robots.txt i eksperimentirati dok ne dobijete željeni rezultat. Ali zapamtite, datoteka koja se nalazi na vašem blogu se ne mijenja. Da biste to učinili, morat ćete kopirati ovdje dobiveni rezultat u notepad, sačuvati ga kao robots.txt i kopirati blog sebi.

Inače, ako se pitate kako izgleda datoteka robots.txt na nečijem blogu, možete je lako pogledati. Da biste to učinili, samo trebate dodati /robots.txt na adresu stranice

https://site/robots.txt

Sada je vaš robots.txt spreman. I zapamtite, nemojte odlagati kreiranje datoteke robots.txt, indeksiranje vašeg bloga ovisit će o tome.

Ako želite da kreirate ispravan robots.txt i da u isto vreme budete sigurni da će samo potrebne stranice biti uključene u indeks pretraživača, onda se to može uraditi automatski pomoću dodatka.

To je sve što imam. Želim vam svima uspjeh. Ako imate bilo kakvih pitanja ili dodataka, pišite u komentarima.

Vidimo se uskoro.

Srdačan pozdrav, Maxim Zaitsev.

Pretplatite se na nove članke!

Svrha ovog vodiča je da pomogne webmasterima i administratorima da koriste robots.txt.

Uvod

Standard izuzeća robota je vrlo jednostavan u svojoj srži. Ukratko, funkcionira ovako:

Kada robot koji slijedi standard posjeti stranicu, on prvo traži datoteku pod nazivom “/robots.txt”. Ako se pronađe takav fajl, Robot ga traži instrukcije koje zabranjuju indeksiranje određenih delova sajta.

Gdje postaviti robots.txt datoteku

Robot jednostavno traži URL “/robots.txt” na vašoj web lokaciji; stranica je u ovom slučaju određeni host na određenom portu.

URL stranice URL datoteke robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Na stranici može postojati samo jedna datoteka “/robots.txt”. Na primjer, ne biste trebali postavljati datoteku robots.txt u korisničke poddirektorije - roboti ih ionako tamo neće tražiti. Ako želite da budete u mogućnosti da kreirate robots.txt datoteke u poddirektorijumima, onda vam je potreban način da ih programski sakupite u jednu datoteku robots.txt koja se nalazi u korenu sajta. Možeš koristiti .

Zapamtite da su URL-ovi osjetljivi na velika i mala slova i naziv datoteke “/robots.txt” mora biti u potpunosti napisan malim slovima.

Pogrešna lokacija robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Datoteka se ne nalazi u korijenu stranice
ftp://ftp.w3.com/robots.txt Roboti ne indeksiraju ftp
http://www.w3.org/Robots.txt Ime datoteke nije napisano malim slovima

Kao što vidite, robots.txt fajl treba da se nalazi isključivo u korenu sajta.

Šta napisati u datoteci robots.txt

Datoteka robots.txt obično sadrži nešto poput:

Korisnički agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

U ovom primjeru je zabranjeno indeksiranje tri direktorija.

Imajte na umu da je svaki direktorij naveden u posebnom redu - ne možete napisati "Disallow: /cgi-bin/ /tmp/". Također ne možete podijeliti jednu naredbu Disallow ili User-agent u nekoliko redaka, jer Prijelomi redova se koriste za odvajanje instrukcija jedna od druge.

Ne mogu se koristiti ni regularni izrazi i zamjenski znakovi. “Zvjezdica” (*) u instrukciji User-agent znači “bilo koji robot”. Instrukcije poput “Disallow: *.gif” ili “User-agent: Ya*” nisu podržane.

Specifične upute u robots.txt zavise od vaše web lokacije i onoga što želite spriječiti da bude indeksirano. Evo nekoliko primjera:

Blokirajte čitavu web lokaciju da je ne indeksiraju svi roboti

Korisnički agent: *
Disallow: /

Dozvolite svim robotima da indeksiraju cijelu stranicu

Korisnički agent: *
Zabraniti:

Ili možete jednostavno kreirati praznu datoteku “/robots.txt”.

Blokirajte indeksiranje samo nekoliko direktorija

Korisnički agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /privatno/

Spriječite indeksiranje stranice samo za jednog robota

Korisnički agent: BadBot
Disallow: /

Dozvolite jednom robotu da indeksira stranicu i odbijte sve ostale

Korisnički agent: Yandex
Zabraniti:

Korisnički agent: *
Disallow: /

Zabranite indeksiranje svih datoteka osim jedne

Ovo je prilično teško, jer... ne postoji izjava “Dozvoli”. Umjesto toga, možete premjestiti sve datoteke osim one kojoj želite dopustiti indeksiranje u poddirektorij i spriječiti da bude indeksirano:

Korisnički agent: *
Disallow: /docs/

Ili možete zabraniti sve datoteke kojima je zabranjeno indeksiranje:

Korisnički agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html