Bruker robots txt. Hvordan redigere robots txt-filen. Lag enkelt en fil for enhver søkemotor

Denne artikkelen inneholder et eksempel på den optimale, etter min mening, koden for robots.txt-filen for WordPress, som du kan bruke på nettsidene dine.

Til å begynne med, la oss huske hvorfor trenger du robots.txt- robots.txt-filen er utelukkende nødvendig for at søkeroboter skal "fortelle" dem hvilke deler/sider på nettstedet de skal besøke og hvilke de ikke bør besøke. Sider som er stengt fra å besøke vil ikke bli inkludert i søkemotorindeksen (Yandex, Google osv.).

Alternativ 1: Optimal robots.txt-kode for WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # alle søkeparametere på hovedsiden Disallow: /wp- # alle WP-filer: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # søk Disallow: /search # search Disallow: /author/ # author archive Disallow: */embed # all embeddings Disallow: */page/ # alle typer paginering Tillat: */uploads # åpne opplastinger Tillat: /*/*.js # innsiden /wp - (/*/ - for prioritet) Tillat: /*/*.css # inne i /wp- (/*/ - for prioritet) Tillat: /wp-*.png # bilder i plugins, cache-mappe osv. . Tillat: /wp-*.jpg # bilder i plugins, cache-mappe osv. Tillat: /wp-*.jpeg # bilder i plugins, cache-mappe osv. Tillat: /wp-*.gif # bilder i plugins, cache-mappe, etc. Tillat: /wp-*.svg # bilder i plugins, cache-mappe osv. Tillat: /wp-*.pdf # filer i plugins, cache-mappe osv. Tillat: /wp-admin/admin-ajax.php #Disallow: /wp/ # når WP er installert i wp-underkatalogen Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2. xml # annen fil #Sitemap: http://example.com/sitemap.xml.gz # komprimert versjon (.gz) # Kodeversjon: 1.1 # Ikke glem å endre `site.ru` til nettstedet ditt.

Kodeanalyse:

    I linjen User-agent: * indikerer vi at alle reglene nedenfor vil fungere for alle søkeroboter *. Hvis du trenger at disse reglene bare skal fungere for én spesifikk robot, angir vi i stedet for * navnet på roboten (brukeragent: Yandex, brukeragent: Googlebot).

    I Tillat: */uploads-linjen tillater vi med hensikt at sider som inneholder /uploads indekseres. Denne regelen er obligatorisk, fordi ovenfor forbyr vi indeksering av sider som begynner med /wp- og /wp- inkludert i /wp-content/uploads. Derfor, for å overstyre Disallow: /wp-regelen, trenger du linjen Tillat: */uploads, fordi for lenker som /wp-content/uploads/... Vi kan ha bilder som må indekseres, og det kan også være noen nedlastede filer som det ikke er nødvendig å skjule. Tillat: kan være "før" eller "etter" Disallow: .

    De resterende linjene forbyr roboter å "følge" lenker som begynner med:

    • Disallow: /cgi-bin - lukker skriptkatalogen på serveren
    • Disallow: /feed - lukker bloggens RSS-feed
    • Disallow: /trackback - lukker varsler
    • Disallow: ?s= eller Disallow: *?s= - lukker søkesider
    • Disallow: */page/ - lukker alle typer paginering
  1. Sitemap-regelen: http://example.com/sitemap.xml peker roboten til en fil med et områdekart i XML-format. Hvis du har en slik fil på nettstedet ditt, skriv hele banen til den. Det kan være flere slike filer, så angir vi banen til hver enkelt separat.

    I linjen Host: site.ru angir vi hovedspeilet til nettstedet. Hvis et nettsted har speil (kopier av nettstedet på andre domener), må du spesifisere hovedspeilet for at Yandex skal indeksere dem alle likt. Vertsdirektiv: bare Yandex forstår, Google forstår ikke! Hvis nettstedet opererer under https-protokollen, må det spesifiseres i Host: Host: http://example.com

    Fra Yandex-dokumentasjon: "Verten er et uavhengig direktiv og fungerer hvor som helst i filen (kryssende)." Derfor legger vi den øverst eller helt på slutten av filen, gjennom en tom linje.

Fordi tilstedeværelsen av åpne feeder er nødvendig, for eksempel for Yandex Zen, når du trenger å koble et nettsted til en kanal (takket være kommentatoren "Digital"). Kanskje trengs åpne feeds andre steder.

Samtidig har feeder sitt eget format i svarhodene, takket være hvilke søkemotorer forstår at dette ikke er en HTML-side, men en feed, og selvfølgelig behandler den på en eller annen måte annerledes.

Vertsdirektivet er ikke lenger nødvendig for Yandex

Yandex forlater fullstendig vertsdirektivet og har erstattet det med en 301-viderekobling. Verten kan trygt fjernes fra robots.txt. Det er imidlertid viktig at alle sidespeil har en 301 omdirigering til hovedsiden (hovedspeil).

Dette er viktig: sorteringsregler før behandling

Yandex og Google behandler Allow and Disallow-direktivene ikke i den rekkefølgen de er spesifisert i, men sorterer dem først fra kort regel til lang, og behandler deretter den siste samsvarsregelen:

User-agent: * Tillat: */uploads Disallow: /wp-

vil bli lest som:

User-agent: * Disallow: /wp- Tillat: */uploads

For raskt å forstå og bruke sorteringsfunksjonen, husk denne regelen: «jo lengre regelen i robots.txt er, jo høyere prioritet har den. Hvis lengden på reglene er den samme, prioriteres Tillat-direktivet."

Alternativ 2: Standard robots.txt for WordPress

Jeg vet ikke hvorfor, men jeg er for det første alternativet! Fordi det er mer logisk - det er ikke nødvendig å duplisere seksjonen fullstendig for å indikere vertsdirektivet for Yandex, som er kryssende (forstått av roboten hvor som helst i malen, uten å indikere hvilken robot den refererer til). Når det gjelder det ikke-standardiserte Tillat-direktivet, fungerer det for Yandex og Google, og hvis det ikke åpner opplastingsmappen for andre roboter som ikke forstår det, vil dette i 99% av tilfellene ikke innebære noe farlig. Jeg har ennå ikke lagt merke til at de første robotene ikke fungerer som de skal.

Koden ovenfor er litt feil. Takk til kommentatoren " " for å påpeke feilen, selv om jeg måtte finne ut hva det var selv. Og dette er hva jeg kom på (kan ta feil):

    Noen roboter (ikke Yandex og Google) forstår ikke mer enn to direktiver: User-agent: og Disallow:

  1. Yandex Host:-direktivet må brukes etter Disallow:, fordi noen roboter (ikke Yandex og Google) kanskje ikke forstår det og generelt avviser robots.txt. Yandex selv, etter dokumentasjonen å dømme, bryr seg absolutt ikke om hvor og hvordan du bruker Host:, selv om du vanligvis lager robots.txt med bare én linje Host: www.site.ru for å lime alle sidespeilene sammen.

3. Sitemap: et skjæringsdirektiv for Yandex og Google og tilsynelatende for mange andre roboter også, så vi skriver det på slutten med en tom linje, og det vil fungere for alle roboter samtidig.

Basert på disse endringene, skal den riktige koden se slik ut:

Brukeragent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Tillat: /wp-admin/admin-ajax.php Vert: site.ru Brukeragent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Tillat: /wp-admin/admin-ajax.php Nettstedkart: http://example.com/sitemap.xml

La oss legge det til for oss selv

Hvis du trenger å blokkere andre sider eller grupper av sider, kan du legge til en regel (direktiv) nedenfor Ikke tillat:. For eksempel må vi lukke alle oppføringer i en kategori fra indeksering nyheter, så før Nettstedkart: legg til en regel:

Disallow: /nyheter

Det forhindrer roboter fra å følge slike lenker:

  • http://example.com/nyheter
  • http://example.com/news/drugoe-nazvanie/

Hvis du trenger å lukke noen forekomster av /news , så skriv:

Disallow: */news

  • http://example.com/nyheter
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Du kan studere robots.txt-direktiver mer detaljert på Yandex-hjelpesiden (men husk at ikke alle reglene som er beskrevet der fungerer for Google).

Robots.txt-sjekk og dokumentasjon

Du kan sjekke om de foreskrevne reglene fungerer som de skal ved å bruke følgende lenker:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Hos Google gjøres dette i Søkekonsoll. Du trenger autorisasjon og tilstedeværelsen av nettstedet i nettredaktørpanelet...
  • Tjeneste for å lage en robots.txt-fil: http://pr-cy.ru/robots/
  • Tjeneste for å opprette og sjekke robots.txt: https://seolib.ru/tools/generate/robots/

Jeg spurte Yandex...

Jeg stilte et spørsmål innen teknologi. Yandex-støtte angående interseksjonell bruk av verts- og nettstedskartdirektivene:

Spørsmål:

Hallo!
Jeg skriver en artikkel om robots.txt på bloggen min. Jeg vil gjerne motta svar på dette spørsmålet (jeg fant ikke et klart "ja" i dokumentasjonen):

Hvis jeg trenger å lime alle speilene og for dette bruker jeg vertsdirektivet helt i begynnelsen av robots.txt-filen:

Vert: site.ru Brukeragent: * Disallow: /asd

Vil Host: site.ru fungere riktig i dette eksemplet? Vil det indikere for roboter at site.ru er hovedspeilet? De. Jeg bruker dette direktivet ikke i en seksjon, men separat (i begynnelsen av filen) uten å angi hvilken User-agent det refererer til.

Jeg ville også vite om Sitemap-direktivet må brukes inne i en seksjon eller kan det brukes utenfor: for eksempel gjennom en tom linje, etter seksjonen?

User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml

Vil roboten forstå Sitemap-direktivet i dette eksemplet?

Jeg håper å få et svar fra deg som vil gjøre slutt på tvilen min.

Svar:

Hallo!

Verts- og Sitemap-direktivene er kryssende, så de vil bli brukt av roboten uavhengig av hvor i robots.txt-filen de er spesifisert.

--
Med vennlig hilsen Platon Shchukin
Yandex støttetjeneste

Konklusjon

Det er viktig å huske at endringer i robots.txt på et nettsted som allerede fungerer, vil først merkes etter flere måneder (2-3 måneder).

Det går rykter om at Google noen ganger kan ignorere reglene i robots.txt og ta en side inn i indeksen hvis den mener at siden er veldig unik og nyttig og den rett og slett må være i indeksen. Andre rykter tilbakeviser imidlertid denne hypotesen ved at uerfarne optimerere feilaktig kan spesifisere reglene i robots.txt og dermed lukke de nødvendige sidene fra indeksering og la unødvendige sider. Jeg er mer tilbøyelig til den andre antagelsen...

Dynamisk robots.txt

I WordPress behandles forespørselen om robots.txt-filen separat, og det er slett ikke nødvendig å fysisk lage en robots.txt-fil i roten av nettstedet, dessuten anbefales ikke dette, fordi med denne tilnærmingen vil det være svært vanskelig for plugins å endre denne filen, og dette er noen ganger nødvendig.

Les om hvordan den dynamiske opprettelsen av en robots.txt-fil fungerer i beskrivelsen av funksjonen, og nedenfor vil jeg gi et eksempel på hvordan du kan endre innholdet i denne filen i farten, gjennom en krok.

For å gjøre dette, legg til følgende kode i functions.php-filen din:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "Bruker-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); dø; // avslutte PHP-arbeid)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay - tidsavbrudd for gale roboter (ikke tatt i betraktning siden 2018)

Yandex

Etter å ha analysert brev de siste to årene til vår støtte angående indekseringsproblemer, fant vi ut at en av hovedårsakene til langsom nedlasting av dokumenter er et feilkonfigurert Crawl-delay-direktiv i robots.txt […] Slik at nettstedeiere ikke lenger må bekymre deg for dette og For å sikre at alle virkelig nødvendige nettsider vises og oppdateres raskt i søk, bestemte vi oss for å forlate Crawl-delay-direktivet.

Når Yandex-roboten skanner nettstedet som en gal og dette skaper unødvendig belastning på serveren. Du kan be roboten om å "sakke farten".

For å gjøre dette må du bruke Crawl-delay-direktivet. Den angir tiden i sekunder som roboten må gå på tomgang (vente) for å skanne hver påfølgende side på nettstedet.

For kompatibilitet med roboter som ikke følger robots.txt-standarden godt, må Crawl-delay spesifiseres i gruppen (i User-Agent-delen) umiddelbart etter Disallow and Allow

Yandex Robot forstår brøkverdier, for eksempel 0,5 (et halvt sekund). Dette garanterer ikke at søkeroboten besøker nettstedet ditt hvert halve sekund, men det lar deg fremskynde gjennomsøkingen av nettstedet.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 sekunder Bruker-agent: * Disallow: /wp-admin Disallow: /wp-includes Tillat: /wp-* . gif Crawl-forsinkelse: 2 # timeout 2 sekunder

Google

Googlebot forstår ikke Crawl-delay-direktivet. Tidsavbruddet for robotene kan spesifiseres i nettredaktørpanelet.

På avi1.ru-tjenesten kan du nå kjøpe SMM-kampanje i mer enn 7 av de mest populære sosiale nettverkene. Vær samtidig oppmerksom på de ganske lave kostnadene for alle nettstedstjenester.

Lesetid: 7 minutt(er)


Nesten hvert prosjekt som kommer til oss for revisjon eller promotering har en feil robots.txt-fil, og ofte mangler den helt. Dette skjer fordi når du lager en fil, blir alle styrt av fantasien deres, og ikke av reglene. La oss finne ut hvordan du komponerer denne filen riktig slik at søkeroboter fungerer effektivt med den.

Hvorfor må du konfigurere robots.txt?

Robots.txt er en fil som ligger i rotkatalogen til et nettsted som forteller søkemotorroboter hvilke deler og sider på nettstedet de har tilgang til og hvilke de ikke kan.

Konfigurering av robots.txt er en viktig del av søkemotorresultater; riktig konfigurerte roboter øker også nettstedets ytelse. Manglende Robots.txt hindrer ikke søkemotorer i å gjennomsøke og indeksere nettstedet ditt, men hvis du ikke har denne filen, kan du ha to problemer:

    Søkeroboten vil lese hele nettstedet, noe som vil "undergrave" gjennomgangsbudsjettet. Gjennomgangsbudsjett er antallet sider som en søkerobot er i stand til å gjennomsøke i løpet av en viss tidsperiode.

    Uten en robotfil vil søkemotoren ha tilgang til utkast og skjulte sider, til hundrevis av sider som brukes til å administrere CMS. Den vil indeksere dem, og når det kommer til de nødvendige sidene som gir direkte innhold for besøkende, vil gjennomgangsbudsjettet "løpe ut".

    Indeksen kan inkludere nettstedets påloggingsside og andre administratorressurser, slik at en angriper enkelt kan spore dem og utføre et ddos-angrep eller hacke nettstedet.

Slik ser søkeroboter et nettsted med og uten robots.txt:


Robots.txt-syntaks

Før vi begynner å forstå syntaksen og sette opp robots.txt, la oss se på hvordan den "ideelle filen" skal se ut:


Men du bør ikke bruke den med en gang. Hvert nettsted krever oftest sine egne innstillinger, siden vi alle har en annen sidestruktur og forskjellig CMS. La oss se på hvert direktiv i rekkefølge.

Bruker agent

User-agent - definerer en søkerobot som må følge instruksjonene beskrevet i filen. Hvis du trenger å henvende deg til alle samtidig, bruk *-ikonet. Du kan også kontakte en bestemt søkerobot. For eksempel, Yandex og Google:


Ved å bruke dette direktivet forstår roboten hvilke filer og mapper det er forbudt å indeksere. Hvis du vil at hele nettstedet ditt skal være åpent for indeksering, lar du Disallow-verdien stå tom. For å skjule alt innhold på nettstedet etter Disallow, legg inn "/".

Vi kan forhindre tilgang til en bestemt mappe, fil eller filtype. I vårt eksempel kontakter vi alle søkeroboter og blokkerer tilgang til bitrix, søkemappe og pdf-utvidelsen.


Tillate

Tillat tvinger sider og deler av nettstedet til å bli indeksert. I eksemplet ovenfor tar vi kontakt med Googles søkerobot, blokkerer tilgang til bitrix, søkemappe og pdf-utvidelsen. Men i bitrix-mappen tvinger vi til å åpne 3 mapper for indeksering: komponenter, js, verktøy.


Vert - sidespeil

Et speilnettsted er et duplikat av hovednettstedet. Speil brukes til en rekke formål: endre adresse, sikkerhet, redusere belastningen på serveren, etc.

Vert er en av de viktigste reglene. Hvis denne regelen er skrevet ned, vil roboten forstå hvilke av nettstedets speil som bør tas i betraktning for indeksering. Dette direktivet er nødvendig for Yandex- og Mail.ru-roboter. Andre roboter vil ignorere denne regelen. Verten er kun registrert én gang!

For «https://»- og «http://»-protokollene vil syntaksen i robots.txt-filen være forskjellig.

Sitemap - nettstedskart

Et nettstedskart er en form for nettstednavigering som brukes til å informere søkemotorer om nye sider. Ved å bruke sitemap-direktivet viser vi "tvangs" roboten hvor kartet er plassert.


Symboler i robots.txt

Symboler brukt i filen: "/, *, $, #".


Kontrollerer funksjonalitet etter oppsett av robots.txt

Etter at du har plassert Robots.txt på nettstedet ditt, må du legge til og sjekke det i Yandex og Googles webmaster.

Yandex-sjekk:

  1. Følg denne linken.
  2. Velg: Indekseringsinnstillinger - Robots.txt-analyse.

Google-sjekk:

  1. Følg denne linken.
  2. Velg: Scan - Robots.txt filinspeksjonsverktøy.

På denne måten kan du sjekke robots.txt for feil og gjøre de nødvendige justeringene om nødvendig.

  1. Innholdet i filen skal skrives med store bokstaver.
  2. Bare én fil eller katalog må spesifiseres i Disallow-direktivet.
  3. Linjen "Brukeragent" må ikke være tom.
  4. User-agent bør alltid komme før Disallow.
  5. Ikke glem å inkludere en skråstrek hvis du trenger å deaktivere indeksering av en katalog.
  6. Før du laster opp en fil til serveren, sørg for å sjekke den for syntaks- og stavefeil.

Jeg ønsker deg suksess!

Videogjennomgang av 3 metoder for å lage og tilpasse Robots.txt-filen

Hei alle sammen! I dag vil jeg gjerne fortelle deg om robots.txt-fil. Ja, det har blitt skrevet mye om det på Internett, men for å være ærlig kunne jeg i veldig lang tid selv ikke forstå hvordan jeg skulle lage riktig robots.txt. Jeg endte opp med å lage en og den er på alle bloggene mine. Jeg merker ingen problemer, robots.txt fungerer helt fint.

Robots.txt for WordPress

Hvorfor trenger du egentlig robots.txt? Svaret er fortsatt det samme - . Det vil si at kompilering av robots.txt er en av delene av søkemotoroptimalisering av et nettsted (forresten, veldig snart vil det være en leksjon som vil bli viet til all intern optimalisering av et nettsted på WordPress. Derfor, ikke glem å abonnere på RSS for ikke å gå glipp av interessant materiale.).

En av funksjonene til denne filen er indekseringsforbud unødvendige nettsider. Den setter også adressen og oppgir det viktigste sidespeil(side med eller uten www).

Merk: for søkemotorer er det samme nettstedet med www og uten www helt forskjellige nettsteder. Men når de innser at innholdet på disse nettstedene er det samme, "limer" søkemotorer dem sammen. Derfor er det viktig å registrere hovedspeilet til nettstedet i robots.txt. For å finne ut hvilken som er den viktigste (med www eller uten www), skriv inn adressen til nettstedet ditt i nettleseren, for eksempel med www, hvis du automatisk blir omdirigert til samme nettsted uten www, så er hovedspeilet til nettstedet ditt er uten www. Jeg håper jeg forklarte det riktig.

Var:

Nå (etter å ha gått til nettstedet, ble www automatisk slettet, og siden ble uten www):

Så denne dyrebare, etter min mening, riktig robots.txt for WordPress Du kan se nedenfor.

Riktig for WordPress

Bruker agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes

Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Brukeragent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Vert: nettsted
Nettstedkart: https://site/sitemap.xml.gz
Nettstedkart: https://site/sitemap.xml

Du må kopiere alt gitt ovenfor til et tekstdokument med filtypen .txt, det vil si slik at filnavnet er robots.txt. Du kan lage dette tekstdokumentet, for eksempel ved hjelp av programmet. Bare ikke glem, vær så snill endre de tre siste linjene adresse til adressen til nettstedet ditt. Robots.txt-filen skal ligge i roten til bloggen, det vil si i samme mappe som mappene wp-content, wp-admin osv. er plassert.

For de som er for late til å lage denne tekstfilen, kan du rett og slett rette 3 linjer der også.

Jeg vil merke at du ikke trenger å overbelaste deg selv med de tekniske delene som vil bli diskutert nedenfor. Jeg tar dem med for "kunnskap", for å si det sånn, et generelt syn, slik at de vet hva som trengs og hvorfor.

Så linjen:

Bruker agent

setter regler for noen søkemotorer: for eksempel "*" (stjerne) indikerer at reglene er for alle søkemotorer, og det som står nedenfor

Brukeragent: Yandex

betyr at disse reglene kun er for Yandex.

Ikke tillat
Her "slenger du inn" seksjoner som IKKE trenger å bli indeksert av søkemotorer. For eksempel, på en side har jeg et duplikat av artikler (repetisjon) med vanlige artikler, og duplisering av sider har en negativ innvirkning på søkemotorpromotering, derfor er det svært ønskelig at disse sektorene må stenges fra indeksering, som er hva vi gjør med denne regelen:

Disallow: /tag

Så, i robots.txt gitt ovenfor, er nesten alle unødvendige deler av et WordPress-nettsted stengt fra indeksering, det vil si bare la alt være som det er.

Vert

Her setter vi hovedspeilet til nettstedet, som jeg snakket om rett ovenfor.

Sitemap

På de to siste linjene spesifiserer vi adressen til opptil to nettstedskart opprettet ved hjelp av .

Mulige problemer

Gå til delen Indekseringsinnstillinger –> Robots.txt-analyse:

Allerede der, klikk på "Last inn robots.txt fra nettstedet"-knappen, og klikk deretter på "Sjekk"-knappen:

Hvis du ser noe sånt som følgende melding, betyr det at du har riktig robots.txt for Yandex:

Du kan også legge til adressen til en hvilken som helst artikkel på nettstedet i "Liste over nettadresser" for å sjekke om robots.txt forbyr indeksering av denne siden:

Som du kan se, ser vi ikke noe forbud mot sideindeksering fra robots.txt, noe som betyr at alt er i orden :).

Jeg håper du ikke har flere spørsmål, for eksempel: hvordan komponerer du robots.txt eller hvordan du gjør denne filen riktig. I denne leksjonen prøvde jeg å vise deg det riktige eksempel robots.txt:

Ser deg snart!

P.s. Ganske nylig jeg, hva interessant skjedde? 🙂

Et nettstedskart forenkler i stor grad indekseringen av bloggen din. Hver nettside og blogg må ha et nettstedskart. Men også hver nettside og blogg bør ha en fil roboter.tekst. Robots.txt-filen inneholder et sett med instruksjoner for søkeroboter. Du kan si at dette er oppførselsreglene for søkeroboter på bloggen din. Denne filen inneholder også banen til nettstedskartet til bloggen din. Og faktisk, med en riktig sammensatt robots.txt-fil, kaster ikke søkeroboten bort dyrebar tid på å søke etter et områdekart og indeksere unødvendige filer.

Hva er robots.txt-filen?

robots.txt– dette er en tekstfil som kan opprettes i en vanlig "notisblokk", som ligger i roten av bloggen din, og inneholder instruksjoner for søkeroboter.

Disse instruksjonene forhindrer søkeroboter i å tilfeldig indeksere alle dine guds filer, og fokuserer på å indeksere akkurat de sidene som bør inkluderes i søkeresultatene.

Ved å bruke denne filen kan du forhindre indeksering av WordPress-motorfiler. Eller for eksempel den hemmelige delen av bloggen din. Du kan spesifisere banen til bloggkartet og hovedspeilet til bloggen din. Her mener jeg ditt domenenavn med www og uten www.

Nettstedindeksering med og uten robots.txt

Dette skjermbildet viser tydelig hvordan robots.txt-filen forbyr indeksering av visse mapper på nettstedet. Uten en fil er alt på nettstedet ditt tilgjengelig for roboten.

Grunnleggende retningslinjer for robots.txt-filen

For å forstå instruksjonene som robots.txt-filen inneholder, må du forstå de grunnleggende kommandoene (direktivene).

Bruker agent– denne kommandoen indikerer robottilgang til nettstedet ditt. Ved å bruke dette direktivet kan du lage instruksjoner individuelt for hver robot.

Brukeragent: Yandex – regler for Yandex-roboten

User-agent: * - regler for alle roboter

Ikke tillat og Tillat– forbuds- og tillatelsesdirektiver. Ved å bruke Disallow-direktivet er indeksering forbudt, mens Tillat tillater det.

Eksempel på forbud:

Bruker agent: *

Disallow: / - forbud mot hele nettstedet.

Brukeragent: Yandex

Disallow: /admin – forbyr Yandex-roboten å få tilgang til sider som ligger i admin-mappen.

Eksempel på oppløsning:

Bruker agent: *

Tillat: /foto

Disallow: / - forbud mot hele nettstedet, bortsett fra sider som ligger i fotomappen.

Merk! Disallow-direktivet: uten en parameter tillater alt, og Tillat-direktivet: uten en parameter forbyr alt. Og det skal ikke være et Tillat-direktiv uten Disallow.

Sitemap– spesifiserer banen til nettstedskartet i xml-format.

Nettstedkart: https://site/sitemap.xml.gz

Nettstedkart: https://site/sitemap.xml

Vert– Direktivet definerer hovedspeilet til bloggen din. Det antas at dette direktivet kun er foreskrevet for Yandex-roboter. Dette direktivet bør spesifiseres helt på slutten av robots.txt-filen.

Brukeragent: Yandex

Disallow: /wp-includes

Vert: nettsted

Merk! Hovedspeiladressen er spesifisert uten å spesifisere hypertekstoverføringsprotokollen (http://).

Hvordan lage robots.txt

Nå som vi er kjent med de grunnleggende kommandoene til robots.txt-filen, kan vi begynne å lage filen vår. For å lage din egen robots.txt-fil med dine individuelle innstillinger, må du kjenne strukturen til bloggen din.

Vi skal se på å lage en standard (universell) robots.txt-fil for en WordPress-blogg. Du kan alltid legge til dine egne innstillinger.

Så la oss komme i gang. Vi trenger en vanlig "notisblokk", som finnes i alle Windows-operativsystemer. Eller TextEdit på MacOS.

Åpne et nytt dokument og lim inn disse kommandoene i det:

User-agent: * Disallow: Sitemap: https://site/sitemap.xml.gz Sitemap: https://site/sitemap.xml User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages ​​​​Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Vert: nettsted

Ikke glem å erstatte parameterne i nettkart- og vertsdirektivene med dine egne.

Viktig! Når du skriver kommandoer, er bare ett mellomrom tillatt. Mellom direktiv og parameter. Under ingen omstendigheter bør du sette mellomrom etter en parameter eller bare hvor som helst.

Eksempel: Ikke tillat:<пробел>/mate/

Denne robots.txt-eksempelfilen er universell og passer til enhver WordPress-blogg med CNC-URLer. Les om hva CNC er. Hvis du ikke har konfigurert CNC, anbefaler jeg å fjerne Disallow: /*?* Disallow: /?s= fra den foreslåtte filen

Laster opp robots.txt-filen til serveren

Den beste måten for denne typen manipulasjon er en FTP-tilkobling. Les om hvordan du setter opp en FTP-tilkobling for TotolCommander. Eller du kan bruke en filbehandler på hostingen din.

Jeg vil bruke en FTP-tilkobling på TotolCommander.

Nettverk > Koble til FTP-server.

Velg ønsket tilkobling og klikk på "Koble til"-knappen.

Åpne roten til bloggen og kopier robots.txt-filen vår ved å trykke på F5-tasten.

Kopierer robots.txt til serveren

Nå vil robots.txt-filen utføre sine riktige funksjoner. Men jeg anbefaler likevel å analysere robots.txt for å sikre at det ikke er noen feil.

For å gjøre dette, må du logge på din Yandex- eller Google-nettredaktørkonto. La oss se på eksemplet med Yandex. Her kan du gjennomføre en analyse selv uten å bekrefte rettighetene dine til siden. Alt du trenger er en Yandex-postkasse.

Åpne Yandex.webmaster-kontoen.

Åpne koblingen på hovedsiden til nettredaktørens konto "Kryss avroboter.tekst".

For å analysere må du skrive inn URL-adressen til bloggen din og klikke på " nedlasting roboter.txt fra nettstedet" Så snart filen er lastet ned, klikk på knappen "Kryss av".

Fraværet av advarselsoppføringer indikerer at robots.txt-filen ble opprettet på riktig måte.

Resultatet vil bli presentert nedenfor. Hvor det er tydelig og forståelig hvilke materialer som er tillatt å vises til søkeroboter og hvilke som er forbudt.

Resultatet av å analysere robots.txt-filen

Her kan du gjøre endringer i robots.txt og eksperimentere til du får det resultatet du ønsker. Men husk at filen på bloggen din ikke endres. For å gjøre dette må du kopiere resultatet som er oppnådd her til en notisblokk, lagre det som robots.txt og kopiere bloggen til deg.

Forresten, hvis du lurer på hvordan robots.txt-filen ser ut på noens blogg, kan du enkelt se på den. For å gjøre dette trenger du bare å legge til /robots.txt til nettstedsadressen

https://site/robots.txt

Nå er robots.txt klar. Og husk, ikke utsett å lage robots.txt-filen, indekseringen av bloggen din vil avhenge av den.

Hvis du ønsker å lage riktig robots.txt og samtidig være sikker på at kun de nødvendige sidene blir inkludert i søkemotorindeksen, så kan dette gjøres automatisk ved hjelp av plugin.

Det er alt jeg har. Jeg ønsker deg all suksess. Hvis du har spørsmål eller tillegg, skriv i kommentarfeltet.

Ser deg snart.

Med vennlig hilsen, Maxim Zaitsev.

Abonner på nye artikler!

Hensikten med denne veiledningen er å hjelpe nettredaktører og administratorer med å bruke robots.txt.

Introduksjon

Robotfritaksstandarden er veldig enkel i kjernen. Kort fortalt fungerer det slik:

Når en robot som følger standarden besøker et nettsted, ber den først om en fil kalt «/robots.txt». Hvis en slik fil blir funnet, søker roboten etter instruksjoner som forbyr indeksering av visse deler av nettstedet.

Hvor skal robots.txt-filen plasseres

Roboten ber ganske enkelt om nettadressen "/robots.txt" på nettstedet ditt; nettstedet er i dette tilfellet en spesifikk vert på en bestemt port.

Nettstedets URL Robots.txt-filens URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Det kan bare være én fil "/robots.txt" på nettstedet. Du bør for eksempel ikke plassere robots.txt-filen i brukerunderkataloger - roboter vil uansett ikke lete etter dem der. Hvis du vil kunne lage robots.txt-filer i underkataloger, trenger du en måte å programmatisk samle dem inn i en enkelt robots.txt-fil som ligger ved roten av nettstedet. Du kan bruke .

Husk at URL-er skiller mellom store og små bokstaver, og filnavnet "/robots.txt" må skrives helt med små bokstaver.

Feil plassering av robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Filen er ikke plassert i roten av nettstedet
ftp://ftp.w3.com/robots.txt Roboter indekserer ikke ftp
http://www.w3.org/Robots.txt Filnavnet er ikke med små bokstaver

Som du kan se, bør robots.txt-filen plasseres utelukkende ved roten av nettstedet.

Hva du skal skrive i robots.txt-filen

Robots.txt-filen inneholder vanligvis noe sånt som:

Bruker agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

I dette eksemplet er indeksering av tre kataloger forbudt.

Merk at hver katalog er oppført på en egen linje - du kan ikke skrive "Disallow: /cgi-bin/ /tmp/". Du kan heller ikke dele en Disallow- eller User-agent-setning i flere linjer, fordi Linjeskift brukes til å skille instruksjoner fra hverandre.

Vanlige uttrykk og jokertegn kan heller ikke brukes. "Asterisken" (*) i User-agent-instruksjonen betyr "enhver robot". Instruksjoner som «Disallow: *.gif» eller «User-agent: Ya*» støttes ikke.

De spesifikke instruksjonene i robots.txt avhenger av nettstedet ditt og hva du vil forhindre fra å bli indeksert. Her er noen eksempler:

Blokker hele nettstedet fra å bli indeksert av alle roboter

Bruker agent: *
Disallow: /

Tillat alle roboter å indeksere hele nettstedet

Bruker agent: *
Ikke tillat:

Eller du kan ganske enkelt lage en tom fil "/robots.txt".

Blokker bare noen få kataloger fra indeksering

Bruker agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /privat/

Forhindre nettstedindeksering for bare én robot

Brukeragent: BadBot
Disallow: /

Tillat én robot å indeksere nettstedet og nekte alle andre

Brukeragent: Yandex
Ikke tillat:

Bruker agent: *
Disallow: /

Nekt alle filer unntatt én fra indeksering

Dette er ganske vanskelig, fordi... det er ingen "Tillat"-erklæring. I stedet kan du flytte alle filer unntatt den du vil tillate indeksering til en underkatalog og forhindre at den blir indeksert:

Bruker agent: *
Disallow: /docs/

Eller du kan forby alle filer som er forbudt fra å indeksere:

Bruker agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html