Përdorimi i robotëve txt. Si të redaktoni skedarin robots txt. Krijoni me lehtësi një skedar për çdo motor kërkimi

Ky artikull përmban një shembull të kodit optimal, për mendimin tim, për skedarin robots.txt për WordPress, të cilin mund ta përdorni në faqet tuaja të internetit.

Për të filluar, le të kujtojmë pse ju duhen robots.txt- Skedari robots.txt nevojitet ekskluzivisht për robotët e kërkimit që t'u "tregojnë" se cilat seksione/faqe të faqes duhet të vizitojnë dhe cilat nuk duhet të vizitojnë. Faqet që janë mbyllur nga vizita nuk do të përfshihen në indeksin e motorit të kërkimit (Yandex, Google, etj.).

Opsioni 1: Kodi optimal robots.txt për WordPress

Përdoruesi-agjent: * Mos lejo: /cgi-bin # classic... Mos lejo: /? # të gjithë parametrat e pyetjes në faqen kryesore Mos lejo: /wp- # të gjithë skedarët WP: /wp-json/, /wp-includes, /wp-content/plugins Mos lejo: *?s= # kërkim Mos lejo: *&s= # kërkim Mos lejo: /search # search Mos lejo: /autor/ # arkiv autori Mos lejo: */embed # të gjitha ngulitje Mos lejo: */page/ # të gjitha llojet e faqeve Lejo: */uploads # hap ngarkime Lejo: /*/*.js # brenda /wp - (/*/ - për përparësi) Lejo: /*/*.css # inside /wp- (/*/ - për prioritet) Lejo: /wp-*.png # imazhe në shtojca, dosje të memories, etj. . Lejo: /wp-*.jpg # imazhe në shtojca, dosje të memories, etj. Lejo: /wp-*.jpeg # imazhe në shtojca, dosje të memories, etj. Lejo: /wp-*.gif # imazhe në shtojca, dosje të memories, etj. Lejo: /wp-*.svg # imazhe në shtojca, dosje të memories, etj. Lejo: /wp-*.pdf # skedarë në shtojca, dosje të memories, etj. Lejo: /wp-admin/admin-ajax.php #Disallow: /wp/ # kur WP është instaluar në nëndirektorinë wp Harta e sitit: http://example.com/sitemap.xml Harta e sitit: http://example.com/ harta e faqes 2. xml # një skedar tjetër # Harta e faqes: http://example.com/sitemap.xml.gz # versioni i ngjeshur (.gz) # Versioni i kodit: 1.1 # Mos harroni të ndryshoni `site.ru` në faqen tuaj.

Analiza e kodit:

    Në rreshtin User-agent: * tregojmë se të gjitha rregullat e mëposhtme do të funksionojnë për të gjithë robotët e kërkimit *. Nëse keni nevojë që këto rregulla të funksionojnë vetëm për një robot specifik, atëherë në vend të * ne tregojmë emrin e robotit (Agjent-përdorues: Yandex, agjent-përdorues: Googlebot).

    Në linjën Allow: */uploads, ne qëllimisht lejojmë që faqet që përmbajnë / ngarkime të indeksohen. Ky rregull është i detyrueshëm, sepse më sipër ne ndalojmë indeksimin e faqeve që fillojnë me /wp-, dhe /wp- të përfshira në /wp-content/ngarkime. Prandaj, për të anashkaluar rregullin Disallow: /wp-, ju nevojitet rreshti Allow: */uploads, sepse për lidhje si /wp-content/uploads/... Mund të kemi fotografi që duhet të indeksohen dhe mund të ketë gjithashtu disa skedarë të shkarkuar që nuk ka nevojë t'i fshehim. Lejo: mund të jetë "para" ose "pas" Mos lejo: .

    Linjat e mbetura i ndalojnë robotët të "ndjekin" lidhjet që fillojnë me:

    • Mos lejo: /cgi-bin - mbyll direktorinë e skripteve në server
    • Mos lejo: /feed - mbyll burimin RSS të blogut
    • Mos lejo: /trackback - mbyll njoftimet
    • Mos lejo: ?s= ose Mos lejo: *?s= - mbyll faqet e kërkimit
    • Mos lejo: */page/ - mbyll të gjitha llojet e faqeve
  1. Rregulli i hartës së faqes: http://example.com/sitemap.xml e drejton robotin në një skedar me një hartë faqeje në formatin XML. Nëse keni një skedar të tillë në faqen tuaj, atëherë shkruani rrugën e plotë për të. Mund të ketë disa skedarë të tillë, atëherë ne tregojmë shtegun për secilin veç e veç.

    Në linjën Host: site.ru ne tregojmë pasqyrën kryesore të faqes. Nëse një faqe ka pasqyra (kopje të faqes në domene të tjera), atëherë në mënyrë që Yandex t'i indeksojë të gjitha në mënyrë të barabartë, duhet të specifikoni pasqyrën kryesore. Direktiva e hostit: vetëm Yandex e kupton, Google nuk e kupton! Nëse faqja funksionon sipas protokollit https, atëherë duhet të specifikohet në Host: Host: http://example.com

    Nga dokumentacioni Yandex: "Host është një direktivë e pavarur dhe funksionon kudo në skedar (ndërprerës)." Prandaj, e vendosim në krye ose në fund të skedarit, përmes një rreshti bosh.

Sepse kërkohet prania e furnizimeve të hapura, për shembull, për Yandex Zen, kur duhet të lidhni një sit me një kanal (falë komentuesit "Digital"). Ndoshta prurjet e hapura nevojiten diku tjetër.

Në të njëjtën kohë, burimet kanë formatin e tyre në titujt e përgjigjeve, falë të cilave motorët e kërkimit kuptojnë se kjo nuk është një faqe HTML, por një furnizim dhe, padyshim, e përpunojnë atë disi ndryshe.

Direktiva Host nuk është më e nevojshme për Yandex

Yandex braktis plotësisht direktivën e Host dhe e ka zëvendësuar atë me një ridrejtim 301. Hosti mund të hiqet në mënyrë të sigurt nga robots.txt. Megjithatë, është e rëndësishme që të gjitha pasqyrat e faqes të kenë një ridrejtim 301 në faqen kryesore (pasqyra kryesore).

Kjo është e rëndësishme: rregullat e renditjes përpara përpunimit

Yandex dhe Google përpunojnë direktivat Lejo dhe Mos lejo jo në rendin në të cilin janë specifikuar, por fillimisht i renditin nga rregulli i shkurtër në i gjatë dhe më pas përpunojnë rregullin e fundit të përputhjes:

Agjenti i përdoruesit: * Lejo: */Ngarkimet Mos lejo: /wp-

do të lexohet si:

Përdoruesi-agjent: * Mos lejo: /wp- Lejo: */ ngarkime

Për të kuptuar dhe zbatuar shpejt veçorinë e renditjes, mbani mend këtë rregull: "sa më i gjatë të jetë rregulli në robots.txt, aq më i lartë është ai prioritet. Nëse gjatësia e rregullave është e njëjtë, atëherë përparësi i jepet direktivës Lejo."

Opsioni 2: Standard robots.txt për WordPress

Nuk e di pse, por unë jam për opsionin e parë! Sepse është më logjike - nuk ka nevojë të kopjoni plotësisht seksionin për të treguar direktivën e Host për Yandex, e cila është ndërseksionale (kuptohet nga roboti kudo në shabllon, pa treguar se cilit robot i referohet). Sa i përket direktivës jo standarde Lejo, ajo funksionon për Yandex dhe Google, dhe nëse nuk hap dosjen e ngarkimeve për robotët e tjerë që nuk e kuptojnë atë, atëherë në 99% të rasteve kjo nuk do të sjellë asgjë të rrezikshme. Unë ende nuk e kam vënë re që robotët e parë nuk funksionojnë siç duhet.

Kodi i mësipërm është pak i pasaktë. Faleminderit komentuesit " " që tregoi pasaktësinë, megjithëse duhej ta kuptoja vetë se çfarë ishte. Dhe kjo është ajo që dola me (mund të gaboj):

    Disa robotë (jo Yandex dhe Google) nuk kuptojnë më shumë se 2 direktiva: agjenti i përdoruesit: dhe mos lejo:

  1. Direktiva Yandex Host: duhet të përdoret pas Disallow:, sepse disa robotë (jo Yandex dhe Google) mund të mos e kuptojnë atë dhe në përgjithësi të refuzojnë robots.txt. Vetë Yandex, duke gjykuar nga dokumentacioni, absolutisht nuk i intereson se ku dhe si të përdorni Host:, edhe nëse në përgjithësi krijoni robots.txt me vetëm një linjë Host: www.site.ru në mënyrë që të ngjitni të gjitha pasqyrat e faqes së bashku.

3. Harta e faqes: një direktivë ndërseksionale për Yandex dhe Google dhe me sa duket edhe për shumë robotë të tjerë, kështu që e shkruajmë në fund me një rresht bosh dhe do të funksionojë për të gjithë robotët menjëherë.

Bazuar në këto ndryshime, kodi i saktë duhet të duket si ky:

Agjenti i përdoruesit: Yandex Mos lejo: /wp-admin Mos lejo: /wp-includes Mos lejo: /wp-content/plugins Mos lejo: /wp-json/ Mos lejo: /wp-login.php Mos lejo: /wp-register.php Mos lejo: */embed Mos lejo: */page/ Mos lejo: /cgi-bin Mos lejo: *?s= Lejo: /wp-admin/admin-ajax.php Pritësi: site.ru Agjenti i përdoruesit: * Mos lejo: /wp-admin Mos lejo : /wp-includes Mos lejo: /wp-content/plugins Mos lejo: /wp-json/ Mos lejo: /wp-login.php Mos lejo: /wp-register.php Mos lejo: */embed Mos lejo: */page/ Mos lejo: / cgi-bin Mos lejo: *?s= Lejo: /wp-admin/admin-ajax.php Harta e sitit: http://example.com/sitemap.xml

Le ta shtojmë për vete

Nëse keni nevojë të bllokoni ndonjë faqe tjetër ose grup faqesh, mund të shtoni një rregull (direktivë) më poshtë Mos lejo:. Për shembull, duhet të mbyllim të gjitha hyrjet në një kategori nga indeksimi Lajme, pastaj më parë Harta e faqes: shtoni një rregull:

Mos lejo: /lajmet

Ai i pengon robotët të ndjekin lidhje të tilla:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

Nëse keni nevojë të mbyllni çdo dukuri të /news , atëherë shkruani:

Mos lejo: */lajmet

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Ju mund të studioni direktivat e robots.txt në më shumë detaje në faqen e ndihmës Yandex (por mbani në mend se jo të gjitha rregullat e përshkruara atje funksionojnë për Google).

Kontrolli dhe dokumentacioni i Robots.txt

Ju mund të kontrolloni nëse rregullat e përshkruara funksionojnë siç duhet duke përdorur lidhjet e mëposhtme:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Në Google kjo bëhet në Konsola e kërkimit. Keni nevojë për autorizim dhe praninë e sajtit në panelin e webmasterit...
  • Shërbimi për krijimin e një skedari robots.txt: http://pr-cy.ru/robots/
  • Shërbimi për krijimin dhe kontrollin e robots.txt: https://seolib.ru/tools/generate/robots/

E pyeta Yandex...

Unë bëra një pyetje në teknologji. Mbështetje Yandex në lidhje me përdorimin ndërseksional të direktivave të Host dhe Hartës së Faqes:

Pyetje:

Përshëndetje!
Po shkruaj një artikull rreth robots.txt në blogun tim. Do të doja të merrja një përgjigje për këtë pyetje (nuk gjeta një "po" të qartë në dokumentacion):

Nëse më duhet të ngjis të gjitha pasqyrat dhe për këtë përdor direktivën Host në fillim të skedarit robots.txt:

Pritësi: site.ru Agjenti i përdoruesit: * Mos lejo: /asd

A do të funksionojë saktë Host: site.ru në këtë shembull? A do t'u tregojë robotëve se site.ru është pasqyra kryesore? Ato. Unë e përdor këtë direktivë jo në një seksion, por veçmas (në fillim të skedarit) pa treguar se cilit agjent përdorues i referohet.

Doja gjithashtu të dija nëse direktiva e Hartës së Faqes duhet të përdoret brenda një seksioni apo mund të përdoret jashtë: për shembull, përmes një rreshti bosh, pas një seksioni?

Agjenti i përdoruesit: Yandex Mos lejo: /asd Agjenti i përdoruesit: * Mos lejo: /asd Harta e faqes: http://example.com/sitemap.xml

A do ta kuptojë roboti direktivën e Hartës së Faqes në këtë shembull?

Shpresoj të marr një përgjigje nga ju që do t'i japë fund dyshimeve të mia.

Përgjigje:

Përshëndetje!

Direktivat Host dhe Sitemap janë ndërseksionale, kështu që ato do të përdoren nga roboti pavarësisht nga vendi në skedarin robots.txt ku janë specifikuar.

--
Sinqerisht, Platon Shchukin
Shërbimi mbështetës Yandex

konkluzioni

Është e rëndësishme të mbani mend se ndryshimet në robots.txt në një faqe tashmë funksionale do të jenë të dukshme vetëm pas disa muajsh (2-3 muaj).

Ka zëra se Google ndonjëherë mund të injorojë rregullat në robots.txt dhe të marrë një faqe në indeks nëse konsideron se faqja është shumë unike dhe e dobishme dhe thjesht duhet të jetë në indeks. Megjithatë, thashethemet e tjera e hedhin poshtë këtë hipotezë me faktin se optimizuesit e papërvojë mund të specifikojnë gabimisht rregullat në robots.txt dhe kështu të mbyllin faqet e nevojshme nga indeksimi dhe të lënë të panevojshme. Unë jam më i prirur për supozimin e dytë ...

Robotët dinamikë.txt

Në WordPress, kërkesa për skedarin robots.txt përpunohet veçmas dhe nuk është aspak e nevojshme të krijohet fizikisht një skedar robots.txt në rrënjën e faqes, për më tepër, kjo nuk rekomandohet, sepse me këtë qasje do të jetë shumë e vështirë për shtojcat për të ndryshuar këtë skedar, dhe kjo ndonjëherë është e nevojshme.

Lexoni se si funksionon krijimi dinamik i një skedari robots.txt në përshkrimin e funksionit dhe më poshtë do të jap një shembull se si mund ta ndryshoni përmbajtjen e këtij skedari menjëherë, përmes një grepi.

Për ta bërë këtë, shtoni kodin e mëposhtëm në skedarin tuaj functions.php:

Add_action("do_robotstxt", "my_robotstxt"); funksioni my_robotstxt())( $lines = [ "Agjenti i përdoruesit: *", "Mos lejo: /wp-admin/", "Mos lejo: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // përfundon punën e PHP)

Agjenti i përdoruesit: * Mos lejo: /wp-admin/ Mos lejo: /wp-includes/

Zvarritje-vonesa - afat kohor për robotët e çmendur (nuk merret parasysh që nga viti 2018)

Yandex

Pasi kemi analizuar letrat gjatë dy viteve të fundit për mbështetjen tonë në lidhje me çështjet e indeksimit, zbuluam se një nga arsyet kryesore për shkarkimin e ngadaltë të dokumenteve është një direktivë e konfiguruar gabimisht e vonesës së zvarritjes në robots.txt […] Kështu që pronarët e faqeve nuk janë më duhet të shqetësohemi për këtë dhe Për t'u siguruar që të gjitha faqet me të vërtetë të nevojshme të uebsajtit të shfaqen dhe të përditësohen shpejt në kërkim, vendosëm të braktisim direktivën e vonesës së zvarritjes.

Kur roboti Yandex skanon sitin si i çmendur dhe kjo krijon ngarkesë të panevojshme në server. Mund t'i kërkoni robotit të "ngadalësojë".

Për ta bërë këtë, duhet të përdorni direktivën Crawl-delay. Ai tregon kohën në sekonda që roboti duhet të jetë i papunë (të presë) për të skanuar çdo faqe pasuese të faqes.

Për pajtueshmërinë me robotët që nuk ndjekin mirë standardin robots.txt, vonesa e zvarritjes duhet të specifikohet në grup (në seksionin "Agjenti i përdoruesit)" menjëherë pas "Disllow" dhe "Allow"

Yandex Robot kupton vlerat e pjesshme, për shembull, 0.5 (gjysmë sekonde). Kjo nuk garanton që roboti i kërkimit do të vizitojë faqen tuaj çdo gjysmë sekonde, por ju lejon të shpejtoni zvarritjen e faqes.

Përdoruesi-agjent: Yandex Mos lejo: /wp-admin Mos lejo: /wp-përfshin Zvarritje-vonesa: 1,5 # skadim 1,5 sekonda Agjenti i përdoruesit: * Mos lejo: /wp-admin Mos lejo: /wp-përfshin Lejo: /wp-* . gif Zvarritje-vonesa: 2 # skadim 2 sekonda

Google

Googlebot nuk e kupton direktivën e vonesës së zvarritjes. Koha për robotët e saj mund të specifikohet në panelin e webmasterit.

Në shërbimin avi1.ru tani mund të blini promovimin SMM në më shumë se 7 nga rrjetet sociale më të njohura. Në të njëjtën kohë, kushtojini vëmendje kostos mjaft të ulët të të gjitha shërbimeve të faqes.

Koha e leximit: 7 minuta


Pothuajse çdo projekt që na vjen për auditim ose promovim ka një skedar robots.txt të pasaktë dhe shpesh ai mungon fare. Kjo ndodh sepse kur krijoni një skedar, të gjithë udhëhiqen nga imagjinata e tyre, dhe jo nga rregullat. Le të kuptojmë se si ta kompozojmë saktë këtë skedar në mënyrë që robotët e kërkimit të punojnë me të në mënyrë efektive.

Pse keni nevojë të konfiguroni robots.txt?

Robotët.txtështë një skedar i vendosur në direktorinë rrënjësore të një siti që u tregon robotëve të motorëve të kërkimit se cilat seksione dhe faqe të faqes mund të kenë akses dhe në cilat jo.

Vendosja e robots.txt është një pjesë e rëndësishme në rezultatet e motorit të kërkimit; robotët e konfiguruar siç duhet gjithashtu rrit performancën e faqes. Mungesa e Robots.txt nuk do t'i ndalojë motorët e kërkimit të zvarriten dhe të indeksojnë faqen tuaj, por nëse nuk e keni këtë skedar, mund të keni dy probleme:

    Roboti i kërkimit do të lexojë të gjithë faqen, gjë që do të "minojë" buxhetin zvarritës. Buxheti zvarritës është numri i faqeve që një robot kërkuesi mund të zvarritet në një periudhë të caktuar kohe.

    Pa një skedar robotësh, motori i kërkimit do të ketë akses në faqet e hartuara dhe të fshehura, në qindra faqe të përdorura për të administruar CMS. Ai do t'i indeksojë ato dhe kur bëhet fjalë për faqet e nevojshme që ofrojnë përmbajtje të drejtpërdrejtë për vizitorët, buxheti zvarritës do të "mbarojë".

    Indeksi mund të përfshijë faqen e identifikimit të faqes dhe burime të tjera të administratorit, kështu që një sulmues mund t'i gjurmojë lehtësisht dhe të kryejë një sulm ddos ​​ose të hakojë faqen.

Si e shohin robotët e kërkimit një sajt me dhe pa robots.txt:


Sintaksa e robotëve.txt

Përpara se të fillojmë të kuptojmë sintaksën dhe të konfigurojmë robots.txt, le të shohim se si duhet të duket "skedari ideal":


Por nuk duhet ta përdorni menjëherë. Çdo sajt më së shpeshti kërkon cilësimet e veta, pasi të gjithë kemi një strukturë të ndryshme faqeje dhe CMS të ndryshme. Le të shohim çdo direktivë sipas radhës.

Përdorues-agjent

Përdoruesi-agjent - përcakton një robot kërkimi që duhet të ndjekë udhëzimet e përshkruara në skedar. Nëse duhet t'u drejtoheni të gjithëve menjëherë, përdorni ikonën *. Ju gjithashtu mund të kontaktoni një robot specifik kërkimi. Për shembull, Yandex dhe Google:


Duke përdorur këtë direktivë, roboti kupton se cilat skedarë dhe dosje janë të ndaluara të indeksohen. Nëse dëshironi që i gjithë faqja juaj të jetë e hapur për indeksim, lini bosh vlerën Disallow. Për të fshehur të gjithë përmbajtjen në sajt pas Mos lejimit, vendosni "/".

Ne mund të parandalojmë hyrjen në një dosje, skedar ose shtesë skedari të caktuar. Në shembullin tonë, ne kontaktojmë të gjithë robotët e kërkimit dhe bllokojmë hyrjen në bitrix, dosjen e kërkimit dhe zgjerimin pdf.


Lejo

Lejo që faqet e forcave dhe seksionet e sajtit të indeksohen. Në shembullin e mësipërm, ne kontaktojmë robotin e kërkimit të Google, bllokojmë hyrjen në bitrix, dosjen e kërkimit dhe shtesën pdf. Por në dosjen bitrix ne detyrojmë të hapim 3 dosje për indeksim: komponentë, js, vegla.


Host - pasqyrë e faqes

Një faqe pasqyre është një dublikatë e sajtit kryesor. Pasqyrat përdoren për qëllime të ndryshme: ndryshimi i adresës, siguria, zvogëlimi i ngarkesës në server, etj.

Pritësi është një nga rregullat më të rëndësishme. Nëse ky rregull shkruhet, roboti do të kuptojë se cilat nga pasqyrat e faqes duhet të merren parasysh për indeksimin. Kjo direktivë është e nevojshme për robotët Yandex dhe Mail.ru. Robotët e tjerë do ta injorojnë këtë rregull. Pritësi regjistrohet vetëm një herë!

Për protokollet "https://" dhe "http://", sintaksa në skedarin robots.txt do të jetë e ndryshme.

Harta e faqes - harta e faqes

Harta e faqes është një formë e navigimit të faqes që përdoret për të informuar motorët e kërkimit rreth faqeve të reja. Duke përdorur direktivën e hartës së faqes, ne "me forcë" i tregojmë robotit se ku ndodhet harta.


Simbolet në robots.txt

Simbolet e përdorura në skedar: "/, *, $, #".


Kontrollimi i funksionalitetit pas konfigurimit të robots.txt

Pasi të keni vendosur Robots.txt në faqen tuaj të internetit, duhet ta shtoni dhe kontrolloni në webmasterin Yandex dhe Google.

Kontrolli i Yandex:

  1. Ndiqni këtë lidhje.
  2. Zgjidh: Cilësimet e indeksimit - Analiza e Robots.txt.

Kontrolli i Google:

  1. Ndiqni këtë lidhje.
  2. Zgjidh: Skano - Mjet i inspektimit të skedarëve Robots.txt.

Në këtë mënyrë ju mund të kontrolloni robots.txt tuaj për gabime dhe të bëni rregullimet e nevojshme nëse është e nevojshme.

  1. Përmbajtja e dosjes duhet të shkruhet me shkronja të mëdha.
  2. Vetëm një skedar ose drejtori duhet të specifikohet në direktivën Disallow.
  3. Linja "Agjent-përdorues" nuk duhet të jetë bosh.
  4. Përdoruesi-agjenti duhet të vijë gjithmonë përpara Disallow.
  5. Mos harroni të përfshini një vijë të pjerrët nëse duhet të çaktivizoni indeksimin e një drejtorie.
  6. Para se të ngarkoni një skedar në server, sigurohuni që ta kontrolloni atë për gabime sintaksore dhe drejtshkrimore.

Ju uroj suksese!

Rishikim video i 3 metodave për krijimin dhe personalizimin e skedarit Robots.txt

Pershendetje te gjitheve! Sot do të doja t'ju tregoja për skedar robots.txt. Po, është shkruar shumë për të në internet, por, për të qenë i sinqertë, për një kohë shumë të gjatë unë vetë nuk mund ta kuptoja se si të krijoja robotët e duhur.txt. Përfundova duke bërë një dhe është në të gjitha blogjet e mia. Nuk vërej asnjë problem, robots.txt funksionon mirë.

Robots.txt për WordPress

Pse, në fakt, keni nevojë për robots.txt? Përgjigja është ende e njëjtë - . Kjo do të thotë, përpilimi i robots.txt është një nga pjesët e optimizimit të një faqeje për motorët e kërkimit (meqë ra fjala, shumë shpejt do të ketë një mësim që do t'i kushtohet të gjithë optimizimit të brendshëm të një faqeje në WordPress. Prandaj, mos harroni të regjistroheni në RSS për të mos humbur materiale interesante.).

Një nga funksionet e këtij skedari është ndalimi i indeksimit faqet e panevojshme të internetit. Ai gjithashtu cakton adresën dhe tregon gjënë kryesore pasqyra e faqes(faqe me ose pa www).

Shënim: për motorët e kërkimit, e njëjta faqe me www dhe pa www janë faqe krejtësisht të ndryshme. Por, duke kuptuar se përmbajtja e këtyre faqeve është e njëjtë, motorët e kërkimit i “ngjisin” ato së bashku. Prandaj, është e rëndësishme të regjistroni pasqyrën kryesore të faqes në robots.txt. Për të zbuluar se cila është ajo kryesore (me www ose pa www), thjesht shkruani adresën e faqes tuaj në shfletues, për shembull, me www, nëse ridrejtoheni automatikisht në të njëjtën faqe pa www, atëherë pasqyra kryesore e faqja juaj është pa www. Shpresoj se e kam shpjeguar drejt.

ishte:

Tani (pas shkuarjes në sit, www u fshinë automatikisht dhe faqja u bë pa www):

Pra, ky i çmuar, për mendimin tim, korrekt robots.txt për WordPress Ju mund të shihni më poshtë.

E saktë për WordPress

Agjenti i përdoruesit: *
Mos lejo: /cgi-bin
Mos lejo: /wp-admin
Mos lejo: /wp-includes

Mos lejo: /wp-content/cache
Mos lejo: /wp-content/themes
Mos lejo: /trackback
Mos lejo: */trackback
Mos lejo: */*/trackback
Mos lejo: */*/feed/*/
Mos lejo: */feed
Mos lejo: /*?*
Mos lejo: /tag

Agjenti i përdoruesit: Yandex
Mos lejo: /cgi-bin
Mos lejo: /wp-admin
Mos lejo: /wp-includes
Mos lejo: /wp-content/plugins
Mos lejo: /wp-content/cache
Mos lejo: /wp-content/themes
Mos lejo: /trackback
Mos lejo: */trackback
Mos lejo: */*/trackback
Mos lejo: */*/feed/*/
Mos lejo: */feed
Mos lejo: /*?*
Mos lejo: /tag
Pritësi: faqja e internetit
Harta e faqes: https://site/sitemap.xml.gz
Harta e faqes: https://site/sitemap.xml

Duhet të kopjoni gjithçka të dhënë më sipër në një dokument teksti me shtesën .txt, domethënë, në mënyrë që emri i skedarit të jetë robots.txt. Ju mund ta krijoni këtë dokument teksti, për shembull, duke përdorur programin. Vetëm mos harro, të lutem ndryshoni tre rreshtat e fundit adresa në adresën e faqes suaj të internetit. Skedari robots.txt duhet të jetë i vendosur në rrënjën e blogut, domethënë në të njëjtën dosje ku ndodhen dosjet wp-content, wp-admin etj.

Për ata që janë shumë dembelë për të krijuar këtë skedar teksti, thjesht mund të korrigjoni edhe 3 rreshta atje.

Do të doja të theksoja se nuk keni nevojë të mbingarkoni veten me pjesët teknike që do të diskutohen më poshtë. Unë i sjell për "dije", si të thuash, një këndvështrim të përgjithshëm, në mënyrë që ata të dinë se çfarë duhet dhe pse.

Pra, linja:

Përdorues-agjent

vendos rregulla për disa motorë kërkimi: për shembull, "*" (yll) tregon se rregullat janë për të gjithë motorët e kërkimit dhe çfarë është më poshtë

Agjenti i përdoruesit: Yandex

do të thotë që këto rregulla janë vetëm për Yandex.

Mos lejo
Këtu ju "hedhni" seksione që NUK kanë nevojë të indeksohen nga motorët e kërkimit. Për shembull, në një faqe kam një dublikatë artikujsh (përsëritje) me artikuj të rregullt, dhe dyfishimi i faqeve ka një ndikim negativ në promovimin e motorit të kërkimit, prandaj, është shumë e dëshirueshme që këta sektorë duhet të mbyllen nga indeksimi, që është çfarë bëjmë duke përdorur këtë rregull:

Mos lejo: /tag

Pra, në robots.txt të dhënë më sipër, pothuajse të gjitha seksionet e panevojshme të një faqeje WordPress janë të mbyllura nga indeksimi, domethënë, thjesht lini gjithçka ashtu siç është.

Mikpritës

Këtu vendosëm pasqyrën kryesore të faqes, për të cilën fola pak më lart.

Harta e faqes

Në dy rreshtat e fundit ne specifikojmë adresën e deri në dy hartave të faqeve të krijuara duke përdorur .

Probleme të mundshme

Shkoni te seksioni Cilësimet e indeksimit –> Analiza e Robots.txt:

Tashmë atje, klikoni në butonin "Ngarkoni robots.txt nga faqja" dhe më pas klikoni në butonin "Kontrollo":

Nëse shihni diçka si mesazhi i mëposhtëm, do të thotë që keni robots.txt të saktë për Yandex:

Ju gjithashtu mund të shtoni adresën e çdo artikulli në sajt në "Lista e URL-ve" për të kontrolluar nëse robots.txt ndalon indeksimin e kësaj faqeje:

Siç mund ta shihni, ne nuk shohim ndonjë ndalim në indeksimin e faqeve nga robots.txt, që do të thotë se gjithçka është në rregull :).

Shpresoj se nuk do të keni më pyetje, të tilla si: si të kompozoni robots.txt ose si ta bëni këtë skedar të saktë. Në këtë mësim u përpoqa t'ju tregoja të saktën shembull robots.txt:

Shihemi se shpejti!

P.s. Kohët e fundit unë, çfarë ka ndodhur interesante? 🙂

Një hartë e faqes thjeshton shumë indeksimin e blogut tuaj. Çdo faqe interneti dhe blog duhet të ketë një hartë faqeje. Por gjithashtu çdo faqe interneti dhe blog duhet të ketë një skedar robotë.tekst. Skedari robots.txt përmban një grup udhëzimesh për robotët e kërkimit. Mund të thuash se këto janë rregullat e sjelljes për robotët e kërkimit në blogun tuaj. Ky skedar përmban gjithashtu shtegun për në hartën e faqes së blogut tuaj. Dhe, në fakt, me një skedar robots.txt të kompozuar në mënyrë korrekte, roboti i kërkimit nuk harxhon kohë të çmuar duke kërkuar për një hartë faqeje dhe duke indeksuar skedarë të panevojshëm.

Çfarë është skedari robots.txt?

robots.txt– ky është një skedar teksti që mund të krijohet në një "notepad" të rregullt, të vendosur në rrënjën e blogut tuaj, që përmban udhëzime për robotët e kërkimit.

Këto udhëzime parandalojnë robotët e kërkimit që të indeksojnë rastësisht të gjithë skedarët e zotit tuaj dhe fokusohen në indeksimin e pikërisht atyre faqeve që duhet të përfshihen në rezultatet e kërkimit.

Duke përdorur këtë skedar, ju mund të parandaloni indeksimin e skedarëve të motorit WordPress. Ose, le të themi, seksioni sekret i blogut tuaj. Ju mund të specifikoni shtegun për në hartën tuaj të blogut dhe pasqyrën kryesore të blogut tuaj. Këtu dua të them emrin e domain-it tuaj me www dhe pa www.

Indeksimi i sajtit me dhe pa robotë.txt

Kjo pamje e ekranit tregon qartë se si skedari robots.txt ndalon indeksimin e dosjeve të caktuara në sajt. Pa një skedar, gjithçka në faqen tuaj është e disponueshme për robotin.

Direktivat bazë të skedarit robots.txt

Për të kuptuar udhëzimet që përmban skedari robots.txt, duhet të kuptoni komandat (direktivat) bazë.

Përdorues-agjent– kjo komandë tregon hyrjen e robotit në faqen tuaj. Duke përdorur këtë direktivë, ju mund të krijoni udhëzime individualisht për çdo robot.

Përdoruesi-agjent: Yandex – rregullat për robotin Yandex

Përdoruesi-agjent: * - rregullat për të gjithë robotët

Mos lejo dhe lejo– direktivat e ndalimit dhe lejes. Duke përdorur direktivën Disallow, indeksimi është i ndaluar, ndërsa Lejo e lejon atë.

Shembull i ndalimit:

Agjenti i përdoruesit: *

Mos lejo: / - ndalim në të gjithë sitin.

Agjenti i përdoruesit: Yandex

Mos lejo: /admin - ndalon robotin Yandex të hyjë në faqet e vendosura në dosjen e administratorit.

Shembull i rezolucionit:

Agjenti i përdoruesit: *

Lejo: /foto

Mos lejo: / - ndalim në të gjithë sitin, përveç faqeve të vendosura në dosjen e fotografive.

Shënim! Direktiva Disallow: pa një parametër lejon gjithçka, dhe direktiva Lejo: pa një parametër ndalon gjithçka. Dhe nuk duhet të ketë një direktivë Lejo pa Disallow.

Harta e faqes– specifikon shtegun për në hartën e faqes në formatin xml.

Harta e faqes: https://site/sitemap.xml.gz

Harta e faqes: https://site/sitemap.xml

Mikpritës– direktiva përcakton pasqyrën kryesore të blogut tuaj. Besohet se kjo direktivë është përshkruar vetëm për robotët Yandex. Kjo direktivë duhet të specifikohet në fund të skedarit robots.txt.

Agjenti i përdoruesit: Yandex

Mos lejo: /wp-includes

Pritësi: faqja e internetit

Shënim! Adresa kryesore e pasqyrës specifikohet pa specifikuar protokollin e transferimit të hipertekstit (http://).

Si të krijoni robots.txt

Tani që jemi njohur me komandat bazë të skedarit robots.txt, mund të fillojmë të krijojmë skedarin tonë. Për të krijuar skedarin tuaj robots.txt me cilësimet tuaja individuale, duhet të dini strukturën e blogut tuaj.

Ne do të shikojmë krijimin e një skedari standard (universal) robots.txt për një blog WordPress. Ju gjithmonë mund të shtoni cilësimet tuaja në të.

Pra, le të fillojmë. Ne do të kemi nevojë për një "notepad" të rregullt, i cili gjendet në çdo sistem operativ Windows. Ose TextEdit në MacOS.

Hapni një dokument të ri dhe ngjisni këto komanda në të:

Agjenti i përdoruesit: * Mos lejo: Harta e faqes: https://site/sitemap.xml.gz Harta e faqes: https://site/sitemap.xml Agjenti i përdoruesit: Yandex Mos lejo: /wp-login.php Mos lejo: /wp-register .php Mos lejo: /cgi-bin Mos lejo: /wp-admin Mos lejo: /wp-includes Mos lejo: /xmlrpc.php Mos lejo: /wp-content/plugins Mos lejo: /wp-content/cache Mos lejo: /wp-content/themes Mos lejo: /wp-content/languages Mos lejo: /category/*/* Mos lejo: /trackback Mos lejo: */trackback Mos lejo: */*/trackback Mos lejo: /tag/ Mos lejo: /feed/ Mos lejo: */*/ feed/ */ Mos lejo: */feed Mos lejo: */*/feed Mos lejo: /?feed= Mos lejo: /*?* Mos lejo: /?s= Pritësi: sajti

Mos harroni të zëvendësoni parametrat e direktivave të Hartës së Faqes dhe Host-it me tuajin.

E rëndësishme! Kur shkruani komanda, lejohet vetëm një hapësirë. Midis direktivës dhe parametrit. Në asnjë rrethanë nuk duhet të vendosni hapësira pas një parametri ose kudo.

Shembull: Mos lejo:<пробел>/feed/

Ky shembull i skedarit robots.txt është universal dhe i përshtatet çdo blogu të WordPress me URL CNC. Lexoni se çfarë është CNC. Nëse nuk e keni konfiguruar CNC, ju rekomandoj të hiqni Disallow: /*?* Disallow: /?s= nga skedari i propozuar

Ngarkimi i skedarit robots.txt në server

Mënyra më e mirë për këtë lloj manipulimi është një lidhje FTP. Lexoni se si të vendosni një lidhje FTP për TotolCommander. Ose mund të përdorni një menaxher skedari në hostin tuaj.

Unë do të përdor një lidhje FTP në TotolCommander.

Rrjeti > Lidhu me serverin FTP.

Zgjidhni lidhjen e dëshiruar dhe klikoni në butonin "Lidhu".

Hapni rrënjën e blogut dhe kopjoni skedarin tonë robots.txt duke shtypur tastin F5.

Po kopjon robots.txt në server

Tani skedari juaj robots.txt do të kryejë funksionet e tij të duhura. Por unë ende rekomandoj të analizoni robots.txt për t'u siguruar që nuk ka gabime.

Për ta bërë këtë, do t'ju duhet të identifikoheni në llogarinë tuaj Yandex ose webmaster Google. Le të shohim shembullin e Yandex. Këtu mund të bëni një analizë edhe pa konfirmuar të drejtat tuaja në sit. Gjithçka që ju nevojitet është një kuti postare Yandex.

Hapni llogarinë Yandex.webmaster.

Në faqen kryesore të llogarisë së webmasterit, hapni lidhjen "Kontrollorobotë.tekst".

Për të analizuar, do t'ju duhet të vendosni adresën URL të blogut tuaj dhe të klikoni " Shkarko robotë.txt nga faqja" Sapo të shkarkohet skedari, klikoni butonin "Kontrollo".

Mungesa e shënimeve paralajmëruese tregon se skedari robots.txt është krijuar saktë.

Rezultati do të paraqitet më poshtë. Ku është e qartë dhe e kuptueshme se cilat materiale lejohen t'u shfaqen robotëve të kërkimit dhe cilat janë të ndaluara.

Rezultati i analizës së skedarit robots.txt

Këtu mund të bëni ndryshime në robots.txt dhe të eksperimentoni derisa të merrni rezultatin që dëshironi. Por mbani mend, skedari i vendosur në blogun tuaj nuk ndryshon. Për ta bërë këtë, do t'ju duhet të kopjoni rezultatin e marrë këtu në një bllok shënimesh, ta ruani atë si robots.txt dhe të kopjoni blogun tek ju.

Meqë ra fjala, nëse po pyesni se si duket skedari robots.txt në blogun e dikujt, mund ta shikoni lehtësisht. Për ta bërë këtë, ju vetëm duhet të shtoni /robots.txt në adresën e faqes

https://site/robots.txt

Tani robots.txt juaj është gati. Dhe mbani mend, mos e shtyni krijimin e skedarit robots.txt, indeksimi i blogut tuaj do të varet nga ai.

Nëse dëshironi të krijoni robots.txt të saktë dhe në të njëjtën kohë të jeni të sigurt që vetëm faqet e nevojshme do të përfshihen në indeksin e motorit të kërkimit, atëherë kjo mund të bëhet automatikisht duke përdorur shtojcën.

Kaq kam. Ju uroj suksese të gjithëve. Nëse keni ndonjë pyetje ose shtesë, shkruani në komente.

Shihemi se shpejti.

Përshëndetje, Maxim Zaitsev.

Regjistrohu në artikuj të rinj!

Qëllimi i këtij udhëzuesi është të ndihmojë webmasterët dhe administratorët të përdorin robots.txt.

Prezantimi

Standardi i përjashtimit të robotëve është shumë i thjeshtë në thelb. Me pak fjalë, funksionon kështu:

Kur një robot që ndjek standardin viziton një sajt, ai fillimisht kërkon një skedar të quajtur "/robots.txt". Nëse gjendet një skedar i tillë, roboti e kërkon atë për udhëzime që ndalojnë indeksimin e pjesëve të caktuara të faqes.

Ku të vendosni skedarin robots.txt

Roboti thjesht kërkon URL-në "/robots.txt" në faqen tuaj; faqja në këtë rast është një host specifik në një port të caktuar.

URL e faqes URL e skedarit Robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Mund të ketë vetëm një skedar "/robots.txt" në sajt. Për shembull, nuk duhet ta vendosni skedarin robots.txt në nëndrejtoritë e përdoruesve - robotët nuk do t'i kërkojnë gjithsesi atje. Nëse dëshironi të jeni në gjendje të krijoni skedarë robots.txt në nëndrejtori, atëherë ju duhet një mënyrë për t'i mbledhur ato në mënyrë programore në një skedar të vetëm robots.txt të vendosur në rrënjën e sajtit. Ju mund të përdorni .

Mos harroni se URL-të janë të ndjeshme ndaj shkronjave të vogla dhe emri i skedarit "/robots.txt" duhet të shkruhet tërësisht me shkronja të vogla.

Vendndodhja e gabuar e robots.txt
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt Skedari nuk ndodhet në rrënjën e sajtit
ftp://ftp.w3.com/robots.txt Robotët nuk indeksojnë ftp
http://www.w3.org/Robots.txt Emri i skedarit nuk është me shkronja të vogla

Siç mund ta shihni, skedari robots.txt duhet të vendoset ekskluzivisht në rrënjën e faqes.

Çfarë të shkruani në skedarin robots.txt

Skedari robots.txt zakonisht përmban diçka të tillë:

Agjenti i përdoruesit: *
Mos lejo: /cgi-bin/
Mos lejo: /tmp/
Mos lejo: /~joe/

Në këtë shembull, indeksimi i tre drejtorive është i ndaluar.

Vini re se çdo drejtori është renditur në një rresht të veçantë - nuk mund të shkruani "Disallow: /cgi-bin/ /tmp/". Ju gjithashtu nuk mund të ndani një deklaratë Disallow ose User-agent në disa rreshta, sepse Ndërprerjet e linjës përdoren për të ndarë udhëzimet nga njëra-tjetra.

Nuk mund të përdoren as shprehjet e rregullta dhe shkronjat e egra. "Ylli" (*) në ​​udhëzimin e agjentit të përdoruesit do të thotë "çdo robot". Udhëzimet si "Mos lejo: *.gif" ose "Agjent i përdoruesit: Po*" nuk mbështeten.

Udhëzimet specifike në robots.txt varen nga faqja juaj dhe nga ajo që dëshironi të parandaloni që të indeksohet. Ketu jane disa shembuj:

Blloko të gjithë faqen që të mos indeksohet nga të gjithë robotët

Agjenti i përdoruesit: *
Mos lejo: /

Lejo që të gjithë robotët të indeksojnë të gjithë faqen

Agjenti i përdoruesit: *
Mos lejo:

Ose thjesht mund të krijoni një skedar bosh "/robots.txt".

Blloko vetëm disa drejtori nga indeksimi

Agjenti i përdoruesit: *
Mos lejo: /cgi-bin/
Mos lejo: /tmp/
Mos lejo: /private/

Parandaloni indeksimin e faqes vetëm për një robot

Përdoruesi-agjent: BadBot
Mos lejo: /

Lejo që një robot të indeksojë sitin dhe të mohojë të gjithë të tjerët

Agjenti i përdoruesit: Yandex
Mos lejo:

Agjenti i përdoruesit: *
Mos lejo: /

Refuzoni të gjithë skedarët përveç njërit nga indeksimi

Kjo është mjaft e vështirë, sepse... nuk ka asnjë deklaratë "Lejo". Në vend të kësaj, ju mund t'i zhvendosni të gjithë skedarët përveç atij që dëshironi të lejoni indeksimin në një nëndrejtori dhe parandaloni që të indeksohet:

Agjenti i përdoruesit: *
Mos lejo: /docs/

Ose mund të ndaloni të gjithë skedarët e ndaluar të indeksohen:

Agjenti i përdoruesit: *
Mos lejo: /private.html
Mos lejo: /foo.html
Mos lejo: /bar.html