रोबोट txt का उपयोग करना। रोबोट txt फ़ाइल को कैसे संपादित करें। किसी भी खोज इंजन के लिए आसानी से एक फ़ाइल बनाएं

इस आलेख में वर्डप्रेस के लिए robots.txt फ़ाइल के लिए, मेरी राय में, इष्टतम कोड का एक उदाहरण है, जिसे आप अपनी वेबसाइटों में उपयोग कर सकते हैं।

आरंभ करने के लिए, आइए याद रखें आपको robots.txt की आवश्यकता क्यों है?- robots.txt फ़ाइल की आवश्यकता विशेष रूप से खोज रोबोटों को यह बताने के लिए होती है कि उन्हें साइट के किन अनुभागों/पृष्ठों पर जाना है और किन पर नहीं जाना चाहिए। जिन पेजों पर जाना बंद कर दिया गया है उन्हें सर्च इंजन इंडेक्स (यांडेक्स, गूगल आदि) में शामिल नहीं किया जाएगा।

विकल्प 1: वर्डप्रेस के लिए इष्टतम robots.txt कोड

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /cgi-bin # क्लासिक... अस्वीकृत करें: /? # मुख्य पृष्ठ पर सभी क्वेरी पैरामीटर अस्वीकृत: /wp- # सभी WP फ़ाइलें: /wp-json/, /wp-शामिल, /wp-content/plugins अस्वीकृत: *?s= # खोज अस्वीकृत: *&s= # खोज अस्वीकृत: /खोज # खोज अस्वीकृत: /लेखक/ # लेखक संग्रह अस्वीकृत: */एम्बेड # सभी एम्बेडिंग अस्वीकृत: */पेज/ # सभी प्रकार के पृष्ठांकन की अनुमति: */अपलोड # खुले अपलोड की अनुमति: /*/*.js # अंदर /wp - (/*/ - प्राथमिकता के लिए) अनुमति दें: /*/*.css # अंदर /wp- (/*/ - प्राथमिकता के लिए) अनुमति दें: /wp-*.png # प्लगइन्स, कैश फ़ोल्डर आदि में छवियां . अनुमति दें: /wp-*.jpg # प्लगइन्स, कैश फ़ोल्डर आदि में छवियां। अनुमति दें: /wp-*.jpeg # प्लगइन्स, कैश फ़ोल्डर आदि में छवियां। अनुमति दें: /wp-*.gif # प्लगइन्स, कैश फ़ोल्डर आदि में छवियां। अनुमति दें: /wp-*.svg # प्लगइन्स, कैश फ़ोल्डर आदि में छवियां। अनुमति दें: /wp-*.pdf # प्लगइन्स, कैश फ़ोल्डर आदि में फ़ाइलें। अनुमति दें: /wp-admin/admin-ajax.php #अस्वीकार करें: /wp/ # जब WP उपनिर्देशिका साइटमैप में WP स्थापित है: http://example.com/sitemap.xml साइटमैप: http://example.com/ साइटमैप2.

कोड विश्लेषण:

    उपयोगकर्ता-एजेंट: * पंक्ति में हम इंगित करते हैं कि नीचे दिए गए सभी नियम सभी खोज रोबोटों के लिए काम करेंगे। यदि आपको इन नियमों को केवल एक विशिष्ट रोबोट के लिए काम करने की आवश्यकता है, तो * के बजाय हम रोबोट का नाम इंगित करते हैं (उपयोगकर्ता-एजेंट: यांडेक्स, उपयोगकर्ता-एजेंट: Googlebot)।

    अनुमति दें: */अपलोड लाइन में, हम जानबूझकर उन पृष्ठों को अनुक्रमित करने की अनुमति देते हैं जिनमें /अपलोड शामिल हैं। यह नियम अनिवार्य है, क्योंकि ऊपर हम /wp- से शुरू होने वाले पृष्ठों को अनुक्रमित करने पर रोक लगाते हैं, और /wp-सम्मिलित /wp-सामग्री/अपलोड. इसलिए, Disallow: /wp- नियम को ओवरराइड करने के लिए, आपको अनुमति दें: */uploads लाइन की आवश्यकता है, क्योंकि जैसे लिंक के लिए /wp-सामग्री/अपलोड/...हमारे पास ऐसी तस्वीरें हो सकती हैं जिन्हें अनुक्रमित करने की आवश्यकता है, और कुछ डाउनलोड की गई फ़ाइलें भी हो सकती हैं जिन्हें छिपाने की कोई आवश्यकता नहीं है। अनुमति दें: "पहले" या "बाद" हो सकता है अस्वीकृत:।

    शेष पंक्तियाँ रोबोटों को निम्न से शुरू होने वाले लिंक का "अनुसरण" करने से रोकती हैं:

    • अस्वीकृत: /cgi-bin - सर्वर पर स्क्रिप्ट निर्देशिका को बंद कर देता है
    • अस्वीकृत: /फ़ीड - ब्लॉग की RSS फ़ीड बंद कर देता है
    • अस्वीकृत: /ट्रैकबैक - सूचनाएं बंद करता है
    • अस्वीकृत: ?s= या अस्वीकृत: *?s= - खोज पृष्ठ बंद कर देता है
    • अस्वीकृत: */पेज/ - सभी प्रकार के पेजिनेशन को बंद कर देता है
  1. साइटमैप नियम: http://example.com/sitemap.xml रोबोट को XML प्रारूप में साइटमैप वाली फ़ाइल की ओर इंगित करता है। यदि आपकी साइट पर ऐसी कोई फ़ाइल है, तो उसका पूरा पथ लिखें। ऐसी कई फ़ाइलें हो सकती हैं, फिर हम प्रत्येक के लिए अलग-अलग पथ निर्दिष्ट करते हैं।

    होस्ट पंक्ति में: site.ru हम साइट के मुख्य दर्पण को इंगित करते हैं। यदि किसी साइट में दर्पण (अन्य डोमेन पर साइट की प्रतियां) हैं, तो यांडेक्स द्वारा उन सभी को समान रूप से अनुक्रमित करने के लिए, आपको मुख्य दर्पण निर्दिष्ट करने की आवश्यकता है। होस्ट निर्देश: केवल यांडेक्स समझता है, Google नहीं समझता! यदि साइट https प्रोटोकॉल के तहत संचालित होती है, तो इसे होस्ट: होस्ट: http://example.com में निर्दिष्ट किया जाना चाहिए

    यांडेक्स दस्तावेज़ से: "होस्ट एक स्वतंत्र निर्देश है और फ़ाइल में कहीं भी (अंतर-अनुभागीय) काम करता है।" इसलिए, हम इसे फ़ाइल के शीर्ष पर या बिल्कुल अंत में, एक खाली पंक्ति के माध्यम से रखते हैं।

क्योंकि खुली फ़ीड की उपस्थिति आवश्यक है, उदाहरण के लिए, यैंडेक्स ज़ेन के लिए, जब आपको किसी साइट को किसी चैनल से कनेक्ट करने की आवश्यकता होती है (टिप्पणीकार "डिजिटल" के लिए धन्यवाद)। शायद अन्यत्र खुले फ़ीड की आवश्यकता है।

साथ ही, प्रतिक्रिया शीर्षकों में फ़ीड का अपना प्रारूप होता है, जिसकी बदौलत खोज इंजन समझते हैं कि यह एक HTML पृष्ठ नहीं है, बल्कि एक फ़ीड है और जाहिर है, इसे किसी तरह अलग तरीके से संसाधित करते हैं।

यैंडेक्स के लिए होस्ट निर्देश की अब आवश्यकता नहीं है

यांडेक्स ने होस्ट निर्देश को पूरी तरह से छोड़ दिया है और इसे 301 रीडायरेक्ट से बदल दिया है। होस्ट को robots.txt से सुरक्षित रूप से हटाया जा सकता है। हालाँकि, यह महत्वपूर्ण है कि सभी साइट मिरर में मुख्य साइट (मुख्य मिरर) पर 301 रीडायरेक्ट हो।

यह महत्वपूर्ण है: प्रसंस्करण से पहले नियमों को क्रमबद्ध करना

यांडेक्स और गूगल अनुमति और अस्वीकृत निर्देशों को उस क्रम में संसाधित नहीं करते हैं जिसमें वे निर्दिष्ट हैं, बल्कि पहले उन्हें छोटे नियम से लंबे तक क्रमबद्ध करते हैं, और फिर अंतिम मिलान नियम को संसाधित करते हैं:

उपयोगकर्ता-एजेंट: * अनुमति दें: */अपलोड अस्वीकृत करें: /wp-

इस प्रकार पढ़ा जाएगा:

उपयोगकर्ता-एजेंट: * अनुमति न दें: /wp- अनुमति दें: */अपलोड

सॉर्टिंग सुविधा को तुरंत समझने और लागू करने के लिए, इस नियम को याद रखें: “robots.txt में नियम जितना लंबा होगा, उसकी प्राथमिकता उतनी ही अधिक होगी। यदि नियमों की लंबाई समान है, तो अनुमति निर्देश को प्राथमिकता दी जाती है।"

विकल्प 2: वर्डप्रेस के लिए मानक robots.txt

मुझे नहीं पता क्यों, लेकिन मैं पहले विकल्प के पक्ष में हूँ! क्योंकि यह अधिक तार्किक है - यैंडेक्स के लिए होस्ट निर्देश को इंगित करने के लिए अनुभाग को पूरी तरह से डुप्लिकेट करने की कोई आवश्यकता नहीं है, जो कि इंटरसेक्शनल है (टेम्पलेट में कहीं भी रोबोट द्वारा समझा जाता है, बिना यह बताए कि यह किस रोबोट को संदर्भित करता है)। गैर-मानक अनुमति निर्देश के लिए, यह यांडेक्स और Google के लिए काम करता है, और यदि यह अन्य रोबोटों के लिए अपलोड फ़ोल्डर नहीं खोलता है जो इसे नहीं समझते हैं, तो 99% मामलों में यह कुछ भी खतरनाक नहीं होगा। मैंने अभी तक इस बात पर ध्यान नहीं दिया है कि पहला रोबोट उस तरह काम नहीं करता जैसा उसे करना चाहिए।

उपरोक्त कोड थोड़ा गलत है. ग़लती को इंगित करने के लिए टिप्पणीकार " " को धन्यवाद, हालाँकि मुझे स्वयं यह पता लगाना था कि यह क्या था। और मैं यही लेकर आया हूं (मैं गलत भी हो सकता हूं):

    कुछ रोबोट (यांडेक्स और गूगल नहीं) 2 से अधिक निर्देशों को नहीं समझते हैं: उपयोगकर्ता-एजेंट: और अस्वीकृत:

  1. Yandex Host: निर्देश का उपयोग Disallow: के बाद किया जाना चाहिए, क्योंकि कुछ रोबोट (Yandex और Google नहीं) इसे नहीं समझ सकते हैं और आम तौर पर robots.txt को अस्वीकार कर देते हैं। स्वयं यांडेक्स, दस्तावेज़ीकरण के आधार पर, इस बात की बिल्कुल भी परवाह नहीं करता है कि होस्ट का उपयोग कहाँ और कैसे किया जाए:, भले ही आप आम तौर पर सभी साइट मिरर को एक साथ चिपकाने के लिए केवल एक लाइन होस्ट: www.site.ru के साथ robots.txt बनाते हैं।

3. साइटमैप: यैंडेक्स और गूगल के लिए और जाहिर तौर पर कई अन्य रोबोटों के लिए भी एक इंटरसेक्शनल निर्देश, इसलिए हम इसे अंत में एक खाली लाइन के साथ लिखते हैं और यह एक ही बार में सभी रोबोटों के लिए काम करेगा।

इन संशोधनों के आधार पर, सही कोड इस तरह दिखना चाहिए:

उपयोगकर्ता-एजेंट: यांडेक्स अस्वीकृत: /wp-एडमिन अस्वीकृत: /wp-शामिल अस्वीकृत: /wp-content/plugins अस्वीकृत: /wp-json/ अस्वीकृत: /wp-login.php अस्वीकृत: /wp-register.php अस्वीकृत: */एम्बेड अस्वीकृत: */पेज/ अस्वीकृत: /cgi-bin अस्वीकृत: *?s= अनुमति दें: /wp-admin/admin-ajax.php होस्ट: साइट.ru उपयोगकर्ता-एजेंट: * अस्वीकृत: /wp-admin अस्वीकृत : /wp-includes अस्वीकृत: /wp-content/plugins अस्वीकृत: /wp-json/ अस्वीकृत: /wp-login.php अस्वीकृत: /wp-register.php अस्वीकृत: */एम्बेड अस्वीकृत: */पेज/ अस्वीकृत: / सीजीआई-बिन अस्वीकृत: *?s= अनुमति दें: /wp-admin/admin-ajax.php साइटमैप: http://example.com/sitemap.xml

आइए इसे अपने लिए जोड़ें

यदि आपको किसी अन्य पेज या पेजों के समूह को ब्लॉक करने की आवश्यकता है, तो आप नीचे एक नियम (निर्देश) जोड़ सकते हैं अस्वीकृत:. उदाहरण के लिए, हमें किसी श्रेणी की सभी प्रविष्टियों को अनुक्रमण से बंद करना होगा समाचार, फिर पहले साइटमैप:एक नियम जोड़ें:

अस्वीकृत: /समाचार

यह रोबोटों को ऐसे लिंक का अनुसरण करने से रोकता है:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

यदि आपको /news की किसी भी घटना को बंद करने की आवश्यकता है, तो लिखें:

अस्वीकृत: */समाचार

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

आप Yandex सहायता पृष्ठ पर robots.txt निर्देशों का अधिक विस्तार से अध्ययन कर सकते हैं (लेकिन ध्यान रखें कि वहां वर्णित सभी नियम Google के लिए काम नहीं करते हैं)।

robots.txt जाँच और दस्तावेज़ीकरण

आप निम्नलिखित लिंक का उपयोग करके जांच सकते हैं कि निर्धारित नियम सही ढंग से काम करते हैं या नहीं:

  • यांडेक्स: http://webmaster.yandex.ru/robots.xml.
  • Google में यह किया जाता है खोज कंसोल. आपको प्राधिकरण और वेबमास्टर पैनल में साइट की उपस्थिति की आवश्यकता है...
  • robots.txt फ़ाइल बनाने की सेवा: http://pr-cy.ru/robots/
  • robots.txt बनाने और जाँचने की सेवा: https://seolib.ru/tools/generate/robots/

मैंने यांडेक्स से पूछा...

मैंने टेक में एक प्रश्न पूछा। होस्ट और साइटमैप निर्देशों के परस्पर उपयोग के संबंध में यांडेक्स समर्थन:

सवाल:

नमस्ते!
मैं अपने ब्लॉग पर robots.txt के बारे में एक लेख लिख रहा हूँ। मैं इस प्रश्न का उत्तर प्राप्त करना चाहूंगा (मुझे दस्तावेज़ में स्पष्ट "हां" नहीं मिला):

यदि मुझे सभी दर्पणों को चिपकाने की आवश्यकता है और इसके लिए मैं robots.txt फ़ाइल की शुरुआत में होस्ट निर्देश का उपयोग करता हूं:

होस्ट: site.ru उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /asd

क्या Host: site.ru इस उदाहरण में सही ढंग से काम करेगा? क्या यह रोबोटों को संकेत देगा कि site.ru मुख्य दर्पण है? वे। मैं इस निर्देश का उपयोग किसी अनुभाग में नहीं, बल्कि अलग से (फ़ाइल की शुरुआत में) करता हूं, बिना यह बताए कि यह किस उपयोगकर्ता-एजेंट को संदर्भित करता है।

मैं यह भी जानना चाहता था कि क्या साइटमैप निर्देश का उपयोग किसी अनुभाग के अंदर किया जाना चाहिए या क्या इसका उपयोग बाहर किया जा सकता है: उदाहरण के लिए, अनुभाग के बाद एक खाली रेखा के माध्यम से?

उपयोगकर्ता-एजेंट: यांडेक्स अस्वीकृत: /asd उपयोगकर्ता-एजेंट: * अस्वीकृत: /asd साइटमैप: http://example.com/sitemap.xml

क्या रोबोट इस उदाहरण में साइटमैप निर्देश को समझेगा?

मुझे आपसे उत्तर प्राप्त होने की आशा है जिससे मेरी शंकाएँ समाप्त हो जाएँगी।

उत्तर:

नमस्ते!

होस्ट और साइटमैप निर्देश परस्पर विरोधी हैं, इसलिए रोबोट द्वारा उनका उपयोग किया जाएगा, भले ही robots.txt फ़ाइल में वे निर्दिष्ट स्थान पर हों।

--
साभार, प्लैटन शुकुकिन
यांडेक्स समर्थन सेवा

निष्कर्ष

यह याद रखना महत्वपूर्ण है कि पहले से ही कार्यशील साइट पर robots.txt में परिवर्तन कई महीनों (2-3 महीने) के बाद ही ध्यान देने योग्य होंगे।

ऐसी अफवाहें हैं कि Google कभी-कभी robots.txt में नियमों को अनदेखा कर सकता है और एक पेज को इंडेक्स में ले सकता है यदि उसे लगता है कि पेज बहुत अनोखा और उपयोगी है और इसे इंडेक्स में होना ही चाहिए। हालाँकि, अन्य अफवाहें इस परिकल्पना का खंडन इस तथ्य से करती हैं कि अनुभवहीन ऑप्टिमाइज़र robots.txt में नियमों को गलत तरीके से निर्दिष्ट कर सकते हैं और इस प्रकार आवश्यक पृष्ठों को अनुक्रमण से बंद कर सकते हैं और अनावश्यक छोड़ सकते हैं। मैं दूसरी धारणा के प्रति अधिक इच्छुक हूं...

गतिशील robots.txt

वर्डप्रेस में, robots.txt फ़ाइल के लिए अनुरोध अलग से संसाधित किया जाता है और साइट के रूट में भौतिक रूप से robots.txt फ़ाइल बनाना बिल्कुल भी आवश्यक नहीं है, इसके अलावा, इसकी अनुशंसा नहीं की जाती है, क्योंकि इस दृष्टिकोण के साथ यह होगा प्लगइन्स के लिए इस फ़ाइल को बदलना बहुत मुश्किल है, और यह कभी-कभी आवश्यक होता है।

फ़ंक्शन विवरण में पढ़ें कि robots.txt फ़ाइल का गतिशील निर्माण कैसे काम करता है, और नीचे मैं एक उदाहरण दूंगा कि आप एक हुक के माध्यम से इस फ़ाइल की सामग्री को तुरंत कैसे बदल सकते हैं।

ऐसा करने के लिए, अपनी function.php फ़ाइल में निम्नलिखित कोड जोड़ें:

Add_action('do_robotstxt', 'my_robotstxt'); फ़ंक्शन my_robotstxt())( $lines = [ "उपयोगकर्ता-एजेंट: *", "अस्वीकार करें: /wp-admin/", "अस्वीकार करें: /wp-includes/", "", ]; echo implode("\r\ n ", $ लाइनें); मरना; // PHP कार्य समाप्त करें)

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /wp-admin/ अस्वीकृत करें: /wp-includes/

क्रॉल-विलंब - पागल रोबोटों के लिए टाइमआउट (2018 से ध्यान में नहीं लिया गया)

Yandex

इंडेक्सिंग मुद्दों के संबंध में हमारे समर्थन के लिए पिछले दो वर्षों में पत्रों का विश्लेषण करने के बाद, हमें पता चला कि दस्तावेज़ों की धीमी डाउनलोडिंग का एक मुख्य कारण robots.txt में गलत तरीके से कॉन्फ़िगर किया गया क्रॉल-विलंब निर्देश है […] ताकि साइट के मालिक अब न रहें हमें इसके बारे में चिंता करने की ज़रूरत है और यह सुनिश्चित करने के लिए कि सभी आवश्यक वेबसाइट पृष्ठ खोज में शीघ्रता से प्रदर्शित और अपडेट किए जाएं, हमने क्रॉल-विलंब निर्देश को छोड़ने का निर्णय लिया।

जब यांडेक्स रोबोट पागलों की तरह साइट को स्कैन करता है और इससे सर्वर पर अनावश्यक भार पैदा होता है। आप रोबोट को "धीमा" करने के लिए कह सकते हैं।

ऐसा करने के लिए, आपको क्रॉल-विलंब निर्देश का उपयोग करने की आवश्यकता है। यह सेकंड में उस समय को इंगित करता है जब रोबोट को साइट के प्रत्येक अगले पृष्ठ को स्कैन करने के लिए निष्क्रिय (प्रतीक्षा) करना होगा।

उन रोबोटों के साथ संगतता के लिए जो robots.txt मानक का अच्छी तरह से पालन नहीं करते हैं, क्रॉल-विलंब को अस्वीकार और अनुमति के तुरंत बाद समूह में (उपयोगकर्ता-एजेंट अनुभाग में) निर्दिष्ट किया जाना चाहिए।

यांडेक्स रोबोट भिन्नात्मक मानों को समझता है, उदाहरण के लिए, 0.5 (आधा सेकंड)। यह इस बात की गारंटी नहीं देता है कि खोज रोबोट हर आधे सेकंड में आपकी साइट पर आएगा, लेकिन यह आपको साइट क्रॉल को तेज़ करने की अनुमति देता है।

उपयोगकर्ता-एजेंट: यांडेक्स अस्वीकृत करें: /wp-एडमिन अस्वीकृत करें: /wp-शामिल है क्रॉल-विलंब: 1.5 # टाइमआउट 1.5 सेकंड उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /wp-एडमिन अस्वीकृत करें: /wp-शामिल है अनुमति दें: /wp-*। gif क्रॉल-विलंब: 2 # टाइमआउट 2 सेकंड

गूगल

Googlebot क्रॉल-विलंब निर्देश को नहीं समझता है. इसके रोबोट के लिए टाइमआउट वेबमास्टर पैनल में निर्दिष्ट किया जा सकता है।

Avi1.ru सेवा पर अब आप 7 से अधिक सबसे लोकप्रिय सोशल नेटवर्क में SMM प्रमोशन खरीद सकते हैं। साथ ही, सभी साइट सेवाओं की काफी कम लागत पर ध्यान दें।

पढ़ने का समय: 7 मिनट


ऑडिट या प्रमोशन के लिए हमारे पास आने वाले लगभग हर प्रोजेक्ट में एक गलत robots.txt फ़ाइल होती है, और अक्सर यह पूरी तरह से गायब होती है। ऐसा इसलिए होता है क्योंकि फ़ाइल बनाते समय हर कोई अपनी कल्पना से निर्देशित होता है, नियमों से नहीं। आइए जानें कि इस फ़ाइल को सही ढंग से कैसे बनाया जाए ताकि खोज रोबोट इसके साथ प्रभावी ढंग से काम करें।

आपको robots.txt कॉन्फ़िगर करने की आवश्यकता क्यों है?

रोबोट.txtकिसी साइट की मूल निर्देशिका में स्थित एक फ़ाइल है जो खोज इंजन रोबोटों को बताती है कि साइट के कौन से अनुभाग और पृष्ठ वे एक्सेस कर सकते हैं और कौन से नहीं।

खोज इंजन परिणामों में robots.txt सेट करना एक महत्वपूर्ण हिस्सा है; ठीक से कॉन्फ़िगर किए गए रोबोट साइट के प्रदर्शन को भी बढ़ाते हैं। robots.txt का गुम होना खोज इंजनों को आपकी साइट को क्रॉल करने और अनुक्रमित करने से नहीं रोकेगा, लेकिन यदि आपके पास यह फ़ाइल नहीं है, तो आपको दो समस्याएं हो सकती हैं:

    खोज रोबोट पूरी साइट को पढ़ेगा, जो क्रॉलिंग बजट को "कमजोर" कर देगा। क्रॉलिंग बजट उन पृष्ठों की संख्या है जिन्हें एक खोज रोबोट एक निश्चित अवधि में क्रॉल करने में सक्षम होता है।

    रोबोट फ़ाइल के बिना, खोज इंजन के पास सीएमएस को प्रशासित करने के लिए उपयोग किए जाने वाले सैकड़ों पृष्ठों तक, ड्राफ्ट और छिपे हुए पृष्ठों तक पहुंच होगी। यह उन्हें अनुक्रमित करेगा, और जब आवश्यक पृष्ठों की बात आती है जो आगंतुकों के लिए सीधी सामग्री प्रदान करते हैं, तो क्रॉलिंग बजट "समाप्त" हो जाएगा।

    सूचकांक में साइट लॉगिन पृष्ठ और अन्य व्यवस्थापक संसाधन शामिल हो सकते हैं, इसलिए एक हमलावर आसानी से उन्हें ट्रैक कर सकता है और डीडीओएस हमला कर सकता है या साइट को हैक कर सकता है।

खोज रोबोट किसी साइट को robots.txt के साथ और उसके बिना कैसे देखते हैं:


रोबोट्स.txt सिंटैक्स

इससे पहले कि हम सिंटैक्स को समझना और robots.txt को सेट करना शुरू करें, आइए देखें कि "आदर्श फ़ाइल" कैसी दिखनी चाहिए:


लेकिन आपको इसका तुरंत उपयोग नहीं करना चाहिए। प्रत्येक साइट को अक्सर अपनी स्वयं की सेटिंग्स की आवश्यकता होती है, क्योंकि हम सभी की साइट संरचना और सीएमएस अलग-अलग होते हैं। आइए प्रत्येक निर्देश को क्रम से देखें।

उपयोगकर्ता एजेंट

उपयोगकर्ता-एजेंट - एक खोज रोबोट को परिभाषित करता है जिसे फ़ाइल में वर्णित निर्देशों का पालन करना होगा। यदि आपको सभी को एक साथ संबोधित करने की आवश्यकता है, तो * आइकन का उपयोग करें। आप किसी विशिष्ट खोज रोबोट से भी संपर्क कर सकते हैं. उदाहरण के लिए, यांडेक्स और गूगल:


इस निर्देश का उपयोग करके, रोबोट समझता है कि किन फ़ाइलों और फ़ोल्डरों को अनुक्रमित करने से प्रतिबंधित किया गया है। यदि आप चाहते हैं कि आपकी पूरी साइट अनुक्रमण के लिए खुली रहे, तो अस्वीकृत मान को खाली छोड़ दें। Disallow के बाद साइट पर सभी सामग्री को छिपाने के लिए, “/” डालें।

हम किसी विशिष्ट फ़ोल्डर, फ़ाइल या फ़ाइल एक्सटेंशन तक पहुंच को रोक सकते हैं। हमारे उदाहरण में, हम सभी खोज रोबोटों से संपर्क करते हैं और बिट्रिक्स, खोज फ़ोल्डर और पीडीएफ एक्सटेंशन तक पहुंच को अवरुद्ध करते हैं।


अनुमति दें

साइट के पृष्ठों और अनुभागों को अनुक्रमित करने के लिए बाध्य करें। उपरोक्त उदाहरण में, हम Google खोज रोबोट से संपर्क करते हैं, बिट्रिक्स, खोज फ़ोल्डर और पीडीएफ एक्सटेंशन तक पहुंच को अवरुद्ध करते हैं। लेकिन बिट्रिक्स फ़ोल्डर में हम इंडेक्सिंग के लिए 3 फ़ोल्डर्स को जबरदस्ती खोलते हैं: कंपोनेंट्स, जेएस, टूल्स।


मेज़बान - साइट दर्पण

मिरर साइट मुख्य साइट का डुप्लिकेट है। दर्पणों का उपयोग विभिन्न उद्देश्यों के लिए किया जाता है: पता बदलना, सुरक्षा, सर्वर पर लोड कम करना आदि।

मेज़बान सबसे महत्वपूर्ण नियमों में से एक है। यदि यह नियम लिखा गया है, तो रोबोट समझ जाएगा कि अनुक्रमण के लिए साइट के किस दर्पण को ध्यान में रखा जाना चाहिए। यह निर्देश Yandex और Mail.ru रोबोट के लिए आवश्यक है। अन्य रोबोट इस नियम की अनदेखी करेंगे। मेज़बान केवल एक बार पंजीकृत होता है!

"https://" और "http://" प्रोटोकॉल के लिए, robots.txt फ़ाइल में सिंटैक्स अलग होगा।

साइटमैप - साइटमैप

साइटमैप साइट नेविगेशन का एक रूप है जिसका उपयोग खोज इंजनों को नए पृष्ठों के बारे में सूचित करने के लिए किया जाता है। साइटमैप निर्देश का उपयोग करते हुए, हम रोबोट को "जबरन" दिखाते हैं कि मानचित्र कहाँ स्थित है।


robots.txt में प्रतीक

फ़ाइल में प्रयुक्त प्रतीक: "/, *, $, #"।


robots.txt सेट करने के बाद कार्यक्षमता की जाँच करना

अपनी वेबसाइट पर robots.txt डालने के बाद, आपको इसे Yandex और Google वेबमास्टर में जोड़ना और जांचना होगा।

यांडेक्स जांच:

  1. इस लिंक पर जाओ ।
  2. चुनें: इंडेक्सिंग सेटिंग्स - रोबोट्स.txt विश्लेषण।

गूगल जांच:

  1. इस लिंक पर जाओ ।
  2. चुनें: स्कैन - रोबोट्स.txt फ़ाइल निरीक्षण उपकरण।

इस तरह आप त्रुटियों के लिए अपने robots.txt की जांच कर सकते हैं और यदि आवश्यक हो तो आवश्यक समायोजन कर सकते हैं।

  1. फ़ाइल की सामग्री बड़े अक्षरों में लिखी जानी चाहिए।
  2. अस्वीकृत निर्देश में केवल एक फ़ाइल या निर्देशिका निर्दिष्ट करने की आवश्यकता है।
  3. "उपयोगकर्ता-एजेंट" पंक्ति खाली नहीं होनी चाहिए.
  4. उपयोगकर्ता-एजेंट को हमेशा Disallow से पहले आना चाहिए।
  5. यदि आपको किसी निर्देशिका का अनुक्रमण अक्षम करना हो तो स्लैश शामिल करना न भूलें।
  6. किसी फ़ाइल को सर्वर पर अपलोड करने से पहले, सिंटैक्स और वर्तनी त्रुटियों के लिए इसकी जाँच करना सुनिश्चित करें।

मैं तुम्हारी सफलता की कामना करता हूं!

robots.txt फ़ाइल बनाने और अनुकूलित करने के 3 तरीकों की वीडियो समीक्षा

नमस्ते! आज मैं आपको इसके बारे में बताना चाहूँगा robots.txt फ़ाइल. हां, इसके बारे में इंटरनेट पर बहुत कुछ लिखा गया है, लेकिन सच कहूं तो बहुत लंबे समय तक मैं खुद नहीं समझ पाया कि सही robots.txt कैसे बनाया जाए। मैंने अंततः एक बना लिया और यह मेरे सभी ब्लॉगों पर है। मुझे कोई समस्या नज़र नहीं आती, robots.txt बिल्कुल ठीक काम करता है।

WordPress के लिए robots.txt

वास्तव में, हमें robots.txt की आवश्यकता क्यों है? उत्तर अब भी वही है - . अर्थात्, robots.txt को संकलित करना किसी साइट के खोज इंजन अनुकूलन के कुछ हिस्सों में से एक है (वैसे, बहुत जल्द एक पाठ होगा जो वर्डप्रेस पर किसी साइट के सभी आंतरिक अनुकूलन के लिए समर्पित होगा। इसलिए, ऐसा न करें) आरएसएस की सदस्यता लेना भूल जाएं ताकि दिलचस्प सामग्री छूट न जाए।)

इस फ़ाइल का एक कार्य है अनुक्रमण प्रतिबंधअनावश्यक वेबसाइट पेज. यह पता भी निर्धारित करता है और मुख्य बात बताता है साइट दर्पण(www के साथ या उसके बिना साइट)।

ध्यान दें: खोज इंजनों के लिए, www वाली एक ही साइट और www के बिना पूरी तरह से अलग-अलग साइटें हैं। लेकिन, यह महसूस करते हुए कि इन साइटों की सामग्री समान है, खोज इंजन उन्हें एक साथ "चिपका" देते हैं। इसलिए, साइट के मुख्य मिरर को robots.txt में पंजीकृत करना महत्वपूर्ण है। यह पता लगाने के लिए कि मुख्य कौन सा है (www के साथ या www के बिना), बस ब्राउज़र में अपनी साइट का पता टाइप करें, उदाहरण के लिए, www के साथ, यदि आप स्वचालित रूप से www के बिना उसी साइट पर रीडायरेक्ट हो जाते हैं, तो का मुख्य दर्पण आपकी साइट www के बिना है. मुझे आशा है कि मैंने इसे सही ढंग से समझाया है।

था:

अब (साइट पर जाने के बाद, www स्वचालित रूप से हटा दी गई, और साइट www के बिना हो गई):

तो, मेरी राय में, यह क़ीमती चीज़, वर्डप्रेस के लिए सही robots.txtआप नीचे देख सकते हैं.

वर्डप्रेस के लिए सही

उपयोगकर्ता एजेंट: *
अस्वीकृत करें: /सीजीआई-बिन
अस्वीकृत करें: /wp-admin
अस्वीकृत: /wp-शामिल है

अस्वीकृत: /wp-content/cache
अस्वीकृत: /wp-content/themes
अस्वीकृत: /ट्रैकबैक
अस्वीकृत: */ट्रैकबैक
अस्वीकृत: */*/ट्रैकबैक
अस्वीकृत: */*/फ़ीड/*/
अस्वीकृत: */फ़ीड
अस्वीकृत: /*?*
अस्वीकृत: /टैग

उपयोगकर्ता-एजेंट: यांडेक्स
अस्वीकृत करें: /सीजीआई-बिन
अस्वीकृत करें: /wp-admin
अस्वीकृत: /wp-शामिल है
अस्वीकृत: /wp-content/plugins
अस्वीकृत: /wp-content/cache
अस्वीकृत: /wp-content/themes
अस्वीकृत: /ट्रैकबैक
अस्वीकृत: */ट्रैकबैक
अस्वीकृत: */*/ट्रैकबैक
अस्वीकृत: */*/फ़ीड/*/
अस्वीकृत: */फ़ीड
अस्वीकृत: /*?*
अस्वीकृत: /टैग
होस्ट: वेबसाइट
साइटमैप: https://site/sitemap.xml.gz
साइटमैप: https://site/sitemap.xml

आपको ऊपर दी गई सभी चीज़ों को .txt एक्सटेंशन के साथ एक टेक्स्ट दस्तावेज़ में कॉपी करना होगा, ताकि फ़ाइल का नाम robots.txt हो। उदाहरण के लिए, आप प्रोग्राम का उपयोग करके यह टेक्स्ट दस्तावेज़ बना सकते हैं। कृपया, मत भूलना अंतिम तीन पंक्तियाँ बदलेंआपकी वेबसाइट के पते का पता. robots.txt फ़ाइल ब्लॉग के रूट में स्थित होनी चाहिए, यानी उसी फ़ोल्डर में जहां wp-content, wp-admin, आदि फ़ोल्डर स्थित हैं।

उन लोगों के लिए जो इस टेक्स्ट फ़ाइल को बनाने में बहुत आलसी हैं, आप वहां 3 पंक्तियों को भी सही कर सकते हैं।

मैं यह नोट करना चाहूंगा कि आपको उन तकनीकी भागों के साथ खुद पर अधिक बोझ डालने की आवश्यकता नहीं है जिनकी चर्चा नीचे की जाएगी। मैं उन्हें "ज्ञान" के लिए लाता हूं, यूं कहें तो एक सामान्य दृष्टिकोण, ताकि वे जान सकें कि क्या आवश्यक है और क्यों।

तो पंक्ति:

उपयोगकर्ता एजेंट

कुछ खोज इंजनों के लिए नियम निर्धारित करता है: उदाहरण के लिए, "*" (तारांकन चिह्न) इंगित करता है कि नियम सभी खोज इंजनों के लिए हैं, और नीचे क्या है

उपयोगकर्ता-एजेंट: यांडेक्स

इसका मतलब है कि ये नियम केवल Yandex के लिए हैं।

अनुमति न दें
यहां आप उन अनुभागों को "फेंकें" जिन्हें खोज इंजन द्वारा अनुक्रमित करने की आवश्यकता नहीं है। उदाहरण के लिए, एक पृष्ठ पर मेरे पास नियमित लेखों के साथ लेखों (पुनरावृत्ति) का डुप्लिकेट है, और पृष्ठों के दोहराव से खोज इंजन प्रचार पर नकारात्मक प्रभाव पड़ता है, इसलिए, यह अत्यधिक वांछनीय है कि इन क्षेत्रों को अनुक्रमण से बंद करने की आवश्यकता है, जो है हम इस नियम का उपयोग करके क्या करते हैं:

अस्वीकृत: /टैग

तो, ऊपर दिए गए robots.txt में, वर्डप्रेस साइट के लगभग सभी अनावश्यक अनुभागों को अनुक्रमण से बंद कर दिया गया है, अर्थात, सब कुछ वैसे ही छोड़ दें।

मेज़बान

यहां हमने साइट का मुख्य दर्पण सेट किया है, जिसके बारे में मैंने अभी ऊपर बात की थी।

साइट मैप

अंतिम दो पंक्तियों में हम का उपयोग करके बनाए गए अधिकतम दो साइटमैप का पता निर्दिष्ट करते हैं।

संभावित समस्याएँ

अनुभाग पर जाएँ अनुक्रमणिका सेटिंग्स -> रोबोट्स.txt विश्लेषण:

वहां पहले से ही, "साइट से robots.txt लोड करें" बटन पर क्लिक करें, और फिर "चेक" बटन पर क्लिक करें:

यदि आपको निम्न संदेश जैसा कुछ दिखाई देता है, तो इसका मतलब है कि आपके पास Yandex के लिए सही robots.txt है:

यह जांचने के लिए कि क्या robots.txt इस पृष्ठ को अनुक्रमित करने पर रोक लगाता है, आप साइट पर किसी भी लेख का पता "यूआरएल की सूची" में भी जोड़ सकते हैं:

जैसा कि आप देख सकते हैं, हमें robots.txt से पेज इंडेक्सिंग पर कोई प्रतिबंध नहीं दिखता है, जिसका अर्थ है कि सब कुछ क्रम में है :)।

मुझे आशा है कि आपके पास कोई और प्रश्न नहीं होगा, जैसे: robots.txt कैसे लिखें या इस फ़ाइल को सही कैसे बनाएं। इस पाठ में मैंने आपको सही दिखाने का प्रयास किया उदाहरण robots.txt:

जल्द ही फिर मिलेंगे!

पी.एस. अभी हाल ही में, क्या दिलचस्प घटित हुआ? 🙂

साइट मैप आपके ब्लॉग की अनुक्रमणिका को बहुत सरल बनाता है। प्रत्येक वेबसाइट और ब्लॉग का एक साइट मैप अवश्य होना चाहिए। लेकिन साथ ही हर वेबसाइट और ब्लॉग में एक फाइल होनी चाहिए रोबोट.TXT. robots.txt फ़ाइल में खोज रोबोट के लिए निर्देशों का एक सेट होता है। आप कह सकते हैं कि ये आपके ब्लॉग पर खोज रोबोट के लिए व्यवहार के नियम हैं। इस फ़ाइल में आपके ब्लॉग के साइटमैप का पथ भी शामिल है। और, वास्तव में, सही ढंग से बनाई गई robots.txt फ़ाइल के साथ, खोज रोबोट साइटमैप खोजने और अनावश्यक फ़ाइलों को अनुक्रमित करने में कीमती समय बर्बाद नहीं करता है।

robots.txt फ़ाइल क्या है?

robots.txt- यह एक टेक्स्ट फ़ाइल है जिसे आपके ब्लॉग के मूल में स्थित एक नियमित "नोटपैड" में बनाया जा सकता है, जिसमें खोज रोबोट के लिए निर्देश होते हैं।

ये निर्देश खोज रोबोटों को आपके सभी भगवान की फ़ाइलों को यादृच्छिक रूप से अनुक्रमित करने से रोकते हैं, और ठीक उन्हीं पृष्ठों को अनुक्रमित करने पर ध्यान केंद्रित करते हैं जिन्हें खोज परिणामों में शामिल किया जाना चाहिए।

इस फ़ाइल का उपयोग करके, आप वर्डप्रेस इंजन फ़ाइलों की अनुक्रमणिका को रोक सकते हैं। या, कहें, आपके ब्लॉग का गुप्त अनुभाग। आप अपने ब्लॉग मानचित्र का पथ और अपने ब्लॉग के मुख्य दर्पण को निर्दिष्ट कर सकते हैं। यहां मेरा तात्पर्य आपके डोमेन नाम से है जिसमें www है और www के बिना।

robots.txt के साथ और उसके बिना साइट अनुक्रमण

यह स्क्रीनशॉट स्पष्ट रूप से दिखाता है कि कैसे robots.txt फ़ाइल साइट पर कुछ फ़ोल्डरों के अनुक्रमण को प्रतिबंधित करती है। फ़ाइल के बिना, आपकी साइट पर सब कुछ रोबोट के लिए उपलब्ध है।

robots.txt फ़ाइल के मूल निर्देश

robots.txt फ़ाइल में मौजूद निर्देशों को समझने के लिए, आपको बुनियादी आदेशों (निर्देशों) को समझने की आवश्यकता है।

उपयोगकर्ता एजेंट- यह कमांड आपकी साइट तक रोबोट की पहुंच को इंगित करता है। इस निर्देश का उपयोग करके, आप प्रत्येक रोबोट के लिए व्यक्तिगत रूप से निर्देश बना सकते हैं।

उपयोगकर्ता-एजेंट: यांडेक्स - यांडेक्स रोबोट के लिए नियम

उपयोगकर्ता-एजेंट: * - सभी रोबोट के लिए नियम

अस्वीकार करें और अनुमति दें-निषेध एवं अनुमति के निर्देश। Disallow निर्देश का उपयोग करते हुए, अनुक्रमणिका निषिद्ध है, जबकि अनुमति इसकी अनुमति देती है।

प्रतिबंध का उदाहरण:

उपयोगकर्ता एजेंट: *

अस्वीकृत:/- संपूर्ण साइट पर प्रतिबंध।

उपयोगकर्ता-एजेंट: यांडेक्स

अस्वीकार करें: /एडमिन - यांडेक्स रोबोट को एडमिन फ़ोल्डर में स्थित पेजों तक पहुंचने से रोकता है।

संकल्प उदाहरण:

उपयोगकर्ता एजेंट: *

अनुमति दें: /फोटो

अस्वीकृत: / - फोटो फ़ोल्डर में स्थित पृष्ठों को छोड़कर, पूरी साइट पर प्रतिबंध।

टिप्पणी! अनुमति न दें निर्देश: पैरामीटर के बिना हर चीज़ की अनुमति देता है, और अनुमति निर्देश: पैरामीटर के बिना हर चीज़ को प्रतिबंधित करता है। और Disallow के बिना अनुमति निर्देश नहीं होना चाहिए।

साइट मैप- xml प्रारूप में साइट मानचित्र का पथ निर्दिष्ट करता है।

साइटमैप: https://site/sitemap.xml.gz

साइटमैप: https://site/sitemap.xml

मेज़बान– निर्देश आपके ब्लॉग के मुख्य दर्पण को परिभाषित करता है। ऐसा माना जाता है कि यह निर्देश केवल यांडेक्स रोबोटों के लिए निर्धारित है। यह निर्देश robots.txt फ़ाइल के बिल्कुल अंत में निर्दिष्ट किया जाना चाहिए।

उपयोगकर्ता-एजेंट: यांडेक्स

अस्वीकृत: /wp-शामिल है

होस्ट: वेबसाइट

टिप्पणी! मुख्य दर्पण पता हाइपरटेक्स्ट ट्रांसफर प्रोटोकॉल (http://) निर्दिष्ट किए बिना निर्दिष्ट किया गया है।

robots.txt कैसे बनाएं

अब जब हम robots.txt फ़ाइल के बुनियादी आदेशों से परिचित हो गए हैं, तो हम अपनी फ़ाइल बनाना शुरू कर सकते हैं। अपनी व्यक्तिगत सेटिंग्स के साथ अपनी स्वयं की robots.txt फ़ाइल बनाने के लिए, आपको अपने ब्लॉग की संरचना को जानना होगा।

हम वर्डप्रेस ब्लॉग के लिए एक मानक (सार्वभौमिक) robots.txt फ़ाइल बनाने पर विचार करेंगे। आप इसमें कभी भी अपनी स्वयं की सेटिंग जोड़ सकते हैं.

तो चलो शुरू हो जाओ। हमें एक नियमित "नोटपैड" की आवश्यकता होगी, जो प्रत्येक विंडोज़ ऑपरेटिंग सिस्टम में पाया जाता है। या MacOS पर टेक्स्टएडिट।

एक नया दस्तावेज़ खोलें और उसमें ये आदेश चिपकाएँ:

उपयोगकर्ता-एजेंट: * अस्वीकृत करें: साइटमैप: https://site/sitemap.xml.gz साइटमैप: https://site/sitemap.xml उपयोगकर्ता-एजेंट: यांडेक्स अस्वीकृत करें: /wp-login.php अस्वीकृत करें: /wp-register .php अस्वीकृत: /cgi-bin अस्वीकृत: /wp-एडमिन अस्वीकृत: /wp-शामिल अस्वीकृत: /xmlrpc.php अस्वीकृत: /wp-content/plugins अस्वीकृत: /wp-content/cache अस्वीकृत: /wp-content/themes अस्वीकृत करें: /wp-content/भाषाएं अस्वीकृत करें: /श्रेणी/*/* अस्वीकृत करें: /ट्रैकबैक अस्वीकृत करें: */ट्रैकबैक अस्वीकृत करें: */*/ट्रैकबैक अस्वीकृत करें: /टैग/ अस्वीकृत करें: /फ़ीड/ अस्वीकृत करें: */*/ फ़ीड/ */ अस्वीकृत: */फ़ीड अस्वीकृत: */*/फ़ीड अस्वीकृत: /?फ़ीड= अस्वीकृत: /*?* अस्वीकृत: /?s= होस्ट: साइट

साइटमैप और होस्ट निर्देशों के मापदंडों को अपने मापदंडों से बदलना न भूलें।

महत्वपूर्ण! आदेश लिखते समय, केवल एक स्थान की अनुमति होती है। निर्देश और पैरामीटर के बीच. किसी भी परिस्थिति में आपको किसी पैरामीटर के बाद या कहीं भी रिक्त स्थान नहीं रखना चाहिए।

उदाहरण: अस्वीकृत:<пробел>/खिलाना/

यह उदाहरण robots.txt फ़ाइल सार्वभौमिक है और CNC URL वाले किसी भी वर्डप्रेस ब्लॉग में फिट बैठती है। सीएनसी क्या है इसके बारे में पढ़ें। यदि आपने सीएनसी कॉन्फ़िगर नहीं किया है, तो मैं प्रस्तावित फ़ाइल से Disallow: /*?* Disallow: /?s= को हटाने की अनुशंसा करता हूं

robots.txt फ़ाइल को सर्वर पर अपलोड करना

इस प्रकार के हेरफेर के लिए सबसे अच्छा तरीका एफ़टीपी कनेक्शन है। टोटोलकमांडर के लिए एफ़टीपी कनेक्शन कैसे सेट करें, इसके बारे में पढ़ें। या आप अपनी होस्टिंग पर फ़ाइल मैनेजर का उपयोग कर सकते हैं।

मैं टोटोलकमांडर पर एक एफ़टीपी कनेक्शन का उपयोग करूंगा।

नेटवर्क > FTP सर्वर से कनेक्ट करें.

वांछित कनेक्शन का चयन करें और "कनेक्ट" बटन पर क्लिक करें।

ब्लॉग का रूट खोलें और F5 कुंजी दबाकर हमारी robots.txt फ़ाइल को कॉपी करें।

robots.txt को सर्वर पर कॉपी किया जा रहा है

अब आपकी robots.txt फ़ाइल अपना उचित कार्य करेगी। लेकिन मैं फिर भी यह सुनिश्चित करने के लिए robots.txt का विश्लेषण करने की सलाह देता हूं कि कोई त्रुटि न हो।

ऐसा करने के लिए, आपको अपने Yandex या Google वेबमास्टर खाते में लॉग इन करना होगा। आइए यांडेक्स का उदाहरण देखें। यहां आप साइट पर अपने अधिकारों की पुष्टि किए बिना भी विश्लेषण कर सकते हैं। आपको बस एक यांडेक्स मेलबॉक्स चाहिए।

Yandex.webmaster खाता खोलें।

वेबमास्टर खाते के मुख्य पृष्ठ पर, लिंक खोलें "जाँच करनारोबोट.TXT".

विश्लेषण करने के लिए, आपको अपने ब्लॉग का यूआरएल पता दर्ज करना होगा और "पर क्लिक करना होगा" डाउनलोड करना रोबोट.साइट से txt" जैसे ही फ़ाइल डाउनलोड हो जाए, बटन पर क्लिक करें "जाँच करना"।

चेतावनी प्रविष्टियों की अनुपस्थिति इंगित करती है कि robots.txt फ़ाइल सही ढंग से बनाई गई थी।

परिणाम नीचे प्रस्तुत किया जाएगा. जहां यह स्पष्ट और समझने योग्य है कि खोजी रोबोटों को कौन सी सामग्री दिखाने की अनुमति है और कौन सी निषिद्ध है।

robots.txt फ़ाइल का विश्लेषण करने का परिणाम

यहां आप robots.txt में बदलाव कर सकते हैं और तब तक प्रयोग कर सकते हैं जब तक आपको मनचाहा परिणाम न मिल जाए। लेकिन याद रखें, आपके ब्लॉग पर स्थित फ़ाइल नहीं बदलती है। ऐसा करने के लिए, आपको यहां प्राप्त परिणाम को एक नोटपैड में कॉपी करना होगा, इसे robots.txt के रूप में सहेजना होगा और ब्लॉग को अपने पास कॉपी करना होगा।

वैसे, अगर आप सोच रहे हैं कि किसी के ब्लॉग पर robots.txt फ़ाइल कैसी दिखती है, तो आप इसे आसानी से देख सकते हैं। ऐसा करने के लिए, आपको बस साइट पते पर /robots.txt जोड़ना होगा

https://site/robots.txt

अब आपका robots.txt तैयार है। और याद रखें, robots.txt फ़ाइल बनाना बंद न करें, आपके ब्लॉग की अनुक्रमणिका इस पर निर्भर करेगी।

यदि आप सही robots.txt बनाना चाहते हैं और साथ ही यह सुनिश्चित करना चाहते हैं कि केवल आवश्यक पेज ही सर्च इंजन इंडेक्स में शामिल किए जाएंगे, तो यह प्लगइन का उपयोग करके स्वचालित रूप से किया जा सकता है।

मेरे पास यही है। मैं आपकी सफलता की कामना करता हूं। यदि आपके कोई प्रश्न या अतिरिक्त हैं, तो टिप्पणियों में लिखें।

जल्द ही फिर मिलेंगे।

सादर, मैक्सिम जैतसेव।

नए लेखों की सदस्यता लें!

इस गाइड का उद्देश्य वेबमास्टर्स और प्रशासकों को robots.txt का उपयोग करने में मदद करना है।

परिचय

रोबोट छूट मानक मूलतः बहुत सरल है। संक्षेप में, यह इस प्रकार काम करता है:

जब मानक का पालन करने वाला कोई रोबोट किसी साइट पर जाता है, तो वह सबसे पहले "/robots.txt" नामक फ़ाइल का अनुरोध करता है। यदि ऐसी कोई फ़ाइल मिलती है, तो रोबोट साइट के कुछ हिस्सों को अनुक्रमित करने पर रोक लगाने वाले निर्देशों की खोज करता है।

robots.txt फ़ाइल को कहां रखें

रोबोट बस आपकी साइट पर यूआरएल "/robots.txt" का अनुरोध करता है; इस मामले में साइट एक विशिष्ट पोर्ट पर एक विशिष्ट होस्ट है।

साइट URL robots.txt फ़ाइल URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

साइट पर केवल एक फ़ाइल "/robots.txt" हो सकती है। उदाहरण के लिए, आपको robots.txt फ़ाइल को उपयोगकर्ता उपनिर्देशिकाओं में नहीं रखना चाहिए - रोबोट उन्हें वहां वैसे भी नहीं खोजेंगे। यदि आप उपनिर्देशिकाओं में robots.txt फ़ाइलें बनाने में सक्षम होना चाहते हैं, तो आपको उन्हें साइट के मूल में स्थित एकल robots.txt फ़ाइल में प्रोग्रामेटिक रूप से एकत्रित करने का एक तरीका चाहिए। आप उपयोग कर सकते हैं ।

याद रखें कि यूआरएल केस संवेदनशील होते हैं और फ़ाइल नाम "/robots.txt" पूरी तरह से लोअरकेस में लिखा जाना चाहिए।

robots.txt का ग़लत स्थान
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt फ़ाइल साइट के मूल में स्थित नहीं है
ftp://ftp.w3.com/robots.txt रोबोट ftp को अनुक्रमित नहीं करते
http://www.w3.org/Robots.txt फ़ाइल का नाम लोअरकेस में नहीं है

जैसा कि आप देख सकते हैं, robots.txt फ़ाइल को विशेष रूप से साइट के रूट पर रखा जाना चाहिए।

robots.txt फ़ाइल में क्या लिखें?

robots.txt फ़ाइल में आमतौर पर कुछ ऐसा होता है:

उपयोगकर्ता एजेंट: *
अस्वीकृत: /सीजीआई-बिन/
अस्वीकृत करें: /tmp/
अस्वीकृत: /~joe/

इस उदाहरण में, तीन निर्देशिकाओं का अनुक्रमण निषिद्ध है।

ध्यान दें कि प्रत्येक निर्देशिका एक अलग पंक्ति में सूचीबद्ध है - आप "अस्वीकृत: /cgi-bin/ /tmp/" नहीं लिख सकते। आप एक अस्वीकृत या उपयोगकर्ता-एजेंट कथन को कई पंक्तियों में विभाजित नहीं कर सकते, क्योंकि निर्देशों को एक दूसरे से अलग करने के लिए लाइन ब्रेक का उपयोग किया जाता है।

रेगुलर एक्सप्रेशन और वाइल्डकार्ड का भी उपयोग नहीं किया जा सकता। उपयोगकर्ता-एजेंट निर्देश में "तारांकन" (*) का अर्थ "कोई भी रोबोट" है। "अस्वीकृत: *.gif" या "उपयोगकर्ता-एजेंट: हां*" जैसे निर्देश समर्थित नहीं हैं।

robots.txt में विशिष्ट निर्देश आपकी साइट पर निर्भर करते हैं और आप किस चीज़ को अनुक्रमित होने से रोकना चाहते हैं। यहां कुछ उदाहरण दिए गए हैं:

संपूर्ण साइट को सभी रोबोटों द्वारा अनुक्रमित होने से रोकें

उपयोगकर्ता एजेंट: *
अस्वीकृत: /

सभी रोबोटों को संपूर्ण साइट को अनुक्रमित करने की अनुमति दें

उपयोगकर्ता एजेंट: *
अस्वीकृत:

या आप बस एक खाली फ़ाइल “/robots.txt” बना सकते हैं।

अनुक्रमण से केवल कुछ निर्देशिकाओं को अवरोधित करें

उपयोगकर्ता एजेंट: *
अस्वीकृत: /सीजीआई-बिन/
अस्वीकृत करें: /tmp/
अस्वीकृत: /निजी/

केवल एक रोबोट के लिए साइट अनुक्रमण रोकें

उपयोगकर्ता-एजेंट: बैडबॉट
अस्वीकृत: /

एक रोबोट को साइट को अनुक्रमित करने की अनुमति दें और अन्य सभी को अस्वीकार करें

उपयोगकर्ता-एजेंट: यांडेक्स
अस्वीकृत:

उपयोगकर्ता एजेंट: *
अस्वीकृत: /

एक को छोड़कर सभी फ़ाइलों को अनुक्रमणित करने से मना करें

यह काफी कठिन है, क्योंकि... कोई "अनुमति" कथन नहीं है। इसके बजाय, आप जिस फ़ाइल को अनुक्रमणित करने की अनुमति देना चाहते हैं उसे छोड़कर सभी फ़ाइलों को एक उपनिर्देशिका में स्थानांतरित कर सकते हैं और इसे अनुक्रमित होने से रोक सकते हैं:

उपयोगकर्ता एजेंट: *
अस्वीकृत: /दस्तावेज़/

या आप अनुक्रमण से प्रतिबंधित सभी फ़ाइलों को प्रतिबंधित कर सकते हैं:

उपयोगकर्ता एजेंट: *
अस्वीकृत करें: /private.html
अस्वीकृत: /foo.html
अस्वीकृत: /bar.html