রোবট txt ব্যবহার করে। কিভাবে রোবট txt ফাইল এডিট করবেন। যেকোনো সার্চ ইঞ্জিনের জন্য সহজেই একটি ফাইল তৈরি করুন

এই নিবন্ধটিতে আমার মতে, ওয়ার্ডপ্রেসের জন্য robots.txt ফাইলের কোডের জন্য সর্বোত্তম একটি উদাহরণ রয়েছে, যা আপনি আপনার ওয়েবসাইটগুলিতে ব্যবহার করতে পারেন।

শুরু করার জন্য, আসুন মনে রাখা যাক আপনার কেন robots.txt দরকার- robots.txt ফাইলটি বিশেষভাবে সার্চ রোবটদের সাইটের কোন বিভাগ/পৃষ্ঠাগুলি পরিদর্শন করতে হবে এবং কোনটি পরিদর্শন করা উচিত নয় তাদের "বলাতে" প্রয়োজন৷ যে পৃষ্ঠাগুলি পরিদর্শন থেকে বন্ধ করা হয়েছে সেগুলি সার্চ ইঞ্জিন সূচকে অন্তর্ভুক্ত করা হবে না (ইয়ানডেক্স, গুগল, ইত্যাদি)।

বিকল্প 1: ওয়ার্ডপ্রেসের জন্য সর্বোত্তম robots.txt কোড

ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: /cgi-bin # ক্লাসিক... অস্বীকৃতি: /? # প্রধান পৃষ্ঠায় সমস্ত ক্যোয়ারী পরামিতি অস্বীকৃতি: /wp- # সমস্ত WP ফাইল: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Disallow: /search # search Disallow: /author/ # author archive Disallow: */embed # all embeddings Disallow: */page/ # সব ধরনের পেজিনেশন অনুমতি দিন: */uploads # open uploads Allow: /*/*.js # ভিতরে /wp - (/*/ - অগ্রাধিকারের জন্য) অনুমতি দিন: /*/*.css # ভিতরে /wp- (/*/ - অগ্রাধিকারের জন্য) অনুমতি দিন: /wp-*.png # প্লাগইন, ক্যাশে ফোল্ডার, ইত্যাদিতে ছবি . অনুমতি দিন: /wp-*.jpg # ইমেজ প্লাগইন, ক্যাশে ফোল্ডার, ইত্যাদিতে। অনুমতি দিন: /wp-*.jpeg # ইমেজ প্লাগইন, ক্যাশে ফোল্ডার, ইত্যাদিতে। অনুমতি দিন: /wp-*.gif # ইমেজ প্লাগইন, ক্যাশে ফোল্ডার, ইত্যাদিতে। অনুমতি দিন: /wp-*.svg # ইমেজ প্লাগইন, ক্যাশে ফোল্ডার, ইত্যাদিতে। অনুমতি দিন: /wp-*.pdf # ফাইল প্লাগইন, ক্যাশে ফোল্ডার, ইত্যাদিতে। অনুমতি দিন: /wp-admin/admin-ajax.php #Disallow: /wp/ # যখন WP সাবডিরেক্টরি সাইটম্যাপে ইনস্টল করা হয়: http://example.com/sitemap.xml সাইটম্যাপ: http://example.com/ sitemap2. xml # আরেকটি ফাইল #Sitemap: http://example.com/sitemap.xml.gz # সংকুচিত সংস্করণ (.gz) # কোড সংস্করণ: 1.1 # আপনার সাইটে `site.ru` পরিবর্তন করতে ভুলবেন না।

কোড বিশ্লেষণ:

    ব্যবহারকারী-এজেন্ট: * লাইনে আমরা নির্দেশ করি যে নীচের সমস্ত নিয়ম সমস্ত অনুসন্ধান রোবটের জন্য কাজ করবে *। শুধুমাত্র একটি নির্দিষ্ট রোবটের জন্য কাজ করার জন্য যদি আপনার এই নিয়মগুলির প্রয়োজন হয়, তাহলে * এর পরিবর্তে আমরা রোবটের নাম নির্দেশ করি (ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স, ব্যবহারকারী-এজেন্ট: Googlebot)।

    Allow: */uploads লাইনে, আমরা ইচ্ছাকৃতভাবে /আপলোড ধারণ করে এমন পৃষ্ঠাগুলিকে ইন্ডেক্স করার অনুমতি দিই। এই নিয়ম বাধ্যতামূলক, কারণ উপরে আমরা /wp-, এবং দিয়ে শুরু হওয়া পৃষ্ঠাগুলিকে ইন্ডেক্স করা নিষিদ্ধ করি /wp-অন্তর্ভুক্ত /wp-content/uploads. তাই, Disallow: /wp- নিয়মকে ওভাররাইড করার জন্য, আপনাকে Allow: */uploads লাইনটি প্রয়োজন, কারণ লিঙ্কগুলির জন্য /wp-content/uploads/...আমাদের কাছে এমন ছবি থাকতে পারে যেগুলিকে ইন্ডেক্স করা দরকার, এবং কিছু ডাউনলোড করা ফাইলও থাকতে পারে যেগুলি লুকানোর দরকার নেই৷ অনুমতি দিন: "আগে" বা "পরে" হতে পারে Disallow:।

    অবশিষ্ট লাইনগুলি রোবটকে "অনুসরণ করা" লিঙ্কগুলি থেকে নিষিদ্ধ করে যা দিয়ে শুরু হয়:

    • Disallow: /cgi-bin - সার্ভারে স্ক্রিপ্ট ডিরেক্টরি বন্ধ করে
    • Disallow: /feed - ব্লগের RSS ফিড বন্ধ করে দেয়
    • অনুমতি না দেওয়া: /ট্র্যাকব্যাক - বিজ্ঞপ্তিগুলি বন্ধ করে
    • Disallow: ?s= বা Disallow: *?s= - সার্চ পেজ বন্ধ করে
    • অননুমোদিত: */পৃষ্ঠা/ - সমস্ত ধরণের পৃষ্ঠাকরণ বন্ধ করে
  1. সাইটম্যাপ নিয়ম: http://example.com/sitemap.xml XML ফর্ম্যাটে সাইটম্যাপ সহ একটি ফাইলে রোবটকে নির্দেশ করে৷ আপনার সাইটে যদি এমন একটি ফাইল থাকে তবে এটির সম্পূর্ণ পথটি লিখুন। এই ধরনের বেশ কয়েকটি ফাইল থাকতে পারে, তারপরে আমরা আলাদাভাবে প্রতিটির পথ নির্দেশ করি।

    Host: site.ru লাইনে আমরা সাইটের প্রধান আয়না নির্দেশ করি। যদি কোনও সাইটে মিরর থাকে (অন্যান্য ডোমেনে সাইটের অনুলিপি), তাহলে ইয়ানডেক্সের জন্য সেগুলিকে সমানভাবে সূচী করার জন্য, আপনাকে মূল আয়নাটি নির্দিষ্ট করতে হবে। হোস্ট নির্দেশনা: শুধুমাত্র ইয়ানডেক্স বোঝে, গুগল বোঝে না! যদি সাইটটি https প্রোটোকলের অধীনে কাজ করে, তাহলে এটি অবশ্যই হোস্ট: হোস্ট: http://example.com-এ নির্দিষ্ট করা উচিত

    ইয়ানডেক্স ডকুমেন্টেশন থেকে: "হোস্ট একটি স্বাধীন নির্দেশিকা এবং ফাইলের যেকোনো জায়গায় কাজ করে (ছেদযুক্ত)।" অতএব, আমরা এটিকে একটি খালি লাইনের মাধ্যমে ফাইলের শীর্ষে বা একেবারে শেষে রাখি।

কারণ খোলা ফিডের উপস্থিতি প্রয়োজন, উদাহরণস্বরূপ, ইয়ানডেক্স জেনের জন্য, যখন আপনাকে একটি চ্যানেলের সাথে একটি সাইট সংযুক্ত করতে হবে (ভাষ্যকার "ডিজিটাল"কে ধন্যবাদ)। সম্ভবত খোলা ফিড অন্য কোথাও প্রয়োজন হয়.

একই সময়ে, প্রতিক্রিয়া শিরোনামগুলিতে ফিডগুলির নিজস্ব ফর্ম্যাট রয়েছে, যার জন্য ধন্যবাদ অনুসন্ধান ইঞ্জিনগুলি বুঝতে পারে যে এটি একটি HTML পৃষ্ঠা নয়, তবে একটি ফিড এবং স্পষ্টতই, এটিকে একরকম ভিন্নভাবে প্রক্রিয়া করে।

ইয়ানডেক্সের জন্য হোস্ট নির্দেশিকাটির আর প্রয়োজন নেই

Yandex সম্পূর্ণরূপে হোস্ট নির্দেশিকা পরিত্যাগ করে এবং এটি একটি 301 পুনঃনির্দেশ দিয়ে প্রতিস্থাপন করেছে। robots.txt থেকে হোস্ট নিরাপদে সরানো যেতে পারে। যাইহোক, এটি গুরুত্বপূর্ণ যে সমস্ত সাইটের আয়নাতে একটি 301 মূল সাইটে (প্রধান আয়না) পুনঃনির্দেশ করা আছে।

এটি গুরুত্বপূর্ণ: প্রক্রিয়াকরণের আগে নিয়ম বাছাই

ইয়ানডেক্স এবং Google অনুমতি এবং অস্বীকৃতি নির্দেশিকাগুলিকে যে ক্রমানুসারে নির্দিষ্ট করা হয়েছে সে অনুসারে প্রক্রিয়া করে না, তবে প্রথমে সেগুলিকে সংক্ষিপ্ত নিয়ম থেকে দীর্ঘ পর্যন্ত বাছাই করুন এবং তারপরে শেষ মিলিত নিয়মটি প্রক্রিয়া করুন:

ব্যবহারকারী-এজেন্ট: * অনুমতি দিন: */আপলোড অস্বীকৃতি: /wp-

হিসাবে পড়া হবে:

ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: /wp- অনুমতি দিন: */আপলোড

বাছাই করার বৈশিষ্ট্যটি দ্রুত বুঝতে এবং প্রয়োগ করতে, এই নিয়মটি মনে রাখবেন: “robots.txt-এ নিয়ম যত বেশি, এটির অগ্রাধিকার তত বেশি। যদি নিয়মের দৈর্ঘ্য একই হয়, তাহলে অনুমতি দেওয়া নির্দেশকে অগ্রাধিকার দেওয়া হয়।"

বিকল্প 2: ওয়ার্ডপ্রেসের জন্য স্ট্যান্ডার্ড robots.txt

আমি জানি না কেন, তবে আমি প্রথম বিকল্পের জন্য আছি! কারণ এটি আরও যৌক্তিক - Yandex-এর জন্য হোস্ট নির্দেশিকা নির্দেশ করার জন্য বিভাগটিকে সম্পূর্ণরূপে অনুলিপি করার প্রয়োজন নেই, যা ছেদবিশিষ্ট (টেমপ্লেটের যেকোনো জায়গায় রোবট দ্বারা বোঝা যায়, এটি কোন রোবটকে নির্দেশ করে তা নির্দেশ না করে)। নন-স্ট্যান্ডার্ড অ্যালো নির্দেশিকা হিসাবে, এটি ইয়ানডেক্স এবং গুগলের জন্য কাজ করে এবং যদি এটি অন্য রোবটগুলির জন্য আপলোড ফোল্ডারটি না খোলে যেগুলি এটি বোঝে না, তবে 99% ক্ষেত্রে এটি বিপজ্জনক কিছু করবে না। আমি এখনও লক্ষ্য করিনি যে প্রথম রোবটগুলি এটির মতো কাজ করে না।

উপরের কোডটি একটু ভুল। ভাষ্যকারকে ধন্যবাদ " " ভুলটি নির্দেশ করার জন্য, যদিও আমাকে এটি কী তা খুঁজে বের করতে হয়েছিল। এবং আমি এটি নিয়ে এসেছি (আমি ভুল হতে পারি):

    কিছু রোবট (Yandex এবং Google নয়) 2টির বেশি নির্দেশনা বোঝে না: User-agent: and disallow:

  1. Yandex Host: নির্দেশটি Disallow: এর পরে ব্যবহার করা আবশ্যক, কারণ কিছু রোবট (Yandex এবং Google নয়) এটি বুঝতে পারে না এবং সাধারণত robots.txt প্রত্যাখ্যান করতে পারে। ইয়ানডেক্স নিজেই, ডকুমেন্টেশন দ্বারা বিচার করে, কোথায় এবং কীভাবে Host: ব্যবহার করবেন তা একেবারেই চিন্তা করে না, এমনকি যদি আপনি সাধারণত একটি লাইন হোস্ট দিয়ে robots.txt তৈরি করেন: সমস্ত সাইটের আয়না একসাথে আঠালো করার জন্য।

3. সাইটম্যাপ: ইয়ানডেক্স এবং গুগলের জন্য একটি ইন্টারসেকশনাল নির্দেশিকা এবং আপাতদৃষ্টিতে অন্যান্য অনেক রোবটের জন্যও, তাই আমরা এটিকে শেষে একটি খালি লাইন দিয়ে লিখি এবং এটি একবারে সমস্ত রোবটের জন্য কাজ করবে।

এই সংশোধনীর উপর ভিত্তি করে, সঠিক কোডটি এইরকম হওয়া উচিত:

ব্যবহারকারী-এজেন্ট: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */এম্বেড অস্বীকৃতি: */পৃষ্ঠা/ অস্বীকৃতি: /cgi-bin অস্বীকৃতি: *?s= অনুমতি দিন: /wp-admin/admin-ajax.php হোস্ট: site.ru ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: /wp-admin অস্বীকৃতি : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php সাইটম্যাপ: http://example.com/sitemap.xml

এর নিজেদের জন্য এটা যোগ করা যাক

আপনি যদি অন্য কোনো পৃষ্ঠা বা পৃষ্ঠার গ্রুপ ব্লক করতে চান, আপনি নীচে একটি নিয়ম (নির্দেশ) যোগ করতে পারেন অনুমতি না দেওয়া:. উদাহরণস্বরূপ, আমাদের ইন্ডেক্সিং থেকে একটি বিভাগে সমস্ত এন্ট্রি বন্ধ করতে হবে খবর, তারপর আগে সাইটম্যাপ:একটি নিয়ম যোগ করুন:

অনুমতি না দেওয়া: /সংবাদ

এটি রোবটকে এই ধরনের লিঙ্কগুলি অনুসরণ করতে বাধা দেয়:

  • http://example.com/news
  • http://example.com/news/drugoe-nazvanie/

আপনি যদি /news এর কোনো ঘটনা বন্ধ করতে চান, তাহলে লিখুন:

অনুমতি না দেওয়া: */সংবাদ

  • http://example.com/news
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

আপনি ইয়ানডেক্স সহায়তা পৃষ্ঠায় আরও বিস্তারিতভাবে robots.txt নির্দেশাবলী অধ্যয়ন করতে পারেন (তবে মনে রাখবেন যে সেখানে বর্ণিত সমস্ত নিয়ম Google-এর জন্য কাজ করে না)।

Robots.txt চেক এবং ডকুমেন্টেশন

আপনি নিম্নলিখিত লিঙ্কগুলি ব্যবহার করে নির্ধারিত নিয়মগুলি সঠিকভাবে কাজ করে কিনা তা পরীক্ষা করতে পারেন:

  • ইয়ানডেক্স: http://webmaster.yandex.ru/robots.xml।
  • Google এ এটি করা হয় অনুসন্ধান কনসোল. ওয়েবমাস্টার প্যানেলে আপনার অনুমোদন এবং সাইটের উপস্থিতি প্রয়োজন...
  • একটি robots.txt ফাইল তৈরির পরিষেবা: http://pr-cy.ru/robots/
  • robots.txt তৈরি এবং পরীক্ষা করার জন্য পরিষেবা: https://seolib.ru/tools/generate/robots/

আমি ইয়ানডেক্সকে জিজ্ঞেস করলাম...

আমি প্রযুক্তিতে একটি প্রশ্ন জিজ্ঞাসা করেছি। হোস্ট এবং সাইটম্যাপ নির্দেশাবলীর ইন্টারসেকশনাল ব্যবহার সম্পর্কিত ইয়ানডেক্স সমর্থন:

প্রশ্নঃ

হ্যালো!
আমি আমার ব্লগে robots.txt সম্পর্কে একটি নিবন্ধ লিখছি। আমি এই প্রশ্নের একটি উত্তর পেতে চাই (আমি ডকুমেন্টেশনে একটি স্পষ্ট "হ্যাঁ" খুঁজে পাইনি):

যদি আমাকে সমস্ত আয়না আঠালো করতে হয় এবং এর জন্য আমি robots.txt ফাইলের একেবারে শুরুতে হোস্ট নির্দেশিকা ব্যবহার করি:

হোস্ট: site.ru ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: /asd

হোস্ট: site.ru এই উদাহরণে সঠিকভাবে কাজ করবে? এটা কি রোবটকে নির্দেশ করবে যে site.ru প্রধান আয়না? সেগুলো. আমি এই নির্দেশটি কোন বিভাগে ব্যবহার করি না, তবে আলাদাভাবে (ফাইলের শুরুতে) এটি কোন ব্যবহারকারী-এজেন্টকে নির্দেশ করে তা উল্লেখ না করেই ব্যবহার করি।

আমি আরও জানতে চেয়েছিলাম যে সাইটম্যাপ নির্দেশিকাটি অবশ্যই একটি বিভাগের ভিতরে ব্যবহার করা উচিত নাকি এটি বাইরে ব্যবহার করা যেতে পারে: উদাহরণস্বরূপ, একটি খালি লাইনের মাধ্যমে, বিভাগের পরে?

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স অস্বীকৃতি: /asd ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: /asd সাইটম্যাপ: http://example.com/sitemap.xml

রোবট কি এই উদাহরণে সাইটম্যাপের নির্দেশনা বুঝতে পারবে?

আমি আশা করি আপনার কাছ থেকে একটি উত্তর পাব যা আমার সন্দেহের অবসান ঘটাবে।

উত্তর:

হ্যালো!

হোস্ট এবং সাইটম্যাপ নির্দেশিকাগুলি ইন্টারসেকশনাল, তাই সেগুলি robots.txt ফাইলের যেখানে নির্দিষ্ট করা হয়েছে তা নির্বিশেষে রোবট দ্বারা ব্যবহার করা হবে৷

--
আন্তরিকভাবে, প্লাটন শচুকিন
ইয়ানডেক্স সমর্থন পরিষেবা

উপসংহার

এটি মনে রাখা গুরুত্বপূর্ণ যে ইতিমধ্যেই কাজ করা সাইটে robots.txt-এর পরিবর্তনগুলি কয়েক মাস (2-3 মাস) পরে লক্ষণীয় হবে৷

গুজব আছে যে Google কখনও কখনও robots.txt-এর নিয়মগুলি উপেক্ষা করতে পারে এবং একটি পৃষ্ঠাকে সূচীতে নিতে পারে যদি এটি বিবেচনা করে যে পৃষ্ঠাটি খুবই অনন্য এবং দরকারী এবং এটি অবশ্যই সূচীতে থাকা আবশ্যক৷ যাইহোক, অন্যান্য গুজবগুলি এই অনুমানকে খণ্ডন করে যে অনভিজ্ঞ অপ্টিমাইজাররা ভুলভাবে robots.txt-এ নিয়মগুলি নির্দিষ্ট করতে পারে এবং এইভাবে সূচীকরণ থেকে প্রয়োজনীয় পৃষ্ঠাগুলি বন্ধ করে দেয় এবং অপ্রয়োজনীয়গুলি ছেড়ে দেয়। আমি দ্বিতীয় অনুমানের দিকে বেশি ঝুঁকছি...

ডায়নামিক robots.txt

ওয়ার্ডপ্রেসে, robots.txt ফাইলের জন্য অনুরোধটি আলাদাভাবে প্রক্রিয়া করা হয় এবং সাইটের রুটে শারীরিকভাবে একটি robots.txt ফাইল তৈরি করা মোটেই প্রয়োজনীয় নয়, উপরন্তু, এটি সুপারিশ করা হয় না, কারণ এই পদ্ধতির সাথে এটি হবে প্লাগইনগুলির জন্য এই ফাইলটি পরিবর্তন করা খুব কঠিন এবং এটি কখনও কখনও প্রয়োজনীয়।

কিভাবে একটি robots.txt ফাইলের গতিশীল সৃষ্টি ফাংশনের বর্ণনায় কাজ করে সে সম্পর্কে পড়ুন, এবং নীচে আমি একটি উদাহরণ দেব কিভাবে আপনি একটি হুকের মাধ্যমে এই ফাইলের বিষয়বস্তু পরিবর্তন করতে পারেন।

এটি করার জন্য, আপনার functions.php ফাইলে নিম্নলিখিত কোড যোগ করুন:

Add_action("do_robotstxt", "my_robotstxt"); ফাংশন my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $লাইন); ডাই; // পিএইচপি কাজ বন্ধ করুন)

ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: /wp-admin/ অস্বীকৃতি: /wp-includes/

ক্রল-বিলম্ব - পাগল রোবটের জন্য সময়সীমা (2018 সাল থেকে বিবেচনায় নেওয়া হয়নি)

ইয়ানডেক্স

ইন্ডেক্সিং সংক্রান্ত সমস্যাগুলির বিষয়ে আমাদের সমর্থনের জন্য গত দুই বছরে চিঠিগুলি বিশ্লেষণ করে, আমরা জানতে পেরেছি যে নথিগুলির ধীরগতির ডাউনলোডের একটি প্রধান কারণ হল robots.txt-এ একটি ভুলভাবে কনফিগার করা ক্রল-বিলম্ব নির্দেশ […] এই বিষয়ে চিন্তা করতে হবে এবং নিশ্চিত করতে যে সমস্ত প্রয়োজনীয় ওয়েবসাইট পৃষ্ঠাগুলি উপস্থিত হয় এবং অনুসন্ধানে দ্রুত আপডেট হয়, আমরা ক্রল-বিলম্ব নির্দেশিকা পরিত্যাগ করার সিদ্ধান্ত নিয়েছি।

যখন ইয়ানডেক্স রোবট সাইটটিকে পাগলের মতো স্ক্যান করে এবং এটি সার্ভারে অপ্রয়োজনীয় লোড তৈরি করে। আপনি রোবটকে "ধীর গতিতে" বলতে পারেন।

এটি করার জন্য, আপনাকে ক্রল-বিলম্ব নির্দেশিকা ব্যবহার করতে হবে। এটি সেকেন্ডে সময় নির্দেশ করে যে সাইটের প্রতিটি পরবর্তী পৃষ্ঠা স্ক্যান করার জন্য রোবটটিকে অবশ্যই নিষ্ক্রিয় (অপেক্ষা) করতে হবে।

যে রোবটগুলি robots.txt মানকে ভালভাবে অনুসরণ করে না তাদের সাথে সামঞ্জস্যের জন্য, অস্বীকৃতি এবং অনুমতি দেওয়ার পরপরই গ্রুপে (ব্যবহারকারী-এজেন্ট বিভাগে) ক্রল-বিলম্ব নির্দিষ্ট করতে হবে

ইয়ানডেক্স রোবট ভগ্নাংশের মান বোঝে, উদাহরণস্বরূপ, 0.5 (অর্ধ সেকেন্ড)। এটি গ্যারান্টি দেয় না যে সার্চ রোবট প্রতি অর্ধ সেকেন্ডে আপনার সাইটটি পরিদর্শন করবে, তবে এটি আপনাকে সাইট ক্রল করার গতি বাড়াতে দেয়।

ইউজার-এজেন্ট: ইয়ানডেক্স ডিসঅ্যালো: /wp-admin Disallow: /wp-includes Crawl-delay: 1.5 # টাইমআউট 1.5 সেকেন্ড ইউজার-এজেন্ট: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-*। gif ক্রল-বিলম্ব: 2 # সময়সীমা 2 সেকেন্ড

গুগল

Googlebot ক্রল-বিলম্ব নির্দেশিকা বুঝতে পারে না। এর রোবটের সময়সীমা ওয়েবমাস্টার প্যানেলে নির্দিষ্ট করা যেতে পারে।

avi1.ru পরিষেবাতে আপনি এখন সর্বাধিক জনপ্রিয় সামাজিক নেটওয়ার্কগুলির 7টিরও বেশি SMM প্রচার কিনতে পারেন৷ একই সময়ে, সমস্ত সাইট পরিষেবার মোটামুটি কম খরচে মনোযোগ দিন।

পড়ার সময়: 7 মিনিট


অডিট বা প্রচারের জন্য আমাদের কাছে আসা প্রায় প্রতিটি প্রকল্পের একটি ভুল robots.txt ফাইল থাকে এবং প্রায়শই এটি সম্পূর্ণভাবে অনুপস্থিত থাকে। এটি ঘটে কারণ একটি ফাইল তৈরি করার সময়, প্রত্যেকে তাদের কল্পনা দ্বারা পরিচালিত হয়, নিয়ম দ্বারা নয়। আসুন এই ফাইলটি কীভাবে সঠিকভাবে রচনা করবেন তা খুঁজে বের করা যাক যাতে অনুসন্ধান রোবটগুলি কার্যকরভাবে এটির সাথে কাজ করে।

কেন আপনাকে robots.txt কনফিগার করতে হবে?

Robots.txtএকটি সাইটের রুট ডিরেক্টরিতে অবস্থিত একটি ফাইল যা সার্চ ইঞ্জিন রোবটকে বলে যে তারা সাইটের কোন বিভাগ এবং পৃষ্ঠাগুলি অ্যাক্সেস করতে পারে এবং কোনটি করতে পারে না৷

robots.txt সেট আপ করা সার্চ ইঞ্জিন ফলাফলের একটি গুরুত্বপূর্ণ অংশ; সঠিকভাবে কনফিগার করা রোবটগুলি সাইটের কার্যক্ষমতা বাড়ায়। অনুপস্থিত Robots.txt সার্চ ইঞ্জিনগুলিকে আপনার সাইট ক্রল এবং ইন্ডেক্স করা থেকে বিরত করবে না, কিন্তু যদি আপনার কাছে এই ফাইলটি না থাকে তবে আপনার দুটি সমস্যা হতে পারে:

    অনুসন্ধান রোবট পুরো সাইটটি পড়বে, যা ক্রলিং বাজেটকে "ক্ষুন্ন" করবে। ক্রলিং বাজেট হল একটি সার্চ রোবট একটি নির্দিষ্ট সময়ের মধ্যে কতগুলি পৃষ্ঠা ক্রল করতে সক্ষম।

    একটি রোবট ফাইল ছাড়া, সার্চ ইঞ্জিনের খসড়া এবং লুকানো পৃষ্ঠাগুলিতে অ্যাক্সেস থাকবে, সিএমএস পরিচালনা করতে ব্যবহৃত শত শত পৃষ্ঠাগুলিতে। এটি সেগুলিকে সূচিবদ্ধ করবে, এবং যখন এটি প্রয়োজনীয় পৃষ্ঠাগুলির ক্ষেত্রে আসে যা দর্শকদের জন্য সরাসরি সামগ্রী সরবরাহ করে, তখন ক্রলিং বাজেট "সমাপ্ত" হয়ে যাবে৷

    সূচীতে সাইটের লগইন পৃষ্ঠা এবং অন্যান্য প্রশাসক সংস্থান অন্তর্ভুক্ত থাকতে পারে, তাই একজন আক্রমণকারী সহজেই সেগুলিকে ট্র্যাক করতে পারে এবং একটি ddos ​​আক্রমণ চালাতে পারে বা সাইটটিকে হ্যাক করতে পারে।

কিভাবে অনুসন্ধান রোবট robots.txt সহ এবং ছাড়া একটি সাইট দেখতে পায়:


Robots.txt সিনট্যাক্স

আমরা সিনট্যাক্স বুঝতে এবং robots.txt সেট আপ করার আগে, আসুন "আদর্শ ফাইল" দেখতে কেমন হওয়া উচিত তা দেখি:


কিন্তু আপনি এখনই এটি ব্যবহার করা উচিত নয়। প্রতিটি সাইটের প্রায়শই নিজস্ব সেটিংসের প্রয়োজন হয়, যেহেতু আমাদের সবার আলাদা সাইট গঠন এবং আলাদা CMS আছে। আসুন প্রতিটি নির্দেশিকাকে ক্রমানুসারে দেখি।

ব্যবহারিক দূত

ব্যবহারকারী-এজেন্ট - একটি অনুসন্ধান রোবট সংজ্ঞায়িত করে যা ফাইলে বর্ণিত নির্দেশাবলী অনুসরণ করতে হবে। আপনি যদি একবারে সবাইকে সম্বোধন করতে চান তবে * আইকনটি ব্যবহার করুন। এছাড়াও আপনি একটি নির্দিষ্ট অনুসন্ধান রোবটের সাথে যোগাযোগ করতে পারেন। উদাহরণস্বরূপ, ইয়ানডেক্স এবং গুগল:


এই নির্দেশিকা ব্যবহার করে, রোবট বুঝতে পারে কোন ফাইল এবং ফোল্ডারগুলিকে সূচীকরণ করা নিষিদ্ধ। আপনি যদি চান যে আপনার সম্পূর্ণ সাইটটি সূচীকরণের জন্য উন্মুক্ত থাকুক, তাহলে অস্বীকৃতি মানটি খালি রাখুন। Disallow এর পরে সাইটের সমস্ত বিষয়বস্তু লুকানোর জন্য, “/” লিখুন।

আমরা একটি নির্দিষ্ট ফোল্ডার, ফাইল বা ফাইল এক্সটেনশন অ্যাক্সেস প্রতিরোধ করতে পারেন. আমাদের উদাহরণে, আমরা সমস্ত অনুসন্ধান রোবটের সাথে যোগাযোগ করি এবং বিট্রিক্স, অনুসন্ধান ফোল্ডার এবং পিডিএফ এক্সটেনশনে অ্যাক্সেস ব্লক করি।


অনুমতি দিন

সাইটের পৃষ্ঠা এবং বিভাগগুলিকে সূচিবদ্ধ করার অনুমতি দিন। উপরের উদাহরণে, আমরা Google অনুসন্ধান রোবটের সাথে যোগাযোগ করি, বিট্রিক্সে অ্যাক্সেস ব্লক করি, ফোল্ডার অনুসন্ধান করি এবং পিডিএফ এক্সটেনশন। কিন্তু বিট্রিক্স ফোল্ডারে আমরা ইনডেক্সিংয়ের জন্য 3টি ফোল্ডার খুলতে বাধ্য করি: উপাদান, জেএস, টুল।


হোস্ট - সাইট মিরর

একটি মিরর সাইট মূল সাইটের একটি নকল। আয়না বিভিন্ন উদ্দেশ্যে ব্যবহার করা হয়: ঠিকানা পরিবর্তন, নিরাপত্তা, সার্ভারে লোড কমানো ইত্যাদি।

হোস্ট সবচেয়ে গুরুত্বপূর্ণ নিয়ম এক. এই নিয়মটি লেখা থাকলে, রোবট বুঝতে পারবে যে সাইটের কোন আয়নাগুলিকে সূচীকরণের জন্য বিবেচনা করা উচিত। এই নির্দেশিকা Yandex এবং Mail.ru রোবটের জন্য প্রয়োজনীয়। অন্যান্য রোবট এই নিয়ম উপেক্ষা করবে। হোস্ট শুধুমাত্র একবার নিবন্ধিত হয়!

“https://” এবং “http://” প্রোটোকলের জন্য, robots.txt ফাইলের সিনট্যাক্স আলাদা হবে।

সাইটম্যাপ - সাইট ম্যাপ

সাইটম্যাপ হল সাইট নেভিগেশনের একটি ফর্ম যা সার্চ ইঞ্জিনকে নতুন পেজ সম্পর্কে জানাতে ব্যবহৃত হয়। সাইটম্যাপ নির্দেশিকা ব্যবহার করে, আমরা "জোর করে" রোবটটিকে দেখাই যেখানে ম্যাপটি অবস্থিত।


robots.txt-এ চিহ্ন

ফাইলে ব্যবহৃত চিহ্ন: “/, *, $, #”।


robots.txt সেট আপ করার পরে কার্যকারিতা পরীক্ষা করা হচ্ছে

আপনি আপনার ওয়েবসাইটে Robots.txt স্থাপন করার পরে, আপনাকে Yandex এবং Google ওয়েবমাস্টারে এটি যোগ করতে এবং পরীক্ষা করতে হবে।

ইয়ানডেক্স চেক:

  1. এই লিঙ্ক অনুসরণ করুন.
  2. নির্বাচন করুন: ইন্ডেক্সিং সেটিংস - Robots.txt বিশ্লেষণ।

গুগল চেক:

  1. এই লিঙ্ক অনুসরণ করুন.
  2. নির্বাচন করুন: স্ক্যান - Robots.txt ফাইল পরিদর্শন টুল।

এইভাবে আপনি ত্রুটির জন্য আপনার robots.txt পরীক্ষা করতে পারেন এবং প্রয়োজনে প্রয়োজনীয় সমন্বয় করতে পারেন।

  1. ফাইলের বিষয়বস্তু বড় অক্ষরে লিখতে হবে।
  2. ডিসঅ্যালো নির্দেশনায় শুধুমাত্র একটি ফাইল বা ডিরেক্টরি উল্লেখ করতে হবে।
  3. "ব্যবহারকারী-এজেন্ট" লাইনটি খালি হওয়া উচিত নয়৷
  4. ব্যবহারকারী-এজেন্ট সর্বদা অনুমতি না দেওয়ার আগে আসা উচিত।
  5. আপনি যদি একটি ডিরেক্টরির সূচী নিষ্ক্রিয় করতে চান তবে একটি স্ল্যাশ অন্তর্ভুক্ত করতে ভুলবেন না।
  6. সার্ভারে একটি ফাইল আপলোড করার আগে, সিনট্যাক্স এবং বানান ত্রুটির জন্য এটি পরীক্ষা করতে ভুলবেন না।

আমি তোমার সাফল্য কামনা করি!

Robots.txt ফাইল তৈরি এবং কাস্টমাইজ করার জন্য 3টি পদ্ধতির ভিডিও পর্যালোচনা

হাই সব! আজ আমি আপনাকে সম্পর্কে বলতে চাই robots.txt ফাইল. হ্যাঁ, ইন্টারনেটে এটি সম্পর্কে অনেক কিছু লেখা হয়েছে, কিন্তু, সত্যি কথা বলতে, আমি নিজেই বুঝতে পারিনি কিভাবে সঠিক robots.txt তৈরি করা যায়। আমি একটি তৈরি করেছি এবং এটি আমার সমস্ত ব্লগে রয়েছে। আমি কোন সমস্যা লক্ষ্য করি না, robots.txt ঠিক কাজ করে।

ওয়ার্ডপ্রেসের জন্য Robots.txt

কেন, আসলে, আপনার কি robots.txt দরকার? উত্তর এখনও একই - . অর্থাৎ, robots.txt কম্পাইল করা একটি সাইটের সার্চ ইঞ্জিন অপটিমাইজেশনের একটি অংশ (যাই হোক, খুব শীঘ্রই একটি পাঠ আসবে যা ওয়ার্ডপ্রেসে একটি সাইটের সমস্ত অভ্যন্তরীণ অপ্টিমাইজেশানের জন্য উত্সর্গীকৃত হবে। তাই, করবেন না আরএসএস সাবস্ক্রাইব করতে ভুলবেন না যাতে আকর্ষণীয় উপকরণ মিস না হয়।)

এই ফাইলের একটি ফাংশন হল সূচী নিষিদ্ধঅপ্রয়োজনীয় ওয়েবসাইট পেজ। এটি ঠিকানাও সেট করে এবং মূল জিনিসটি জানায় সাইটের আয়না(www সহ বা ছাড়া সাইট)।

দ্রষ্টব্য: সার্চ ইঞ্জিনের জন্য, www সহ একই সাইট এবং www ছাড়া সম্পূর্ণ ভিন্ন সাইট। কিন্তু, এই সাইটগুলির বিষয়বস্তু একই যে উপলব্ধি করে, সার্চ ইঞ্জিনগুলি তাদের একসাথে "আঠা" করে। তাই, robots.txt-এ সাইটের মূল আয়না নিবন্ধন করা গুরুত্বপূর্ণ। কোনটি প্রধান (www সহ বা www ছাড়া) তা খুঁজে বের করতে, শুধু ব্রাউজারে আপনার সাইটের ঠিকানা টাইপ করুন, উদাহরণস্বরূপ, www দিয়ে, যদি আপনি স্বয়ংক্রিয়ভাবে www ছাড়া একই সাইটে পুনঃনির্দেশিত হন, তাহলে এর প্রধান মিরর আপনার সাইট www ছাড়া. আমি আশা করি আমি এটি সঠিকভাবে ব্যাখ্যা করেছি।

ছিল:

এখন (সাইটে যাওয়ার পরে, www স্বয়ংক্রিয়ভাবে মুছে ফেলা হয়েছিল, এবং সাইটটি www ছাড়া হয়ে গেছে):

সুতরাং, এই মূল্যবান, আমার মতে, ওয়ার্ডপ্রেসের জন্য সঠিক robots.txtআপনি নীচে দেখতে পারেন.

ওয়ার্ডপ্রেসের জন্য সঠিক

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /cgi-bin
অনুমতি না দেওয়া: /wp-admin
অনুমতি না দেওয়া: /wp-includes

অনুমতি না দেওয়া: /wp-content/cache
অনুমতি না দেওয়া: /wp-content/themes
অনুমতি না দেওয়া: /ট্র্যাকব্যাক
অনুমতি না দেওয়া: */ট্র্যাকব্যাক
অনুমতি না দেওয়া: */*/ট্র্যাকব্যাক
অনুমতি না দেওয়া: */*/feed/*/
অনুমতি না দেওয়া: */ফিড
অনুমতি না দেওয়া: /*?*
অনুমতি না দেওয়া: /ট্যাগ

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স
অনুমতি না দেওয়া: /cgi-bin
অনুমতি না দেওয়া: /wp-admin
অনুমতি না দেওয়া: /wp-includes
অনুমতি না দেওয়া: /wp-content/plugins
অনুমতি না দেওয়া: /wp-content/cache
অনুমতি না দেওয়া: /wp-content/themes
অনুমতি না দেওয়া: /ট্র্যাকব্যাক
অনুমতি না দেওয়া: */ট্র্যাকব্যাক
অনুমতি না দেওয়া: */*/ট্র্যাকব্যাক
অনুমতি না দেওয়া: */*/feed/*/
অনুমতি না দেওয়া: */ফিড
অনুমতি না দেওয়া: /*?*
অনুমতি না দেওয়া: /ট্যাগ
হোস্ট: ওয়েবসাইট
সাইটম্যাপ: https://site/sitemap.xml.gz
সাইটম্যাপ: https://site/sitemap.xml

আপনাকে .txt এক্সটেনশন সহ একটি টেক্সট ডকুমেন্টে উপরে প্রদত্ত সবকিছু কপি করতে হবে, যাতে ফাইলের নাম robots.txt হয়। আপনি এই পাঠ্য নথি তৈরি করতে পারেন, উদাহরণস্বরূপ, প্রোগ্রাম ব্যবহার করে। শুধু ভুলবেন না, দয়া করে শেষ তিনটি লাইন পরিবর্তন করুনআপনার ওয়েবসাইটের ঠিকানার ঠিকানা। robots.txt ফাইলটি ব্লগের রুটে অবস্থিত হওয়া উচিত, অর্থাৎ একই ফোল্ডারে যেখানে wp-content, wp-admin ইত্যাদি ফোল্ডারগুলি অবস্থিত।

যারা এই টেক্সট ফাইলটি তৈরি করতে খুব অলস, আপনি সেখানে 3টি লাইন ঠিক করতে পারেন।

আমি লক্ষ্য করতে চাই যে নীচে আলোচনা করা হবে এমন প্রযুক্তিগত অংশগুলির সাথে আপনার নিজেকে অতিরিক্ত বোঝার দরকার নেই। আমি তাদের নিয়ে এসেছি "জ্ঞান" এর জন্য, তাই বলতে গেলে, একটি সাধারণ দৃষ্টিভঙ্গি, যাতে তারা জানতে পারে কী প্রয়োজন এবং কেন।

তাই লাইন:

ব্যবহারিক দূত

কিছু সার্চ ইঞ্জিনের জন্য নিয়ম সেট করে: উদাহরণস্বরূপ, "*" (স্টারিস্ক) নির্দেশ করে যে নিয়মগুলি সমস্ত সার্চ ইঞ্জিনের জন্য, এবং নীচে কি

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স

মানে এই নিয়মগুলি শুধুমাত্র ইয়ানডেক্সের জন্য।

অনুমতি না দেওয়া
এখানে আপনি "নিক্ষেপ করুন" বিভাগগুলি যা সার্চ ইঞ্জিন দ্বারা সূচিবদ্ধ করার প্রয়োজন নেই৷ উদাহরণস্বরূপ, একটি পৃষ্ঠায় আমার নিয়মিত নিবন্ধগুলির সাথে নিবন্ধগুলির অনুলিপি (পুনরাবৃত্তি) রয়েছে এবং পৃষ্ঠাগুলির অনুলিপি সার্চ ইঞ্জিনের প্রচারে নেতিবাচক প্রভাব ফেলে, তাই, এটি অত্যন্ত বাঞ্ছনীয় যে এই সেক্টরগুলিকে ইন্ডেক্সিং থেকে বন্ধ করা দরকার, যা হল আমরা এই নিয়ম ব্যবহার করে কি করি:

অনুমতি না দেওয়া: /ট্যাগ

সুতরাং, উপরে দেওয়া robots.txt-এ, একটি ওয়ার্ডপ্রেস সাইটের প্রায় সমস্ত অপ্রয়োজনীয় বিভাগগুলি ইন্ডেক্সিং থেকে বন্ধ করে দেওয়া হয়, অর্থাৎ, সবকিছু যেমন আছে তেমন ছেড়ে দিন।

হোস্ট

এখানে আমরা সাইটের প্রধান আয়না সেট করেছি, যা আমি ঠিক উপরে বলেছি।

সাইটম্যাপ

শেষ দুটি লাইনে আমরা ব্যবহার করে তৈরি দুটি পর্যন্ত সাইটম্যাপের ঠিকানা উল্লেখ করেছি।

সম্ভাব্য সমস্যা

বিভাগে যান ইন্ডেক্সিং সেটিংস -> Robots.txt বিশ্লেষণ:

ইতিমধ্যে সেখানে, "সাইট থেকে robots.txt লোড করুন" বোতামে ক্লিক করুন এবং তারপরে "চেক" বোতামে ক্লিক করুন:

আপনি যদি নিম্নলিখিত বার্তাটির মতো কিছু দেখতে পান, তাহলে এর অর্থ হল আপনার কাছে ইয়ানডেক্সের জন্য সঠিক robots.txt আছে:

robots.txt এই পৃষ্ঠার ইন্ডেক্সিং নিষিদ্ধ করে কিনা তা পরীক্ষা করার জন্য আপনি সাইটের যেকোনো নিবন্ধের ঠিকানা "ইউআরএলের তালিকা"-তে যোগ করতে পারেন:

আপনি দেখতে পাচ্ছেন, আমরা robots.txt থেকে পৃষ্ঠার সূচীকরণে কোনো নিষেধাজ্ঞা দেখতে পাচ্ছি না, যার মানে সবকিছু ঠিক আছে :)।

আমি আশা করি আপনার আর কোন প্রশ্ন থাকবে না, যেমন: কিভাবে robots.txt রচনা করবেন বা কিভাবে এই ফাইলটি সঠিক করবেন। এই পাঠে আমি আপনাকে সঠিক দেখানোর চেষ্টা করেছি উদাহরণ robots.txt:

শীঘ্রই আবার দেখা হবে!

পুনশ্চ. বেশ সম্প্রতি আমি, কি আকর্ষণীয় ঘটেছে? 🙂

একটি সাইট ম্যাপ আপনার ব্লগের ইন্ডেক্সিংকে ব্যাপকভাবে সরল করে। প্রতিটি ওয়েবসাইট এবং ব্লগের একটি সাইট ম্যাপ থাকতে হবে। তবে প্রতিটি ওয়েবসাইট এবং ব্লগের একটি ফাইল থাকা উচিত রোবটtxt. robots.txt ফাইলটিতে অনুসন্ধান রোবটের জন্য নির্দেশাবলীর একটি সেট রয়েছে। আপনি বলতে পারেন এইগুলি আপনার ব্লগে অনুসন্ধান রোবটের আচরণের নিয়ম। এই ফাইলটিতে আপনার ব্লগের সাইটম্যাপের পথও রয়েছে। এবং, প্রকৃতপক্ষে, একটি সঠিকভাবে তৈরি করা robots.txt ফাইলের সাহায্যে, অনুসন্ধান রোবট একটি সাইটম্যাপ অনুসন্ধান এবং অপ্রয়োজনীয় ফাইলগুলিকে সূচী করার জন্য মূল্যবান সময় নষ্ট করে না।

robots.txt ফাইল কি?

robots.txt- এটি একটি টেক্সট ফাইল যা আপনার ব্লগের মূলে অবস্থিত একটি নিয়মিত "নোটপ্যাড"-এ তৈরি করা যেতে পারে, যাতে অনুসন্ধান রোবটের নির্দেশাবলী রয়েছে৷

এই নির্দেশাবলী সার্চ রোবটকে এলোমেলোভাবে আপনার সমস্ত ঈশ্বরের ফাইলগুলিকে সূচীকরণ করতে বাধা দেয় এবং ঠিক সেই পৃষ্ঠাগুলিকে সূচীকরণের উপর ফোকাস করে যা অনুসন্ধান ফলাফলে অন্তর্ভুক্ত করা উচিত।

এই ফাইলটি ব্যবহার করে, আপনি ওয়ার্ডপ্রেস ইঞ্জিন ফাইলগুলির ইন্ডেক্সিং প্রতিরোধ করতে পারেন। অথবা, বলুন, আপনার ব্লগের গোপন বিভাগ। আপনি আপনার ব্লগ মানচিত্রের পথ এবং আপনার ব্লগের প্রধান আয়না নির্দিষ্ট করতে পারেন। এখানে আমি আপনার ডোমেইন নামকে www দিয়ে এবং www ছাড়াই বোঝাচ্ছি।

robots.txt সহ এবং ছাড়া সাইট ইন্ডেক্সিং

এই স্ক্রিনশটটি স্পষ্টভাবে দেখায় কিভাবে robots.txt ফাইল সাইটে নির্দিষ্ট ফোল্ডারের ইন্ডেক্সিং নিষিদ্ধ করে। একটি ফাইল ছাড়া, আপনার সাইটের সবকিছু রোবটের কাছে উপলব্ধ।

robots.txt ফাইলের মৌলিক নির্দেশাবলী

robots.txt ফাইলে যে নির্দেশাবলী রয়েছে তা বোঝার জন্য, আপনাকে মৌলিক কমান্ড (নির্দেশাবলী) বুঝতে হবে।

ব্যবহারিক দূত- এই কমান্ডটি আপনার সাইটে রোবট অ্যাক্সেস নির্দেশ করে। এই নির্দেশিকা ব্যবহার করে, আপনি প্রতিটি রোবটের জন্য পৃথকভাবে নির্দেশাবলী তৈরি করতে পারেন।

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স – ইয়ানডেক্স রোবটের জন্য নিয়ম

ব্যবহারকারী-এজেন্ট: * - সমস্ত রোবটের জন্য নিয়ম

অস্বীকৃতি এবং অনুমতি দিন- নিষেধাজ্ঞা এবং অনুমতি নির্দেশাবলী। ডিসঅ্যালো নির্দেশিকা ব্যবহার করে, সূচীকরণ নিষিদ্ধ, যখন অনুমতি দেয়।

নিষেধাজ্ঞার উদাহরণ:

ব্যবহারিক দূত: *

Disallow: / - সম্পূর্ণ সাইট নিষিদ্ধ.

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স

অস্বীকৃতি: /অ্যাডমিন - ইয়ানডেক্স রোবটকে অ্যাডমিন ফোল্ডারে অবস্থিত পৃষ্ঠাগুলি অ্যাক্সেস করতে নিষেধ করে।

রেজোলিউশন উদাহরণ:

ব্যবহারিক দূত: *

অনুমতি দিন: /ফটো

অস্বীকৃতি: / - ফটো ফোল্ডারে অবস্থিত পৃষ্ঠাগুলি ব্যতীত সমগ্র সাইটে নিষিদ্ধ।

বিঃদ্রঃ! ডিসঅ্যালো নির্দেশিকা: একটি প্যারামিটার ছাড়াই সবকিছুকে অনুমতি দেয় এবং অনুমতি দেওয়ার নির্দেশনা: প্যারামিটার ছাড়াই সবকিছু নিষিদ্ধ করে। এবং Disallow ছাড়া একটি Allow নির্দেশনা থাকা উচিত নয়।

সাইটম্যাপ- xml ফরম্যাটে সাইটের মানচিত্রের পথ নির্দিষ্ট করে।

সাইটম্যাপ: https://site/sitemap.xml.gz

সাইটম্যাপ: https://site/sitemap.xml

হোস্ট- নির্দেশিকা আপনার ব্লগের প্রধান আয়না সংজ্ঞায়িত করে। এটা বিশ্বাস করা হয় যে এই নির্দেশিকা শুধুমাত্র ইয়ানডেক্স রোবটের জন্য নির্ধারিত। এই নির্দেশটি robots.txt ফাইলের একেবারে শেষে উল্লেখ করা উচিত।

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স

অনুমতি না দেওয়া: /wp-includes

হোস্ট: ওয়েবসাইট

বিঃদ্রঃ! হাইপারটেক্সট ট্রান্সফার প্রোটোকল (http://) উল্লেখ না করেই প্রধান মিরর ঠিকানা নির্দিষ্ট করা হয়।

কিভাবে robots.txt তৈরি করবেন

এখন যেহেতু আমরা robots.txt ফাইলের মৌলিক কমান্ডের সাথে পরিচিত, আমরা আমাদের ফাইল তৈরি করা শুরু করতে পারি। আপনার স্বতন্ত্র সেটিংস সহ আপনার নিজস্ব robots.txt ফাইল তৈরি করতে, আপনাকে আপনার ব্লগের গঠন জানতে হবে।

আমরা একটি ওয়ার্ডপ্রেস ব্লগের জন্য একটি স্ট্যান্ডার্ড (সর্বজনীন) robots.txt ফাইল তৈরির দিকে নজর দেব। আপনি সবসময় এটিতে আপনার নিজস্ব সেটিংস যোগ করতে পারেন।

চল শুরু করা যাক. আমাদের একটি নিয়মিত "নোটপ্যাড" লাগবে, যা প্রতিটি উইন্ডোজ অপারেটিং সিস্টেমে পাওয়া যায়। অথবা MacOS-এ TextEdit।

একটি নতুন নথি খুলুন এবং এতে এই কমান্ডগুলি পেস্ট করুন:

ব্যবহারকারী-এজেন্ট: * অস্বীকৃতি: সাইটম্যাপ: https://site/sitemap.xml.gz সাইটম্যাপ: https://site/sitemap.xml ব্যবহারকারী-এজেন্ট: Yandex Disallow: /wp-login.php Disallow: /wp-register .php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages ​​Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/ feed/ */ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= হোস্ট: সাইট

সাইটম্যাপ এবং হোস্ট নির্দেশাবলীর প্যারামিটারগুলিকে আপনার নিজের সাথে প্রতিস্থাপন করতে ভুলবেন না৷

গুরুত্বপূর্ণ ! কমান্ড লেখার সময়, শুধুমাত্র একটি স্থান অনুমোদিত হয়। নির্দেশিকা এবং পরামিতি মধ্যে. কোনো অবস্থাতেই আপনার প্যারামিটারের পরে বা কোথাও স্পেস রাখা উচিত নয়।

উদাহরণ: অনুমতি না দেওয়া:<пробел>/খাওয়া/

এই উদাহরণ robots.txt ফাইলটি সার্বজনীন এবং CNC URL এর সাথে যেকোনো ওয়ার্ডপ্রেস ব্লগের সাথে মানানসই। CNC কি সে সম্পর্কে পড়ুন। আপনি যদি CNC কনফিগার না করে থাকেন, আমি প্রস্তাবিত ফাইল থেকে Disallow: /*?* Disallow: /?s= সরানোর পরামর্শ দিই

সার্ভারে robots.txt ফাইল আপলোড করা হচ্ছে

এই ধরনের ম্যানিপুলেশনের জন্য সর্বোত্তম উপায় হল একটি FTP সংযোগ। TotolCommander এর জন্য কিভাবে একটি FTP সংযোগ সেট আপ করবেন সে সম্পর্কে পড়ুন। অথবা আপনি আপনার হোস্টিং এ একটি ফাইল ম্যানেজার ব্যবহার করতে পারেন।

আমি TotolCommander এ একটি FTP সংযোগ ব্যবহার করব।

নেটওয়ার্ক > FTP সার্ভারের সাথে সংযোগ করুন।

পছন্দসই সংযোগ নির্বাচন করুন এবং "সংযোগ" বোতামে ক্লিক করুন।

ব্লগের রুট খুলুন এবং F5 কী টিপে আমাদের robots.txt ফাইলটি কপি করুন।

সার্ভারে robots.txt কপি করা হচ্ছে

এখন আপনার robots.txt ফাইলটি সঠিকভাবে কাজ করবে। কিন্তু আমি এখনও কোন ত্রুটি নেই তা নিশ্চিত করতে robots.txt বিশ্লেষণ করার পরামর্শ দিচ্ছি।

এটি করার জন্য, আপনাকে আপনার Yandex বা Google ওয়েবমাস্টার অ্যাকাউন্টে লগ ইন করতে হবে। আসুন ইয়ানডেক্সের উদাহরণ দেখি। এখানে আপনি সাইটটিতে আপনার অধিকার নিশ্চিত না করেও একটি বিশ্লেষণ পরিচালনা করতে পারেন। আপনার যা দরকার তা হল একটি ইয়ানডেক্স মেলবক্স।

Yandex.webmaster অ্যাকাউন্ট খুলুন।

ওয়েবমাস্টারের অ্যাকাউন্টের মূল পৃষ্ঠায়, লিঙ্কটি খুলুন "চেক করুনরোবটtxt".

বিশ্লেষণ করতে, আপনাকে আপনার ব্লগের URL ঠিকানা লিখতে হবে এবং ক্লিক করতে হবে “ ডাউনলোড করুন রোবটসাইট থেকে txt" ফাইলটি ডাউনলোড হওয়ার সাথে সাথে বোতামে ক্লিক করুন "চেক"।

সতর্কতা এন্ট্রির অনুপস্থিতি নির্দেশ করে যে robots.txt ফাইলটি সঠিকভাবে তৈরি করা হয়েছে।

ফলাফল নীচে উপস্থাপন করা হবে. যেখানে এটি পরিষ্কার এবং বোধগম্য যে কোন উপকরণগুলি রোবট অনুসন্ধানের জন্য দেখানোর অনুমতি দেওয়া হয়েছে এবং কোনটি নিষিদ্ধ৷

robots.txt ফাইল বিশ্লেষণের ফলাফল

এখানে আপনি robots.txt-এ পরিবর্তন করতে পারেন এবং যতক্ষণ না আপনি আপনার পছন্দের ফলাফল পান ততক্ষণ পরীক্ষা করতে পারেন। কিন্তু মনে রাখবেন, আপনার ব্লগে থাকা ফাইলটি পরিবর্তন হয় না। এটি করার জন্য, আপনাকে এখানে প্রাপ্ত ফলাফলটি একটি নোটপ্যাডে অনুলিপি করতে হবে, এটিকে robots.txt হিসাবে সংরক্ষণ করতে হবে এবং ব্লগটি আপনার কাছে অনুলিপি করতে হবে।

যাইহোক, আপনি যদি ভাবছেন যে কারো ব্লগে robots.txt ফাইলটি কেমন দেখাচ্ছে, আপনি সহজেই এটি দেখতে পারেন। এটি করার জন্য, আপনাকে সাইটের ঠিকানায় /robots.txt যোগ করতে হবে

https://site/robots.txt

এখন আপনার robots.txt প্রস্তুত। এবং মনে রাখবেন, robots.txt ফাইল তৈরি করা বন্ধ করবেন না, আপনার ব্লগের ইন্ডেক্সিং এর উপর নির্ভর করবে।

আপনি যদি সঠিক robots.txt তৈরি করতে চান এবং একই সাথে নিশ্চিত হন যে শুধুমাত্র প্রয়োজনীয় পৃষ্ঠাগুলি সার্চ ইঞ্জিন সূচকে অন্তর্ভুক্ত করা হবে, তাহলে প্লাগইন ব্যবহার করে এটি স্বয়ংক্রিয়ভাবে করা যেতে পারে।

আমার কাছে এতটুকুই। আমি আপনার সব সাফল্য কামনা করি. যদি আপনার কোন প্রশ্ন বা সংযোজন থাকে, মন্তব্য লিখুন.

শীঘ্রই আবার দেখা হবে.

শুভেচ্ছা, ম্যাক্সিম জাইতসেভ।

নতুন নিবন্ধ সাবস্ক্রাইব করুন!

এই গাইডের উদ্দেশ্য হল ওয়েবমাস্টার এবং অ্যাডমিনিস্ট্রেটরদের robots.txt ব্যবহার করতে সাহায্য করা।

ভূমিকা

রোবট ছাড়ের মান তার মূলে খুব সহজ। সংক্ষেপে, এটি এই মত কাজ করে:

স্ট্যান্ডার্ড অনুসরণকারী একটি রোবট যখন একটি সাইট পরিদর্শন করে, তখন এটি প্রথমে "/robots.txt" নামে একটি ফাইলের অনুরোধ করে। যদি এই ধরনের একটি ফাইল পাওয়া যায়, রোবট সাইটের নির্দিষ্ট অংশগুলিকে সূচীকরণ নিষিদ্ধ করার নির্দেশাবলীর জন্য এটি অনুসন্ধান করে।

robots.txt ফাইল কোথায় রাখবেন

রোবটটি আপনার সাইটের URL “/robots.txt”-এর অনুরোধ করে; এই ক্ষেত্রে সাইটটি একটি নির্দিষ্ট পোর্টে একটি নির্দিষ্ট হোস্ট।

সাইট URL টি Robots.txt ফাইলের URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

সাইটে শুধুমাত্র একটি ফাইল “/robots.txt” থাকতে পারে। উদাহরণস্বরূপ, ব্যবহারকারীর সাব-ডিরেক্টরিতে আপনার robots.txt ফাইল রাখা উচিত নয় - রোবট সেগুলিকে সেখানে খুঁজবে না। আপনি যদি সাবডিরেক্টরিতে robots.txt ফাইলগুলি তৈরি করতে সক্ষম হতে চান, তাহলে সাইটের মূলে অবস্থিত একটি একক robots.txt ফাইলে প্রোগ্রাম্যাটিকভাবে সংগ্রহ করার জন্য আপনার একটি উপায় প্রয়োজন৷ তুমি ব্যবহার করতে পার .

মনে রাখবেন যে URLগুলি কেস সংবেদনশীল এবং ফাইলের নাম "/robots.txt" সম্পূর্ণরূপে ছোট হাতের অক্ষরে লিখতে হবে৷

robots.txt এর ভুল অবস্থান
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt ফাইলটি সাইটের রুটে অবস্থিত নয়
ftp://ftp.w3.com/robots.txt রোবট এফটিপি সূচক করে না
http://www.w3.org/Robots.txt ফাইলের নাম ছোট হাতের অক্ষরে নয়

যেমন আপনি দেখতে পাচ্ছেন, robots.txt ফাইলটি একচেটিয়াভাবে সাইটের মূলে স্থাপন করা উচিত।

robots.txt ফাইলে কি লিখতে হবে

robots.txt ফাইলে সাধারণত এরকম কিছু থাকে:

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /cgi-bin/
অনুমতি না দেওয়া: /tmp/
অনুমতি না দেওয়া: /~joe/

এই উদাহরণে, তিনটি ডিরেক্টরির সূচীকরণ নিষিদ্ধ।

মনে রাখবেন যে প্রতিটি ডিরেক্টরি একটি পৃথক লাইনে তালিকাভুক্ত - আপনি "অস্বীকৃতি: /cgi-bin/ /tmp/" লিখতে পারবেন না। আপনি একটি অস্বীকৃতি বা ব্যবহারকারী-এজেন্ট বিবৃতিকে কয়েকটি লাইনে বিভক্ত করতে পারবেন না, কারণ লাইন বিরতি একে অপরের থেকে নির্দেশাবলী পৃথক করতে ব্যবহৃত হয়।

রেগুলার এক্সপ্রেশন এবং ওয়াইল্ডকার্ডও ব্যবহার করা যাবে না। ব্যবহারকারী-এজেন্ট নির্দেশে "স্টারিস্ক" (*) মানে "যেকোন রোবট"। "অস্বীকার করুন: *.gif" বা "ব্যবহারকারী-এজেন্ট: ইয়া*" এর মতো নির্দেশাবলী সমর্থিত নয়৷

robots.txt-এর সুনির্দিষ্ট নির্দেশাবলী আপনার সাইটের উপর নির্ভর করে এবং আপনি কী সূচিবদ্ধ হওয়া থেকে আটকাতে চান। এখানে কিছু উদাহরণঃ:

সমস্ত রোবট দ্বারা সূচিবদ্ধ হওয়া থেকে সম্পূর্ণ সাইটটিকে ব্লক করুন

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /

সমস্ত রোবটকে সম্পূর্ণ সাইট সূচী করার অনুমতি দিন

ব্যবহারিক দূত: *
অনুমতি না দেওয়া:

অথবা আপনি একটি খালি ফাইল “/robots.txt” তৈরি করতে পারেন।

ইনডেক্সিং থেকে শুধুমাত্র কয়েকটি ডিরেক্টরি ব্লক করুন

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /cgi-bin/
অনুমতি না দেওয়া: /tmp/
অনুমতি না দেওয়া: /প্রাইভেট/

শুধুমাত্র একটি রোবটের জন্য সাইট ইন্ডেক্সিং প্রতিরোধ করুন

ব্যবহারকারী-এজেন্ট: ব্যাডবট
অনুমতি না দেওয়া: /

একটি রোবটকে সাইট সূচী করার অনুমতি দিন এবং অন্য সকলকে অস্বীকার করুন৷

ব্যবহারকারী-এজেন্ট: ইয়ানডেক্স
অনুমতি না দেওয়া:

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /

ইনডেক্সিং থেকে একটি ছাড়া সব ফাইল অস্বীকার করুন

এটি বেশ কঠিন, কারণ ... কোন "অনুমতি দিন" বিবৃতি নেই. পরিবর্তে, আপনি একটি সাবডিরেক্টরিতে সূচীকরণের জন্য অনুমতি দিতে চান এমন ফাইলগুলি ব্যতীত সমস্ত ফাইল স্থানান্তর করতে পারেন এবং এটিকে সূচিবদ্ধ হওয়া থেকে আটকাতে পারেন:

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /docs/

অথবা আপনি ইনডেক্সিং থেকে নিষিদ্ধ সমস্ত ফাইল নিষিদ্ধ করতে পারেন:

ব্যবহারিক দূত: *
অনুমতি না দেওয়া: /private.html
অনুমতি না দেওয়া: /foo.html
অনুমতি না দেওয়া: /bar.html