घर उपकरण

इंटरनेट सर्च इंजन: यांडेक्स, गूगल, रैम्बलर, याहू। संरचना, कार्य, संचालन का सिद्धांत। यांडेक्स खोज इंजन संयोजन के संचालन के सिद्धांत का सबसे सरल विवरण: रुचि क्लब

हैलो प्यारे दोस्तों! इस लेख में हम यांडेक्स सर्च इंजन को देखना जारी रखेंगे, और जैसा कि आपको याद है, पिछले लेखों में हमने इस महान कंपनी के निर्माण के इतिहास पर चर्चा की थी, जो रूस और उसके बाहर अपने प्रतिस्पर्धियों में पहले स्थान पर है।

यह सब अच्छा है, लेकिन शुरुआती और अनुभवी साइट निर्माता सबसे महत्वपूर्ण प्रश्न में रुचि रखते हैं, निस्संदेह, अपनी परियोजनाओं को शीर्ष खोज परिणामों में पहले स्थान पर कैसे लाया जाए।

इसलिए, आइए देखें कि यांडेक्स खोज इंजन कैसे काम करता है ताकि यह समझ सकें कि आप किन गलतियों पर कदम उठा सकते हैं, और सामान्य तौर पर रूसी खोज इंजन से क्या उम्मीद की जा सकती है।

पिछले लेख में हमने चर्चा की थी। विषय काफी रोचक और उपयोगी निकला। इसलिए, मैंने इसे पूरक करने, इसे गहरा करने का निर्णय लिया, ऐसा कहा जा सकता है।

तो, मुझे लगता है कि मैं इस सवाल से भटक गया हूँ कि "एक खोज इंजन दस्तावेज़ों को अनुक्रमित क्यों करता है"? जो कुछ बचा है वह "कैसे" प्रश्न का पता लगाना है।

वेबसाइट रैंकिंग एल्गोरिदम

सबसे पहले, आइए कुछ एल्गोरिदम से परिचित हों जो किसी भी खोज इंजन के लिए मौलिक हैं:

- प्रत्यक्ष खोज एल्गोरिथ्म.

यह क्या है - आपको एक किताब में एक अद्भुत कहानी पढ़ना याद है। और आप एक-एक करके देखना शुरू करते हैं। उन्होंने एक किताब ली, उसे देखा, नहीं मिली तो दूसरी ले ली... सिद्धांत स्पष्ट है, लेकिन यह विधि बहुत लंबी है। ये भी समझ में आता है.

- रिवर्स सर्च एल्गोरिदम।

इस एल्गोरिदम के लिए, आपके ब्लॉग के प्रत्येक पृष्ठ से एक टेक्स्ट फ़ाइल बनाई जाती है। यह फ़ाइल आपके द्वारा उपयोग किए गए सभी शब्दों को वर्णानुक्रम में सूचीबद्ध करती है। यहां तक कि पाठ में इस शब्द की स्थिति भी इंगित की गई है (पाठ में निर्देशांक)।

यह काफी तेज़ तरीका है, लेकिन खोज पहले से ही कुछ त्रुटि के साथ होती है।

यहां समझने वाली मुख्य बात यह है कि यह एल्गोरिदम किसी ब्लॉग पर सर्च करने से नहीं बल्कि इंटरनेट पर सर्च करता है। और एक अलग टेक्स्ट फ़ाइल में जो बहुत समय पहले बनाई गई थी। जब रोबोट आपके पास आया. और ये फ़ाइलें (रिवर्स इंडेक्स) यांडेक्स सर्वर पर संग्रहीत हैं।

तो, ये थे बुनियादी खोज एल्गोरिदम। वे। कैसे यांडेक्स आसानी से आवश्यक दस्तावेज़ ढूंढ लेता है। इसमें कोई समस्या नहीं दिखनी चाहिए.

लेकिन यांडेक्स एक या 100 से अधिक दस्तावेजों को जानता है, लेकिन मेरे स्रोतों के नवीनतम आंकड़ों के अनुसार, यांडेक्स 11 अरब दस्तावेजों (10,727,736,489 पेज) के बारे में जानता है।

और इस सभी मात्रा के बीच, आपको उन दस्तावेज़ों का चयन करना होगा जो अनुरोध से मेल खाते हों। और इससे भी महत्वपूर्ण बात यह है कि आपको किसी तरह उन्हें रैंक करने की आवश्यकता है। वे। महत्व की डिग्री के अनुसार, या पाठक के लिए उपयोगिता की डिग्री के अनुसार व्यवस्थित करें।

गणितीय खोज मॉडल

इस समस्या को हल करने के लिए गणितीय मॉडल बचाव में आते हैं। अब हम सबसे सरल मॉडलों के बारे में बात करेंगे।

बूलियन गणितीय मॉडल– यदि किसी दस्तावेज़ में कोई शब्द आता है, तो दस्तावेज़ पाया हुआ माना जाता है। महज़ एक संयोग और कुछ भी जटिल नहीं।

लेकिन समस्याएं हैं. उदाहरण के लिए, यदि आप, एक उपयोगकर्ता के रूप में, कोई लोकप्रिय शब्द, या इससे भी बेहतर, पूर्वसर्ग "v" दर्ज करते हैं, जो रूसी भाषा में सबसे आम शब्द है और हर दस्तावेज़ में पाया जाता है, तो आपको बहुत सारे परिणाम दिए जाएंगे कि आपको इतनी संख्या का एहसास भी नहीं है, आपको कितने दस्तावेज़ मिले? इसलिए, निम्नलिखित मैट मॉडल सामने आया।

वेक्टर गणितीय मॉडल- यह मॉडल दस्तावेज़ का "वजन" निर्धारित करता है। संयोग न केवल घटित होता है, बल्कि शब्द कई बार घटित होना चाहिए। इसके अलावा, शब्द जितना अधिक प्रकट होगा, प्रासंगिकता (अनुपालन) उतनी ही अधिक होगी।

यह वेक्टर मॉडल है जिसका उपयोग सभी खोज इंजन करते हैं।

संभाव्य मॉडल- और अधिक जटिल। सिद्धांत यह है: खोज इंजन को पेज टेम्पलेट स्वयं मिल गया। उदाहरण के लिए, आप यांडेक्स के इतिहास के बारे में जानकारी ढूंढ रहे हैं। यांडेक्स कुछ प्रकार के मानक संग्रहीत करता है, मान लीजिए कि यह यांडेक्स के बारे में मेरा पिछला लेख होगा।

और वह अन्य सभी दस्तावेजों की तुलना इस लेख से करेगा। और यहां तर्क यह है: जितना अधिक आपका ब्लॉग पेज मेरे लेख के समान होगा, उतनी ही अधिक संभावना यह है कि आपका ब्लॉग पेज पाठक के लिए भी उपयोगी होगा और यैंडेक्स के इतिहास के बारे में भी बताएगा।

उपयोगकर्ता को दिखाए जाने वाले दस्तावेज़ों की संख्या को कम करने के लिए, प्रासंगिकता की अवधारणा पेश की गई थी, अर्थात। अनुपालन।

आपका ब्लॉग पेज विषय के लिए कितना प्रासंगिक है? जब खोज गुणवत्ता की बात आती है तो यह एक महत्वपूर्ण विषय है।

मूल्यांकनकर्ता - वे कौन हैं और वे किसके लिए जिम्मेदार हैं?

एल्गोरिदम की गुणवत्ता का आकलन करने के लिए भी यह प्रासंगिकता आवश्यक है।

इस उद्देश्य के लिए एक विशेष बल मुख्यालय है - उन्हें मूल्यांकनकर्ता कहा जाता है। ये विशेष लोग हैं जो खोज परिणामों को अपने हाथों से देखते हैं।

उनके पास साइटों की जांच कैसे करें, मूल्यांकन कैसे करें आदि के निर्देश हैं। और वे मैन्युअल रूप से निर्धारित करते हैं कि आपके पृष्ठ खोज क्वेरी के लिए उपयुक्त हैं या नहीं।

और खोज एल्गोरिदम की गुणवत्ता मूल्यांकनकर्ताओं की राय पर निर्भर करती है। यदि सभी मूल्यांकनकर्ता कहते हैं कि खोज परिणाम अनुरोधों के अनुरूप नहीं हैं, तो इसका मतलब है कि रैंकिंग एल्गोरिदम गलत है और केवल यांडेक्स ही दोषी है।

यदि मूल्यांकनकर्ता कहते हैं कि केवल एक साइट अनुरोध को पूरा नहीं करती है, तो इसका मतलब है कि साइट कहीं दूर उड़ जाती है और खोज परिणामों में नीचे आ जाती है। अधिक सटीक रूप से, पूरी साइट नहीं, बल्कि केवल एक लेख, लेकिन यह "मुद्दा नहीं है।"

बेशक, मूल्यांकनकर्ता अपने हाथों और आंखों से सभी लेखों की समीक्षा और मूल्यांकन नहीं कर सकते। ये तो समझ में आता है.

और अन्य पैरामीटर जिनके द्वारा पृष्ठों को रैंक किया जाता है, बचाव में आते हैं।

उनमें से बहुत सारे हैं, उदाहरण के लिए:

पृष्ठ भार (वीआईसी, पेजरैंक, शिशु उभारसब मिलाकर);
डोमेन प्राधिकारी;
अनुरोध के लिए पाठ की प्रासंगिकता;
क्वेरी के लिए बाहरी लिंक टेक्स्ट की प्रासंगिकता;
साथ ही कई अन्य रैंकिंग कारक।

मूल्यांकनकर्ता टिप्पणियाँ करते हैं, और जो लोग गणितीय रैंकिंग मॉडल स्थापित करने के लिए ज़िम्मेदार होते हैं, वे सूत्र को संपादित करते हैं, जिसके परिणामस्वरूप खोज इंजन अधिक कुशलता से काम करता है।

सूत्र के प्रदर्शन के मूल्यांकन के लिए मुख्य मानदंड:

1. खोज इंजन परिणाम सटीकता- अनुरोध से मेल खाने वाले दस्तावेज़ों का प्रतिशत (प्रासंगिक)। वे। जितने कम पृष्ठ अनुरोध से मेल नहीं खाते, उतना बेहतर है।

2. खोज इंजन परिणामों की पूर्णता- यह किसी दी गई क्वेरी के लिए प्रासंगिक वेब पेजों का संग्रह में प्रासंगिक दस्तावेज़ों की कुल संख्या (खोज इंजन में पाए गए पृष्ठों की समग्रता) से अनुपात है।

उदाहरण के लिए, यदि पूरे संग्रह में खोज परिणामों की तुलना में अधिक प्रासंगिक पृष्ठ हैं, तो इसका मतलब है कि परिणाम अधूरे हैं। ऐसा इसलिए हुआ क्योंकि कुछ प्रासंगिक वेब पेज फ़िल्टर कर दिए गए थे।

3. खोज इंजन परिणामों की प्रासंगिकता- यह स्निपेट में लिखी गई बातों के साथ वेब पेज का अनुपालन है। उदाहरण के लिए, कोई दस्तावेज़ बहुत अलग हो सकता है या बिल्कुल भी मौजूद नहीं हो सकता है, लेकिन फिर भी खोज परिणामों में मौजूद हो सकता है।

खोज परिणामों की प्रासंगिकता सीधे तौर पर इस बात पर निर्भर करती है कि खोज रोबोट अपने संग्रह से दस्तावेज़ों को कितनी बार स्कैन करता है।

संग्रह संग्रह (साइट पृष्ठों का अनुक्रमण) एक विशेष कार्यक्रम - एक खोज रोबोट द्वारा किया जाता है।

खोज रोबोट अनुक्रमण के लिए पतों की एक सूची प्राप्त करता है, उन्हें कॉपी करता है, और फिर कॉपी किए गए वेब पेजों की सामग्री को एक एल्गोरिदम में संसाधित करने के लिए सबमिट करता है जो उन्हें रिवर्स इंडेक्स में परिवर्तित करता है।

खैर, "संक्षेप में," यूं कहें तो, हमने खोज इंजन के सिद्धांतों पर चर्चा की।

आइए संक्षेप में बताएं:

आपके ब्लॉग पर एक खोज रोबोट आता है.
खोज रोबोट बाद की खोजों के लिए पृष्ठ के रिवर्स इंडेक्स को संग्रहीत करता है।
गणितीय मॉडल का उपयोग करते हुए, दस्तावेज़ को सूत्रों का उपयोग करके और मूल्यांकनकर्ता की राय को ध्यान में रखते हुए खोज परिणामों में संसाधित और प्रदर्शित किया जाता है।

यह बहुत, बहुत सरलीकृत है. यांडेक्स सर्च इंजन कैसे काम करता है इसकी बुनियादी समझ पाने के लिए।

मैंने अब तक बहुत सारा पाठ लिखा है, और शायद इतना कुछ स्पष्ट नहीं है। इसलिए, मेरा सुझाव है कि आप थोड़ी देर बाद इस लेख पर लौटें और इस वीडियो को देखें।

यह एक उत्कृष्ट मार्गदर्शिका है, जिसे मैंने भी एक समय में सीखा था।

मुझे आशा है कि यह जानकारी आपको बेहतर ढंग से समझने में मदद करेगी कि आपकी कोई साइट खोजों में उचित स्थान क्यों रखती है और उन्हें बेहतर बनाने के लिए हर संभव प्रयास करेगी।

इसी के साथ मैं आपको अलविदा कहता हूं, यदि आपके कोई प्रश्न हैं, तो मुझे टिप्पणियों में उनका उत्तर देने में हमेशा खुशी होगी। या शायद आप लेख में जोड़ना चाहते हैं?

किसी भी मामले में, अपनी राय व्यक्त करें. !

यांडेक्स, आज रूस में सबसे लोकप्रिय खोज इंजन है। सेवा आँकड़े लाइवइंटरनेट, अखिल रूसी दर्शकों के द्रव्यमान में यांडेक्स की हिस्सेदारी दिखाता है - यह 53.4% है, अगर हम केवल मास्को और क्षेत्र को ध्यान में रखते हैं, तो यह और भी अधिक है - 67.9% (मास्को, अनुरोधों के अनुसार, इससे अधिक पर कब्जा करता है) पूरे रूस का 50%)।

वेबसाइट www.yandex.ru 1997 में बनाई गई थी; इसके लिए केवल एक सर्वर पर्याप्त था, जो पहले यैंडेक्स डेवलपर्स के समूह में से एक दिमित्री के डेस्कटॉप के नीचे खड़ा था, जिसका अंतिम नाम टेबलीम था। खोलने के तुरंत बाद, हमने एक दूसरा सर्वर खरीदा, और जल्द ही, जब एक और स्थापित करना आवश्यक हुआ, तो यह स्पष्ट हो गया कि टेबल के नीचे तीन यांडेक्स सर्वरों के लिए पर्याप्त जगह थी, या […]

खोज इंजन डेवलपर उपयोगकर्ताओं को उनके प्रश्नों का सर्वोत्तम उत्तर प्रदान करने का प्रयास करते हैं। कभी-कभी ऐसा उत्तर एक संख्या (उदाहरण के लिए, किसी शहर में मौसम), एक चित्र (उदाहरण के लिए, मानचित्र पर एक पता), किसी शब्द का अनुवाद या एक चौपाई हो सकता है। जब आपके पास उपयुक्त जानकारी उपलब्ध हो, तो उत्तर तुरंत दिया जा सकता है। इसलिए, यांडेक्स इंटरनेट खोज परिणामों को अपने उत्तरों से पूरक करता है […]

यांडेक्स का लगभग हर दसवां अनुरोध "नेविगेशनल" होता है, यानी इसमें किसी संगठन या वेबसाइट का नाम होता है और उपयोगकर्ता इस संगठन की वेबसाइट पर जाना चाहता है। इस मामले में, ब्राउज़र एड्रेस बार के बजाय यांडेक्स सर्च बार का उपयोग किया जाता है और उपयोगकर्ता, एक नियम के रूप में, शेष नौ खोज परिणामों में रुचि नहीं रखता है। उपयोगकर्ता को मुख्य लक्ष्य से विचलित किए बिना, हमने मुख्य के बाद जोड़ा […]

सर्च इंजन का मुख्य कार्य उपयोगकर्ता के प्रश्न का उत्तर देना है। जब कोई उपयोगकर्ता कोई प्रश्न पूछता है, तो खोज इंजन इंटरनेट पर प्रत्येक साइट तक नहीं पहुंचता है, बल्कि उसे ज्ञात पृष्ठों के डेटाबेस - खोज सूचकांक - के माध्यम से खोज करता है। वहां उसे क्वेरी के शब्दों वाले सभी पृष्ठ मिले। उपयोगकर्ता खोज परिणाम पृष्ठों पर इन पृष्ठों के लिंक देखता है।

जैसा कि हम देखते हैं, यांडेक्स अभी भी खड़ा नहीं है, और मुझे यकीन है कि खोज की गुणवत्ता में सुधार करने के लिए इस प्रणाली की खोज प्रौद्योगिकियां विकसित होती रहेंगी, जिसे अभी तक शायद ही आदर्श कहा जा सकता है।

10 नवंबर 2009 को, यांडेक्स ने खोज एल्गोरिदम - स्नेज़िंस्क के एक नए संस्करण की घोषणा की। प्रासंगिकता की गणना के लिए एल्गोरिदम में मौलिक परिवर्तन हुए हैं - यांडेक्स प्रतिनिधियों ने निम्नलिखित लिखा: “हम एक अधिक सटीक और अधिक जटिल गणितीय मॉडल बनाने में कामयाब रहे, जिससे खोज गुणवत्ता में उल्लेखनीय वृद्धि हुई। खोज रैंकिंग वास्तुकला के पुन: डिज़ाइन के लिए धन्यवाद, कई हजार का लेखांकन लागू करना संभव हो गया [...]

यांडेक्स एल्गोरिदम के नए संस्करण का परीक्षण 9 जुलाई 2008 को शुरू हुआ। यांडेक्स के अनुसार, "प्रोग्राम में मुख्य बदलाव मशीन लर्निंग के एक नए दृष्टिकोण से संबंधित हैं और इसके परिणामस्वरूप, फॉर्मूला में रैंकिंग कारकों को ध्यान में रखने के तरीके में अंतर है।"

14 अप्रैल, 2008 को, नए खोज एल्गोरिदम "मैगाडन" का परीक्षण buki.yandex.ru पते पर शुरू हुआ। रैंकिंग कारकों की संख्या दोगुनी करने के अलावा, निम्नलिखित नवाचार भी जोड़े गए:

एल्गोरिथम जंगल में उतरने से पहले, आइए याद रखें कि एक खोज इंजन सामान्य रूप से कैसे काम करता है। एक खोज प्रणाली की तार्किक संरचना को तीन मॉड्यूल के रूप में दर्शाया जा सकता है (आरेख देखें) रोबोट (क्रॉलर) एक विशेष प्रोग्राम है जो इंटरनेट साइटों को क्रॉल करता है और उनकी सामग्री को डाउनलोड करता है। रोबोट का एक विशेष शेड्यूल होता है जिसके अनुसार वह अपने चक्कर लगाता है। रोबोट द्वारा लोड किए गए वेबसाइट पेज, एक विशेष [...]

66. किसका प्रभाव अधिक है: एक मुफ़्त प्लेटफ़ॉर्म (ब्लॉगस्पॉट, एलजे, आदि) से एक लिंक या एक ऑफ़लाइन साइट/ब्लॉग से? मुफ़्त प्लेटफ़ॉर्म स्टैंडअलोन साइटों की तुलना में कम वज़न स्थानांतरित करते हैं। हालाँकि, प्रभाव अधिक हो सकता है। यह कई कारकों के कारण है: वर्तमान एंकर सूची, तुलना की जा रही साइटों की स्थिति, आदि। इस प्रश्न का स्पष्ट उत्तर देना असंभव है। 67. सबसे बड़ा भार किसके बीच स्थानांतरित होता है […]

वामन यात्रा - दुनिया भर में और भारत, नेपाल, श्रीलंका, मालदीव, मॉरीशस और ग्रह पर कई अन्य स्थानों की यात्रा, हवाई टिकट और वीजा। यात्रियों और तीर्थयात्रियों के लिए सलाह. अपनी यात्रा का अधिकतम लाभ कैसे उठाएं। अद्भुत ऐतिहासिक इतिहास और अनुभवी यात्रियों की कहानियाँ।

किसी साइट के बाहरी लिंक को ध्यान में रखने का उद्देश्य क्या है? जैसा कि आप पिछले अनुभाग से देख सकते हैं, रैंकिंग को प्रभावित करने वाले लगभग सभी कारक पृष्ठ लेखक के नियंत्रण में हैं। इस प्रकार, किसी खोज इंजन के लिए वास्तव में उच्च-गुणवत्ता वाले दस्तावेज़ को किसी दिए गए खोज वाक्यांश के लिए विशेष रूप से बनाए गए पृष्ठ या यहां तक कि रोबोट द्वारा बनाए गए पृष्ठ से अलग करना असंभव हो जाता है और जिसमें बिल्कुल भी उपयोगी जानकारी नहीं होती है। […]

वे लंबे समय से रूसी इंटरनेट का एक अभिन्न अंग बन गए हैं। खोज इंजन अब विशाल और जटिल तंत्र हैं जो न केवल सूचना खोज उपकरण का प्रतिनिधित्व करते हैं, बल्कि व्यवसाय के लिए आकर्षक क्षेत्रों का भी प्रतिनिधित्व करते हैं।

अधिकांश खोज इंजन उपयोगकर्ताओं ने खोज इंजन के संचालन के सिद्धांत के बारे में, उपयोगकर्ता अनुरोधों को संसाधित करने की योजना के बारे में, इन प्रणालियों में क्या शामिल है और वे कैसे कार्य करते हैं, इसके बारे में कभी नहीं सोचा (या इसके बारे में सोचा, लेकिन कोई उत्तर नहीं मिला)...

यह मास्टर क्लास इस प्रश्न का उत्तर देने के लिए डिज़ाइन की गई है कि खोज इंजन कैसे काम करते हैं। हालाँकि, आपको यहाँ ऐसे कारक नहीं मिलेंगे जो दस्तावेज़ों की रैंकिंग को प्रभावित करते हैं। इसके अलावा, आपको यांडेक्स एल्गोरिदम की विस्तृत व्याख्या पर भरोसा नहीं करना चाहिए। यांडेक्स सर्च इंजन के प्रौद्योगिकी और विकास के निदेशक इल्या सेगलोविच के अनुसार, उन्हें केवल इल्या सेगलोविच द्वारा ही "यातना के तहत" पहचाना जा सकता है...

2. एक खोज इंजन की अवधारणा और कार्य

एक खोज प्रणाली एक सॉफ्टवेयर और हार्डवेयर कॉम्प्लेक्स है जिसे प्रासंगिकता के क्रम में सूचना के स्रोतों के लिंक की एक सूची तैयार करके इंटरनेट पर खोज करने और टेक्स्ट वाक्यांश (खोज क्वेरी) के रूप में निर्दिष्ट उपयोगकर्ता अनुरोध का जवाब देने के लिए डिज़ाइन किया गया है ( अनुरोध के अनुसार) सबसे बड़े अंतर्राष्ट्रीय खोज इंजन: "गूगल", याहू, एमएसएन। रूसी इंटरनेट पर ये यांडेक्स, रैम्बलर, एपोर्ट हैं।

आइए उदाहरण के तौर पर यांडेक्स खोज इंजन का उपयोग करके खोज क्वेरी की अवधारणा पर करीब से नज़र डालें। खोज क्वेरी को उपयोगकर्ता द्वारा उस चीज़ के अनुसार तैयार किया जाना चाहिए जो वह खोजना चाहता है, यथासंभव संक्षिप्त और सरलता से। मान लीजिए कि हम यांडेक्स में कार चुनने के तरीके के बारे में जानकारी प्राप्त करना चाहते हैं। ऐसा करने के लिए, यांडेक्स मुख्य पृष्ठ खोलें और खोज क्वेरी का पाठ "कार कैसे चुनें" दर्ज करें। इसके बाद, हमारा काम इंटरनेट पर सूचना के स्रोतों के लिए हमारे अनुरोध पर दिए गए लिंक को खोलना है। हालाँकि, यह बहुत संभव है कि हमें वह जानकारी नहीं मिलेगी जिसकी हमें आवश्यकता है। यदि ऐसा होता है, तो या तो आपको अपना अनुरोध दोबारा करने की आवश्यकता है, या खोज इंजन डेटाबेस में वास्तव में हमारे अनुरोध पर कोई प्रासंगिक जानकारी नहीं है (यह तब हो सकता है जब बहुत "संकीर्ण" प्रश्न पूछे जाएं, जैसे कि, उदाहरण के लिए, "कैसे चुनें" आर्कान्जेस्क में एक कार”)

किसी भी खोज इंजन का प्राथमिक लक्ष्य लोगों तक वही जानकारी पहुँचाना है जिसकी उन्हें तलाश है। और उपयोगकर्ताओं को सिस्टम में "सही" अनुरोध करना सिखाएं, यानी। खोज इंजनों के संचालन सिद्धांतों का अनुपालन करने वाली क्वेरीज़ असंभव हैं। इसलिए, डेवलपर्स खोज इंजनों के लिए एल्गोरिदम और ऑपरेटिंग सिद्धांत बनाते हैं जो उपयोगकर्ताओं को वह जानकारी ढूंढने की अनुमति देगा जो वे खोज रहे हैं।

इसका मतलब यह है कि खोज इंजन को उसी तरह "सोचना" चाहिए जैसा उपयोगकर्ता जानकारी खोजते समय सोचता है। जब कोई उपयोगकर्ता किसी खोज इंजन से अनुरोध करता है, तो वह जितनी जल्दी हो सके और आसानी से वह ढूंढना चाहता है जो उसे चाहिए। परिणाम प्राप्त करने के बाद, वह कई बुनियादी मापदंडों द्वारा निर्देशित होकर सिस्टम के प्रदर्शन का मूल्यांकन करता है। क्या उसे वह मिला जिसकी उसे तलाश थी? यदि उसे वह नहीं मिला, तो वह जो खोज रहा था उसे ढूंढने के लिए उसे कितनी बार क्वेरी को दोबारा करना पड़ा? उसे कितनी प्रासंगिक जानकारी मिल सकी? खोज इंजन ने अनुरोध पर कितनी जल्दी कार्रवाई की? खोज परिणाम कितने सुविधाजनक प्रस्तुत किए गए? क्या आप जो परिणाम खोज रहे थे वह पहला या सौवां था? उपयोगी जानकारी के साथ कितना अनावश्यक कचरा मिला? क्या किसी खोज इंजन तक पहुँचने पर आवश्यक जानकारी मिल जाएगी, मान लीजिए, एक सप्ताह में, या एक महीने में?

इन सभी सवालों के जवाबों से संतुष्ट करने के लिए, खोज इंजन डेवलपर्स लगातार खोज एल्गोरिदम और सिद्धांतों में सुधार कर रहे हैं, नए कार्यों और क्षमताओं को जोड़ रहे हैं, और सिस्टम के संचालन को गति देने के लिए हर संभव तरीके से प्रयास कर रहे हैं।

3. सर्च इंजन की मुख्य विशेषताएं

आइए हम खोज इंजनों की मुख्य विशेषताओं का वर्णन करें:

संपूर्णता
पूर्णता एक खोज प्रणाली की मुख्य विशेषताओं में से एक है, जो अनुरोध द्वारा पाए गए दस्तावेज़ों की संख्या और इंटरनेट पर दिए गए अनुरोध को पूरा करने वाले दस्तावेज़ों की कुल संख्या का अनुपात है। उदाहरण के लिए, यदि इंटरनेट पर "कार कैसे चुनें" वाक्यांश वाले 100 पृष्ठ हैं और उनमें से केवल 60 संबंधित क्वेरी के लिए पाए गए, तो खोज की पूर्णता 0.6 होगी। जाहिर है, खोज जितनी अधिक पूर्ण होगी, इसकी संभावना उतनी ही कम होगी कि उपयोगकर्ता को वह दस्तावेज़ नहीं मिलेगा जिसकी उसे आवश्यकता है, बशर्ते कि वह इंटरनेट पर मौजूद हो।
शुद्धता
सटीकता एक खोज इंजन की एक और मुख्य विशेषता है, जो इस बात से निर्धारित होती है कि पाए गए दस्तावेज़ उपयोगकर्ता की क्वेरी से किस हद तक मेल खाते हैं। उदाहरण के लिए, यदि क्वेरी "कार कैसे चुनें" में 100 दस्तावेज़ हैं, तो उनमें से 50 में "कार कैसे चुनें" वाक्यांश शामिल है, और बाकी में बस ये शब्द हैं ("सही रेडियो कैसे चुनें और इसे कैसे स्थापित करें") एक कार"), तो खोज सटीकता 50/100 (=0.5) के बराबर मानी जाती है। खोज जितनी अधिक सटीक होगी, उतनी ही तेजी से उपयोगकर्ता को उसके लिए आवश्यक दस्तावेज़ मिल जाएंगे, उनके बीच विभिन्न प्रकार के "कचरा" कम मिलेंगे, कम पाए गए दस्तावेज़ अनुरोध के अनुरूप नहीं होंगे।
प्रासंगिकता
प्रासंगिकता खोज का एक समान रूप से महत्वपूर्ण घटक है, जो इंटरनेट पर दस्तावेजों के प्रकाशित होने से लेकर खोज इंजन सूचकांक डेटाबेस में दर्ज होने तक के समय की विशेषता है। उदाहरण के लिए, दिलचस्प समाचार सामने आने के अगले दिन, बड़ी संख्या में उपयोगकर्ता प्रासंगिक प्रश्नों के साथ खोज इंजन की ओर रुख करने लगे। वस्तुतः, इस विषय पर समाचार सूचना के प्रकाशन को एक दिन से भी कम समय बीत चुका है, लेकिन बड़े खोज इंजनों के तथाकथित "फास्ट डेटाबेस" के अस्तित्व के कारण मुख्य दस्तावेज़ पहले ही अनुक्रमित और खोज के लिए उपलब्ध हैं, जो दिन में कई बार अपडेट किया जाता है।
खोज गति
खोज गति का इसके लोड प्रतिरोध से गहरा संबंध है। उदाहरण के लिए, रैम्बलर इंटरनेट होल्डिंग एलएलसी के अनुसार, आज, व्यावसायिक घंटों के दौरान, रैम्बलर सर्च इंजन को प्रति सेकंड लगभग 60 अनुरोध प्राप्त होते हैं। इस तरह के कार्यभार के लिए व्यक्तिगत अनुरोध के प्रसंस्करण समय को कम करने की आवश्यकता होती है। यहां उपयोगकर्ता और खोज इंजन के हित मेल खाते हैं: आगंतुक जितनी जल्दी हो सके परिणाम प्राप्त करना चाहता है, और खोज इंजन को अनुरोध को जितनी जल्दी हो सके संसाधित करना चाहिए, ताकि बाद के प्रश्नों की गणना धीमी न हो।
दृश्यता

4. खोज इंजनों के विकास का संक्षिप्त इतिहास

इंटरनेट विकास के शुरुआती दौर में इसके उपयोगकर्ताओं की संख्या कम थी और उपलब्ध जानकारी की मात्रा अपेक्षाकृत कम थी। अधिकांश भाग में, केवल अनुसंधान कर्मचारियों के पास ही इंटरनेट तक पहुंच थी। इस समय, इंटरनेट पर जानकारी खोजने का कार्य उतना जरूरी नहीं था जितना अब है।

नेटवर्क सूचना संसाधनों तक पहुंच को व्यवस्थित करने के पहले तरीकों में से एक साइटों की खुली निर्देशिकाओं का निर्माण था, संसाधनों के लिंक जिनमें विषय के अनुसार समूहीकृत किए गए थे। इस तरह की पहली परियोजना Yahoo.com वेबसाइट थी, जो 1994 के वसंत में खुली। कैटलॉग में साइटों की संख्या में उल्लेखनीय वृद्धि के बाद, कैटलॉग में आवश्यक जानकारी खोजने की क्षमता जोड़ी गई। पूर्ण अर्थ में, यह अभी तक एक खोज इंजन नहीं था, क्योंकि खोज क्षेत्र केवल कैटलॉग में मौजूद संसाधनों तक ही सीमित था, न कि सभी इंटरनेट संसाधनों तक।

लिंक निर्देशिकाओं का अतीत में व्यापक रूप से उपयोग किया जाता था, लेकिन वर्तमान में यह लगभग पूरी तरह से अपनी लोकप्रियता खो चुकी है। चूंकि विशाल मात्रा में आधुनिक कैटलॉग में भी इंटरनेट के केवल एक नगण्य हिस्से के बारे में जानकारी होती है। DMOZ नेटवर्क की सबसे बड़ी निर्देशिका (जिसे ओपन डायरेक्ट्री प्रोजेक्ट भी कहा जाता है) में 5 मिलियन संसाधनों के बारे में जानकारी शामिल है, जबकि Google खोज इंजन डेटाबेस में 8 बिलियन से अधिक दस्तावेज़ शामिल हैं।

1995 में, सर्च इंजन लाइकोस और अल्टाविस्टा सामने आए। उत्तरार्द्ध कई वर्षों से इंटरनेट पर सूचना खोज के क्षेत्र में अग्रणी रहा है।

1997 में, सर्गेई ब्रिन और लैरी पेज ने स्टैनफोर्ड यूनिवर्सिटी में एक शोध परियोजना के हिस्से के रूप में Google सर्च इंजन बनाया। Google वर्तमान में दुनिया का सबसे लोकप्रिय सर्च इंजन है!

सितंबर 1997 में, यांडेक्स सर्च इंजन, जो रूसी भाषा के इंटरनेट पर सबसे लोकप्रिय है, की आधिकारिक घोषणा की गई थी।

वर्तमान में, तीन मुख्य खोज इंजन (अंतर्राष्ट्रीय) हैं - Google, Yahoo और, जिनके पास अपने स्वयं के डेटाबेस और खोज एल्गोरिदम हैं। अधिकांश अन्य खोज इंजन (जिनकी संख्या बड़ी है) किसी न किसी रूप में सूचीबद्ध तीनों के परिणामों का उपयोग करते हैं। उदाहरण के लिए, AOL सर्च (search.aol.com) Google डेटाबेस का उपयोग करता है, जबकि AltaVista, Lycos और AllTheWeb Yahoo डेटाबेस का उपयोग करते हैं।

5. खोज प्रणाली की संरचना और संचालन के सिद्धांत

रूस में, मुख्य खोज इंजन Yandex है, इसके बाद Rambler.ru, Google.ru, Aport.ru, Mail.ru हैं। इसके अलावा, फिलहाल, Mail.ru Yandex सर्च इंजन और डेटाबेस का उपयोग करता है।

लगभग सभी प्रमुख खोज इंजनों की अपनी संरचना होती है, जो दूसरों से भिन्न होती है। हालाँकि, सभी खोज इंजनों में समान मुख्य घटकों की पहचान करना संभव है। संरचना में अंतर केवल इन घटकों की परस्पर क्रिया के तंत्र के कार्यान्वयन के रूप में हो सकता है।

अनुक्रमण मॉड्यूल

अनुक्रमण मॉड्यूल में तीन सहायक कार्यक्रम (रोबोट) होते हैं:

स्पाइडर एक प्रोग्राम है जिसे वेब पेज डाउनलोड करने के लिए डिज़ाइन किया गया है। स्पाइडर पेज को डाउनलोड करता है और उस पेज से सभी आंतरिक लिंक पुनर्प्राप्त करता है। प्रत्येक पृष्ठ का HTML कोड डाउनलोड किया गया है। पेज डाउनलोड करने के लिए रोबोट HTTP प्रोटोकॉल का उपयोग करते हैं। मकड़ी इस प्रकार काम करती है। रोबोट सर्वर को "गेट/पाथ/डॉक्यूमेंट" और कुछ अन्य HTTP अनुरोध कमांड भेजता है। जवाब में, रोबोट को एक टेक्स्ट स्ट्रीम प्राप्त होती है जिसमें सेवा की जानकारी और दस्तावेज़ स्वयं शामिल होता है।

पेज यूआरएल
पृष्ठ डाउनलोड होने की तिथि
सर्वर प्रतिक्रिया http शीर्षलेख
पृष्ठ का मुख्य भाग (एचटीएमएल कोड)

क्रॉलर ("ट्रैवलिंग" स्पाइडर) एक प्रोग्राम है जो पृष्ठ पर पाए गए सभी लिंक का स्वचालित रूप से अनुसरण करता है। पृष्ठ पर मौजूद सभी लिंक का चयन करता है। इसका काम लिंक के आधार पर या पतों की पूर्व निर्धारित सूची के आधार पर यह निर्धारित करना है कि मकड़ी को आगे कहाँ जाना चाहिए। क्रॉलर, पाए गए लिंक का अनुसरण करते हुए, नए दस्तावेज़ों की खोज करता है जो अभी भी खोज इंजन के लिए अज्ञात हैं।

इंडेक्सर (रोबोट इंडेक्सर) एक प्रोग्राम है जो मकड़ियों द्वारा डाउनलोड किए गए वेब पेजों का विश्लेषण करता है। अनुक्रमणिका पृष्ठ को उसके घटक भागों में पार्स करती है और अपने स्वयं के शाब्दिक और रूपात्मक एल्गोरिदम का उपयोग करके उनका विश्लेषण करती है। विभिन्न पृष्ठ तत्वों का विश्लेषण किया जाता है, जैसे पाठ, शीर्षक, लिंक, संरचनात्मक और शैली सुविधाएँ, विशेष सेवा HTML टैग, आदि।

इस प्रकार, अनुक्रमण मॉड्यूल आपको लिंक का उपयोग करके संसाधनों के दिए गए सेट को क्रॉल करने, सामने आए पृष्ठों को डाउनलोड करने, प्राप्त दस्तावेजों से नए पृष्ठों के लिंक निकालने और इन दस्तावेजों का संपूर्ण विश्लेषण करने की अनुमति देता है।

डेटाबेस

एक डेटाबेस, या खोज इंजन सूचकांक, एक डेटा भंडारण प्रणाली है, एक सूचना सरणी जिसमें अनुक्रमणिका मॉड्यूल द्वारा डाउनलोड और संसाधित किए गए सभी दस्तावेज़ों के विशेष रूप से परिवर्तित पैरामीटर संग्रहीत होते हैं।

सर्वर खोजें

खोज सर्वर संपूर्ण सिस्टम का सबसे महत्वपूर्ण तत्व है, क्योंकि खोज की गुणवत्ता और गति सीधे इसके कामकाज को रेखांकित करने वाले एल्गोरिदम पर निर्भर करती है।

खोज सर्वर इस प्रकार काम करता है:

उपयोगकर्ता से प्राप्त अनुरोध रूपात्मक विश्लेषण के अधीन है। डेटाबेस में निहित प्रत्येक दस्तावेज़ का सूचना वातावरण तैयार किया जाता है (जिसे बाद में फॉर्म में प्रदर्शित किया जाएगा, अर्थात, खोज परिणाम पृष्ठ पर अनुरोध के अनुरूप पाठ जानकारी)।
प्राप्त डेटा को एक विशेष रैंकिंग मॉड्यूल में इनपुट पैरामीटर के रूप में पारित किया जाता है। डेटा को सभी दस्तावेज़ों के लिए संसाधित किया जाता है, जिसके परिणामस्वरूप प्रत्येक दस्तावेज़ की अपनी रेटिंग होती है जो उपयोगकर्ता द्वारा दर्ज की गई क्वेरी की प्रासंगिकता और खोज इंजन सूचकांक में संग्रहीत इस दस्तावेज़ के विभिन्न घटकों को दर्शाती है।
उपयोगकर्ता की पसंद के आधार पर, इस रेटिंग को अतिरिक्त शर्तों (उदाहरण के लिए, तथाकथित "उन्नत खोज") द्वारा समायोजित किया जा सकता है।
इसके बाद, एक स्निपेट तैयार किया जाता है, यानी, पाए गए प्रत्येक दस्तावेज़ के लिए, शीर्षक, एक संक्षिप्त सार जो क्वेरी से सबसे अच्छा मेल खाता है, और दस्तावेज़ का एक लिंक दस्तावेज़ तालिका से निकाला जाता है, और पाए गए शब्दों को हाइलाइट किया जाता है।
परिणामी खोज परिणाम उपयोगकर्ता को SERP (खोज इंजन परिणाम पृष्ठ) - एक खोज परिणाम पृष्ठ के रूप में प्रेषित किए जाते हैं।

जैसा कि आप देख सकते हैं, ये सभी घटक एक-दूसरे से निकटता से जुड़े हुए हैं और परस्पर क्रिया में काम करते हैं, जिससे खोज प्रणाली के संचालन के लिए एक स्पष्ट, बल्कि जटिल तंत्र बनता है, जिसके लिए भारी मात्रा में संसाधनों की आवश्यकता होती है।

6। निष्कर्ष

आइए अब उपरोक्त सभी को संक्षेप में प्रस्तुत करें।

किसी भी खोज इंजन का प्राथमिक लक्ष्य लोगों तक वही जानकारी पहुँचाना है जिसकी उन्हें तलाश है।
खोज इंजन की मुख्य विशेषताएं:
1. संपूर्णता
2. शुद्धता
3. प्रासंगिकता
4. खोज गति
5. दृश्यता
पहला पूर्ण खोज इंजन वेबक्रॉलर प्रोजेक्ट था, जो 1994 में प्रकाशित हुआ था।
खोज प्रणाली में निम्नलिखित घटक शामिल हैं:
1. अनुक्रमण मॉड्यूल
2. डेटाबेस
3. सर्वर खोजें

हमें उम्मीद है कि हमारी मास्टर क्लास आपको खोज इंजन की अवधारणा से अधिक परिचित होने और खोज इंजन के मुख्य कार्यों, विशेषताओं और संचालन सिद्धांतों को बेहतर ढंग से समझने की अनुमति देगी।

1. नियम और परिभाषाएँ व्यक्तिगत डेटा के प्रसंस्करण पर इस समझौते में (बाद में समझौते के रूप में संदर्भित), नीचे दी गई शर्तों की निम्नलिखित परिभाषाएँ हैं: ऑपरेटर - व्यक्तिगत उद्यमी ओलेग अलेक्जेंड्रोविच डेनेप्रोव्स्की। समझौते की स्वीकृति - व्यक्तिगत डेटा भेजकर और संसाधित करके समझौते की सभी शर्तों की पूर्ण और बिना शर्त स्वीकृति। व्यक्तिगत डेटा - साइट पर उपयोगकर्ता द्वारा दर्ज की गई जानकारी (व्यक्तिगत डेटा का विषय) और प्रत्यक्ष या अप्रत्यक्ष रूप से इस उपयोगकर्ता से संबंधित है। उपयोगकर्ता - कोई भी व्यक्ति या कानूनी इकाई जिसने साइट पर इनपुट फ़ील्ड भरने की प्रक्रिया सफलतापूर्वक पूरी कर ली है। इनपुट फ़ील्ड भरना उपयोगकर्ता के लिए साइट के पंजीकृत उपयोगकर्ताओं के डेटाबेस में अपना पहला नाम, अंतिम नाम, फोन नंबर, व्यक्तिगत ईमेल पता (बाद में व्यक्तिगत डेटा के रूप में संदर्भित) भेजने की प्रक्रिया है, जो पहचान के उद्देश्य से किया जाता है। प्रयोगकर्ता। इनपुट फ़ील्ड भरने के परिणामस्वरूप, व्यक्तिगत डेटा ऑपरेटर के डेटाबेस में भेजा जाता है। इनपुट फ़ील्ड भरना स्वैच्छिक है। वेबसाइट - इंटरनेट पर स्थित एक वेबसाइट जिसमें एक पेज होता है। 2. सामान्य प्रावधान 2.1. यह समझौता 27 जुलाई 2006 के संघीय कानून संख्या 152-एफजेड "व्यक्तिगत डेटा पर" और अनुच्छेद 13.11 के प्रावधानों "क्षेत्र में रूसी संघ के कानून का उल्लंघन" की आवश्यकताओं के आधार पर तैयार किया गया है। व्यक्तिगत डेटा" रूसी संघ के प्रशासनिक अपराध संहिता का है और यह उन सभी व्यक्तिगत डेटा के लिए मान्य है जो ऑपरेटर साइट का उपयोग करते समय उपयोगकर्ता के बारे में प्राप्त कर सकता है। 2.2. साइट पर उपयोगकर्ता द्वारा इनपुट फ़ील्ड भरने का अर्थ है इस अनुबंध की सभी शर्तों (अनुबंध की स्वीकृति) के साथ उपयोगकर्ता की बिना शर्त सहमति। इन शर्तों से असहमति के मामले में, उपयोगकर्ता साइट पर इनपुट फ़ील्ड नहीं भरता है। 2.3. ऑपरेटर को व्यक्तिगत डेटा प्रदान करने और ऑपरेटर द्वारा उनके प्रसंस्करण के लिए उपयोगकर्ता की सहमति ऑपरेटर की गतिविधियों की समाप्ति तक या उपयोगकर्ता द्वारा सहमति वापस लेने तक वैध है। इस समझौते को स्वीकार करके और पंजीकरण प्रक्रिया से गुज़रकर, साथ ही बाद में साइट तक पहुंच कर, उपयोगकर्ता पुष्टि करता है कि, अपनी स्वतंत्र इच्छा और अपने हित में कार्य करते हुए, वह ऑपरेटर को प्रसंस्करण के लिए अपना व्यक्तिगत डेटा स्थानांतरित करता है और इससे सहमत होता है उनका प्रसंस्करण. उपयोगकर्ता को सूचित किया जाता है कि उसके व्यक्तिगत डेटा का प्रसंस्करण ऑपरेटर द्वारा 27 जुलाई 2006 के संघीय कानून संख्या 152-एफजेड "व्यक्तिगत डेटा पर" के आधार पर किया जाएगा। 3. ऑपरेटर को हस्तांतरित किए जाने वाले उपयोगकर्ता के बारे में व्यक्तिगत डेटा और अन्य जानकारी की सूची 3. 1. ऑपरेटर की वेबसाइट का उपयोग करते समय, उपयोगकर्ता निम्नलिखित व्यक्तिगत डेटा प्रदान करता है: 3.1.1। विश्वसनीय व्यक्तिगत जानकारी जो उपयोगकर्ता इनपुट फ़ील्ड भरते समय और/या साइट सेवाओं का उपयोग करने की प्रक्रिया में स्वतंत्र रूप से अपने बारे में प्रदान करता है, जिसमें अंतिम नाम, पहला नाम, संरक्षक, टेलीफोन नंबर (घर या मोबाइल), व्यक्तिगत ईमेल पता शामिल है। 3.1.2. डेटा जो उपयोगकर्ता के डिवाइस पर इंस्टॉल किए गए सॉफ़्टवेयर का उपयोग करके साइट सेवाओं में स्वचालित रूप से स्थानांतरित किया जाता है, जिसमें आईपी पता, कुकीज़ से जानकारी, उपयोगकर्ता के ब्राउज़र (या अन्य प्रोग्राम जिसके माध्यम से सेवाओं तक पहुंच होती है) के बारे में जानकारी शामिल है। 3.2. ऑपरेटर उपयोगकर्ता द्वारा प्रदान किए गए व्यक्तिगत डेटा की सटीकता की पुष्टि नहीं करता है। इस मामले में, ऑपरेटर मानता है कि उपयोगकर्ता इनपुट फ़ील्ड में प्रस्तावित प्रश्नों पर विश्वसनीय और पर्याप्त व्यक्तिगत जानकारी प्रदान करता है। 4. व्यक्तिगत डेटा के संग्रहण और उपयोग के उद्देश्य, नियम 4.1. ऑपरेटर व्यक्तिगत डेटा संसाधित करता है जो उपयोगकर्ता को सेवाएँ प्रदान करने और सेवाएँ प्रदान करने के लिए आवश्यक है। 4.2. उपयोगकर्ता के व्यक्तिगत डेटा का उपयोग ऑपरेटर द्वारा निम्नलिखित उद्देश्यों के लिए किया जाता है: 4.2.1. उपयोगकर्ता की पहचान; 4.2.2. उपयोगकर्ता को वैयक्तिकृत सेवाएँ प्रदान करना (साथ ही पत्र भेजकर कंपनी के नए प्रचारों और सेवाओं के बारे में सूचित करना); 4.2.3. यदि आवश्यक हो तो उपयोगकर्ता के साथ संपर्क बनाए रखना, जिसमें सेवाओं के उपयोग, सेवाओं के प्रावधान से संबंधित सूचनाएं, अनुरोध और जानकारी भेजना, साथ ही उपयोगकर्ता से अनुरोधों और अनुप्रयोगों को संसाधित करना शामिल है; 4.3. व्यक्तिगत डेटा के प्रसंस्करण के दौरान, निम्नलिखित क्रियाएं की जाएंगी: संग्रह, रिकॉर्डिंग, व्यवस्थितकरण, संचय, भंडारण, स्पष्टीकरण (अद्यतन करना, बदलना), निष्कर्षण, उपयोग, अवरुद्ध करना, हटाना, नष्ट करना। 4.4. उपयोगकर्ता को इस बात पर आपत्ति नहीं है कि कुछ मामलों में उसके द्वारा निर्दिष्ट जानकारी रूसी संघ के वर्तमान कानून के अनुसार रूसी संघ के अधिकृत राज्य निकायों को प्रदान की जा सकती है। 4.5. उपयोगकर्ता के व्यक्तिगत डेटा को ऑपरेटर द्वारा गतिविधि की पूरी अवधि के लिए इस अनुबंध में दिए गए तरीके से संग्रहीत और संसाधित किया जाता है। 4.6. व्यक्तिगत डेटा का प्रसंस्करण ऑपरेटर द्वारा डेटाबेस, स्वचालित, यांत्रिक और मैन्युअल तरीकों को बनाए रखते हुए किया जाता है। 4.7. साइट सेवाओं के उपयोग को ट्रैक करने के लिए साइट कुकीज़ और अन्य तकनीकों का उपयोग करती है। यह डेटा साइट के तकनीकी संचालन को अनुकूलित करने और सेवा प्रावधान की गुणवत्ता में सुधार करने के लिए आवश्यक है। साइट स्वचालित रूप से साइट पर आने वाले प्रत्येक आगंतुक के बारे में जानकारी (यूआरएल, आईपी पता, ब्राउज़र प्रकार, भाषा, अनुरोध की तारीख और समय सहित) रिकॉर्ड करती है। उपयोगकर्ता को साइट पर जाने पर व्यक्तिगत डेटा प्रदान करने से इनकार करने या कुकीज़ को अक्षम करने का अधिकार है, लेकिन इस मामले में, साइट के सभी कार्य सही ढंग से काम नहीं कर सकते हैं। 4.8. इस अनुबंध में प्रदान की गई गोपनीयता की शर्तें उन सभी सूचनाओं पर लागू होती हैं जो ऑपरेटर उपयोगकर्ता के साइट पर रहने और साइट के उपयोग के दौरान उसके बारे में प्राप्त कर सकता है। 4.9. इस अनुबंध के निष्पादन के दौरान सार्वजनिक रूप से प्रकट की गई जानकारी, साथ ही पार्टियों या तीसरे पक्षों द्वारा उन स्रोतों से प्राप्त की जा सकने वाली जानकारी, जिन तक किसी भी व्यक्ति की मुफ्त पहुंच है, गोपनीय नहीं है। 4.10. ऑपरेटर उपयोगकर्ता के व्यक्तिगत डेटा की गोपनीयता को अनधिकृत पहुंच, संशोधन, प्रकटीकरण या विनाश से बचाने के लिए सभी आवश्यक उपाय करता है, जिसमें शामिल हैं: डेटा एकत्र करने, भंडारण और प्रसंस्करण की प्रक्रियाओं का निरंतर आंतरिक सत्यापन सुनिश्चित करना और सुरक्षा सुनिश्चित करना; डेटा की भौतिक सुरक्षा सुनिश्चित करता है, तकनीकी प्रणालियों तक अनधिकृत पहुंच को रोकता है जो साइट के संचालन को सुनिश्चित करता है, जिसमें ऑपरेटर व्यक्तिगत डेटा संग्रहीत करता है; केवल ऑपरेटर के उन कर्मचारियों या अधिकृत व्यक्तियों को व्यक्तिगत डेटा तक पहुंच प्रदान करता है जिन्हें उपयोगकर्ता को सेवाओं के प्रावधान के साथ-साथ साइट के संचालन, विकास और सुधार से सीधे संबंधित कर्तव्यों को पूरा करने के लिए इस जानकारी की आवश्यकता होती है। 4.11. उपयोगकर्ता का व्यक्तिगत डेटा गोपनीय रहता है, उन मामलों को छोड़कर जहां उपयोगकर्ता स्वेच्छा से असीमित संख्या में व्यक्तियों तक सामान्य पहुंच के लिए अपने बारे में जानकारी प्रदान करता है। 4.12. ऑपरेटर के पुनर्गठन के दौरान उपयोगकर्ता के व्यक्तिगत डेटा का ऑपरेटर द्वारा स्थानांतरण और ऑपरेटर के कानूनी उत्तराधिकारी को अधिकारों का हस्तांतरण कानूनी है, जबकि उसके द्वारा प्राप्त व्यक्तिगत जानकारी के संबंध में इस समझौते की शर्तों का पालन करने के सभी दायित्व हैं। कानूनी उत्तराधिकारी को हस्तांतरित। 4.13. यह कथन केवल ऑपरेटर की वेबसाइट पर लागू होता है। कंपनी तीसरे पक्ष की साइटों (सेवाओं) को नियंत्रित नहीं करती है और उनके लिए ज़िम्मेदार नहीं है, जिन्हें उपयोगकर्ता खोज परिणामों सहित ऑपरेटर की वेबसाइट पर उपलब्ध लिंक के माध्यम से एक्सेस कर सकता है। ऐसी साइटों (सेवाओं) पर, उपयोगकर्ता से अन्य व्यक्तिगत जानकारी एकत्र या अनुरोध की जा सकती है, और अन्य कार्य किए जा सकते हैं 5। व्यक्तिगत डेटा के विषय के रूप में उपयोगकर्ता के अधिकार, उपयोगकर्ता द्वारा व्यक्तिगत डेटा में परिवर्तन और विलोपन 5.1. उपयोगकर्ता का अधिकार है: 5.1.2. यदि व्यक्तिगत डेटा अधूरा, पुराना, गलत, अवैध रूप से प्राप्त किया गया है या प्रसंस्करण के बताए गए उद्देश्य के लिए आवश्यक नहीं है, तो ऑपरेटर से अपने व्यक्तिगत डेटा को स्पष्ट करने, इसे ब्लॉक करने या नष्ट करने की आवश्यकता है, और अपने अधिकारों की रक्षा के लिए कानून द्वारा प्रदान किए गए उपाय भी करें। 5.1.3. उसके व्यक्तिगत डेटा के प्रसंस्करण के संबंध में जानकारी प्राप्त करें, जिसमें निम्न जानकारी शामिल है: 5.1.3.1। ऑपरेटर द्वारा व्यक्तिगत डेटा के प्रसंस्करण के तथ्य की पुष्टि; 5.1.3.2. ऑपरेटर द्वारा उपयोग किए जाने वाले व्यक्तिगत डेटा को संसाधित करने के उद्देश्य और तरीके; 5.1.3.3. ऑपरेटर का नाम और स्थान; 5.1.3.4. व्यक्तिगत डेटा के प्रासंगिक विषय, उनकी प्राप्ति के स्रोत से संबंधित संसाधित व्यक्तिगत डेटा, जब तक कि संघीय कानून द्वारा ऐसे डेटा की प्रस्तुति के लिए एक अलग प्रक्रिया प्रदान नहीं की जाती है; 5.1.3.5. व्यक्तिगत डेटा के प्रसंस्करण की शर्तें, जिसमें उनके भंडारण की अवधि भी शामिल है; 5.1.3.6. रूसी संघ के वर्तमान कानून द्वारा प्रदान की गई अन्य जानकारी। 5.2. व्यक्तिगत डेटा के प्रसंस्करण के लिए सहमति वापस लेने का कार्य उपयोगकर्ता द्वारा ऑपरेटर को एक उपयुक्त लिखित (मूर्त माध्यम पर मुद्रित और उपयोगकर्ता द्वारा हस्ताक्षरित) नोटिस भेजकर किया जा सकता है। 6. संचालक की जिम्मेदारियां. व्यक्तिगत डेटा तक पहुंच 6.1. ऑपरेटर, ऑपरेटर की वेबसाइट के उपयोगकर्ताओं के व्यक्तिगत डेटा तक अनधिकृत और गैर-लक्षित पहुंच की रोकथाम सुनिश्चित करने का कार्य करता है। इस मामले में, साइट उपयोगकर्ताओं के व्यक्तिगत डेटा तक अधिकृत और लक्षित पहुंच को सभी इच्छुक पार्टियों द्वारा उन तक पहुंच माना जाएगा, जिसे ऑपरेटर की साइट के उद्देश्यों और विषय के ढांचे के भीतर कार्यान्वित किया जाएगा। साथ ही, ऑपरेटर उपयोगकर्ताओं के व्यक्तिगत डेटा के संभावित दुरुपयोग के लिए ज़िम्मेदार नहीं है जो इसके परिणामस्वरूप होता है: ऑपरेटर के नियंत्रण से परे सॉफ़्टवेयर और हार्डवेयर और नेटवर्क में तकनीकी समस्याएं; तीसरे पक्ष द्वारा अपने इच्छित उद्देश्य के अलावा ऑपरेटर की वेबसाइटों के जानबूझकर या अनजाने उपयोग के संबंध में; 6.2 ऑपरेटर उपयोगकर्ता की व्यक्तिगत जानकारी को अनधिकृत या आकस्मिक पहुंच, विनाश, संशोधन, अवरोधन, प्रतिलिपि बनाने, वितरण के साथ-साथ तीसरे पक्ष के अन्य गैरकानूनी कार्यों से बचाने के लिए आवश्यक और पर्याप्त संगठनात्मक और तकनीकी उपाय करता है। 7. गोपनीयता नीति में परिवर्तन. लागू विधान 7.1. ऑपरेटर को उपयोगकर्ताओं को कोई विशेष सूचना दिए बिना इन विनियमों में बदलाव करने का अधिकार है। जब वर्तमान संस्करण में परिवर्तन किए जाते हैं, तो अंतिम अद्यतन की तिथि इंगित की जाती है। विनियमों का नया संस्करण इसके प्रकाशन के क्षण से लागू होता है, जब तक कि विनियमों के नए संस्करण द्वारा अन्यथा प्रदान नहीं किया जाता है। 7.2. रूसी संघ का कानून इस विनियमन और विनियमन के आवेदन के संबंध में उपयोगकर्ता और ऑपरेटर के बीच उत्पन्न होने वाले संबंधों पर लागू होगा। मैं स्वीकार करता हूं मैं स्वीकार नहीं करता

हम उतने अद्वितीय नहीं हैं जितना हम सोचते हैं: हमसे पहले लाखों लोग हैरान थे और हमारे बाद लाखों लोग खोज इंजन को लगभग समान प्रश्नों से परेशान करेंगे। दूसरी ओर, हम बहुत अप्रत्याशित हैं: हमारे अनुरोध का निर्माण बड़ी संख्या में कारकों से प्रभावित होता है जिनके बारे में हमें जानकारी नहीं होती है। और कम से कम इस कारण से, हम में से प्रत्येक का अनुरोध, चाहे वह कितना भी सामान्य क्यों न हो, एक व्यक्तिगत दृष्टिकोण की आवश्यकता होती है।

वास्तव में, यांडेक्स सर्च इंजन का पूरा काम दो सरल चीजों तक सीमित है: यह समझना कि एक व्यक्ति वास्तव में क्या जानना चाहता है, और कुछ ही सेकंड में इंटरनेट पर अरबों दस्तावेज़ों में से उपयुक्त दस्तावेज़ ढूंढना।

उंगलियों के निशान ले लो

सर्च इंजन का ऑपरेटिंग सिस्टम कुछ हद तक मैट्रिक्स के समान है, और सर्च रोबोट (इसके द्वारा बनाया गया जटिल, स्वतंत्र रूप से निर्णय लेने वाला प्रोग्राम) एजेंट स्मिथ के समान है।

हर बार किसी को कुछ जानने के लिए पूरे इंटरनेट पर खोज न करने के लिए, खोज इंजन काम का एक हिस्सा पहले से करता है - यह हजारों खोज रोबोटों का उपयोग करके जांच करता है कि वेब पर क्या है और कहां है। वे दो प्रकार में आते हैं: बुनियादी और तेज़। मुख्य एक पूरे इंटरनेट को क्रॉल और संसाधित करता है, और तेज़ एक - दस्तावेज़ जो एक मिनट या कुछ सेकंड पहले दिखाई देते हैं। रोबोट प्रोग्राम का कार्य उपयोगकर्ताओं के लिए उपयुक्त और उपयोगी जानकारी का चयन करना, उसे संसाधित करना, पुरानी और अनावश्यक सभी चीज़ों को बाहर निकालना है। कुछ मायनों में, यह कचरा छांटने की याद दिलाता है: एक कंटेनर में कागज, दूसरे में कांच, तीसरे में प्लास्टिक, चौथे में खाद्य अपशिष्ट...

रोबोट द्वारा एकत्र की गई जानकारी तथाकथित इंटरनेट कास्ट बनाती है। यह हजारों यांडेक्स सर्वरों पर संग्रहीत है और लगातार अद्यतन किया जाता है। एक डली एक सूची की तरह है जो आपको बताती है कि कौन सी जानकारी कहां मिलेगी। इस सूची में प्रत्येक कीवर्ड में एक नहीं, बल्कि लाखों "पेज" हैं। यह सुनिश्चित करने के लिए कि सभी नगेट अपडेट उपयोगकर्ताओं के लिए उपलब्ध हैं, उन्हें रिपॉजिटरी से "बेस सर्च" में ले जाया जाता है। मुख्य रोबोट से डेटा हर कुछ दिनों में स्थानांतरित किया जाता है, और तेज़ रोबोट से - वास्तविक समय में।

साफ पानी लाओ

चित्रण: एवगेनी टोंकोनॉजी

तैयार डेटाबेस में किसी दिए गए प्रश्न का उत्तर खोजते समय, मशीन को दो मुख्य कठिनाइयों का सामना करना पड़ता है। पहली कठिनाई भाषा है. किसी प्रश्न का उत्तर ढूंढने से पहले मशीन के लिए यह समझना ज़रूरी है कि उसे ऐसा किस भाषा में करना चाहिए। उदाहरण के लिए, एक रूसी भाषी व्यक्ति के लिए, "प्रिंस इगोर के दस्ते" की खोज में सेना के बारे में जानकारी वाले दस्तावेज़ मिलेंगे, और एक यूक्रेनी के लिए, "प्रिंस इगोर के दस्ते" राजकुमारी ओल्गा, उनकी पत्नी का उल्लेख करने वाले दस्तावेज़ भी लौटाएंगे, क्योंकि यूक्रेनी में "पत्नी" का अर्थ "दस्ता" है। और समृद्ध रूसी भाषा में, एक ही शब्द या उसके व्युत्पन्न का अर्थ अलग-अलग हो सकता है। उदाहरण के लिए, "स्टील" शब्द संज्ञा "स्टील" और क्रिया "बनना" के रूपों में से एक है। दूसरी कठिनाई मानव मनोविज्ञान है। अनुरोध दर्ज करते समय, हम स्वाभाविक रूप से इस बात की चिंता किए बिना त्वरित और सटीक उत्तर की उम्मीद करते हैं कि अनुरोध का शब्दांकन गणितीय विश्लेषण के सिद्धांतों से मेल खाता है जिसके द्वारा मशीन का मस्तिष्क काम करता है। उदाहरण के लिए, खोज बार में "नेपोलियन" शब्द दर्ज करके, कोई व्यक्ति क्या प्राप्त करना चाहता है: एक केक नुस्खा या फ्रांसीसी सम्राट की जीवनी, कॉन्यैक खरीदें या एक मनोरोग अस्पताल का पता ढूंढें?

ऐसी स्थितियों में, कई प्रौद्योगिकियाँ काम में आती हैं। आप खोज बार के अंतर्गत आपको कई संकेत दे सकते हैं जो आपके अनुरोध को निर्दिष्ट करेंगे। जैसे, चुनें कि आपको क्या चाहिए: नेपोलियन रेसिपी या नेपोलियन - बोनापार्ट। यदि उपयोगकर्ता मशीन के अनुरोध का जवाब नहीं देता है और "नेपोलियन" में शब्द नहीं जोड़ता है, तो "स्पेक्ट्रम" तकनीक मामले में मदद करती है: मदद की उम्मीद किए बिना, मशीन तुरंत कई श्रेणियों में जानकारी खोजती है (केक के बारे में, और सम्राट के बारे में, और घोड़े के बारे में ..)। इसके अलावा, वैयक्तिकरण तंत्र उपयोगकर्ता को समझने में मदद करते हैं - मशीन का ज्ञान कि यह उपयोगकर्ता एक दिन, दो, तीन या महीने पहले अपने कंप्यूटर पर क्या ढूंढ रहा था: यदि आपने अक्सर खाना पकाने के बारे में यैंडेक्स से प्रश्न पूछे हैं, तो मशीन सबसे पहले दिखाएगी आपके परिणाम कहते हैं कि नेपोलियन एक केक है।

संयोजन: रुचि क्लब

खोज इंजन का कार्य केवल उन दस्तावेज़ों का चयन करना नहीं है जिनमें खोज क्वेरी से शब्द और वाक्यांश शामिल हैं। मशीन को यह अवश्य समझना चाहिए कि कौन से दस्तावेज़ हमारी परस्पर विरोधी आवश्यकताओं को पूरा करते हैं और वे उन्हें क्यों पूरा करते हैं। क्या हम नेपोलियन केक के बारे में जानकारी प्राप्त करना चाहते हैं, या हो सकता है कि हमने कुछ वर्षों के लिए एक दिखावटी नाम वाले फिटनेस क्लब का दौरा किया हो, या यहां तक कि छोटे लोगों के परिसरों के बारे में भी पूरी तरह से चिंतित हों। किसी भी मामले में, समस्या को हल करने के लिए एक गैर-तुच्छ दृष्टिकोण की आवश्यकता होती है।

यांडेक्स खोज कार्यक्रम के रचनाकारों ने मशीन को पसंद का अधिकार सौंपकर यह दृष्टिकोण पाया। एक ओर, एक निष्प्राण, लेकिन बहुत तेज़ और स्मार्ट मशीन व्यक्तिगत रूप से हमारे बारे में कुछ भी नहीं जानती और जानना नहीं चाहती है, और दूसरी ओर, वह हर किसी के बारे में जितना संभव हो उतना जानने की कोशिश करती है।

उपयोगकर्ता की भौगोलिक स्थिति और उसके प्रश्नों के भाषाई विश्लेषण के अलावा, खोज इंजन कई हजार मानदंडों का उपयोग करता है जो मनुष्यों के लिए बिल्कुल भी स्पष्ट नहीं हैं।

चाल यह है कि मशीन इन मानदंडों को स्वतंत्र रूप से विकसित और अद्यतन करती है।

यह बस लाखों लोगों की प्राथमिकताओं और उपयोगकर्ता व्यवहार पर डेटा का उपयोग करता है और इस "अंकगणितीय औसत" को हमारे प्रश्नों के इतिहास से जोड़ता है। वे सिद्धांत जो अपने भीतर मैट्रिक्स का मार्गदर्शन करते हैं, उपयोगकर्ता के हितों की हजारों श्रेणियों की तुलना करते हैं, जो अक्सर पारंपरिक मानव विचारों में फिट नहीं होते हैं कि सिद्धांत रूप में "हित" क्या हो सकते हैं। इनकी संख्या हजारों में हैं. वे एक-दूसरे के साथ अलग-अलग, कभी-कभी मज़ेदार, संयोजन बनाते हैं। उदाहरण के लिए, इनमें से एक संयोजन यह हो सकता है कि खोज परिणाम उस व्यक्ति की रुचियों से मेल खाते हों जो न्यूट्स का प्रजनन करता है। उसी समय, एक व्यक्ति न केवल न्यूट्स में रुचि रखता है, बल्कि पहले से ही उनका प्रजनन कर रहा है, लेकिन केवल पहले वर्ष के लिए।

रेटिंग. मददगार हाथ

निस्संदेह, मैट्रिक्स स्वयं निर्णय लेता है (उच्च गणित की सहायता से) कि हजारों मानदंडों के आधार पर उपयोगकर्ताओं को क्या और किस क्रम में दिखाया जाना चाहिए। लेकिन मैट्रिक्स जीवित लोगों का भी उपयोग करता है - 1000 यांडेक्स कर्मचारी, तथाकथित मूल्यांकनकर्ता, एक विशेष अनुरोध के लिए खोज परिणामों का मूल्यांकन करते हैं (बेशक, हर अनुरोध का मूल्यांकन नहीं किया जाता है, और यह वास्तविक समय में नहीं किया जाता है) यह निर्धारित करने के लिए कि क्या वे मिलते हैं एक सामान्य उपयोगकर्ता की अपेक्षाएँ: मशीन जितनी तर्कसंगत नहीं, सूत्रीकरण में उतनी सटीक नहीं, विरोधाभासी और भावनात्मक।