სახლში მოწყობილობები

ინტერნეტ საძიებო სისტემები: Yandex, Google, Rambler, Yahoo. შემადგენლობა, ფუნქციები, მოქმედების პრინციპი. Yandex საძიებო სისტემის მუშაობის პრინციპის უმარტივესი აღწერა კომბინაციები: ინტერესთა კლუბები

გამარჯობა ძვირფასო მეგობრებო! ამ სტატიაში ჩვენ გავაგრძელებთ Yandex-ის საძიებო სისტემას და როგორც გახსოვთ, წინა სტატიებში განვიხილეთ ამ დიდი კომპანიის შექმნის ისტორია, რომელიც პირველ ადგილზეა მის კონკურენტებს შორის რუსეთში და მის ფარგლებს გარეთ.

ეს ყველაფერი კარგია, მაგრამ დამწყებთათვის და გამოცდილი საიტის შემქმნელებს აინტერესებთ ყველაზე მნიშვნელოვანი კითხვა, რა თქმა უნდა, დაკავშირებულია იმაზე, თუ როგორ უნდა მიიყვანონ თავიანთი პროექტები პირველ ადგილებზე TOP ძიების შედეგებში.

მაშასადამე, მოდით შევხედოთ როგორ მუშაობს Yandex საძიებო სისტემა, რათა გავიგოთ, რა შეცდომებზე შეგიძლიათ გადახვიდეთ და ზოგადად რას უნდა ველოდოთ რუსული საძიებო სისტემისგან.

ბოლო სტატიაში განვიხილეთ. თემა საკმაოდ საინტერესო და სასარგებლო აღმოჩნდა. ამიტომ გადავწყვიტე შემემატებინა, გამეღრმავებინა, ასე ვთქვათ.

ასე რომ, მე, ალბათ, ცოტა გამიტყდა კითხვა „რატომ ახდენს საძიებო სისტემა დოკუმენტაციის ინდექსირებას“? ეს არ არის გონივრული. რჩება მხოლოდ „როგორ“ კითხვის გარკვევა.

ვებსაიტების რეიტინგის ალგორითმები

პირველ რიგში, მოდით გავეცნოთ რამდენიმე ალგორითმს, რომლებიც ფუნდამენტურია ნებისმიერი საძიებო სისტემისთვის:

- პირდაპირი ძიების ალგორითმი.

რა არის - გახსოვთ, ერთ-ერთ წიგნში მშვენიერი ამბავი წაიკითხეთ. და სათითაოდ იწყებ ყურებას. აიღეს ერთი წიგნი, გადახედეს, ვერ იპოვეს, მეორე წაიღეს... პრინციპი გასაგებია, მაგრამ ეს მეთოდი უკიდურესად გრძელია. ესეც გასაგებია.

- საპირისპირო ძიების ალგორითმი.

ამ ალგორითმისთვის ტექსტური ფაილი იქმნება თქვენი ბლოგის თითოეული გვერდიდან. ეს ფაილი ანბანური თანმიმდევრობით ჩამოთვლის თქვენს მიერ გამოყენებულ ყველა სიტყვას. ტექსტში ამ სიტყვის პოზიციაც კი არის მითითებული (კოორდინატები ტექსტში).

ეს საკმაოდ სწრაფი მეთოდია, მაგრამ ძიება უკვე ხდება გარკვეული შეცდომით.

აქ მთავარი გასაგებად არის ის, რომ ეს ალგორითმი არ ეძებს ინტერნეტში და არა ბლოგზე ძიებით. და ცალკე ტექსტურ ფაილში, რომელიც შეიქმნა დიდი ხნის წინ. როცა რობოტი შენთან მოვიდა. და ეს ფაილები (საპირისპირო ინდექსები) ინახება Yandex სერვერებზე.

ასე რომ, ეს იყო საძიებო ძირითადი ალგორითმები. იმათ. როგორ პოულობს Yandex საჭირო დოკუმენტებს. როგორც ჩანს, ამ მხრივ არანაირი პრობლემა არ უნდა იყოს.

მაგრამ Yandex-მა იცის ერთზე მეტი ან თუნდაც 100 დოკუმენტი, მაგრამ ჩემი წყაროების უახლესი მონაცემებით, Yandex-მა იცის დაახლოებით 11 მილიარდი დოკუმენტი (10,727,736,489 გვერდი).

და მთელ ამ რაოდენობას შორის, თქვენ უნდა აირჩიოთ დოკუმენტები, რომლებიც შეესაბამება მოთხოვნას. და რაც მთავარია, თქვენ უნდა როგორმე დაალაგოთ ისინი. იმათ. დაალაგეთ მნიშვნელობის, უფრო სწორად მკითხველისთვის სარგებლობის ხარისხის მიხედვით.

მათემატიკური ძიების მოდელები

ამ საკითხის გადასაჭრელად მათემატიკური მოდელები მოდიან სამაშველოში. ახლა ჩვენ ვისაუბრებთ უმარტივეს მოდელებზე.

ლოგიკური მათემატიკური მოდელი– თუ სიტყვა გამოჩნდება დოკუმენტში, დოკუმენტი ითვლება ნაპოვნი. უბრალოდ დამთხვევა და არაფერი რთული.

მაგრამ აქ არის პრობლემები. მაგალითად, თუ თქვენ, როგორც მომხმარებელი, შეიყვანთ რომელიმე პოპულარულ სიტყვას, ან კიდევ უკეთესი, წინადადებას „v“, რომელიც ყველაზე გავრცელებული სიტყვაა რუსულ ენაში და გვხვდება ყველა დოკუმენტში, მაშინ ამდენი შედეგი მოგეცემათ. რომ ვერც კი ხვდები ამხელა რიცხვს, რამდენი საბუთი იპოვე? აქედან გამომდინარე, გამოჩნდა შემდეგი მატის მოდელი.

ვექტორული მათემატიკური მოდელი- ეს მოდელი განსაზღვრავს დოკუმენტის "წონას". არა მხოლოდ დამთხვევა ხდება, არამედ სიტყვა რამდენჯერმე უნდა მოხდეს. უფრო მეტიც, რაც უფრო მეტი სიტყვა გამოჩნდება, მით უფრო მაღალია შესაბამისობა (შეესაბამება).

ეს არის ვექტორული მოდელი, რომელსაც ყველა საძიებო სისტემა იყენებს.

სავარაუდო მოდელი- უფრო კომპლექსური. პრინციპი ასეთია: საძიებო სისტემამ თავად იპოვა გვერდის შაბლონი. მაგალითად, თქვენ ეძებთ ინფორმაციას Yandex-ის ისტორიის შესახებ. Yandex ინახავს რაიმე სახის სტანდარტს, ვთქვათ, ეს იქნება ჩემი წინა სტატია Yandex-ის შესახებ.

და ის შეადარებს ყველა სხვა დოკუმენტს ამ სტატიას. და აქ ლოგიკა ასეთია: რაც უფრო ჰგავს თქვენი ბლოგის გვერდი ჩემს სტატიას, მით უფრო სავარაუდოა, რომ თქვენი ბლოგის გვერდი ასევე სასარგებლო იქნება მკითხველისთვის და ასევე მოგვითხრობს Yandex-ის ისტორიაზე.

მომხმარებლისთვის ჩვენება საჭირო დოკუმენტების რაოდენობის შესამცირებლად, დაინერგა შესაბამისობის ცნება, ე.ი. შესაბამისობა.

რამდენად შეესაბამება თქვენი ბლოგის გვერდი თემას? ეს მნიშვნელოვანი თემაა, როდესაც საქმე ძიების ხარისხს ეხება.

შემფასებლები - ვინ არიან ისინი და რაზე არიან პასუხისმგებელი?

ეს შესაბამისობა ასევე საჭიროა ალგორითმების ხარისხის შესაფასებლად.

ამ მიზნით არის სპეციალური ძალების შტაბი - მათ ეძახიან შემფასებლებს. ეს განსაკუთრებული ხალხია, რომლებიც ხელებით ათვალიერებენ ძიების შედეგებს.

მათ აქვთ ინსტრუქციები, თუ როგორ შეამოწმონ საიტები, როგორ შეაფასონ და ა.შ. და ისინი ხელით განსაზღვრავენ, შესაფერისია თუ არა თქვენი გვერდები საძიებო მოთხოვნებისთვის.

ხოლო ძიების ალგორითმების ხარისხი დამოკიდებულია შემფასებლების აზრზე. თუ ყველა შემფასებელი ამბობს, რომ ძიების შედეგები არ შეესაბამება მოთხოვნებს, ეს ნიშნავს, რომ რეიტინგის ალგორითმი არასწორია და მხოლოდ Yandex არის დამნაშავე.

თუ შემფასებლები ამბობენ, რომ მხოლოდ ერთი საიტი არ აკმაყოფილებს მოთხოვნას, ეს ნიშნავს, რომ საიტი სადღაც შორს დაფრინავს და ქვეითდება ძიების შედეგებში. უფრო ზუსტად, არა მთელი საიტი, არამედ მხოლოდ ერთი სტატია, მაგრამ ეს არ არის "აზრი".

რა თქმა უნდა, შემფასებლებს არ შეუძლიათ ყველა სტატიის განხილვა და შეფასება ხელებითა და თვალებით. ეს გასაგებია.

და სხვა პარამეტრები, რომლითაც გვერდები ფასდება, სამაშველოში მოდის.

ბევრი მათგანია, მაგალითად:

გვერდის წონა (vIC, PageRank, ბავშვის მუწუკებიᲡაერთო ჯამში);
დომენის ავტორიტეტი;
ტექსტის შესაბამისობა მოთხოვნასთან;
გარე ბმული ტექსტების შესაბამისობა მოთხოვნასთან;
ისევე როგორც მრავალი სხვა რანგის ფაქტორი.

შემფასებლები აკეთებენ კომენტარს, ხოლო ადამიანები, რომლებიც პასუხისმგებელნი არიან მათემატიკური რეიტინგის მოდელის შექმნაზე, თავის მხრივ, ასწორებენ ფორმულას, რის შედეგადაც საძიებო სისტემა უფრო ეფექტურად მუშაობს.

ფორმულის შესრულების შეფასების ძირითადი კრიტერიუმები:

1. საძიებო სისტემის შედეგების სიზუსტე- საბუთების პროცენტი, რომელიც შეესაბამება მოთხოვნას (შესაბამისი). იმათ. რაც უფრო ნაკლები გვერდი არ შეესაბამება მოთხოვნას, მით უკეთესი.

2. საძიებო სისტემის შედეგების სისრულე- ეს არის მოცემული მოთხოვნისთვის შესაბამისი ვებ გვერდების თანაფარდობა კოლექციაში შესაბამისი დოკუმენტების საერთო რაოდენობასთან (საძიებო სისტემაში ნაპოვნი გვერდების მთლიანობა).

მაგალითად, თუ მთელ კოლექციაში მეტი შესაბამისი გვერდია, ვიდრე ძიების შედეგებში, ეს ნიშნავს, რომ შედეგები არასრულია. ეს მოხდა იმის გამო, რომ ზოგიერთი შესაბამისი ვებ გვერდი გაფილტრული იყო.

3. საძიებო სისტემის შედეგების შესაბამისობა- ეს არის ვებ გვერდის შესაბამისობა სნიპეტში დაწერილთან. მაგალითად, დოკუმენტი შეიძლება ძალიან განსხვავებული იყოს ან საერთოდ არ არსებობდეს, მაგრამ მაინც იყოს ძიების შედეგებში.

ძიების შედეგების შესაბამისობა პირდაპირ დამოკიდებულია იმაზე, თუ რამდენად ხშირად სკანირებს საძიებო რობოტი დოკუმენტებს მისი კოლექციიდან.

კოლექციის შეგროვება (საიტის გვერდების ინდექსირება) ხორციელდება სპეციალური პროგრამით - საძიებო რობოტით.

საძიებო რობოტი იღებს მისამართების სიას ინდექსაციისთვის, აკოპირებს მათ და შემდეგ აგზავნის კოპირებული ვებ გვერდების შიგთავსს დასამუშავებლად ალგორითმში, რომელიც მათ გარდაქმნის საპირისპირო ინდექსებად.

მოკლედ, ასე ვთქვათ, ჩვენ განვიხილეთ საძიებო სისტემის პრინციპები.

შევაჯამოთ:

საძიებო რობოტი მოდის თქვენს ბლოგზე.
საძიებო რობოტი ინახავს გვერდის საპირისპირო ინდექსს შემდგომი ძიებისთვის.
მათემატიკური მოდელის გამოყენებით, დოკუმენტი მუშავდება და ნაჩვენებია ძიების შედეგებში ფორმულების გამოყენებით და შემფასებლის აზრის გათვალისწინებით.

ეს ძალიან, ძალიან გამარტივებულია. უბრალოდ იმის გასაგებად, თუ როგორ მუშაობს Yandex საძიებო სისტემა.

ახლა იმდენი ტექსტი დავწერე და ალბათ ამდენი არ არის გასაგები. ამიტომ, გირჩევთ, ცოტა მოგვიანებით დაუბრუნდეთ ამ სტატიას და უყუროთ ამ ვიდეოს.

ეს არის შესანიშნავი სახელმძღვანელო, რომლისგანაც ერთ დროს ვისწავლე.

ვიმედოვნებ, რომ ეს ინფორმაცია დაგეხმარებათ უკეთ გაიგოთ, რატომ იკავებს თქვენი ერთ-ერთი საიტი სათანადო პოზიციებს ძიებებში და ყველაფერს გააკეთებს მათ გასაუმჯობესებლად.

ამით გემშვიდობებით, თუ თქვენ გაქვთ რაიმე შეკითხვები, ყოველთვის სიამოვნებით ვუპასუხებ მათ კომენტარებში. ან იქნებ გსურთ სტატიის დამატება?

ნებისმიერ შემთხვევაში გამოხატეთ თქვენი აზრი. !

Yandex, დღეს, ყველაზე პოპულარული საძიებო სისტემაა რუსეთში. სერვისის სტატისტიკა LiveInternetგვიჩვენებს Yandex-ის წილს რუსულ აუდიტორიის მასაში - ეს არის 53,4%, თუ მხოლოდ მოსკოვსა და რეგიონს გავითვალისწინებთ, მაშინ ის კიდევ უფრო მაღალია - 67,9% (მოსკოვი, მოთხოვნის მიხედვით, იკავებს მეტს. მთელი რუსეთის 50%)).

ვებგვერდი www.yandex.ru შეიქმნა 1997 წელს; ამისათვის საკმარისი იყო მხოლოდ ერთი სერვერი, რომელიც იდგა Yandex-ის პირველი დეველოპერების ერთ-ერთი ჯგუფის, დიმიტრის დესკტოპის ქვეშ, რომლის გვარი იყო Teiblyum. გახსნის შემდეგ ძალიან სწრაფად, ჩვენ შევიძინეთ მეორე სერვერი და მალე, როდესაც საჭირო გახდა სხვა სერვერის დაყენება, გაირკვა, რომ მაგიდის ქვეშ საკმარისი ადგილი იყო ან სამი Yandex სერვერისთვის, ან […]

საძიებო სისტემის დეველოპერები ცდილობენ მომხმარებლებს მიაწოდონ საუკეთესო პასუხები მათ შეკითხვებზე. ზოგჯერ ასეთი პასუხი შეიძლება იყოს რიცხვი (მაგალითად, ამინდი ქალაქში), სურათი (მაგალითად, მისამართი რუკაზე), სიტყვის თარგმანი ან ოთხკუთხედი. როდესაც ხელთ გაქვთ შესაბამისი ინფორმაციის მასივი, პასუხის გაცემა შეიძლება დაუყოვნებლივ. ამიტომ, Yandex ავსებს ინტერნეტის ძიების შედეგებს თავისი […]

Yandex-ის დაახლოებით ყოველი მეათე მოთხოვნა არის „ნავიგაციური“, ანუ ის შედგება ორგანიზაციის ან ვებსაიტის სახელისგან და მომხმარებელს სურს ამ ორგანიზაციის ვებსაიტზე წასვლა. ამ შემთხვევაში, Yandex საძიებო ზოლი გამოიყენება ბრაუზერის მისამართის ზოლის ნაცვლად და მომხმარებელი, როგორც წესი, არ არის დაინტერესებული ძიების დარჩენილი ცხრა შედეგით. მომხმარებლის მთავარი მიზნიდან ყურადღების გადატანის გარეშე, ჩვენ დავამატეთ ძირითადი […]

საძიებო სისტემის მთავარი ამოცანაა მომხმარებლის კითხვაზე პასუხის გაცემა. როდესაც მომხმარებელი სვამს შეკითხვას, საძიებო სისტემა არ წვდება ინტერნეტის ყველა საიტზე, არამედ ეძებს მისთვის ცნობილი გვერდების მონაცემთა ბაზას - საძიებო ინდექსს. იქ ის პოულობს ყველა გვერდს შეკითხვის სიტყვებით. მომხმარებელი ხედავს ამ გვერდების ბმულებს ძიების შედეგების გვერდებზე.

როგორც ვხედავთ, Yandex არ დგას და დარწმუნებული ვარ, რომ ამ სისტემის საძიებო ტექნოლოგიები განაგრძობს განვითარებას ძიების ხარისხის გასაუმჯობესებლად, რასაც ჯერ ძნელად შეიძლება ეწოდოს იდეალური.

2009 წლის 10 ნოემბერს Yandex-მა გამოაცხადა საძიებო ალგორითმის ახალი ვერსია - სნეჟინსკი. ფუნდამენტური ცვლილებები მოხდა შესაბამისობის გამოთვლის ალგორითმში - Yandex-ის წარმომადგენლებმა დაწერეს შემდეგი: ”ჩვენ შევძელით უფრო ზუსტი და ბევრად უფრო რთული მათემატიკური მოდელის შექმნა, რამაც გამოიწვია ძიების ხარისხის მნიშვნელოვანი ზრდა. საძიებო რეიტინგის არქიტექტურის ხელახალი დიზაინის წყალობით, შესაძლებელი გახდა რამდენიმე ათასი [...]

Yandex-ის ალგორითმის ახალი ვერსიის ტესტირება დაიწყო 2008 წლის 9 ივლისს. Yandex-ის თანახმად, „პროგრამაში ძირითადი ცვლილებები დაკავშირებულია მანქანათმცოდნეობის ახალ მიდგომასთან და, შედეგად, ფორმულაში გათვალისწინებული რანგის ფაქტორების განსხვავებები“.

2008 წლის 14 აპრილს დაიწყო ახალი საძიებო ალგორითმის "მაგადანის" ტესტირება მისამართზე buki.yandex.ru. გარდა რანჟირების ფაქტორების რაოდენობის გაორმაგებისა, დაემატა შემდეგი ინოვაციებიც:

სანამ ალგორითმულ ჯუნგლებში გავემგზავრებით, გავიხსენოთ, როგორ მუშაობს ზოგადად საძიებო სისტემა. საძიებო სისტემის ლოგიკური სტრუქტურა შეიძლება წარმოდგენილი იყოს სამი მოდულის სახით (იხ. დიაგრამა). რობოტს აქვს სპეციალური განრიგი, რომლის მიხედვითაც ის ატარებს ტურებს. რობოტის მიერ დატვირთული ვებ გვერდები, სპეციალური [...]

66. რას აქვს მეტი გავლენა: ბმული უფასო პლატფორმიდან (ბლოგსპოტი, LJ და ა.შ.) თუ ოფლაინ საიტიდან/ბლოგიდან? უფასო პლატფორმები გადააქვთ ნაკლებ წონას, ვიდრე დამოუკიდებელი საიტები. თუმცა, გავლენა შეიძლება იყოს უფრო დიდი. ეს მრავალი ფაქტორით არის განპირობებული: ამჟამინდელი წამყვანი სია, შედარებული საიტების მდგომარეობა და ა.შ. ამ კითხვაზე ცალსახა პასუხის გაცემა შეუძლებელია. 67. ყველაზე დიდი წონა გადადის […]

ვამანას ტური - მოგზაურობა, ავიაბილეთები და ვიზები მთელს მსოფლიოში და ინდოეთში, ნეპალში, შრი-ლანკაში, მალდივებში, მავრიკიში და პლანეტის ბევრ სხვა ადგილას. რჩევა მოგზაურებს და მომლოცველებს. როგორ მიიღოთ მაქსიმალური სარგებლობა თქვენი მოგზაურობიდან. საოცარი ისტორიული ქრონიკები და გამოცდილი მოგზაურების ისტორიები.

რა მიზანს ემსახურება საიტის გარე ბმულების გათვალისწინება?როგორც წინა განყოფილებიდან ხედავთ, რეიტინგზე მოქმედი თითქმის ყველა ფაქტორი გვერდის ავტორის კონტროლის ქვეშაა. ამრიგად, საძიებო სისტემისთვის შეუძლებელი ხდება ჭეშმარიტად მაღალი ხარისხის დოკუმენტის გარჩევა გვერდისგან, რომელიც შექმნილია სპეციალურად მოცემული საძიებო ფრაზისთვის ან თუნდაც რობოტის მიერ შექმნილი გვერდისგან, რომელიც საერთოდ არ შეიცავს სასარგებლო ინფორმაციას. […]

ისინი დიდი ხანია გახდა რუსული ინტერნეტის განუყოფელი ნაწილი. საძიებო სისტემები ახლა უზარმაზარი და რთული მექანიზმებია, რომლებიც წარმოადგენენ არა მხოლოდ ინფორმაციის საძიებო ინსტრუმენტს, არამედ ბიზნესის მაცდურ სფეროებსაც.

საძიებო სისტემების მომხმარებელთა უმეტესობას არასოდეს უფიქრია (ან უფიქრია ამაზე, მაგრამ ვერ იპოვა პასუხი) საძიებო სისტემების მუშაობის პრინციპზე, მომხმარებლის მოთხოვნების დამუშავების სქემზე, რისგან შედგება ეს სისტემები და როგორ ფუნქციონირებს...

ეს მასტერკლასი შექმნილია იმისთვის, რომ უპასუხოს კითხვას, თუ როგორ მუშაობს საძიებო სისტემები. თუმცა, აქ ვერ ნახავთ ფაქტორებს, რომლებიც გავლენას ახდენენ დოკუმენტების რეიტინგზე. უფრო მეტიც, არ უნდა გქონდეთ იმედი Yandex ალგორითმის დეტალურ ახსნაზე. მას, ილია სეგალოვიჩის, Yandex-ის საძიებო სისტემის ტექნოლოგიისა და განვითარების დირექტორის, ილია სეგალოვიჩის თქმით, მხოლოდ თავად ილია სეგალოვიჩს შეუძლია ამოიცნოს "წამების ქვეშ".

2. საძიებო სისტემის კონცეფცია და ფუნქციები

საძიებო სისტემა არის პროგრამული და აპარატურის კომპლექსი, რომელიც შექმნილია ინტერნეტის მოსაძიებლად და მომხმარებლის მოთხოვნაზე პასუხის გასაცემად, რომელიც მითითებულია ტექსტური ფრაზის სახით (საძიებო მოთხოვნა), ინფორმაციის წყაროების ბმულების სიის შექმნით, შესაბამისობის მიხედვით ( მოთხოვნის შესაბამისად). უდიდესი საერთაშორისო საძიებო სისტემები: "გუგლი", Yahoo , MSN . რუსულ ინტერნეტში ეს არის Yandex, Rambler, Aport.

მოდით უფრო დეტალურად განვიხილოთ საძიებო მოთხოვნის კონცეფცია Yandex საძიებო სისტემის გამოყენებით, როგორც მაგალითი. საძიებო მოთხოვნა მომხმარებელმა უნდა ჩამოაყალიბოს იმის მიხედვით, რისი პოვნა სურს, რაც შეიძლება მოკლედ და მარტივად. ვთქვათ, გვინდა ვიპოვოთ ინფორმაცია Yandex-ში მანქანის არჩევის შესახებ. ამისათვის გახსენით Yandex-ის მთავარი გვერდი და შეიყვანეთ საძიებო მოთხოვნის ტექსტი „როგორ ავირჩიოთ მანქანა“. შემდეგი, ჩვენი ამოცანაა ინტერნეტში არსებული ინფორმაციის წყაროების ჩვენი მოთხოვნით მოწოდებული ბმულების გახსნა. თუმცა, სავსებით შესაძლებელია, ჩვენ ვერ ვიპოვოთ საჭირო ინფორმაცია. თუ ეს მოხდება, მაშინ ან თქვენ გჭირდებათ თქვენი მოთხოვნის ხელახლა ფორმულირება, ან საძიებო სისტემის მონაცემთა ბაზას ნამდვილად არ აქვს რაიმე შესაბამისი ინფორმაცია ჩვენს მოთხოვნაზე (ეს შეიძლება მოხდეს ძალიან „ვიწრო“ შეკითხვის დასმისას, როგორიცაა, მაგალითად, „როგორ ავირჩიოთ მანქანა არხანგელსკში")

ნებისმიერი საძიებო სისტემის მთავარი მიზანია მიაწოდოს ხალხს ზუსტად ის ინფორმაცია, რასაც ისინი ეძებენ. და ასწავლეთ მომხმარებლებს „სწორი“ მოთხოვნების გაკეთება სისტემაში, ე.ი. მოთხოვნები, რომლებიც შეესაბამება საძიებო სისტემების მუშაობის პრინციპებს, შეუძლებელია. ამიტომ, დეველოპერები ქმნიან ალგორითმებს და ოპერაციულ პრინციპებს საძიებო სისტემებისთვის, რაც მომხმარებლებს საშუალებას მისცემს იპოვონ ინფორმაცია, რომელსაც ეძებენ.

ეს ნიშნავს, რომ საძიებო სისტემა უნდა „იფიქროს“ ისევე, როგორც მომხმარებელი ფიქრობს ინფორმაციის ძიებისას. როდესაც მომხმარებელი მიმართავს მოთხოვნას საძიებო სისტემაში, მას სურს რაც შეიძლება სწრაფად და მარტივად იპოვოს ის, რაც მას სჭირდება. შედეგის მიღების შემდეგ, ის აფასებს სისტემის მუშაობას, ხელმძღვანელობს რამდენიმე ძირითადი პარამეტრით. იპოვა ის რასაც ეძებდა? თუ მან ვერ იპოვა, რამდენჯერ მოუწია შეკითხვის ხელახალი ფორმულირება, რათა ეპოვა ის, რასაც ეძებდა? რამდენი შესაბამისი ინფორმაციის მოძიება შეეძლო მან? რამდენად სწრაფად დაამუშავა საძიებო სისტემამ მოთხოვნა? რამდენად მოსახერხებელი იყო ძიების შედეგები წარმოდგენილი? შედეგი, რომელსაც ეძებდით, პირველი იყო თუ მეასე? რამდენი არასაჭირო ნაგავი აღმოჩნდა სასარგებლო ინფორმაციასთან ერთად? მოიძებნება თუ არა საჭირო ინფორმაცია საძიებო სისტემაში წვდომისას, ვთქვათ, ერთ კვირაში ან თვეში?

ყველა ამ კითხვის პასუხებით დასაკმაყოფილებლად, საძიებო სისტემების დეველოპერები მუდმივად აუმჯობესებენ ძიების ალგორითმებს და პრინციპებს, ამატებენ ახალ ფუნქციებსა და შესაძლებლობებს და ყველანაირად ცდილობენ სისტემის ფუნქციონირების დაჩქარებას.

3. საძიებო სისტემის ძირითადი მახასიათებლები

მოდით აღვწეროთ საძიებო სისტემების ძირითადი მახასიათებლები:

Სისრულე
სისრულე არის საძიებო სისტემის ერთ-ერთი მთავარი მახასიათებელი, რომელიც არის მოთხოვნით ნაპოვნი დოკუმენტების რაოდენობის თანაფარდობა ინტერნეტში არსებული დოკუმენტების მთლიან რაოდენობასთან, რომლებიც აკმაყოფილებენ მოცემულ მოთხოვნას. მაგალითად, თუ ინტერნეტში არის 100 გვერდი, რომელიც შეიცავს ფრაზას „როგორ ავირჩიოთ მანქანა“, და მათგან მხოლოდ 60 იქნა ნაპოვნი შესაბამისი მოთხოვნისთვის, მაშინ ძიების სისრულე იქნება 0.6. ცხადია, რაც უფრო სრულყოფილია ძებნა, მით ნაკლებია ალბათობა იმისა, რომ მომხმარებელი ვერ იპოვის მისთვის საჭირო დოკუმენტს, იმ პირობით, რომ ის საერთოდ არსებობს ინტერნეტში.
სიზუსტე
სიზუსტე არის საძიებო სისტემის კიდევ ერთი მთავარი მახასიათებელი, რომელიც განისაზღვრება იმ ხარისხით, თუ რამდენად შეესაბამება ნაპოვნი დოკუმენტები მომხმარებლის მოთხოვნას. მაგალითად, თუ შეკითხვა „როგორ ავირჩიოთ მანქანა“ შეიცავს 100 დოკუმენტს, მათგან 50 შეიცავს ფრაზას „როგორ ავირჩიოთ მანქანა“, ხოლო დანარჩენი უბრალოდ შეიცავს ამ სიტყვებს („როგორ ავირჩიოთ სწორი რადიო და დააინსტალიროთ მანქანა“), მაშინ ძიების სიზუსტე ითვლება 50/100 (=0,5) ტოლი. რაც უფრო ზუსტი იქნება ძებნა, რაც უფრო სწრაფად იპოვის მომხმარებელი მისთვის საჭირო დოკუმენტებს, მით უფრო ნაკლები იქნება მათ შორის სხვადასხვა სახის „ნაგავი“, მით უფრო იშვიათად აღმოჩენილი დოკუმენტები არ შეესაბამება მოთხოვნას.
შესაბამისობა
რელევანტურობა არის ძიების თანაბრად მნიშვნელოვანი კომპონენტი, რომელიც ხასიათდება იმ დროით, რომელიც გადის დოკუმენტების ინტერნეტში გამოქვეყნების მომენტიდან საძიებო სისტემის ინდექსების მონაცემთა ბაზაში შესვლამდე. მაგალითად, საინტერესო ამბების გამოჩენის მეორე დღეს, მომხმარებელთა დიდმა ნაწილმა მიმართა საძიებო სისტემებს შესაბამისი მოთხოვნებით. ობიექტურად, დღეზე ნაკლები გავიდა ამ თემაზე საინფორმაციო ინფორმაციის გამოქვეყნებიდან, მაგრამ ძირითადი დოკუმენტები უკვე ინდექსირებულია და ხელმისაწვდომია საძიებლად, დიდი საძიებო სისტემების ეგრეთ წოდებული „სწრაფი მონაცემთა ბაზის“ არსებობის წყალობით, რომელიც განახლდება დღეში რამდენჯერმე.
ძიების სიჩქარე
ძიების სიჩქარე მჭიდრო კავშირშია მის დატვირთვის წინააღმდეგობასთან. მაგალითად, შპს Rambler Internet Holding-ის ცნობით, დღეს, სამუშაო საათებში, Rambler საძიებო სისტემა წამში დაახლოებით 60 მოთხოვნას იღებს. ასეთი დატვირთვა მოითხოვს ინდივიდუალური მოთხოვნის დამუშავების დროის შემცირებას. აქ მომხმარებლისა და საძიებო სისტემის ინტერესები ერთმანეთს ემთხვევა: ვიზიტორს სურს მიიღოს შედეგი რაც შეიძლება სწრაფად და საძიებო სისტემამ უნდა დაამუშავოს მოთხოვნა რაც შეიძლება სწრაფად, რათა არ შეანელოს შემდგომი მოთხოვნების გაანგარიშება.
ხილვადობა

4. საძიებო სისტემების განვითარების მოკლე ისტორია

ინტერნეტის განვითარების საწყის პერიოდში მისი მომხმარებელთა რაოდენობა მცირე იყო, ხოლო ხელმისაწვდომი ინფორმაციის რაოდენობა შედარებით მცირე. უმეტესწილად, მხოლოდ კვლევით პერსონალს ჰქონდა წვდომა ინტერნეტზე. ამ დროს ინტერნეტში ინფორმაციის მოძიება არ იყო ისეთი აქტუალური, როგორც ახლა.

ქსელის საინფორმაციო რესურსებზე წვდომის ორგანიზების ერთ-ერთი პირველი გზა იყო საიტების ღია დირექტორიების შექმნა, რესურსების ბმულები, რომლებშიც დაჯგუფებული იყო თემის მიხედვით. პირველი ასეთი პროექტი იყო Yahoo.com ვებგვერდი, რომელიც გაიხსნა 1994 წლის გაზაფხულზე. მას შემდეგ რაც კატალოგში საიტების რაოდენობა მნიშვნელოვნად გაიზარდა, დაემატა კატალოგში საჭირო ინფორმაციის მოძიების შესაძლებლობა. სრული გაგებით, ეს ჯერ კიდევ არ იყო საძიებო სისტემა, რადგან საძიებო არეალი შემოიფარგლებოდა მხოლოდ კატალოგში არსებული რესურსებით და არა ყველა ინტერნეტ რესურსით.

ლინკ დირექტორიები ფართოდ გამოიყენებოდა წარსულში, მაგრამ თითქმის მთლიანად დაკარგეს პოპულარობა ამჟამად. ვინაიდან თანამედროვე კატალოგებიც კი, უზარმაზარი მოცულობით, შეიცავს ინფორმაციას ინტერნეტის მხოლოდ უმნიშვნელო ნაწილის შესახებ. DMOZ ქსელის უდიდესი დირექტორია (ასევე მოუწოდა Open Directory Project) შეიცავს ინფორმაციას 5 მილიონი რესურსის შესახებ, ხოლო Google საძიებო სისტემის მონაცემთა ბაზა 8 მილიარდზე მეტი დოკუმენტისგან შედგება.

1995 წელს გამოჩნდა საძიებო სისტემები Lycos და AltaVista. ეს უკანასკნელი მრავალი წელია ლიდერობს ინტერნეტში ინფორმაციის ძიების სფეროში.

1997 წელს სერგეი ბრინმა და ლარი პეიჯმა შექმნეს Google საძიებო სისტემა სტენფორდის უნივერსიტეტში კვლევითი პროექტის ფარგლებში. Google ამჟამად ყველაზე პოპულარული საძიებო სისტემაა მსოფლიოში!

1997 წლის სექტემბერში ოფიციალურად გამოცხადდა Yandex საძიებო სისტემა, რომელიც ყველაზე პოპულარულია რუსულენოვან ინტერნეტში.

ამჟამად, არსებობს სამი ძირითადი საძიებო სისტემა (საერთაშორისო) - Google, Yahoo და, რომლებსაც აქვთ საკუთარი მონაცემთა ბაზები და საძიებო ალგორითმები. სხვა საძიებო სისტემების უმეტესობა (რომელთა დიდი რაოდენობაა) ამა თუ იმ ფორმით იყენებს სამი ჩამოთვლილ შედეგებს. მაგალითად, AOL ძიება (search.aol.com) იყენებს Google მონაცემთა ბაზას, ხოლო AltaVista, Lycos და AllTheWeb იყენებენ Yahoo მონაცემთა ბაზას.

5. საძიებო სისტემის შემადგენლობა და მუშაობის პრინციპები

რუსეთში მთავარი საძიებო სისტემაა Yandex, შემდეგ მოდის Rambler.ru, Google.ru, Aport.ru, Mail.ru. უფრო მეტიც, ამ დროისთვის Mail.ru იყენებს Yandex საძიებო სისტემას და მონაცემთა ბაზას.

თითქმის ყველა ძირითად საძიებო სისტემას აქვს საკუთარი სტრუქტურა, რომელიც განსხვავდება სხვებისგან. თუმცა, შესაძლებელია ყველა საძიებო სისტემისთვის საერთო ძირითადი კომპონენტების იდენტიფიცირება. სტრუქტურაში განსხვავებები შეიძლება იყოს მხოლოდ ამ კომპონენტების ურთიერთქმედების მექანიზმების განხორციელების სახით.

ინდექსირების მოდული

ინდექსირების მოდული შედგება სამი დამხმარე პროგრამისგან (რობოტები):

Spider არის პროგრამა, რომელიც შექმნილია ვებ გვერდების ჩამოსატვირთად. ობობა ჩამოტვირთავს გვერდს და ამოიღებს ყველა შიდა ბმულს ამ გვერდიდან. ჩამოტვირთულია თითოეული გვერდის html კოდი. რობოტები იყენებენ HTTP პროტოკოლებს გვერდების ჩამოსატვირთად. ობობა მუშაობს შემდეგნაირად. რობოტი სერვერს უგზავნის მოთხოვნას „get/path/document“ და სხვა HTTP მოთხოვნის ბრძანებებს. საპასუხოდ, რობოტი იღებს ტექსტურ ნაკადს, რომელიც შეიცავს სერვისის ინფორმაციას და თავად დოკუმენტს.

გვერდის URL
გვერდის ჩამოტვირთვის თარიღი
სერვერის პასუხი http სათაური
გვერდის სხეული (html კოდი)

Crawler („მოგზაური“ ობობა) არის პროგრამა, რომელიც ავტომატურად მიჰყვება გვერდზე ნაპოვნი ყველა ბმულს. ირჩევს გვერდზე არსებულ ყველა ბმულს. მისი ამოცანაა განსაზღვროს სად უნდა წავიდეს ობობა შემდეგ, ბმულების ან მისამართების წინასწარ განსაზღვრული სიის საფუძველზე. Crawler, ნაპოვნი ბმულების შემდეგ, ეძებს ახალ დოკუმენტებს, რომლებიც ჯერ კიდევ უცნობია საძიებო სისტემისთვის.

Indexer (რობოტი ინდექსატორი) არის პროგრამა, რომელიც აანალიზებს ობობების მიერ ჩამოტვირთულ ვებგვერდებს. ინდექსატორი ანაწილებს გვერდს მის შემადგენელ ნაწილებად და აანალიზებს მათ საკუთარი ლექსიკური და მორფოლოგიური ალგორითმების გამოყენებით. გაანალიზებულია გვერდის სხვადასხვა ელემენტები, როგორიცაა ტექსტი, სათაურები, ბმულები, სტრუქტურული და სტილის მახასიათებლები, სპეციალური სერვისის HTML ტეგები და ა.შ.

ამრიგად, ინდექსირების მოდული საშუალებას გაძლევთ გადახედოთ რესურსების მოცემულ კომპლექტს ბმულების გამოყენებით, ჩამოტვირთოთ ნაცნობი გვერდები, ამოიღოთ ახალი გვერდების ბმულები მიღებული დოკუმენტებიდან და განახორციელოთ ამ დოკუმენტების სრული ანალიზი.

Მონაცემთა ბაზა

მონაცემთა ბაზა ან საძიებო სისტემის ინდექსი არის მონაცემთა შენახვის სისტემა, საინფორმაციო მასივი, რომელშიც ინახება ინდექსირების მოდულის მიერ გადმოწერილი და დამუშავებული ყველა დოკუმენტის სპეციალურად გარდაქმნილი პარამეტრი.

სერვერის ძებნა

საძიებო სერვერი არის მთელი სისტემის ყველაზე მნიშვნელოვანი ელემენტი, რადგან ძიების ხარისხი და სიჩქარე პირდაპირ დამოკიდებულია ალგორითმებზე, რომლებიც საფუძვლად უდევს მის ფუნქციონირებას.

საძიებო სერვერი მუშაობს შემდეგნაირად:

მომხმარებლისგან მიღებული მოთხოვნა ექვემდებარება მორფოლოგიურ ანალიზს. იქმნება მონაცემთა ბაზაში შემავალი თითოეული დოკუმენტის საინფორმაციო გარემო (რომელიც შემდგომში იქნება ნაჩვენები ფორმით, ანუ მოთხოვნის შესაბამისი ტექსტური ინფორმაცია ძიების შედეგების გვერდზე).
მიღებული მონაცემები შეყვანის პარამეტრებად გადაეცემა სპეციალურ რანგის მოდულს. მონაცემები მუშავდება ყველა დოკუმენტისთვის, რის შედეგადაც თითოეულ დოკუმენტს აქვს საკუთარი რეიტინგი, რომელიც ახასიათებს მომხმარებლის მიერ შეყვანილი მოთხოვნის შესაბამისობას და საძიებო სისტემის ინდექსში შენახულ ამ დოკუმენტის სხვადასხვა კომპონენტს.
მომხმარებლის არჩევანიდან გამომდინარე, ეს რეიტინგი შეიძლება დარეგულირდეს დამატებითი პირობებით (მაგალითად, ე.წ. "გაფართოებული ძებნა").
შემდეგი, წარმოიქმნება ფრაგმენტი, ანუ თითოეული ნაპოვნი დოკუმენტისთვის, სათაური, მოკლე აბსტრაქტი, რომელიც საუკეთესოდ ემთხვევა მოთხოვნას და თავად დოკუმენტის ბმული ამოღებულია დოკუმენტის ცხრილიდან და მონიშნულია ნაპოვნი სიტყვები.
მიღებული ძიების შედეგები მომხმარებელს გადაეცემა SERP (Search Engine Result Page) - ძიების შედეგების გვერდის სახით.

როგორც ხედავთ, ყველა ეს კომპონენტი ერთმანეთთან მჭიდრო კავშირშია და მუშაობს ურთიერთქმედებაში, აყალიბებს საძიებო სისტემის მუშაობის მკაფიო, საკმაოდ რთულ მექანიზმს, რაც მოითხოვს უზარმაზარ რესურსებს.

6. დასკვნა

ახლა შევაჯამოთ ყოველივე ზემოთქმული.

ნებისმიერი საძიებო სისტემის მთავარი მიზანია მიაწოდოს ხალხს ზუსტად ის ინფორმაცია, რასაც ისინი ეძებენ.
საძიებო სისტემების ძირითადი მახასიათებლები:
1. Სისრულე
2. სიზუსტე
3. შესაბამისობა
4. ძიების სიჩქარე
5. ხილვადობა
პირველი სრულფასოვანი საძიებო სისტემა იყო WebCrawler პროექტი, რომელიც გამოქვეყნდა 1994 წელს.
საძიებო სისტემა მოიცავს შემდეგ კომპონენტებს:
1. ინდექსირების მოდული
2. Მონაცემთა ბაზა
3. სერვერის ძებნა

ვიმედოვნებთ, რომ ჩვენი მასტერკლასი საშუალებას მოგცემთ გაეცნოთ საძიებო სისტემის კონცეფციას და უკეთ გაიგოთ საძიებო სისტემების ძირითადი ფუნქციები, მახასიათებლები და მუშაობის პრინციპები.

1. ტერმინები და განმარტებები ამ ხელშეკრულებაში პერსონალური მონაცემების დამუშავების შესახებ (შემდგომში - ხელშეკრულება), ქვემოთ მოცემულ ტერმინებს აქვთ შემდეგი განმარტებები: ოპერატორი - ინდივიდუალური მეწარმე ოლეგ ალექსანდროვიჩ დნეპროვსკი. ხელშეკრულების მიღება - ხელშეკრულების ყველა პირობის სრული და უპირობო მიღება პერსონალური მონაცემების გაგზავნით და დამუშავებით. პერსონალური მონაცემები - ინფორმაცია, რომელიც შეყვანილია მომხმარებლის მიერ (პერსონალური მონაცემების საგანი) საიტზე და პირდაპირ ან ირიბად დაკავშირებულია ამ მომხმარებელთან. მომხმარებელი - ნებისმიერი ფიზიკური ან იურიდიული პირი, რომელმაც წარმატებით დაასრულა საიტზე შეყვანის ველების შევსების პროცედურა. შეყვანის ველების შევსება არის პროცედურა მომხმარებლის მიერ საკუთარი სახელის, გვარის, ტელეფონის ნომრის, პირადი ელექტრონული ფოსტის მისამართის (შემდგომში პერსონალური მონაცემების) გაგზავნის შესახებ საიტის რეგისტრირებული მომხმარებლების მონაცემთა ბაზაში, რომელიც ხორციელდება იდენტიფიკაციის მიზნით. მომხმარებელი. შეყვანის ველების შევსების შედეგად პერსონალური მონაცემები იგზავნება ოპერატორის მონაცემთა ბაზაში. შეყვანის ველების შევსება ნებაყოფლობითია. ვებ-გვერდი - ვებგვერდი, რომელიც მდებარეობს ინტერნეტში და შედგება ერთი გვერდისგან. 2. ზოგადი დებულებები 2.1. ეს შეთანხმება შედგენილია 2006 წლის 27 ივლისის ფედერალური კანონის No152-FZ „პერსონალური მონაცემების შესახებ“ და 13.11 მუხლის დებულებების საფუძველზე „რუსეთის ფედერაციის კანონმდებლობის დარღვევის სფეროში“ პერსონალური მონაცემები“ რუსეთის ფედერაციის ადმინისტრაციულ სამართალდარღვევათა კოდექსის და მოქმედებს ყველა პერსონალური მონაცემისთვის, რომელიც ოპერატორს შეუძლია მოიპოვოს მომხმარებლის შესახებ საიტის გამოყენებისას. 2.2. მომხმარებლის მიერ საიტზე შესვლის ველების შევსება ნიშნავს მომხმარებლის უპირობო შეთანხმებას წინამდებარე ხელშეკრულების ყველა პირობაზე (ხელშეკრულების მიღება). ამ პირობებთან შეუთანხმებლობის შემთხვევაში მომხმარებელი არ ავსებს საიტზე შეყვანის ველებს. 2.3. მომხმარებლის თანხმობა ოპერატორისთვის პერსონალური მონაცემების მიწოდებაზე და ოპერატორის მიერ მათ დამუშავებაზე ძალაშია ოპერატორის საქმიანობის შეწყვეტამდე ან მომხმარებლის თანხმობის გაუქმებამდე. ამ შეთანხმების მიღებითა და რეგისტრაციის პროცედურის გავლით, ასევე საიტზე შესვლით, მომხმარებელი ადასტურებს, რომ თავისი ნებით და საკუთარი ინტერესებიდან გამომდინარე, ის გადასცემს თავის პერსონალურ მონაცემებს დასამუშავებლად ოპერატორს და თანახმაა მათი დამუშავება. მომხმარებელს ეცნობება, რომ მისი პერსონალური მონაცემების დამუშავება განხორციელდება ოპერატორის მიერ 2006 წლის 27 ივლისის №152-FZ „პერსონალური მონაცემების შესახებ“ ფედერალური კანონის საფუძველზე. 3. ოპერატორისათვის გადასაცემი პერსონალური მონაცემებისა და მომხმარებლის შესახებ სხვა ინფორმაციის სია 3. 1. ოპერატორის ვებგვერდის გამოყენებისას მომხმარებელი აწვდის შემდეგ პერსონალურ მონაცემებს: 3.1.1. სანდო პერსონალური ინფორმაცია, რომელსაც მომხმარებელი დამოუკიდებლად აწვდის თავის შესახებ შეყვანის ველების შევსებისას და/ან საიტის სერვისებით სარგებლობის პროცესში, მათ შორის გვარი, სახელი, პატრონიმი, ტელეფონის ნომერი (სახლი ან მობილური), პირადი ელ.ფოსტის მისამართი. 3.1.2. მონაცემები, რომლებიც ავტომატურად გადაეცემა საიტის სერვისებს მათი გამოყენების დროს მომხმარებლის მოწყობილობაზე დაინსტალირებული პროგრამული უზრუნველყოფის გამოყენებით, მათ შორის IP მისამართი, ინფორმაცია Cookies-დან, ინფორმაცია მომხმარებლის ბრაუზერის შესახებ (ან სხვა პროგრამა, რომლის მეშვეობითაც ხდება სერვისების წვდომა). 3.2. ოპერატორი არ ამოწმებს მომხმარებლის მიერ მოწოდებული პერსონალური მონაცემების სისწორეს. ამ შემთხვევაში, ოპერატორი ვარაუდობს, რომ მომხმარებელი უზრუნველყოფს სანდო და საკმარის პერსონალურ ინფორმაციას შეყვანის ველებში შემოთავაზებულ კითხვებზე. 4. პერსონალური მონაცემების შეგროვებისა და გამოყენების მიზნები, წესები 4.1. ოპერატორი ამუშავებს პერსონალურ მონაცემებს, რომლებიც აუცილებელია მომხმარებლისთვის მომსახურების მიწოდებისა და მომსახურების უზრუნველსაყოფად. 4.2. მომხმარებლის პერსონალურ მონაცემებს ოპერატორი იყენებს შემდეგი მიზნებისთვის: 4.2.1. მომხმარებლის იდენტიფიკაცია; 4.2.2. მომხმარებლის პერსონალიზებული სერვისების მიწოდება (ასევე კომპანიის ახალი აქციებისა და სერვისების შესახებ ინფორმირება წერილების გაგზავნით); 4.2.3. საჭიროების შემთხვევაში მომხმარებელთან კონტაქტის შენარჩუნება, მათ შორის შეტყობინებების გაგზავნა, მოთხოვნები და ინფორმაცია, რომელიც დაკავშირებულია სერვისების გამოყენებასთან, სერვისების მიწოდებასთან, ასევე მომხმარებლისგან მოთხოვნისა და აპლიკაციების დამუშავებასთან; 4.3. პერსონალური მონაცემების დამუშავებისას განხორციელდება შემდეგი ქმედებები: შეგროვება, ჩაწერა, სისტემატიზაცია, დაგროვება, შენახვა, დაზუსტება (განახლება, შეცვლა), მოპოვება, გამოყენება, დაბლოკვა, წაშლა, განადგურება. 4.4. მომხმარებელი არ აპროტესტებს, რომ გარკვეულ შემთხვევებში მის მიერ მითითებული ინფორმაცია შეიძლება მიეწოდოს რუსეთის ფედერაციის უფლებამოსილ სახელმწიფო ორგანოებს რუსეთის ფედერაციის მოქმედი კანონმდებლობის შესაბამისად. 4.5. მომხმარებლის პერსონალური მონაცემები ინახება და მუშავდება ოპერატორის მიერ წინამდებარე ხელშეკრულებით გათვალისწინებული წესით ოპერატორის საქმიანობის მთელი პერიოდის განმავლობაში. 4.6. პერსონალური მონაცემების დამუშავებას ოპერატორი ახორციელებს მონაცემთა ბაზების შენარჩუნებით, ავტომატური, მექანიკური და მექანიკური მეთოდებით. 4.7. საიტი იყენებს ქუქი ფაილებს და სხვა ტექნოლოგიებს საიტის სერვისების გამოყენების თვალყურის დევნებისთვის. ეს მონაცემები აუცილებელია საიტის ტექნიკური მუშაობის ოპტიმიზაციისა და მომსახურების ხარისხის გასაუმჯობესებლად. საიტი ავტომატურად იწერს ინფორმაციას (მათ შორის URL, IP მისამართი, ბრაუზერის ტიპი, ენა, მოთხოვნის თარიღი და დრო) საიტის თითოეული ვიზიტორის შესახებ. მომხმარებელს უფლება აქვს უარი თქვას პერსონალური მონაცემების მიწოდებაზე საიტის მონახულებისას ან გამორთოს Cookies, მაგრამ ამ შემთხვევაში საიტის ყველა ფუნქციამ შეიძლება არ იმუშაოს სწორად. 4.8. წინამდებარე ხელშეკრულებით გათვალისწინებული კონფიდენციალურობის პირობები ვრცელდება ყველა ინფორმაციას, რომელიც ოპერატორს შეუძლია მიიღოს მომხმარებლის შესახებ ამ უკანასკნელის საიტზე ყოფნისა და საიტის გამოყენებისას. 4.9. ინფორმაცია, რომელიც საჯაროდ არის გამჟღავნებული წინამდებარე ხელშეკრულების შესრულების დროს, ისევე როგორც ინფორმაცია, რომელიც შეიძლება მოიპოვონ მხარეებმა ან მესამე მხარეებმა წყაროებიდან, რომლებზეც ნებისმიერ პირს აქვს თავისუფალი წვდომა, არ არის კონფიდენციალური. 4.10. ოპერატორი იღებს ყველა საჭირო ზომას მომხმარებლის პერსონალური მონაცემების კონფიდენციალურობის უნებართვო წვდომისგან, მოდიფიკაციის, გამჟღავნებისა და განადგურებისგან დასაცავად, მათ შორის: მონაცემთა შეგროვების, შენახვისა და დამუშავების პროცესების მუდმივი შიდა გადამოწმებისა და უსაფრთხოების უზრუნველყოფა; უზრუნველყოფს მონაცემთა ფიზიკურ უსაფრთხოებას, ხელს უშლის უნებართვო წვდომას ტექნიკურ სისტემებზე, რომლებიც უზრუნველყოფენ საიტის მუშაობას, რომელშიც ოპერატორი ინახავს პერსონალურ მონაცემებს; უზრუნველყოფს პერსონალურ მონაცემებზე წვდომას მხოლოდ ოპერატორის იმ თანამშრომლებს ან უფლებამოსილ პირებს, რომლებსაც ეს ინფორმაცია სჭირდებათ მომხმარებლისთვის მომსახურების მიწოდებასთან უშუალოდ დაკავშირებული მოვალეობების შესასრულებლად, ასევე საიტის ფუნქციონირებასთან, განვითარებასთან და გაუმჯობესებასთან. 4.11. მომხმარებლის პერსონალური მონაცემები კონფიდენციალური რჩება, გარდა იმ შემთხვევისა, როდესაც მომხმარებელი ნებაყოფლობით აწვდის ინფორმაციას თავის შესახებ შეუზღუდავი რაოდენობის პირთა ზოგადი წვდომისთვის. 4.12. ოპერატორის მიერ მომხმარებლის პერსონალური მონაცემების გადაცემა კანონიერია ოპერატორის რეორგანიზაციისა და ოპერატორის უფლებამონაცვლეზე უფლებების გადაცემის დროს, ხოლო მის მიერ მიღებულ პერსონალურ ინფორმაციასთან დაკავშირებით ამ ხელშეკრულების პირობების დაცვის ყველა ვალდებულებაა. გადაეცა სამართალმემკვიდრეს. 4.13. ეს განცხადება ვრცელდება მხოლოდ ოპერატორის ვებსაიტზე. კომპანია არ აკონტროლებს და არ არის პასუხისმგებელი მესამე მხარის საიტებზე (მომსახურებებზე), რომლებზეც მომხმარებელს შეუძლია წვდომა ოპერატორის ვებსაიტზე არსებული ბმულების საშუალებით, მათ შორის ძიების შედეგებში. ასეთ საიტებზე (მომსახურებებზე) შეიძლება სხვა პერსონალური ინფორმაციის შეგროვება ან მოთხოვნა მომხმარებლისგან და სხვა ქმედებების შესრულება 5. მომხმარებლის, როგორც პერსონალური მონაცემების სუბიექტის უფლებები, მომხმარებლის მიერ პერსონალური მონაცემების შეცვლა და წაშლა 5.1. მომხმარებელს უფლება აქვს: 5.1.2. ოპერატორს მოსთხოვოს მისი პერსონალური მონაცემების დაზუსტება, დაბლოკვა ან განადგურება, თუ პერსონალური მონაცემები არასრულია, მოძველებული, არაზუსტი, უკანონოდ მიღებული ან არ არის აუცილებელი დამუშავების მითითებული მიზნისთვის, ასევე მიიღოს კანონით გათვალისწინებული ზომები მისი უფლებების დასაცავად. 5.1.3. მიიღოს ინფორმაცია მისი პერსონალური მონაცემების დამუშავების შესახებ, მათ შორის ინფორმაციის შემცველი: 5.1.3.1. ოპერატორის მიერ პერსონალური მონაცემების დამუშავების ფაქტის დადასტურება; 5.1.3.2. ოპერატორის მიერ გამოყენებული პერსონალური მონაცემების დამუშავების მიზნები და მეთოდები; 5.1.3.3. ოპერატორის სახელი და ადგილმდებარეობა; 5.1.3.4. დამუშავებული პერსონალური მონაცემები, რომლებიც დაკავშირებულია პერსონალური მონაცემების შესაბამის საგანთან, მათი მიღების წყაროსთან, თუ ასეთი მონაცემების წარდგენის განსხვავებული პროცედურა არ არის გათვალისწინებული ფედერალური კანონით; 5.1.3.5. პერსონალური მონაცემების დამუშავების პირობები, მათი შენახვის პერიოდების ჩათვლით; 5.1.3.6. რუსეთის ფედერაციის მოქმედი კანონმდებლობით გათვალისწინებული სხვა ინფორმაცია. 5.2. პერსონალური მონაცემების დამუშავებაზე თანხმობის გაუქმება შეიძლება განხორციელდეს მომხმარებლის მიერ ოპერატორისთვის შესაბამისი წერილობითი (დაბეჭდილი მატერიალურ საშუალებებზე და ხელმოწერილი მომხმარებლის მიერ) შეტყობინების გაგზავნით. 6. ოპერატორის მოვალეობები. პერსონალურ მონაცემებზე წვდომა 6.1. ოპერატორი იღებს ვალდებულებას უზრუნველყოს ოპერატორის ვებგვერდის მომხმარებლების პერსონალურ მონაცემებზე არაავტორიზებული და არამიზნობრივი წვდომის პრევენცია. ამ შემთხვევაში, საიტის მომხმარებლების პერსონალურ მონაცემებზე ავტორიზებული და მიზანმიმართული წვდომა ჩაითვლება მათზე წვდომად ყველა დაინტერესებული მხარის მიერ, განხორციელებული ოპერატორის საიტის მიზნებისა და საგნების ფარგლებში. ამავდროულად, ოპერატორი არ არის პასუხისმგებელი მომხმარებლების პერსონალური მონაცემების შესაძლო ბოროტად გამოყენებაზე, რომელიც წარმოიქმნება შემდეგი: ტექნიკური პრობლემების პროგრამულ უზრუნველყოფას, აპარატურასა და ქსელებში ოპერატორის კონტროლის მიღმა; მესამე მხარის მიერ ოპერატორის ვებსაიტების განზრახ ან უნებლიე გამოყენებასთან დაკავშირებით, გარდა მათი დანიშნულებისამებრ; 6.2 ოპერატორი იღებს აუცილებელ და საკმარის ორგანიზაციულ და ტექნიკურ ზომებს მომხმარებლის პერსონალური ინფორმაციის არასანქცირებული ან შემთხვევითი წვდომისგან, განადგურების, მოდიფიკაციის, დაბლოკვის, კოპირების, გავრცელების, აგრეთვე მასთან მესამე მხარის სხვა უკანონო ქმედებებისგან დასაცავად. 7. ცვლილებები კონფიდენციალურობის პოლიტიკაში. მოქმედი კანონმდებლობა 7.1. ოპერატორს უფლება აქვს შეიტანოს ცვლილებები წინამდებარე რეგლამენტში მომხმარებლებისთვის რაიმე განსაკუთრებული შეტყობინების გარეშე. მიმდინარე გამოცემაში ცვლილებების შეტანისას მითითებულია ბოლო განახლების თარიღი. დებულების ახალი რედაქცია ძალაში შედის გამოქვეყნების მომენტიდან, თუ დებულების ახალი რედაქციით სხვა რამ არ არის გათვალისწინებული. 7.2. რუსეთის ფედერაციის კანონი ვრცელდება ამ დებულებაზე და მომხმარებლისა და ოპერატორის ურთიერთობაზე, რომელიც წარმოიქმნება რეგლამენტის გამოყენებასთან დაკავშირებით. ვაღიარებ არ ვიღებ

ჩვენ არ ვართ ისეთი უნიკალურები, როგორც გვგონია: მილიონობით ადამიანი ჩვენს წინ საგონებელში ჩავარდა და მილიონები ჩვენს შემდეგ საძიებო სისტემას თითქმის იდენტური კითხვებით გაუგებარია. მეორეს მხრივ, ჩვენ ძალიან არაპროგნოზირებადი ვართ: ჩვენი მოთხოვნის ფორმულირებაზე გავლენას ახდენს უამრავი ფაქტორი, რომელიც ჩვენ არ ვიცით. და ყოველ შემთხვევაში, ამ მიზეზით, თითოეული ჩვენგანის მოთხოვნა, რაც არ უნდა ბანალური იყოს, ინდივიდუალურ მიდგომას მოითხოვს.

სინამდვილეში, Yandex-ის საძიებო სისტემის მთელი მუშაობა ორ მარტივ საკითხზე მოდის: იმის გაგება, თუ რისი ცოდნა სურს ადამიანს რეალურად და რამდენიმე წამში იპოვნოს შესაფერისი ინტერნეტში მილიარდობით დოკუმენტს შორის.

მიიღეთ თითის ანაბეჭდები

საძიებო სისტემის ოპერაციული სისტემა გარკვეულწილად წააგავს მატრიქსს, ხოლო საძიებო რობოტი (მის მიერ შექმნილი რთული, დამოუკიდებლად გადაწყვეტილების მიღების პროგრამა) აგენტ სმიტის მსგავსია.

იმისათვის, რომ არ მოძებნოთ მთელი ინტერნეტი ყოველ ჯერზე, როდესაც ვინმეს რაიმეს ცოდნა სჭირდება, საძიებო სისტემა წინასწარ ასრულებს სამუშაოს ნაწილს - ის ამოწმებს რა არის ინტერნეტში და სად არის, ათასობით საძიებო რობოტის გამოყენებით. ისინი ორი ტიპისაა: ძირითადი და სწრაფი. მთავარი დაცოცავს და ამუშავებს ინტერნეტს მთლიანობაში, ხოლო სწრაფი - დოკუმენტები, რომლებიც გამოჩნდა ერთი წუთის ან თუნდაც რამდენიმე წამის წინ. რობოტების პროგრამების ამოცანაა მომხმარებლებისთვის შესაფერისი და სასარგებლო ინფორმაციის შერჩევა, მისი დამუშავება, ყველაფრის მოძველებული და არასაჭირო მოცილება. გარკვეულწილად, ეს ნაგვის დახარისხებას მოგაგონებთ: ქაღალდი ერთ კონტეინერში, მინა მეორეში, პლასტმასი მესამეში, საკვების ნარჩენები მეოთხეში...

რობოტების მიერ შეგროვებული ინფორმაცია აყალიბებს ე.წ. ის ინახება ათასობით Yandex სერვერზე და მუდმივად განახლდება. Nugget ჰგავს სიას, რომელიც გეტყვით სად უნდა იპოვოთ რა ინფორმაცია. ამ სიაში თითოეულ საკვანძო სიტყვას აქვს არა ერთი, არამედ მილიონობით „გვერდი“. იმის უზრუნველსაყოფად, რომ ყველა ნუგეტის განახლება ხელმისაწვდომია მომხმარებლებისთვის, ისინი გადატანილია საცავიდან „ბაზის ძიებაში“. ძირითადი რობოტის მონაცემები გადაიცემა ყოველ რამდენიმე დღეში, ხოლო სწრაფი რობოტიდან - რეალურ დროში.

მიიყვანეთ სუფთა წყალში

ილუსტრაცია: ევგენი ტონკონოგია

მომზადებულ მონაცემთა ბაზაში მოცემულ კითხვაზე პასუხის ძიებისას მანქანა ორ ძირითად სირთულეს აწყდება. პირველი სირთულე ენაა. სანამ კითხვაზე პასუხს ეძებთ, მნიშვნელოვანია, რომ მანქანამ გაიგოს რა ენაზე უნდა გააკეთოს ეს. მაგალითად, რუსულენოვანი ადამიანისთვის, "პრინც იგორის რაზმის" ძებნა მოიძიებს დოკუმენტებს არმიის შესახებ, ხოლო უკრაინელისთვის "პრინცი იგორის რაზმი" ასევე დააბრუნებს დოკუმენტებს, სადაც მოხსენიებულია პრინცესა ოლგა, მისი მეუღლე, რადგან უკრაინულად „ცოლი“ არის „რაზმი“. და მდიდარ რუსულ ენაში ერთი და იგივე სიტყვა ან მისი წარმოებულები შეიძლება ნიშნავდეს სხვადასხვა რამეს. მაგალითად, სიტყვა "ფოლადი" არის არსებითი სახელის "ფოლადის" და ზმნის "გაქცევის" ერთ-ერთი ფორმა. მეორე სირთულე არის ადამიანის ფსიქოლოგია. მოთხოვნის შეყვანისას, ჩვენ ველით სწრაფ და ზუსტ პასუხს, ბუნებრივია, არ ვიფიქროთ იმაზე, შეესაბამება თუ არა მოთხოვნის ფორმულირება მათემატიკური ანალიზის პრინციპებს, რომლითაც მუშაობს აპარატის ტვინი. მაგალითად, საძიებო ზოლში სიტყვა „ნაპოლეონის“ შეყვანით რისი მიღება სურს ადამიანს: ნამცხვრის რეცეპტი ან საფრანგეთის იმპერატორის ბიოგრაფია, კონიაკის ყიდვა თუ ფსიქიატრიული საავადმყოფოს მისამართის პოვნა?

ასეთ სიტუაციებში მოქმედებს რამდენიმე ტექნოლოგია. თქვენ შეგიძლიათ მოგცეთ რამდენიმე მინიშნება საძიებო ზოლის ქვეშ, რომელიც დააკონკრეტებს თქვენს მოთხოვნას. მოიწონეთ, აირჩიეთ ის, რაც გჭირდებათ: ნაპოლეონის რეცეპტები ან ნაპოლეონი - ბონაპარტი. თუ მომხმარებელი არ პასუხობს აპარატის მოთხოვნას და არ დაამატებს სიტყვებს "ნაპოლეონს", მაშინ "სპექტრის" ტექნოლოგია ეხმარება ამ საკითხს: დახმარების იმედის გარეშე, მანქანა დაუყოვნებლივ ეძებს ინფორმაციას რამდენიმე კატეგორიაში (ტორტის შესახებ, და იმპერატორის შესახებ და ცხენის შესახებ) ...). გარდა ამისა, პერსონალიზაციის მექანიზმები გვეხმარება მომხმარებლის გაგებაში - აპარატის ცოდნა იმის შესახებ, თუ რას ეძებდა ეს მომხმარებელი თავის კომპიუტერში ერთი დღის, ორი, სამი ან თვის წინ: თუ ხშირად სვამდით Yandex-ს კითხვებს სამზარეულოს შესახებ, მაშინ მანქანა ჯერ აჩვენებს. თქვენ შედეგები ამბობენ, რომ ნაპოლეონი ნამცხვარია.

კომბინაციები: ინტერესთა კლუბები

საძიებო სისტემის ამოცანა არ არის უბრალოდ შეარჩიოს დოკუმენტები, რომლებიც შეიცავს სიტყვებსა და ფრაზებს საძიებო მოთხოვნიდან. მანქანამ უნდა გაიგოს, რომელი დოკუმენტები აკმაყოფილებს ჩვენს წინააღმდეგობრივ მოთხოვნებს და რატომ აკმაყოფილებენ მათ. გვინდა მივიღოთ ინფორმაცია ნაპოლეონის ნამცხვრის შესახებ, ან იქნებ რამდენიმე წელი ვესტუმრეთ პრეტენზიული სახელწოდების ფიტნეს კლუბს, ან სულაც გვაწუხებს დაბალი ადამიანების კომპლექსები. ნებისმიერ შემთხვევაში, პრობლემის გადაჭრა მოითხოვს არატრივიალურ მიდგომას.

Yandex საძიებო პროგრამის შემქმნელებმა იპოვეს ეს მიდგომა მანქანაზე არჩევანის უფლების დელეგირებით. ერთის მხრივ, სულმოკლე, მაგრამ ძალიან სწრაფმა და ჭკვიანმა მანქანამ არ იცის და არ სურს არაფერი იცოდეს ჩვენზე, როგორც ინდივიდებზე, მეორე მხრივ, ცდილობს რაც შეიძლება მეტი გაიგოს ყველას შესახებ.

მომხმარებლის გეოგრაფიული მდებარეობისა და მისი მოთხოვნების ლინგვისტური ანალიზის გარდა, საძიებო სისტემა იყენებს რამდენიმე ათას კრიტერიუმს, რომლებიც საერთოდ არ არის აშკარა ადამიანებისთვის.

ხრიკი ის არის, რომ მანქანა დამოუკიდებლად ავითარებს და აახლებს ამ კრიტერიუმებს.

ის უბრალოდ იყენებს მონაცემებს მილიონობით ადამიანის პრეფერენციებისა და მომხმარებლის ქცევის შესახებ და ამ „საშუალო არითმეტიკას“ უკავშირებს ჩვენი მოთხოვნების ისტორიას. პრინციპები, რომლებიც ხელმძღვანელობს მატრიცას საკუთარ თავში, ადარებს მის მიერ შემუშავებული მომხმარებლის ინტერესების ათასობით კატეგორიას, ხშირად არ ჯდება ტრადიციულ ადამიანურ იდეებში იმის შესახებ, თუ რა შეიძლება იყოს პრინციპში „ინტერესები“. ისინი ათიათასობით არიან. ისინი ქმნიან განსხვავებულ, ზოგჯერ სასაცილო კომბინაციებს ერთმანეთთან. მაგალითად, ერთ-ერთი ასეთი კომბინაცია შეიძლება იყოს ის, რომ ძიების შედეგები ემთხვევა იმ ადამიანის ინტერესებს, ვინც ტრიტონებს ამრავლებს. ამავდროულად, ადამიანი არ არის მხოლოდ დაინტერესებული ტრიტონებით, არამედ უკვე ამრავლებს მათ, მაგრამ მხოლოდ პირველი წლის განმავლობაში.

რეიტინგები. დამხმარე ხელები

მატრიცა, რა თქმა უნდა, თავად წყვეტს (უმაღლესი მათემატიკის დახმარებით) რა და რა თანმიმდევრობით უნდა აჩვენოს მომხმარებლებს ათიათასობით კრიტერიუმზე დაყრდნობით. მაგრამ მატრიცა ასევე იყენებს ცოცხალ ადამიანებს - Yandex-ის 1000 თანამშრომელი, ეგრეთ წოდებული შემფასებლები, აფასებენ ძიების შედეგებს კონკრეტული მოთხოვნისთვის (რა თქმა უნდა, ყველა მოთხოვნა არ ფასდება და ეს არ კეთდება რეალურ დროში), რათა დადგინდეს, აკმაყოფილებენ თუ არა ისინი ჩვეულებრივი მომხმარებლის მოლოდინები: არც ისე რაციონალური, როგორც მანქანა, არც ისე ზუსტი ფორმულირებით, წინააღმდეგობრივი და ემოციური.