uy Qurilmalar

Internet qidiruv tizimlari: Yandex, Google, Rambler, Yahoo. Tarkibi, funktsiyalari, ishlash printsipi. Yandex qidiruv tizimining ishlash printsipining eng oddiy tavsifi Kombinatsiyalar: qiziqish klublari

Salom aziz do'stlar! Ushbu maqolada biz Yandex qidiruv tizimini ko'rib chiqishni davom ettiramiz va esingizda bo'lsa, avvalgi maqolalarda biz Rossiyada va undan tashqarida raqobatchilar orasida birinchi o'rinni egallagan ushbu buyuk kompaniyaning yaratilish tarixini muhokama qildik.

Bularning barchasi yaxshi, lekin yangi boshlanuvchilar va tajribali sayt quruvchilarni eng muhim savol qiziqtiradi, albatta, ularning loyihalarini TOP qidiruv natijalarida birinchi o'rinlarga olib chiqish bilan bog'liq.

Shuning uchun, keling, qanday xatolarga yo'l qo'yishingiz mumkinligini va umuman rus qidiruv tizimidan nimani kutish kerakligini tushunish uchun Yandex qidiruv tizimi qanday ishlashini ko'rib chiqaylik.

Oxirgi maqolada biz muhokama qildik. Mavzu juda qiziqarli va foydali bo'lib chiqdi. Shuning uchun men uni to'ldirishga, chuqurlashtirishga qaror qildim.

Shunday qilib, men "Nima uchun qidiruv tizimi hujjatlarni indekslaydi" degan savolga biroz hayron bo'ldim. Faqat "qanday" degan savolni aniqlash qoladi.

Veb-saytlarni tartiblash algoritmlari

Birinchidan, har qanday qidiruv tizimi uchun asosiy bo'lgan ba'zi algoritmlar bilan tanishamiz:

— Bevosita qidiruv algoritmi.

Bu nima - kitoblardan birida ajoyib hikoyani o'qiganingizni eslaysiz. Va siz birin-ketin qarashni boshlaysiz. Ular bitta kitobni olishdi, uni ko'zdan kechirishdi, uni topa olishmadi, boshqasini olishdi ... Prinsip aniq, lekin bu usul juda uzoq. Bu ham tushunarli.

— Teskari qidiruv algoritmi.

Ushbu algoritm uchun blogingizning har bir sahifasidan matn fayli yaratiladi. Ushbu faylda siz ishlatgan BARCHA so'zlar alifbo tartibida keltirilgan. Hatto bu so'zning matndagi o'rni ko'rsatilgan (matndagi koordinatalar).

Bu juda tez usul, ammo qidiruv allaqachon xato bilan sodir bo'ladi.

Bu erda tushunish kerak bo'lgan asosiy narsa shundaki, bu algoritm blogda qidirish orqali emas, balki Internetda qidirmaydi. Va uzoq vaqt oldin yaratilgan alohida matn faylida. Robot sizning oldingizga kelganida. Va bu fayllar (teskari indekslar) Yandex serverlarida saqlanadi.

Shunday qilib, bu asosiy qidiruv algoritmlari edi. Bular. Yandex oddiygina kerakli hujjatlarni qanday topadi. Bu bilan hech qanday muammo bo'lmasligi kerak.

Lekin Yandex bir yoki hatto 100 dan ortiq hujjatlarni biladi, lekin mening manbalarimdan olingan so'nggi ma'lumotlarga ko'ra, Yandex 11 milliardga yaqin hujjatlarni biladi (10 727 736 489 sahifa).

Va bu miqdorning barchasi orasida siz so'rovga mos keladigan hujjatlarni tanlashingiz kerak. Va eng muhimi, ularni qandaydir tarzda tartiblash kerak. Bular. muhimlik darajasiga ko'ra, to'g'rirog'i o'quvchi uchun foydalilik darajasiga qarab tartibga soling.

Matematik qidiruv modellari

Ushbu muammoni hal qilish uchun matematik modellar yordamga keladi. Endi biz eng oddiy modellar haqida gapiramiz.

Mantiqiy matematik model– Hujjatda biror soʻz paydo boʻlsa, hujjat topilgan hisoblanadi. Faqat tasodif va hech qanday murakkab narsa yo'q.

Ammo bu erda muammolar mavjud. Misol uchun, agar siz foydalanuvchi sifatida biron bir mashhur so'zni yoki undan ham yaxshiroq rus tilida eng keng tarqalgan so'z bo'lgan va HAR bir hujjatda uchraydigan "v" predlogini kiritsangiz, sizga juda ko'p natijalar beriladi. siz bunday raqamni sezmaysiz deb, Qancha hujjat topdingiz? Shuning uchun quyidagi mat modeli paydo bo'ldi.

Vektorli matematik model- bu model hujjatning "og'irligi" ni aniqlaydi. Faqat tasodif sodir bo'lmaydi, balki so'z bir necha marta sodir bo'lishi kerak. Bundan tashqari, so'z qanchalik ko'p paydo bo'lsa, dolzarbligi (muvofiqligi) shunchalik yuqori bo'ladi.

Bu HAMMA qidiruv tizimlari foydalanadigan vektor modeli.

Ehtimoliy model- murakkabroq. Printsip shunday: qidiruv tizimi sahifa shablonini o'zi topdi. Masalan, siz Yandex tarixi haqida ma'lumot qidiryapsiz. Yandex qandaydir standartni saqlaydi, deylik, bu mening Yandex haqidagi oldingi maqolam bo'ladi.

Va u boshqa barcha hujjatlarni ushbu maqola bilan taqqoslaydi. Va bu erda mantiq shunday: sizning blog sahifangiz mening maqolamga qanchalik o'xshash bo'lsa, sizning blog sahifangiz ham o'quvchi uchun foydali bo'lishi va Yandex tarixi haqida ham ma'lumot berishi EHTIMOLIDA.

Foydalanuvchiga ko'rsatilishi kerak bo'lgan hujjatlar sonini kamaytirish uchun tegishlilik tushunchasi kiritildi, ya'ni. muvofiqlik.

Sizning blog sahifangiz mavzuga qanchalik mos keladi? Qidiruv sifati haqida gap ketganda, bu muhim mavzu.

Baholovchilar - ular kimlar va ular nima uchun javobgardirlar?

Bu dolzarblik algoritmlarning sifatini baholash uchun ham zarur.

Buning uchun maxsus kuchlar shtab-kvartirasi mavjud - ular baholovchilar deb ataladi. Bu o'z qo'llari bilan qidiruv natijalarini ko'rib chiqadigan maxsus odamlardir.

Ularda saytlarni qanday tekshirish, qanday baholash kerakligi va hokazo bo'yicha ko'rsatmalar mavjud. Va ular sizning sahifalaringiz qidiruv so'rovlariga mos keladimi yoki yo'qligini qo'lda aniqlaydi.

Va qidiruv algoritmlarining sifati baholovchilarning fikriga bog'liq. Agar barcha baholovchilar qidiruv natijalari so'rovlarga to'g'ri kelmasligini aytishsa, bu reyting algoritmi noto'g'ri ekanligini anglatadi va faqatgina Yandex aybdor.

Agar baholovchilar faqat bitta sayt so'rovga javob bermasligini aytishsa, bu sayt uzoqroqqa uchib ketadi va qidiruv natijalarida pastga tushadi. Aniqrog'i, butun sayt emas, faqat bitta maqola, lekin bu "nuqta emas".

Albatta, baholovchilar HAMMA maqolalarni qo'llari va ko'zlari bilan ko'rib chiqa olmaydi va baholay olmaydi. Bu tushunarli.

Va sahifalar tartiblangan boshqa parametrlar yordamga keladi.

Ularning ko'pi bor, masalan:

sahifa vazni (vIC, PageRank, chaqaloqning zarbalari umuman olganda);
domen vakolati;
matnning so'rovga mosligi;
tashqi havola matnlarining so‘rovga mosligi;
shuningdek, ko'plab boshqa reyting omillari.

Baholovchilar sharhlar beradilar va matematik reyting modelini o'rnatish uchun mas'ul bo'lgan odamlar, o'z navbatida, formulani tahrir qiladilar, buning natijasida qidiruv tizimi yanada samarali ishlaydi.

Formulaning ishlashini baholashning asosiy mezonlari:

1. Qidiruv tizimi natijalarining aniqligi- so'rovga mos keladigan hujjatlar foizi (tegishli). Bular. So'rovga mos kelmaydigan sahifalar qancha kam bo'lsa, shuncha yaxshi bo'ladi.

2. Qidiruv tizimi natijalarining to'liqligi- bu ma'lum bir so'rov uchun tegishli veb-sahifalarning to'plamdagi tegishli hujjatlarning umumiy soniga nisbati (qidiruv tizimida topilgan sahifalar yig'indisi).

Misol uchun, agar butun to'plamda qidiruv natijalariga qaraganda ko'proq tegishli sahifalar mavjud bo'lsa, bu natijalar to'liq emasligini anglatadi. Bu ba'zi tegishli veb-sahifalar filtrlanganligi sababli sodir bo'ldi.

3. Qidiruv tizimi natijalarining dolzarbligi- bu veb-sahifaning parchada yozilgan narsalarga muvofiqligi. Misol uchun, hujjat juda boshqacha bo'lishi yoki umuman mavjud bo'lmasligi mumkin, ammo qidiruv natijalarida mavjud bo'lishi mumkin.

Qidiruv natijalarining dolzarbligi to'g'ridan-to'g'ri qidiruv robotining o'z to'plamidagi hujjatlarni qanchalik tez-tez skanerlashiga bog'liq.

To'plamni yig'ish (sayt sahifalarini indekslash) maxsus dastur - qidiruv roboti tomonidan amalga oshiriladi.

Qidiruv roboti indekslash uchun manzillar ro'yxatini oladi, ularni nusxalaydi va keyin nusxalangan veb-sahifalar tarkibini ularni teskari indekslarga aylantiruvchi algoritmga ishlov berish uchun yuboradi.

Xo'sh, "qisqacha" aytganda, biz qidiruv tizimining tamoyillarini muhokama qildik.

Keling, xulosa qilaylik:

Blogingizga qidiruv roboti keladi.
Qidiruv roboti keyingi qidiruvlar uchun sahifaning teskari indeksini saqlaydi.
Matematik model yordamida hujjat qayta ishlanadi va qidiruv natijalarida formulalar yordamida va baholovchining fikrini hisobga olgan holda ko'rsatiladi.

Bu juda, juda soddalashtirilgan. Faqat Yandex qidiruv tizimining qanday ishlashi haqida asosiy tushunchaga ega bo'lish uchun.

Men hozir juda ko'p matn yozdim va ehtimol ko'p narsa aniq emas. Shuning uchun, men ushbu maqolaga biroz keyinroq qaytib, ushbu videoni tomosha qilishni taklif qilaman.

Bu ajoyib qo'llanma bo'lib, men ham bir vaqtning o'zida o'rganganman.

Umid qilamanki, bu ma'lumot sizning saytlaringizdan biri nima uchun qidiruvlarda tegishli o'rinlarni egallashini yaxshiroq tushunishga yordam beradi va ularni yaxshilash uchun hamma narsani qiladi.

Shu bilan men siz bilan xayrlashaman, agar sizda biron bir savol bo'lsa, men har doim sharhlarda ularga javob berishdan xursandman. Yoki maqolaga qo'shmoqchimisiz?

Qanday bo'lmasin, o'z fikringizni bildiring. !

Yandex bugungi kunda Rossiyadagi eng mashhur qidiruv tizimidir. Xizmatlar statistikasi LiveInternet, Yandex-ning butun Rossiya auditoriyasidagi ulushini ko'rsatadi - bu 53,4% ni tashkil qiladi, agar biz faqat Moskva va mintaqani hisobga olsak, u bundan ham yuqori - 67,9% (Moskva, so'rovlarga ko'ra, ko'proq narsani egallaydi. butun Rossiyaning 50%).

www.yandex.ru veb-sayti 1997 yilda yaratilgan, buning uchun faqat bitta server etarli edi, u birinchi Yandex dasturchilaridan biri, familiyasi Teiblyum bo'lgan Dmitriyning ish stoli ostida edi. Ochganimizdan so'ng, biz ikkinchi serverni sotib oldik va tez orada boshqasini o'rnatish zarurati tug'ilganda, stol ostida uchta Yandex serveri uchun etarli joy mavjudligi yoki [...]

Qidiruv tizimini ishlab chiquvchilar foydalanuvchilarga o'z so'rovlariga eng yaxshi javoblarni taqdim etishga intilishadi. Ba'zan bunday javob raqam (masalan, shahardagi ob-havo), rasm (masalan, xaritadagi manzil), so'zning tarjimasi yoki to'rtlik bo'lishi mumkin. Agar qo'lingizda tegishli ma'lumotlar to'plami bo'lsa, javob darhol berilishi mumkin. Shunday qilib, Yandex Internetdagi qidiruv natijalarini o'zining javoblari bilan to'ldiradi [...]

Yandex-ga taxminan har o'ninchi so'rov "navigatsiya", ya'ni tashkilot yoki veb-sayt nomidan iborat va foydalanuvchi ushbu tashkilotning veb-saytiga kirishni xohlaydi. Bunday holda, brauzerning manzil satri o'rniga Yandex qidiruv paneli ishlatiladi va foydalanuvchi, qoida tariqasida, qolgan to'qqizta qidiruv natijalariga qiziqmaydi. Foydalanuvchini asosiy maqsaddan chalg'itmasdan, biz asosiy maqsaddan keyin qo'shdik [...]

Qidiruv tizimining asosiy vazifasi foydalanuvchining savoliga javob berishdir. Foydalanuvchi so'rovni so'raganda, qidiruv tizimi Internetdagi har bir saytga kirmaydi, balki unga ma'lum bo'lgan sahifalar ma'lumotlar bazasi - qidiruv indeksi orqali qidiradi. U erda u so'rovdagi so'zlar bilan barcha sahifalarni topadi. Foydalanuvchi qidiruv natijalari sahifalarida ushbu sahifalarga havolalarni ko'radi.

Ko'rib turganimizdek, Yandex bir joyda turmaydi va ishonchim komilki, ushbu tizimning qidiruv texnologiyalari qidiruv sifatini yaxshilash uchun rivojlanishda davom etadi, buni hali ideal deb atash qiyin.

2009 yil 10 noyabrda Yandex qidiruv algoritmining yangi versiyasini - Snejinskni e'lon qildi. Muvofiqlikni hisoblash algoritmida tub o'zgarishlar ro'y berdi - Yandex vakillari quyidagilarni yozishdi: “Biz aniqroq va ancha murakkab matematik modelni yaratishga muvaffaq bo'ldik, bu esa qidiruv sifatining sezilarli darajada oshishiga olib keldi. Qidiruv reytingi arxitekturasini qayta ishlab chiqish tufayli bir necha ming kishining buxgalteriya hisobini amalga oshirish mumkin edi [...]

Yandex algoritmining yangi versiyasini sinovdan o'tkazish 2008 yil 9 iyulda boshlangan. Yandeksning fikriga ko'ra, "dasturdagi asosiy o'zgarishlar mashinani o'rganishga yangi yondashuv bilan bog'liq va natijada, formulada reyting omillarini hisobga olishdagi farqlar".

2008 yil 14 aprelda "Magadan" yangi qidiruv algoritmi buki.yandex.ru saytida sinovdan o'tkazila boshlandi. Reyting omillari sonini ikki baravar oshirishdan tashqari, quyidagi yangiliklar ham qo'shildi:

Algoritmik o'rmonga kirishdan oldin, keling, qidiruv tizimining umuman qanday ishlashini eslaylik. Qidiruv tizimining mantiqiy tuzilishi uchta modul ko'rinishida ifodalanishi mumkin (diagrammaga qarang) Robot (skaner) - bu Internet saytlarini skanerlaydigan va ularning mazmunini yuklab oladigan maxsus dastur. Robotning maxsus jadvali bor, unga ko'ra u o'z aylanmalarini bajaradi. Sayt sahifalari robot tomonidan yuklangan, maxsus [...]

66. Nima ko'proq ta'sir qiladi: bepul platformadan (blogspot, LJ va boshqalar) yoki oflayn saytdan/blogdan havola? Bepul platformalar mustaqil saytlarga qaraganda kamroq vazn o'tkazadi. Biroq, ta'sir ko'proq bo'lishi mumkin. Bu ko'plab omillarga bog'liq: joriy langar ro'yxati, taqqoslanayotgan saytlarning holati va boshqalar. Bu savolga aniq javob berishning iloji yo'q. 67. Eng katta vazn [...] o'rtasida uzatiladi.

Vamana Tour - butun dunyo bo'ylab sayohat, aviachiptalar va vizalar Hindiston, Nepal, Shri-Lanka, Maldiv orollari, Mavrikiy va sayyoramizning boshqa ko'plab joylari. Sayohatchilar va ziyoratchilar uchun maslahatlar. Qanday qilib sayohatingizdan maksimal foyda olish mumkin. Ajoyib tarixiy xronikalar va tajribali sayohatchilarning hikoyalari.

Saytga tashqi havolalarni hisobga olishdan maqsad nima? Oldingi bo'limdan ko'rinib turibdiki, reytingga ta'sir qiluvchi deyarli barcha omillar sahifa muallifining nazorati ostida. Shunday qilib, qidiruv tizimi haqiqatan ham yuqori sifatli hujjatni ma'lum bir qidiruv iborasi uchun maxsus yaratilgan sahifadan yoki hatto robot tomonidan yaratilgan va umuman foydali ma'lumotga ega bo'lmagan sahifadan ajrata olmaydi. […]

Ular uzoq vaqtdan beri Rossiya Internetining ajralmas qismiga aylangan. Qidiruv mexanizmlari endi ulkan va murakkab mexanizmlar bo'lib, ular nafaqat ma'lumot qidirish vositasi, balki biznes uchun jozibador sohalarni ham ifodalaydi.

Ko'pgina qidiruv tizimlari foydalanuvchilari qidiruv tizimlarining ishlash printsipi, foydalanuvchi so'rovlarini qayta ishlash sxemasi, bu tizimlar nimadan iboratligi va ular qanday ishlashi haqida hech qachon o'ylamagan (yoki bu haqda o'ylamagan, lekin javob topa olmagan) ...

Ushbu master-klass qidiruv tizimlarining qanday ishlashi haqidagi savolga javob berish uchun mo'ljallangan. Biroq, bu erda hujjatlar reytingiga ta'sir qiluvchi omillarni topa olmaysiz. Bundan tashqari, siz Yandex algoritmini batafsil tushuntirishga ishonmasligingiz kerak. Yandeks qidiruv tizimining texnologiya va rivojlanish bo'yicha direktori Ilya Segalovichning so'zlariga ko'ra, uni faqat Ilya Segalovichning o'zi "qiynoqlar ostida" tan olishi mumkin...

2. Qidiruv mexanizmi tushunchasi va vazifalari

Qidiruv tizimi - bu Internetda qidirish va foydalanuvchi so'roviga javob berish uchun mo'ljallangan dasturiy-apparat majmuasi bo'lib, matn iborasi (qidiruv so'rovi) ko'rinishida ma'lumot manbalariga havolalar ro'yxatini tegishlilik tartibida ishlab chiqaradi ( so'rovga muvofiq). Eng yirik xalqaro qidiruv tizimlari: "Google", Yahoo, MSN. Rossiya Internetida bular Yandex, Rambler, Aport.

Keling, misol sifatida Yandex qidiruv tizimidan foydalangan holda qidiruv so'rovi tushunchasini batafsil ko'rib chiqaylik. Qidiruv so'rovi foydalanuvchi tomonidan u topmoqchi bo'lgan narsaga muvofiq, iloji boricha qisqa va sodda tarzda tuzilishi kerak. Aytaylik, biz Yandex-da mashinani qanday tanlash haqida ma'lumot topmoqchimiz. Buning uchun Yandex-ning asosiy sahifasini oching va "avtomobilni qanday tanlash kerak" qidiruv so'rovi matnini kiriting. Keyinchalik, bizning vazifamiz Internetdagi ma'lumot manbalariga bizning so'rovimiz bo'yicha taqdim etilgan havolalarni ochishdan iborat. Biroq, biz kerakli ma'lumotni topa olmasligimiz mumkin. Agar bu sodir bo'lsa, siz so'rovingizni o'zgartirishingiz kerak yoki qidiruv tizimining ma'lumotlar bazasida haqiqatan ham bizning so'rovimiz bo'yicha tegishli ma'lumotlar yo'q (bu juda "tor" so'rovlar so'ralganda sodir bo'lishi mumkin, masalan, "qanday tanlash kerak" Arxangelskdagi mashina")

Har qanday qidiruv tizimining asosiy maqsadi odamlarga ular qidirayotgan ma'lumotlarni to'liq etkazishdir. Va foydalanuvchilarni tizimga "to'g'ri" so'rovlar qilishni o'rgating, ya'ni. qidiruv tizimlarining ishlash tamoyillariga mos keladigan so'rovlar mumkin emas. Shuning uchun ishlab chiquvchilar qidiruv tizimlari uchun algoritmlar va ishlash tamoyillarini yaratadilar, bu foydalanuvchilarga o'zlari qidirayotgan ma'lumotlarni topishga imkon beradi.

Bu shuni anglatadiki, qidiruv tizimi foydalanuvchi ma'lumot qidirishda qanday fikrda bo'lsa, xuddi shunday "o'ylashi" kerak. Agar foydalanuvchi qidiruv tizimiga so'rov yuborsa, u o'ziga kerakli narsani imkon qadar tez va oson topishni xohlaydi. Natijani olgach, u bir nechta asosiy parametrlarga asoslanib, tizimning ishlashini baholaydi. U izlagan narsasini topdimi? Agar u topmagan bo'lsa, u qidirayotgan narsani topish uchun so'rovni necha marta takrorlashi kerak edi? U qanchalik muhim ma'lumotlarni topa oldi? Qidiruv tizimi so'rovni qanchalik tez ko'rib chiqdi? Qidiruv natijalari qanchalik qulay edi? Siz izlagan natija birinchimi yoki yuzinchimi? Foydali ma'lumotlar bilan birga qancha keraksiz axlat topildi? Qidiruv tizimiga kirishda kerakli ma'lumotlar, masalan, bir hafta yoki bir oy ichida topiladimi?

Ushbu savollarning barchasini javoblar bilan qondirish uchun qidiruv tizimini ishlab chiquvchilari doimiy ravishda qidiruv algoritmlari va tamoyillarini takomillashtirmoqdalar, yangi funktsiyalar va imkoniyatlarni qo'shmoqdalar va tizimning ishlashini tezlashtirish uchun har tomonlama harakat qilmoqdalar.

3. Qidiruv tizimining asosiy xarakteristikalari

Keling, qidiruv tizimlarining asosiy xususiyatlarini tavsiflaymiz:

To'liqlik
To'liqlik - qidiruv tizimining asosiy xususiyatlaridan biri bo'lib, so'rov bo'yicha topilgan hujjatlar sonining Internetdagi ushbu so'rovni qondiradigan umumiy hujjatlar soniga nisbati. Misol uchun, agar Internetda "avtomobilni qanday tanlash kerak" iborasini o'z ichiga olgan 100 ta sahifa mavjud bo'lsa va ulardan faqat 60 tasi tegishli so'rov uchun topilgan bo'lsa, qidiruvning to'liqligi 0,6 ni tashkil qiladi. Shubhasiz, qidiruv qanchalik to'liq bo'lsa, foydalanuvchi o'ziga kerak bo'lgan hujjatni Internetda umuman mavjud bo'lsa, topa olmasligi ehtimoli shunchalik kam bo'ladi.
Aniqlik
Aniqlik - qidiruv tizimining yana bir asosiy xususiyati bo'lib, u topilgan hujjatlar foydalanuvchi so'roviga qanchalik mos kelishi bilan belgilanadi. Misol uchun, agar "avtomobilni qanday tanlash kerak" so'rovida 100 ta hujjat bo'lsa, ularning 50 tasida "avtomobilni qanday tanlash kerak" iborasi mavjud, qolganlarida oddiygina ushbu so'zlar ("to'g'ri radioni qanday tanlash va uni o'rnatish" a car”), keyin qidiruvning aniqligi 50/100 (=0,5) ga teng deb hisoblanadi. Qidiruv qanchalik aniq bo'lsa, foydalanuvchi kerakli hujjatlarni tezroq topadi, ular orasida "axlat" kamroq topiladi, topilgan hujjatlar kamroq tez-tez so'rovga mos kelmaydi.
Muvofiqlik
Muvofiqlik qidiruvning bir xil darajada muhim tarkibiy qismi bo'lib, u hujjatlar Internetda e'lon qilingan paytdan boshlab qidiruv tizimining indekslari ma'lumotlar bazasiga kiritilgunga qadar o'tadigan vaqt bilan tavsiflanadi. Misol uchun, qiziqarli yangiliklar paydo bo'lgan kunning ertasiga ko'plab foydalanuvchilar tegishli so'rovlar bilan qidiruv tizimlariga murojaat qilishdi. Ob'ektiv ravishda, ushbu mavzu bo'yicha yangilik ma'lumotlari e'lon qilinganidan beri bir kundan kamroq vaqt o'tdi, ammo yirik qidiruv tizimlarining "tezkor ma'lumotlar bazasi" mavjudligi tufayli asosiy hujjatlar allaqachon indekslangan va qidirish uchun mavjud. kuniga bir necha marta yangilanadi.
Qidiruv tezligi
Qidiruv tezligi uning yuk qarshiligi bilan chambarchas bog'liq. Masalan, “Rambler Internet Holding” MChJ ma’lumotlariga ko‘ra, bugungi kunda ish vaqtida Rambler qidiruv tizimi soniyasiga 60 ga yaqin so‘rovlarni qabul qiladi. Bunday ish yuki individual so'rovni ko'rib chiqish vaqtini qisqartirishni talab qiladi. Bu erda foydalanuvchi va qidiruv tizimining manfaatlari bir-biriga to'g'ri keladi: tashrif buyuruvchi natijalarni imkon qadar tezroq olishni xohlaydi va qidiruv tizimi keyingi so'rovlarni hisoblashni sekinlashtirmaslik uchun so'rovni iloji boricha tezroq qayta ishlashi kerak.
Ko'rinish

4. Qidiruv tizimlarining qisqacha rivojlanish tarixi

Internet rivojlanishining dastlabki davrida uning foydalanuvchilari soni kam, mavjud ma'lumotlar miqdori esa nisbatan kichik edi. Ko'pincha, faqat tadqiqotchilar Internetga kirish imkoniga ega edi. Bu vaqtda Internetda ma'lumot qidirish vazifasi hozirgidek shoshilinch emas edi.

Tarmoq axborot resurslariga kirishni tashkil etishning birinchi usullaridan biri mavzu bo'yicha guruhlangan resurslarga havolalar bo'lgan saytlarning ochiq kataloglarini yaratish edi. Birinchi bunday loyiha 1994 yilning bahorida ochilgan Yahoo.com sayti edi. Katalogdagi saytlar soni sezilarli darajada oshganidan so'ng, katalogdan kerakli ma'lumotlarni qidirish imkoniyati qo'shildi. To'liq ma'noda, bu hali qidiruv tizimi emas edi, chunki qidiruv maydoni barcha Internet resurslari bilan emas, balki faqat katalogdagi manbalar bilan cheklangan edi.

Bog'lanish kataloglari o'tmishda keng qo'llanilgan, ammo hozirda deyarli butunlay mashhurligini yo'qotgan. Hajmi bo'yicha hatto zamonaviy kataloglarda ham Internetning ahamiyatsiz qismi haqida ma'lumotlar mavjud. DMOZ tarmog'ining eng katta katalogi (Ochiq katalog loyihasi deb ham ataladi) 5 million resurs haqida ma'lumotni o'z ichiga oladi, Google qidiruv tizimining ma'lumotlar bazasi esa 8 milliarddan ortiq hujjatlardan iborat.

1995 yilda Lycos va AltaVista qidiruv tizimlari paydo bo'ldi. Ikkinchisi ko'p yillar davomida Internetda ma'lumot qidirish sohasida etakchi bo'lib kelgan.

1997 yilda Sergey Brin va Larri Peyj Stenford universitetida tadqiqot loyihasi doirasida Google qidiruv tizimini yaratdilar. Google hozirda dunyodagi eng mashhur qidiruv tizimidir!

1997 yil sentyabr oyida rus tilidagi Internetda eng mashhur bo'lgan Yandex qidiruv tizimi rasman e'lon qilindi.

Hozirgi vaqtda uchta asosiy qidiruv tizimi (xalqaro) mavjud - Google, Yahoo va o'zlarining ma'lumotlar bazalari va qidiruv algoritmlariga ega. Ko'pgina boshqa qidiruv tizimlari (ularning soni juda ko'p) ro'yxatga olingan uchta natijalardan u yoki bu shaklda foydalanadi. Masalan, AOL qidiruvi (search.aol.com) Google ma'lumotlar bazasidan, AltaVista, Lycos va AllTheWeb esa Yahoo ma'lumotlar bazasidan foydalanadi.

5. Qidiruv tizimining tarkibi va ishlash tamoyillari

Rossiyada asosiy qidiruv tizimi Yandex, undan keyin Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bundan tashqari, ayni paytda Mail.ru Yandex qidiruv tizimi va ma'lumotlar bazasidan foydalanadi.

Deyarli barcha yirik qidiruv tizimlari boshqalardan farqli o'laroq, o'z tuzilishiga ega. Biroq, barcha qidiruv tizimlari uchun umumiy bo'lgan asosiy komponentlarni aniqlash mumkin. Tuzilishdagi farqlar faqat ushbu komponentlarning o'zaro ta'siri mexanizmlarini amalga oshirish shaklida bo'lishi mumkin.

Indekslash moduli

Indekslash moduli uchta yordamchi dasturdan (robotlardan) iborat:

Spider - bu veb-sahifalarni yuklab olish uchun mo'ljallangan dastur. O'rgimchak sahifani yuklab oladi va o'sha sahifadan barcha ichki havolalarni oladi. Har bir sahifaning html kodi yuklab olinadi. Robotlar sahifalarni yuklab olish uchun HTTP protokollaridan foydalanadilar. O'rgimchak quyidagicha ishlaydi. Robot serverga “get/path/document” so‘rovini va boshqa HTTP so‘rov buyruqlarini yuboradi. Bunga javoban robot xizmat ma'lumotlari va hujjatning o'zini o'z ichiga olgan matn oqimini oladi.

Sahifa URL manzili
sahifa yuklab olingan sana
Server javobi http sarlavhasi
sahifa tanasi (html kodi)

Crawler ("sayohat qiluvchi" o'rgimchak) - bu sahifadagi barcha havolalarni avtomatik ravishda kuzatib boradigan dastur. Sahifada mavjud bo'lgan barcha havolalarni tanlaydi. Uning vazifasi havolalar yoki oldindan belgilangan manzillar ro'yxati asosida o'rgimchakning keyingi qayerga borishi kerakligini aniqlashdir. Crawler, topilgan havolalar bo'yicha, qidiruv tizimiga hali noma'lum bo'lgan yangi hujjatlarni qidiradi.

Indexer (robot indexer) - o'rgimchaklar tomonidan yuklab olingan veb-sahifalarni tahlil qiluvchi dastur. Indeksator sahifani tarkibiy qismlarga ajratadi va o'zining leksik va morfologik algoritmlari yordamida ularni tahlil qiladi. Har xil sahifa elementlari tahlil qilinadi, masalan, matn, sarlavhalar, havolalar, strukturaviy va uslublar xususiyatlari, maxsus xizmat HTML teglari va boshqalar.

Shunday qilib, indekslash moduli havolalar yordamida berilgan resurslar to'plamini skanerlash, duch kelgan sahifalarni yuklab olish, olingan hujjatlardan yangi sahifalarga havolalarni ajratib olish va ushbu hujjatlarni to'liq tahlil qilish imkonini beradi.

Malumotlar bazasi

Ma'lumotlar bazasi yoki qidiruv tizimining indeksi - bu ma'lumotlarni saqlash tizimi, indekslash moduli tomonidan yuklab olingan va qayta ishlangan barcha hujjatlarning maxsus aylantirilgan parametrlari saqlanadigan ma'lumotlar massivi.

Qidiruv serveri

Qidiruv serveri butun tizimning eng muhim elementi hisoblanadi, chunki qidiruvning sifati va tezligi bevosita uning ishlashi asosidagi algoritmlarga bog'liq.

Qidiruv serveri quyidagicha ishlaydi:

Foydalanuvchidan olingan so'rov morfologik tahlildan o'tkaziladi. Ma'lumotlar bazasidagi har bir hujjatning axborot muhiti yaratiladi (keyinchalik u shaklda ko'rsatiladi, ya'ni qidiruv natijalari sahifasida so'rovga mos keladigan matn ma'lumotlari).
Qabul qilingan ma'lumotlar kirish parametrlari sifatida maxsus reyting moduliga uzatiladi. Ma'lumotlar barcha hujjatlar uchun qayta ishlanadi, buning natijasida har bir hujjat foydalanuvchi tomonidan kiritilgan so'rovning dolzarbligini va qidiruv tizimi indeksida saqlangan ushbu hujjatning turli tarkibiy qismlarini tavsiflovchi o'z reytingiga ega.
Foydalanuvchining tanloviga qarab, ushbu reyting qo'shimcha shartlar bilan sozlanishi mumkin (masalan, "kengaytirilgan qidiruv").
Keyinchalik, parcha hosil bo'ladi, ya'ni topilgan har bir hujjat uchun sarlavha, so'rovga eng mos keladigan qisqacha konspekt va hujjatning o'ziga havolasi hujjat jadvalidan chiqariladi va topilgan so'zlar ajratib ko'rsatiladi.
Olingan qidiruv natijalari foydalanuvchiga SERP (Search Engine Result Page) - qidiruv natijalari sahifasi shaklida uzatiladi.

Ko'rib turganingizdek, ushbu komponentlarning barchasi bir-biri bilan chambarchas bog'liq va o'zaro ta'sirda ishlaydi, qidiruv tizimining ishlashi uchun juda katta miqdordagi resurslarni talab qiladigan aniq, ancha murakkab mexanizmni tashkil qiladi.

6. Xulosa

Endi yuqorida aytilganlarning barchasini umumlashtiramiz.

Har qanday qidiruv tizimining asosiy maqsadi odamlarga ular qidirayotgan ma'lumotlarni to'liq etkazishdir.
Qidiruv tizimlarining asosiy xususiyatlari:
1. To'liqlik
2. Aniqlik
3. Muvofiqlik
4. Qidiruv tezligi
5. Ko'rinish
Birinchi to'liq qidiruv tizimi 1994 yilda nashr etilgan WebCrawler loyihasi edi.
Qidiruv tizimi quyidagi komponentlarni o'z ichiga oladi:
1. Indekslash moduli
2. Malumotlar bazasi
3. Qidiruv serveri

Umid qilamizki, bizning master-klassimiz sizga qidiruv tizimi tushunchasi bilan ko'proq tanishish va qidiruv tizimlarining asosiy funktsiyalari, xususiyatlari va ishlash tamoyillarini yaxshiroq tushunish imkonini beradi.

1. Shartlar va ta'riflar Shaxsiy ma'lumotlarni qayta ishlash bo'yicha ushbu shartnomada (keyingi o'rinlarda Shartnoma deb yuritiladi) quyidagi atamalar quyidagi ta'riflarga ega: Operator - Yakka tartibdagi tadbirkor Oleg Aleksandrovich Dneprovskiy. Shartnomani qabul qilish - shaxsiy ma'lumotlarni yuborish va qayta ishlash orqali Shartnomaning barcha shartlarini to'liq va so'zsiz qabul qilish. Shaxsiy ma'lumotlar - Foydalanuvchi tomonidan (shaxsiy ma'lumotlarning predmeti) saytga kiritilgan va bevosita yoki bilvosita ushbu Foydalanuvchiga tegishli ma'lumotlar. Foydalanuvchi - saytdagi kiritish maydonchalarini to'ldirish jarayonini muvaffaqiyatli yakunlagan har qanday jismoniy yoki yuridik shaxs. Kirish maydonlarini to'ldirish - bu foydalanuvchining o'z ismi, familiyasi, telefon raqami, shaxsiy elektron pochta manzilini (keyingi o'rinlarda Shaxsiy ma'lumotlar deb yuritiladi) saytning ro'yxatdan o'tgan foydalanuvchilari ma'lumotlar bazasiga yuborish tartibi bo'lib, uni aniqlash maqsadida amalga oshiriladi. Foydalanuvchi. Kirish maydonlarini to'ldirish natijasida shaxsiy ma'lumotlar Operatorning ma'lumotlar bazasiga yuboriladi. Kirish maydonlarini to'ldirish ixtiyoriydir. veb-sayt - Internet tarmog'ida joylashgan va bir sahifadan iborat veb-sayt. 2. Umumiy qoidalar 2.1. Ushbu Shartnoma "Shaxsiy ma'lumotlar to'g'risida" gi 2006 yil 27 iyuldagi 152-FZ-sonli Federal qonuni talablari va 13.11-moddaning "Rossiya Federatsiyasi qonunchiligini buzganlik to'g'risida"gi qoidalari asosida tuzilgan. "shaxsiy ma'lumotlar" Rossiya Federatsiyasi Ma'muriy huquqbuzarliklar to'g'risidagi kodeksi va Operator Saytdan foydalanish paytida Foydalanuvchi haqida olishi mumkin bo'lgan barcha shaxsiy ma'lumotlar uchun amal qiladi. 2.2. Saytdagi foydalanuvchi tomonidan kiritish maydonlarini to'ldirish foydalanuvchining ushbu Shartnomaning barcha shartlariga so'zsiz roziligini bildiradi (Shartnomani qabul qilish). Ushbu shartlarga rozi bo'lmagan taqdirda, Foydalanuvchi Saytdagi kiritish maydonlarini to'ldirmaydi. 2.3. Foydalanuvchining Operatorga shaxsiy ma'lumotlarni taqdim etishga va ularni Operator tomonidan qayta ishlashga roziligi Operator faoliyati tugatilgunga qadar yoki Foydalanuvchi roziligini qaytarib olmaguncha amal qiladi. Ushbu Shartnomani qabul qilib, Ro'yxatdan o'tish tartib-qoidasidan o'tish, shuningdek, keyinchalik Saytga kirish orqali Foydalanuvchi o'z xohishi bilan va o'z manfaatlarini ko'zlab, shaxsiy ma'lumotlarini Operatorga qayta ishlash uchun topshirishini tasdiqlaydi va ularni qayta ishlash. Foydalanuvchiga uning shaxsiy ma'lumotlarini qayta ishlash Operator tomonidan 2006 yil 27 iyuldagi 152-FZ-sonli "Shaxsiy ma'lumotlar to'g'risida" Federal qonuni asosida amalga oshirilishi haqida xabar beriladi. 3. Operatorga o'tkazilishi kerak bo'lgan foydalanuvchi haqidagi shaxsiy ma'lumotlar va boshqa ma'lumotlar ro'yxati 3. 1. Operator veb-saytidan foydalanganda Foydalanuvchi quyidagi shaxsiy ma'lumotlarni taqdim etadi: 3.1.1. Kirish maydonlarini to'ldirishda va/yoki Sayt xizmatlaridan foydalanish jarayonida foydalanuvchi o'zi haqida mustaqil ravishda taqdim etadigan ishonchli shaxsiy ma'lumotlar, jumladan familiyasi, ismi, otasining ismi, telefon raqami (uy yoki mobil), shaxsiy elektron pochta manzili. 3.1.2. Foydalanuvchi qurilmasida o'rnatilgan dasturiy ta'minotdan foydalangan holda Sayt xizmatlaridan foydalanish paytida avtomatik ravishda uzatiladigan ma'lumotlar, shu jumladan IP manzili, cookie-fayllar ma'lumotlari, foydalanuvchi brauzeri (yoki xizmatlarga kirish mumkin bo'lgan boshqa dastur) haqidagi ma'lumotlar. 3.2. Operator foydalanuvchi tomonidan taqdim etilgan shaxsiy ma'lumotlarning to'g'riligini tekshirmaydi. Bunday holda, Operator Foydalanuvchi Kirish maydonlarida taklif qilingan savollar bo'yicha ishonchli va etarli shaxsiy ma'lumotlarni taqdim etadi deb hisoblaydi. 4. Shaxsiy ma'lumotlarni to'plash va ulardan foydalanishning maqsadlari, qoidalari 4.1. Operator foydalanuvchiga xizmatlar ko'rsatish va xizmatlar ko'rsatish uchun zarur bo'lgan shaxsiy ma'lumotlarni qayta ishlaydi. 4.2. Foydalanuvchining shaxsiy ma'lumotlari Operator tomonidan quyidagi maqsadlarda foydalaniladi: 4.2.1. Foydalanuvchi identifikatsiyasi; 4.2.2. Foydalanuvchiga shaxsiylashtirilgan xizmatlarni taqdim etish (shuningdek, xatlar yuborish orqali kompaniyaning yangi aksiyalari va xizmatlari haqida xabardor qilish); 4.2.3. Zarur bo'lganda Foydalanuvchi bilan aloqada bo'lish, shu jumladan xizmatlardan foydalanish, xizmatlar ko'rsatish bilan bog'liq bildirishnomalar, so'rovlar va ma'lumotlarni yuborish, shuningdek Foydalanuvchining so'rovlari va ilovalarini qayta ishlash; 4.3. Shaxsiy ma'lumotlarni qayta ishlash jarayonida quyidagi harakatlar amalga oshiriladi: to'plash, ro'yxatga olish, tizimlashtirish, to'plash, saqlash, aniqlashtirish (yangilash, o'zgartirish), qazib olish, foydalanish, blokirovka qilish, o'chirish, yo'q qilish. 4.4. Foydalanuvchi muayyan hollarda u tomonidan ko'rsatilgan ma'lumotlar Rossiya Federatsiyasining amaldagi qonunchiligiga muvofiq Rossiya Federatsiyasining vakolatli davlat organlariga berilishi mumkinligiga e'tiroz bildirmaydi. 4.5. Foydalanuvchining shaxsiy ma'lumotlari Operator tomonidan ushbu Shartnomada nazarda tutilgan tartibda Operator tomonidan butun faoliyat muddati davomida saqlanadi va qayta ishlanadi. 4.6. Shaxsiy ma'lumotlarni qayta ishlash Operator tomonidan ma'lumotlar bazalarini, avtomatlashtirilgan, mexanik va qo'lda usullarni saqlash orqali amalga oshiriladi. 4.7. Sayt sayt xizmatlaridan foydalanishni kuzatish uchun Cookie fayllari va boshqa texnologiyalardan foydalanadi. Ushbu ma'lumotlar Saytning texnik ishlashini optimallashtirish va xizmatlar ko'rsatish sifatini yaxshilash uchun zarurdir. Sayt avtomatik ravishda Saytga tashrif buyurgan har bir tashrifchi haqidagi ma'lumotlarni (jumladan, URL, IP-manzil, brauzer turi, tili, so'rov sanasi va vaqti) yozib oladi. Foydalanuvchi Saytga tashrif buyurganida shaxsiy ma'lumotlarni taqdim etishdan bosh tortish yoki Cookie-fayllarni o'chirish huquqiga ega, ammo bu holda Saytning barcha funktsiyalari to'g'ri ishlamasligi mumkin. 4.8. Ushbu Shartnomada ko'zda tutilgan maxfiylik shartlari Operator Foydalanuvchining Saytda bo'lishi va Saytdan foydalanishi davomida foydalanuvchi haqida olishi mumkin bo'lgan barcha ma'lumotlarga nisbatan qo'llaniladi. 4.9. Ushbu Shartnomani amalga oshirish jarayonida ommaga oshkor qilinadigan ma'lumotlar, shuningdek tomonlar yoki uchinchi shaxslar tomonidan istalgan shaxs erkin foydalanish huquqiga ega bo'lgan manbalardan olinishi mumkin bo'lgan ma'lumotlar maxfiy emas. 4.10. Operator foydalanuvchining shaxsiy ma'lumotlarining maxfiyligini ruxsatsiz kirish, o'zgartirish, oshkor qilish yoki yo'q qilishdan himoya qilish uchun barcha zarur choralarni ko'radi, shu jumladan: ma'lumotlarni to'plash, saqlash va qayta ishlash jarayonlarini doimiy ravishda ichki tekshirishni ta'minlash va xavfsizlikni ta'minlash; ma'lumotlarning jismoniy xavfsizligini ta'minlaydi, Operator shaxsiy ma'lumotlarni saqlaydigan Saytning ishlashini ta'minlaydigan texnik tizimlarga ruxsatsiz kirishning oldini oladi; Shaxsiy ma'lumotlardan faqat Operator xodimlariga yoki ushbu ma'lumotlarga foydalanuvchiga xizmatlar ko'rsatish, shuningdek Saytni ishlatish, rivojlantirish va takomillashtirish bilan bevosita bog'liq bo'lgan vazifalarni bajarish uchun kerak bo'lgan vakolatli shaxslarga ruxsat beradi. 4.11. Foydalanuvchining shaxsiy ma'lumotlari maxfiy bo'lib qoladi, bundan foydalanuvchi o'zi haqidagi ma'lumotlarni cheklanmagan miqdordagi shaxslarga umumiy kirish uchun ixtiyoriy ravishda taqdim etgan hollar bundan mustasno. 4.12. Operator tomonidan foydalanuvchining shaxsiy ma'lumotlarini topshirish Operatorni qayta tashkil etish va huquqlarni Operatorning huquqiy vorisiga o'tkazish paytida qonuniy hisoblanadi, shu bilan birga u olgan shaxsiy ma'lumotlarga nisbatan ushbu Shartnoma shartlariga rioya qilish bo'yicha barcha majburiyatlar huquqiy vorisga o'tkaziladi. 4.13. Ushbu bayonot faqat Operator veb-saytiga tegishli. Kompaniya foydalanuvchi Operator veb-saytida, shu jumladan qidiruv natijalarida mavjud bo'lgan havolalar orqali kirishi mumkin bo'lgan uchinchi tomon saytlari (xizmatlari) uchun nazorat qilmaydi va javobgar emas. Bunday saytlarda (xizmatlarda) boshqa shaxsiy ma'lumotlar to'planishi yoki foydalanuvchidan so'ralishi va boshqa harakatlar amalga oshirilishi mumkin 5. Foydalanuvchining shaxsiy ma'lumotlar sub'ekti sifatidagi huquqlari, foydalanuvchi tomonidan shaxsiy ma'lumotlarni o'zgartirish va yo'q qilish 5.1. Foydalanuvchi quyidagi huquqlarga ega: 5.1.2. Operatordan shaxsiy ma'lumotlarini aniqlashtirishni, ularni bloklashni yoki shaxsiy ma'lumotlar to'liq bo'lmagan, eskirgan, noto'g'ri, noqonuniy ravishda olingan yoki qayta ishlashning belgilangan maqsadi uchun zarur bo'lmagan bo'lsa, ularni yo'q qilishni talab qilish, shuningdek, uning huquqlarini himoya qilish uchun qonun hujjatlarida nazarda tutilgan choralarni ko'rish. 5.1.3. Uning shaxsiy ma'lumotlarini qayta ishlashga oid ma'lumotlarni, shu jumladan quyidagilarni o'z ichiga olgan ma'lumotlarni olish: 5.1.3.1. Operator tomonidan shaxsiy ma'lumotlarni qayta ishlash faktini tasdiqlash; 5.1.3.2. operator tomonidan qo'llaniladigan shaxsiy ma'lumotlarni qayta ishlashning maqsadlari va usullari; 5.1.3.3. operatorning nomi va joylashgan joyi; 5.1.3.4. shaxsiy ma'lumotlarning tegishli sub'ektiga tegishli qayta ishlangan shaxsiy ma'lumotlar, ularni olish manbasi, agar federal qonunlarda bunday ma'lumotlarni taqdim etishning boshqacha tartibi nazarda tutilgan bo'lmasa; 5.1.3.5. shaxsiy ma'lumotlarni qayta ishlash shartlari, shu jumladan ularni saqlash muddatlari; 5.1.3.6. Rossiya Federatsiyasining amaldagi qonunchiligida nazarda tutilgan boshqa ma'lumotlar. 5.2. Shaxsiy ma'lumotlarni qayta ishlashga rozilikni qaytarib olish Foydalanuvchi tomonidan Operatorga tegishli yozma (moddiy tashuvchida chop etilgan va Foydalanuvchi tomonidan imzolangan) xabarnoma yuborish orqali amalga oshirilishi mumkin. 6. Operatorning majburiyatlari. Shaxsiy ma'lumotlarga kirish 6.1. Operator Operator veb-sayti foydalanuvchilarining shaxsiy ma'lumotlariga ruxsatsiz va maqsadli bo'lmagan kirishning oldini olishni ta'minlash majburiyatini oladi. Bunday holda, Sayt foydalanuvchilarining shaxsiy ma'lumotlariga ruxsat etilgan va maqsadli kirish, Operator saytining maqsadlari va predmeti doirasida amalga oshirilgan barcha manfaatdor shaxslar tomonidan ularga kirish huquqi hisoblanadi. Shu bilan birga, Operator foydalanuvchilarning shaxsiy ma'lumotlaridan quyidagi sabablarga ko'ra yuzaga kelishi mumkin bo'lgan noto'g'ri foydalanish uchun javobgar emas: Operator nazorati ostida bo'lmagan dasturiy ta'minot, apparat va tarmoqlardagi texnik muammolar; Operator veb-saytlaridan uchinchi shaxslar tomonidan maqsadli maqsadlaridan tashqari qasddan yoki qasddan foydalanish bilan bog'liq holda; 6.2 Operator foydalanuvchining shaxsiy ma'lumotlarini ruxsatsiz yoki tasodifiy kirish, yo'q qilish, o'zgartirish, bloklash, nusxalash, tarqatish, shuningdek uchinchi shaxslarning boshqa noqonuniy harakatlaridan himoya qilish uchun zarur va etarli tashkiliy va texnik choralarni ko'radi. 7. Maxfiylik siyosatiga kiritilgan o'zgartirishlar. Amaldagi qonunchilik 7.1. Operator foydalanuvchilarni hech qanday maxsus ogohlantirmasdan ushbu Qoidalarga o'zgartirishlar kiritish huquqiga ega. Joriy nashrga o'zgartirishlar kiritilganda oxirgi yangilanish sanasi ko'rsatiladi. Nizomning yangi tahriri, agar Nizomning yangi tahririda boshqacha qoida nazarda tutilgan bo‘lmasa, nashr etilgan paytdan e’tiboran kuchga kiradi. 7.2. Rossiya Federatsiyasi qonunlari ushbu Nizomga va Foydalanuvchi bilan Operator o'rtasidagi Nizomni qo'llash munosabati bilan yuzaga keladigan munosabatlarga nisbatan qo'llaniladi. Qabul qilaman qabul qilmayman

Biz o'ylagandek noyob emasmiz: bizdan oldin millionlab odamlar hayron bo'lishdi, bizdan keyin esa millionlab odamlar qidiruv tizimini deyarli bir xil savollar bilan hayratda qoldiradilar. Boshqa tomondan, biz juda oldindan aytib bo'lmaydi: bizning so'rovimizni shakllantirishga biz bilmagan juda ko'p omillar ta'sir qiladi. Va hech bo'lmaganda shu sababli, har birimizning iltimosimiz, qanchalik oddiy bo'lmasin, individual yondashuvni talab qiladi.

Aslida, Yandex qidiruv tizimining butun ishi ikkita oddiy narsaga to'g'ri keladi: inson haqiqatan ham nimani bilishni istayotganini tushunish va bir necha soniya ichida Internetdagi milliardlab hujjatlar orasidan moslarini topish.

Barmoq izlarini oling

Qidiruv tizimining operatsion tizimi ma'lum darajada Matrixga o'xshaydi va qidiruv roboti (u tomonidan yaratilgan murakkab, mustaqil qaror qabul qilish dasturi) Agent Smitga o'xshaydi.

Har safar kimdir biror narsani bilishi kerak bo'lganda butun Internetni qidirmaslik uchun qidiruv tizimi ishning bir qismini oldindan bajaradi - minglab qidiruv robotlari yordamida Internetda nima borligini va qaerdaligini tekshiradi. Ular ikki xil bo'ladi: asosiy va tez. Asosiysi Internetni bir butun sifatida ko'rib chiqadi va qayta ishlaydi, tez esa - bir daqiqa yoki hatto bir necha soniya oldin paydo bo'lgan hujjatlar. Robot dasturlarining vazifasi foydalanuvchilar uchun mos va foydali ma'lumotlarni tanlash, ularni qayta ishlash, eskirgan va keraksiz hamma narsani yo'q qilishdir. Bu qaysidir ma'noda axlatni saralashni eslatadi: bir idishda qog'oz, boshqa idishda shisha, uchinchisida plastmassa, to'rtinchisida oziq-ovqat chiqindilari...

Robotlar tomonidan to'plangan ma'lumotlar Internet-cast deb ataladigan tarkibni tashkil qiladi. U minglab Yandex serverlarida saqlanadi va doimiy ravishda yangilanadi. Nugget qanday ma'lumotni qaerdan topish kerakligini aytadigan ro'yxatga o'xshaydi. Ushbu ro'yxatda har bir kalit so'z bir emas, balki millionlab "sahifalar" ga ega. Barcha nugget yangilanishlari foydalanuvchilar uchun mavjud bo'lishini ta'minlash uchun ular ombordan "asosiy qidiruv" ga o'tkaziladi. Asosiy robotdan ma'lumotlar har bir necha kunda, tezkor robotdan esa real vaqtda uzatiladi.

Toza suvga keltiring

TASVIR: EVGENIY TONKONOGY

Tayyorlangan ma'lumotlar bazasida berilgan savolga javob izlashda mashina ikkita asosiy qiyinchilikka duch keladi. Birinchi qiyinchilik - bu til. Savolga javob izlashdan oldin, mashina buni qaysi tilda qilish kerakligini tushunishi muhimdir. Masalan, rus tilida so'zlashuvchi kishi uchun "Knyaz Igorning otryadi" ni qidirish armiya haqidagi ma'lumotlarga ega hujjatlarni topadi va ukrainalik uchun "Knyaz Igorning otryadi" shuningdek, uning rafiqasi malika Olga haqida eslatib o'tgan hujjatlarni qaytaradi. Ukrainada "xotin" - bu "otryad". Va boy rus tilida bir xil so'z yoki uning hosilalari turli xil narsalarni anglatishi mumkin. Masalan, "po'lat" so'zi "po'lat" otining va "bo'l" fe'lining shakllaridan biridir. Ikkinchi qiyinchilik - bu inson psixologiyasi. So'rovni kiritayotganda, so'rov matni mashinaning miyasi ishlaydigan matematik tahlil tamoyillariga mos keladimi yoki yo'qmi, deb tabiiy ravishda tashvishlanmasdan tez va aniq javobni kutamiz. Misol uchun, qidiruv satriga "Napoleon" so'zini kiritish orqali odam nimani olishni xohlaydi: kek retsepti yoki frantsuz imperatorining tarjimai holi, konyak sotib olish yoki psixiatriya shifoxonasining manzilini topish?

Bunday vaziyatlarda bir nechta texnologiyalar o'ynaydi. Qidiruv paneli ostida so'rovingizni belgilaydigan bir nechta maslahatlar berishingiz mumkin. Kabi, kerakli narsani tanlang: Napoleon retseptlari yoki Napoleon - Bonapart. Agar foydalanuvchi mashinaning so'roviga javob bermasa va "Napoleon" ga so'z qo'shmasa, "Spektr" texnologiyasi yordam beradi: yordamga umid qilmasdan, mashina darhol bir nechta toifadagi ma'lumotlarni qidiradi (tort haqida, va imperator haqida va ot haqida). Bundan tashqari, shaxsiylashtirish mexanizmlari foydalanuvchini tushunishga yordam beradi - bu foydalanuvchi bir kun, ikki, uch yoki oy oldin kompyuterda nimani qidirayotgani haqida mashinaning ma'lumoti: agar siz Yandex-ga pishirish haqida tez-tez savollar bersangiz, u holda mashina birinchi navbatda ko'rsatadi. Napoleonning tort ekanligini aytadigan natijalar.

Kombinatsiyalar: qiziqish klublari

Qidiruv tizimining vazifasi shunchaki qidiruv so'rovidan so'z va iboralarni o'z ichiga olgan hujjatlarni tanlash emas. Mashina qaysi hujjatlar bizning qarama-qarshi talablarga javob berishini va nima uchun ularga javob berishini tushunishi kerak. Biz Napoleon keki haqida ma'lumot olishni xohlaymizmi yoki ehtimol biz bir necha yil davomida o'ziga xos nomga ega bo'lgan fitnes klubiga tashrif buyurganmiz yoki hatto past bo'yli odamlarning komplekslari haqida to'liq xavotirdamiz. Qanday bo'lmasin, muammoni hal qilish noaniq yondashuvni talab qiladi.

Yandex qidiruv dasturini yaratuvchilar ushbu yondashuvni tanlash huquqini mashinaga topshirish orqali topdilar. Bir tomondan, ruhsiz, lekin juda tez va aqlli mashina biz haqimizda hech narsani bilmaydi va bilishni xohlamaydi, ikkinchi tomondan, u hamma haqida iloji boricha ko'proq ma'lumot olishga harakat qiladi.

Foydalanuvchining geografik joylashuvi va uning so'rovlarini lingvistik tahlil qilishdan tashqari, qidiruv tizimi odamlarga umuman tushunarli bo'lmagan bir necha ming mezonlardan foydalanadi.

Ayyorlik shundaki, mashina ushbu mezonlarni mustaqil ravishda ishlab chiqadi va yangilaydi.

U shunchaki millionlab odamlarning afzalliklari va foydalanuvchi xatti-harakatlari haqidagi ma'lumotlardan foydalanadi va bu "o'rtacha arifmetik" so'rovlar tarixi bilan bog'lanadi. Matritsani o'zida boshqaradigan, u ishlab chiqqan minglab foydalanuvchilar qiziqishlari toifalarini taqqoslaydigan tamoyillar ko'pincha "manfaatlar" printsipial jihatdan qanday bo'lishi mumkinligi haqidagi an'anaviy insoniy g'oyalarga mos kelmaydi. Ularning o'n minglablari bor. Ular bir-birlari bilan turli xil, ba'zan kulgili kombinatsiyalarni yaratadilar. Misol uchun, ushbu kombinatsiyalardan biri qidiruv natijalari tritsalarni ko'paytiradigan odamning manfaatlariga mos kelishi mumkin. Shu bilan birga, odam nafaqat tritonlarga qiziqadi, balki ularni allaqachon ko'paytiradi, lekin faqat birinchi yil.

Reytinglar. Yordamchi qo'llar

Matritsa, albatta, o'zi (yuqori matematika yordamida) o'n minglab mezonlar asosida foydalanuvchilarga nima va qanday ketma-ketlikda ko'rsatilishi kerakligini hal qiladi. Ammo Matritsa tirik odamlardan ham foydalanadi - 1000 nafar Yandex xodimlari, baholovchilar deb ataladiganlar, ma'lum bir so'rov bo'yicha qidiruv natijalarini baholaydilar (albatta, har bir so'rov baholanmaydi va bu real vaqtda amalga oshirilmaydi) ular talablarga javob beradimi yoki yo'qligini aniqlash uchun. oddiy foydalanuvchining umidlari: mashina kabi oqilona emas, shakllantirishda aniq emas, qarama-qarshi va hissiy.