Ինտերնետ որոնման համակարգեր՝ Yandex, Google, Rambler, Yahoo: Կազմը, գործառույթները, գործողության սկզբունքը: Yandex որոնման համակարգի գործունեության սկզբունքի ամենապարզ նկարագրությունը Համակցություններ. հետաքրքրությունների ակումբներ

Բարև սիրելի ընկերներ: Այս հոդվածում մենք կշարունակենք դիտարկել Yandex որոնողական համակարգը, և ինչպես հիշում եք, նախորդ հոդվածներում մենք քննարկեցինք այս մեծ ընկերության ստեղծման պատմությունը, որն իր մրցակիցների շարքում առաջինն է Ռուսաստանում և նրա սահմաններից դուրս:

Այս ամենը լավ է, բայց սկսնակներին և փորձառու կայքեր ստեղծողներին հետաքրքրում է ամենակարևոր հարցը, իհարկե, կապված այն բանի հետ, թե ինչպես իրենց նախագծերը բերել առաջին տեղերը TOP որոնման արդյունքներում:

Հետևաբար, եկեք տեսնենք, թե ինչպես է աշխատում Yandex որոնիչը, որպեսզի հասկանանք, թե ինչ սխալների վրա կարող եք ոտք դնել, և ընդհանրապես ինչ սպասել ռուսական որոնողական համակարգից:

Վերջին հոդվածում մենք քննարկեցինք. Թեման բավականին հետաքրքիր և օգտակար ստացվեց։ Ուստի որոշեցի, այսպես ասած, լրացնել, խորացնել։

Այսպիսով, ես, հավանաբար, մի փոքր տարվեցի «Ինչու է որոնողական համակարգը ինդեքսավորում փաստաթղթերը» հարցից: Դա անիմաստ է: Մնում է միայն պարզել «ինչպես» հարցը:

Կայքերի վարկանիշավորման ալգորիթմներ

Նախ, եկեք ծանոթանանք որոշ ալգորիթմների, որոնք հիմնարար են ցանկացած որոնման համակարգի համար.

- Ուղղակի որոնման ալգորիթմ:

Ինչ է դա - հիշում եք, որ գրքերից մեկում մի հրաշալի պատմություն կարդացիք: Ու սկսում ես հերթով նայել։ Նրանք վերցրեցին մի գիրք, նայեցին, չգտան, վերցրեցին մյուսը... Սկզբունքը պարզ է, բայց այս մեթոդը չափազանց երկար է։ Սա նույնպես հասկանալի է.

- Հակադարձ որոնման ալգորիթմ:

Այս ալգորիթմի համար ձեր բլոգի յուրաքանչյուր էջից ստեղծվում է տեքստային ֆայլ: Այս ֆայլը այբբենական կարգով թվարկում է ձեր օգտագործած ԲՈԼՈՐ բառերը: Անգամ տեքստում նշված է այս բառի դիրքը (տեքստում կոորդինատները):

Սա բավականին արագ մեթոդ է, բայց որոնումն արդեն տեղի է ունենում որոշակի սխալով:

Հիմնական բանը, որ պետք է այստեղ հասկանալ, այն է, որ այս ալգորիթմը չի որոնում ինտերնետում, ոչ թե բլոգում որոնելով: Եվ առանձին տեքստային ֆայլում, որը ստեղծվել է վաղուց։ Երբ ռոբոտը եկավ ձեզ մոտ: Եվ այս ֆայլերը (հակադարձ ինդեքսները) պահվում են Yandex սերվերներում:

Այսպիսով, սրանք որոնման հիմնական ալգորիթմներն էին: Նրանք. ինչպես Yandex-ը պարզապես գտնում է անհրաժեշտ փաստաթղթերը: Թվում է, թե այս հարցում որևէ խնդիր չպետք է լինի:

Բայց Yandex-ը գիտի ավելի քան մեկ կամ նույնիսկ 100 փաստաթուղթ, բայց իմ աղբյուրների վերջին տվյալների համաձայն, Yandex-ը գիտի մոտ 11 միլիարդ փաստաթուղթ (10,727,736,489 էջ):

Եվ այս ամբողջ քանակի մեջ պետք է ընտրել պահանջին համապատասխանող փաստաթղթեր: Եվ ավելի կարևոր է, որ դուք պետք է ինչ-որ կերպ դասավորեք դրանք: Նրանք. դասավորել ըստ կարևորության, ավելի ճիշտ՝ ըստ ընթերցողի օգտակարության աստիճանի։

Մաթեմատիկական որոնման մոդելներ

Այս հարցը լուծելու համար օգնության են հասնում մաթեմատիկական մոդելները։ Այժմ մենք կխոսենք ամենապարզ մոդելների մասին:

Բուլյան մաթեմատիկական մոդել– Եթե փաստաթղթում բառ է հայտնվում, փաստաթուղթը համարվում է գտնված: Պարզապես պատահականություն և ոչ մի բարդ բան:

Բայց այստեղ խնդիրներ կան։ Օրինակ, եթե դուք, որպես օգտատեր, մուտքագրեք ինչ-որ հայտնի բառ, կամ ավելի լավ՝ «v» նախադասությունը, որն ամենահաճախ հանդիպող բառն է ռուսերենում և հանդիպում է ԱՄԵՆ փաստաթղթում, ապա ձեզ այդքան շատ արդյունքներ կտան։ որ նման թիվ անգամ չգիտես, Քանի՞ փաստաթուղթ ես գտել։ Հետեւաբար, հայտնվեց հետեւյալ գորգի մոդելը.

Վեկտորային մաթեմատիկական մոդել– այս մոդելը որոշում է փաստաթղթի «կշիռը»: Ոչ միայն զուգադիպությունը տեղի է ունենում, այլեւ բառը պետք է մի քանի անգամ հնչի։ Ընդ որում, որքան շատ է հայտնվում բառը, այնքան բարձր է համապատասխանությունը (համապատասխանությունը):

Դա վեկտորային մոդելն է, որն օգտագործում են ԲՈԼՈՐ որոնողական համակարգերը:

Հավանական մոդել- ավելի բարդ: Սկզբունքը սա է՝ որոնիչն ինքն է գտել էջի կաղապարը։ Օրինակ, դուք տեղեկատվություն եք փնտրում Yandex-ի պատմության մասին: Yandex-ը պահպանում է ինչ-որ ստանդարտ, ասենք, սա կլինի իմ նախորդ հոդվածը Yandex-ի մասին:

Իսկ մնացած բոլոր փաստաթղթերը նա կհամեմատի այս հոդվածի հետ։ Եվ այստեղ տրամաբանությունը հետևյալն է. որքան ավելի նման է ձեր բլոգի էջը իմ հոդվածին, այնքան ԱՎԵԼԻ ՀԱՎԱՆԱԿԱՆ է այն փաստը, որ ձեր բլոգի էջը նույնպես օգտակար կլինի ընթերցողին և պատմում է Yandex-ի պատմության մասին:

Փաստաթղթերի քանակը նվազեցնելու համար, որոնք պետք է ցուցադրվեն օգտագործողին, ներդրվեց համապատասխանության հայեցակարգը, այսինքն. համապատասխանությունը.

Որքանո՞վ է ձեր բլոգի էջը համապատասխան թեմային: Սա կարևոր թեմա է, երբ խոսքը վերաբերում է որոնման որակին:

Գնահատողներ. ովքե՞ր են նրանք և ինչի համար են պատասխանատու.

Այս համապատասխանությունն անհրաժեշտ է նաև ալգորիթմների որակը գնահատելու համար:

Այդ նպատակով կա հատուկ նշանակության ուժերի շտաբ՝ դրանք կոչվում են գնահատողներ: Սրանք հատուկ մարդիկ են, ովքեր իրենց ձեռքերով նայում են որոնման արդյունքները:

Նրանք հրահանգներ ունեն, թե ինչպես ստուգել կայքերը, ինչպես գնահատել և այլն: Եվ նրանք ձեռքով որոշում են՝ արդյոք ձեր էջերը հարմար են որոնման հարցումների համար, թե ոչ:

Իսկ որոնման ալգորիթմների որակը կախված է գնահատողների կարծիքից։ Եթե ​​բոլոր գնահատողները ասում են, որ որոնման արդյունքները չեն համապատասխանում հարցումներին, դա նշանակում է, որ վարկանիշային ալգորիթմը սխալ է, և մեղավորը միայն Yandex-ն է։

Եթե ​​գնահատողները ասում են, որ միայն մեկ կայք չի բավարարում խնդրանքը, դա նշանակում է, որ կայքը թռչում է ինչ-որ հեռու և իջնում ​​է որոնման արդյունքներում։ Ավելի ճիշտ, ոչ թե ամբողջ կայքը, այլ միայն մեկ հոդված, բայց սա «իմաստը չէ»:

Իհարկե, գնահատողները չեն կարող ձեռքով ու աչքերով վերանայել և գնահատել ԲՈԼՈՐ հոդվածները։ Սա հասկանալի է։

Եվ այլ պարամետրեր, որոնցով էջերը դասակարգվում են, օգնության են հասնում:

Դրանք շատ են, օրինակ.

  • էջի քաշը (vIC, PageRank, մանկական բշտիկներՎերջիվերջո);
  • տիրույթի հեղինակություն;
  • տեքստի համապատասխանությունը խնդրանքին.
  • արտաքին հղման տեքստերի համապատասխանությունը հարցմանը.
  • ինչպես նաև շատ այլ վարկանիշային գործոններ:

Գնահատողները մեկնաբանություններ են անում, իսկ մարդիկ, ովքեր պատասխանատու են մաթեմատիկական վարկանիշավորման մոդելի ստեղծման համար, իրենց հերթին խմբագրում են բանաձևը, ինչի արդյունքում որոնիչն ավելի արդյունավետ է աշխատում։

Բանաձևի կատարողականը գնահատելու հիմնական չափանիշները.

1. Որոնման արդյունքների ճշգրտություն- խնդրանքին համապատասխանող փաստաթղթերի տոկոսը (համապատասխան): Նրանք. Որքան քիչ էջեր, որոնք չեն համապատասխանում խնդրանքին, այնքան լավ:

2. Որոնողական համակարգի արդյունքների ամբողջականությունը- սա տվյալ հարցման համար համապատասխան վեբ էջերի հարաբերակցությունն է հավաքածուի համապատասխան փաստաթղթերի ընդհանուր թվին (որոնողական համակարգում հայտնաբերված էջերի ամբողջությունը):

Օրինակ, եթե ամբողջ հավաքածուում ավելի շատ համապատասխան էջեր կան, քան որոնման արդյունքներում, դա նշանակում է, որ արդյունքները թերի են։ Դա տեղի է ունեցել, քանի որ համապատասխան վեբ էջերից մի քանիսը զտվել են:

3. Որոնողական համակարգի արդյունքների համապատասխանությունը- սա վեբ էջի համապատասխանությունն է հատվածում գրվածին: Օրինակ, փաստաթուղթը կարող է շատ տարբեր լինել կամ ընդհանրապես գոյություն չունենա, բայց այնուամենայնիվ առկա լինի որոնման արդյունքներում:

Որոնման արդյունքների համապատասխանությունը ուղղակիորեն կախված է նրանից, թե որքան հաճախ է որոնող ռոբոտը սկանավորում իր հավաքածուի փաստաթղթերը:

Հավաքածուի հավաքագրումը (կայքի էջերի ինդեքսավորումը) իրականացվում է հատուկ ծրագրով՝ որոնման ռոբոտով։

Որոնման ռոբոտը ստանում է ինդեքսավորման հասցեների ցանկ, պատճենում է դրանք, այնուհետև պատճենված վեբ էջերի բովանդակությունը ուղարկում է մշակման ալգորիթմի, որը դրանք վերածում է հակադարձ ինդեքսների:

Դե, «մի խոսքով», այսպես ասած, մենք քննարկեցինք որոնման համակարգի սկզբունքները:

Ամփոփենք.

  1. Որոնող ռոբոտը գալիս է ձեր բլոգ:
  2. Որոնման ռոբոտը պահպանում է էջի հակադարձ ինդեքսը հետագա որոնումների համար:
  3. Օգտագործելով մաթեմատիկական մոդել՝ փաստաթուղթը մշակվում և ցուցադրվում է որոնման արդյունքներում՝ օգտագործելով բանաձևեր և հաշվի առնելով գնահատողի կարծիքը:

Սա շատ, շատ պարզեցված է: Պարզապես հիմնական պատկերացում կազմելու համար, թե ինչպես է աշխատում Yandex որոնման համակարգը:

Ես հիմա այնքան տեքստ եմ գրել, և գուցե այդքանը պարզ չէ: Ուստի առաջարկում եմ մի փոքր ուշ վերադառնալ այս հոդվածին և դիտել այս տեսանյութը։

Սա հիանալի ուղեցույց է, որից ես նույնպես ժամանակին սովորել եմ:

Հուսով եմ, որ այս տեղեկատվությունը կօգնի ձեզ ավելի լավ հասկանալ, թե ինչու է ձեր կայքերից մեկը համապատասխան դիրքեր զբաղեցնում որոնումների մեջ և ամեն ինչ կանի դրանք բարելավելու համար:

Սրանով ես հրաժեշտ եմ տալիս ձեզ, եթե հարցեր ունեք, ես միշտ ուրախ եմ պատասխանել դրանց մեկնաբանություններում: Կամ գուցե ցանկանում եք ավելացնել հոդվածը:

Ամեն դեպքում արտահայտեք ձեր կարծիքը։ !

Yandex-ն այսօր Ռուսաստանում ամենահայտնի որոնողական համակարգն է: Ծառայությունների վիճակագրություն LiveInternet, ցույց է տալիս Yandex-ի մասնաբաժինը համառուսաստանյան լսարանի զանգվածում՝ այն կազմում է 53,4%, եթե հաշվի առնենք միայն Մոսկվան և տարածաշրջանը, ապա այն էլ ավելի բարձր է՝ 67,9% (Մոսկվան, ըստ խնդրանքների, զբաղեցնում է ավելի քան. Ամբողջ Ռուսաստանի 50%-ը):

www.yandex.ru կայքը ստեղծվել է 1997 թվականին, դրա համար բավական էր միայն մեկ սերվեր, որը կանգնած էր Yandex-ի առաջին ծրագրավորողների խմբից մեկի՝ Դմիտրիի, ում ազգանունը Թեյբլյում էր, աշխատասեղանի տակ։ Բացելուց շատ արագ, մենք գնեցինք երկրորդ սերվերը, և շուտով, երբ հարկ եղավ տեղադրել ևս մեկը, պարզ դարձավ, որ սեղանի տակ բավականաչափ տեղ կա կամ երեք Yandex սերվերների, կամ […]

Որոնման համակարգերի մշակողները ձգտում են օգտատերերին տրամադրել իրենց հարցումներին լավագույն պատասխանները: Երբեմն նման պատասխանը կարող է լինել թիվը (օրինակ՝ քաղաքի եղանակը), նկարը (օրինակ՝ հասցեն քարտեզի վրա), բառի թարգմանությունը կամ քառատողը։ Երբ ձեռքի տակ ունեք տեղեկատվության համապատասխան զանգված, պատասխանը կարող է անմիջապես տրվել: Հետևաբար, Yandex-ը լրացնում է ինտերնետի որոնման արդյունքները իր […]

Մոտավորապես յուրաքանչյուր տասներորդ հարցումը Yandex-ին «նավիգացիոն» է, այսինքն՝ այն բաղկացած է կազմակերպության կամ կայքի անունից, և օգտատերը ցանկանում է գնալ այս կազմակերպության կայք: Այս դեպքում բրաուզերի հասցեի տողի փոխարեն օգտագործվում է Yandex որոնման տողը, և օգտագործողին, որպես կանոն, չի հետաքրքրում մնացած ինը որոնման արդյունքները: Չշեղելով օգտատիրոջ ուշադրությունը հիմնական նպատակից՝ մենք ավելացրել ենք հիմնական […]

Որոնողական համակարգի հիմնական խնդիրը օգտատիրոջ հարցին պատասխանելն է։ Երբ օգտատերը հարցում է տալիս, որոնողական համակարգը չի մուտք գործում ինտերնետի բոլոր կայք, այլ որոնում է իրեն հայտնի էջերի տվյալների բազայի միջոցով՝ որոնման ինդեքսը: Այնտեղ նա գտնում է հարցման բառերով բոլոր էջերը: Օգտագործողը որոնման արդյունքների էջերում տեսնում է այս էջերի հղումները:

Ինչպես տեսնում ենք, Yandex-ը տեղում չի կանգնում, և ես վստահ եմ, որ այս համակարգի որոնման տեխնոլոգիաները կշարունակեն զարգանալ որոնման որակը բարելավելու համար, ինչը դժվար թե կարելի է դեռ իդեալական անվանել։

2009 թվականի նոյեմբերի 10-ին Yandex-ը հայտարարեց որոնման ալգորիթմի նոր տարբերակը՝ Սնեժինսկ: Հիմնարար փոփոխություններ են տեղի ունեցել համապատասխանության հաշվարկման ալգորիթմում. Yandex-ի ներկայացուցիչները գրել են հետևյալը. «Մեզ հաջողվեց ստեղծել ավելի ճշգրիտ և շատ ավելի բարդ մաթեմատիկական մոդել, ինչը հանգեցրեց որոնման որակի զգալի աճին: Որոնման վարկանիշային ճարտարապետության վերանախագծման շնորհիվ հնարավոր եղավ իրականացնել մի քանի հազար [...]

Yandex ալգորիթմի նոր տարբերակի փորձարկումը սկսվել է 2008 թվականի հուլիսի 9-ին։ Ըստ Yandex-ի՝ «ծրագրի հիմնական փոփոխությունները կապված են մեքենայական ուսուցման նոր մոտեցման հետ, և, որպես հետևանք, բանաձևում հաշվի առնելով վարկանիշային գործոնների տարբերությունները»:

2008 թվականի ապրիլի 14-ին «Magadan» որոնման նոր ալգորիթմը սկսեց փորձարկվել buki.yandex.ru կայքում: Վարկանիշային գործոնների թիվը կրկնապատկելուց բացի ավելացվել են նաև հետևյալ նորամուծությունները.

Նախքան ալգորիթմական ջունգլիներ մտնելը, եկեք հիշենք, թե ինչպես է աշխատում որոնման համակարգը ընդհանրապես: Որոնման համակարգի տրամաբանական կառուցվածքը կարող է ներկայացվել երեք մոդուլների տեսքով (տես գծապատկեր): Ռոբոտը հատուկ ժամանակացույց ունի, ըստ որի նա իրականացնում է իր ռաունդները։ Կայքի էջերը բեռնված են ռոբոտի կողմից, հատուկ [...]

66. Ի՞նչն է ավելի շատ ազդեցություն ունենում՝ հղումն անվճար հարթակից (blogspot, LJ և այլն), թե՞ օֆլայն կայքից/բլոգից: Անվճար հարթակները ավելի քիչ քաշ են փոխանցում, քան ինքնուրույն կայքերը: Այնուամենայնիվ, ազդեցությունը կարող է ավելի մեծ լինել: Դա պայմանավորված է բազմաթիվ գործոններով. ներկայիս խարիսխների ցանկը, համեմատվող կայքերի վիճակը և այլն: Այս հարցին միանշանակ պատասխան տալն անհնար է: 67. Ամենամեծ քաշը փոխանցվում է […]

Vamana Tour - ճանապարհորդություն, ավիատոմսեր և վիզաներ ամբողջ աշխարհում և դեպի Հնդկաստան, Նեպալ, Շրի Լանկա, Մալդիվներ, Մավրիկիոս և մոլորակի շատ այլ վայրեր: Խորհուրդ ճանապարհորդներին և ուխտավորներին. Ինչպես առավելագույն օգուտ քաղել ձեր ճանապարհորդությունից: Զարմանալի պատմական տարեգրություններ և փորձառու ճանապարհորդների պատմություններ:

Ո՞րն է կայքի արտաքին հղումները հաշվի առնելու նպատակը Ինչպես երևում է նախորդ բաժնից, վարկանիշի վրա ազդող գրեթե բոլոր գործոնները գտնվում են էջի հեղինակի վերահսկողության ներքո: Այսպիսով, որոնման համակարգի համար անհնար է դառնում տարբերակել իսկապես բարձրորակ փաստաթուղթը հատուկ տվյալ որոնման արտահայտության համար ստեղծված էջից կամ նույնիսկ ռոբոտի կողմից ստեղծված էջից, որն ընդհանրապես օգտակար տեղեկատվություն չի պարունակում: […]

Նրանք վաղուց դարձել են ռուսական ինտերնետի անբաժանելի մասը։ Որոնողական համակարգերն այժմ հսկայական և բարդ մեխանիզմներ են, որոնք ներկայացնում են ոչ միայն տեղեկատվության որոնման գործիք, այլև բիզնեսի համար գայթակղիչ ոլորտներ:

Որոնողական համակարգերի օգտատերերի մեծ մասը երբեք չի մտածել (կամ մտածել դրա մասին, բայց չի գտել պատասխան) ​​որոնիչների աշխատանքի սկզբունքի, օգտագործողների հարցումների մշակման սխեմայի մասին, թե ինչից են բաղկացած այդ համակարգերը և ինչպես են դրանք գործում...

Այս վարպետության դասը նախատեսված է պատասխանելու այն հարցին, թե ինչպես են աշխատում որոնման համակարգերը: Այնուամենայնիվ, այստեղ դուք չեք գտնի գործոններ, որոնք ազդում են փաստաթղթերի վարկանիշի վրա: Ավելին, պետք չէ հույս դնել Yandex ալգորիթմի մանրամասն բացատրության վրա: Նրան, ըստ Yandex որոնողական համակարգի տեխնոլոգիաների և զարգացման տնօրեն Իլյա Սեգալովիչի, կարող է «տանջված» ճանաչել միայն ինքը՝ Իլյա Սեգալովիչը...

2. Որոնողական համակարգի հայեցակարգը և գործառույթները

Որոնման համակարգը ծրագրային և ապարատային համալիր է, որը նախատեսված է ինտերնետում որոնելու և օգտվողի հարցումին պատասխանելու համար, որը նշված է տեքստային արտահայտության (որոնման հարցում) տեսքով՝ ստեղծելով տեղեկատվության աղբյուրների հղումների ցանկ՝ ըստ համապատասխանության ( խնդրանքին համապատասխան): Ամենամեծ միջազգային որոնման համակարգերը. «Google», Yahoo , MSN . Ռուսական ինտերնետում դրանք Yandex, Rambler, Aport են:

Եկեք ավելի սերտ նայենք որոնման հարցման հայեցակարգին, օգտագործելով Yandex որոնման համակարգը, որպես օրինակ: Որոնման հարցումը պետք է օգտագործողի կողմից ձևակերպվի ըստ այն, ինչ նա ցանկանում է գտնել, հնարավորինս կարճ և պարզ: Ենթադրենք, ուզում ենք Yandex-ում տեղեկատվություն գտնել, թե ինչպես ընտրել մեքենա: Դա անելու համար բացեք Yandex-ի գլխավոր էջը և մուտքագրեք «ինչպես ընտրել մեքենա» որոնման հարցման տեքստը: Այնուհետև մեր խնդիրն է բացել մեր խնդրանքով տրամադրված հղումները ինտերնետում տեղեկատվության աղբյուրներին: Այնուամենայնիվ, միանգամայն հնարավոր է, որ մենք չգտնենք մեզ անհրաժեշտ տեղեկատվությունը։ Եթե ​​դա տեղի ունենա, ապա կամ դուք պետք է վերաձևակերպեք ձեր հարցումը, կամ որոնման համակարգի տվյալների բազան իսկապես չունի որևէ համապատասխան տեղեկատվություն մեր հարցման վերաբերյալ (դա կարող է տեղի ունենալ շատ «նեղ» հարցումներ կատարելիս, օրինակ՝ «ինչպես ընտրել» մեքենա Արխանգելսկում»)

Ցանկացած որոնման համակարգի առաջնային նպատակն է մարդկանց տրամադրել հենց այն տեղեկատվությունը, որը նրանք փնտրում են: Եվ սովորեցրեք օգտվողներին «ճիշտ» հարցումներ կատարել համակարգին, այսինքն. Որոնողական համակարգերի գործառնական սկզբունքներին համապատասխանող հարցումներն անհնարին են: Հետևաբար, մշակողները որոնողական համակարգերի համար ստեղծում են ալգորիթմներ և գործառնական սկզբունքներ, որոնք թույլ կտան օգտվողներին գտնել իրենց փնտրած տեղեկատվությունը:

Սա նշանակում է, որ որոնման համակարգը պետք է «մտածի» նույն կերպ, ինչպես մտածում է օգտատերը տեղեկատվություն փնտրելիս: Երբ օգտատերը հարցում է անում որոնման համակարգին, նա ցանկանում է հնարավորինս արագ և հեշտությամբ գտնել այն, ինչ իրեն պետք է: Ստանալով արդյունքը՝ նա գնահատում է համակարգի աշխատանքը՝ առաջնորդվելով մի քանի հիմնական պարամետրերով։ Նա գտավ այն, ինչ փնտրում էր: Եթե ​​նա չգտավ այն, քանի՞ անգամ պետք է վերաձեւակերպեր հարցումը՝ գտնելու այն, ինչ փնտրում էր: Որքա՞ն համապատասխան տեղեկատվություն նա կարող էր գտնել: Որքա՞ն արագ է որոնման համակարգը մշակել հարցումը: Որքանո՞վ էին հարմար որոնման արդյունքները ներկայացված: Ձեր փնտրած արդյունքը առաջինն էր, թե՞ հարյուրերորդը: Ինչքա՞ն ավելորդ աղբ է հայտնաբերվել օգտակար տեղեկատվության հետ մեկտեղ. Արդյո՞ք անհրաժեշտ տեղեկատվությունը կգտնվի որոնման համակարգ մուտք գործելիս, ասենք, մեկ շաբաթից, թե՞ մեկ ամսից:

Այս բոլոր հարցերը պատասխաններով բավարարելու համար որոնման համակարգերի մշակողները մշտապես բարելավում են որոնման ալգորիթմներն ու սկզբունքները, ավելացնում նոր գործառույթներ և հնարավորություններ և ամեն կերպ փորձում արագացնել համակարգի աշխատանքը:

3. Որոնողական համակարգի հիմնական բնութագրերը

Եկեք նկարագրենք որոնման համակարգերի հիմնական բնութագրերը.

  • Ամբողջականություն

    Ամբողջականությունը որոնման համակարգի հիմնական բնութագրիչներից մեկն է, որը հարցման միջոցով հայտնաբերված փաստաթղթերի քանակի հարաբերակցությունն է ինտերնետում տվյալ հարցումը բավարարող փաստաթղթերի ընդհանուր թվին: Օրինակ, եթե ինտերնետում կա 100 էջ, որտեղ կա «ինչպես ընտրել մեքենա» արտահայտությունը, և դրանցից միայն 60-ն է գտնվել համապատասխան հարցման համար, ապա որոնման ամբողջականությունը կլինի 0,6: Ակնհայտ է, որ որքան ամբողջական որոնումը, այնքան քիչ հավանական է, որ օգտատերը չի գտնի իրեն անհրաժեշտ փաստաթուղթը՝ պայմանով, որ այն ընդհանրապես գոյություն ունի ինտերնետում։

  • Ճշգրտություն

    Ճշգրտությունը որոնման համակարգի ևս մեկ հիմնական հատկանիշ է, որը որոշվում է հայտնաբերված փաստաթղթերի օգտագործողի հարցմանը համապատասխանելու աստիճանով: Օրինակ, եթե «ինչպես ընտրել մեքենա» հարցումը պարունակում է 100 փաստաթուղթ, դրանցից 50-ը պարունակում է «ինչպես ընտրել մեքենա» արտահայտությունը, իսկ մնացածը պարզապես պարունակում է այս բառերը («ինչպես ընտրել ճիշտ ռադիոն և տեղադրել այն. մեքենա»), ապա որոնման ճշգրտությունը համարվում է հավասար 50/100 (=0,5): Որքան ճշգրիտ լինի որոնումը, այնքան օգտվողն ավելի արագ կգտնի իրեն անհրաժեշտ փաստաթղթերը, այնքան քիչ կհայտնաբերվեն տարբեր տեսակի «աղբ» դրանց մեջ, այնքան քիչ հաճախ հայտնաբերված փաստաթղթերը չեն համապատասխանի պահանջին:

  • Համապատասխանություն

    Համապատասխանությունը որոնման նույնքան կարևոր բաղադրիչ է, որը բնութագրվում է այն ժամանակով, որն անցնում է այն պահից, երբ փաստաթղթերը հրապարակվում են ինտերնետում, մինչև դրանք մուտքագրվում են որոնման համակարգի ինդեքսների տվյալների բազա: Օրինակ՝ հետաքրքիր լուրերի հայտնվելու հաջորդ օրը մեծ թվով օգտատերեր դիմել են որոնման համակարգերին՝ համապատասխան հարցումներով։ Օբյեկտիվորեն մեկ օրից էլ քիչ ժամանակ է անցել այս թեմայով լրատվական տեղեկատվության հրապարակումից, սակայն հիմնական փաստաթղթերն արդեն ինդեքսավորվել և հասանելի են որոնման համար՝ շնորհիվ խոշոր որոնողական համակարգերի, այսպես կոչված, «արագ տվյալների բազայի» գոյության, որը. թարմացվում է օրական մի քանի անգամ:

  • Որոնման արագություն

    Որոնման արագությունը սերտորեն կապված է դրա բեռի դիմադրության հետ: Օրինակ, Rambler Internet Holding LLC-ի տվյալներով՝ այսօր աշխատանքային ժամերին Rambler որոնողական համակարգը վայրկյանում մոտ 60 հարցում է ստանում։ Նման ծանրաբեռնվածությունը պահանջում է կրճատել անհատական ​​հարցումների մշակման ժամանակը: Այստեղ օգտատիրոջ և որոնման համակարգի շահերը համընկնում են. այցելուն ցանկանում է հնարավորինս արագ արդյունքներ ստանալ, և որոնիչը պետք է հնարավորինս արագ մշակի հարցումը, որպեսզի չդանդաղեցնի հետագա հարցումների հաշվարկը:

  • Տեսանելիություն

4. Որոնողական համակարգերի զարգացման համառոտ պատմություն

Համացանցի զարգացման սկզբնական շրջանում նրա օգտատերերի թիվը փոքր էր, իսկ հասանելի տեղեկատվության քանակը՝ համեմատաբար փոքր։ Մեծ մասամբ միայն հետազոտող անձնակազմն ուներ ինտերնետ մուտք գործել: Այս պահին ինտերնետում տեղեկատվություն փնտրելու խնդիրն այնքան հրատապ չէր, որքան հիմա:

Ցանցային տեղեկատվական ռեսուրսների հասանելիությունը կազմակերպելու առաջին ուղիներից մեկը կայքերի բաց գրացուցակների ստեղծումն էր, ռեսուրսների հղումները, որոնցում խմբավորված էին ըստ թեմայի: Առաջին նման նախագիծը Yahoo.com կայքն էր, որը բացվեց 1994 թվականի գարնանը։ Այն բանից հետո, երբ կատալոգում կայքերի թիվը զգալիորեն ավելացավ, ավելացվեց կատալոգում անհրաժեշտ տեղեկատվության որոնման հնարավորությունը: Ամբողջական իմաստով այն դեռ որոնողական համակարգ չէր, քանի որ որոնման տարածքը սահմանափակվում էր միայն կատալոգում առկա ռեսուրսներով, և ոչ բոլոր ինտերնետային ռեսուրսներով:

Հղման դիրեկտորիաները նախկինում լայնորեն օգտագործվում էին, բայց ներկայումս գրեթե ամբողջությամբ կորցրել են իրենց ժողովրդականությունը: Քանի որ նույնիսկ ժամանակակից կատալոգները, հսկայական ծավալով, տեղեկատվություն են պարունակում ինտերնետի միայն չնչին մասի մասին: DMOZ ցանցի ամենամեծ գրացուցակը (նաև կոչվում է Open Directory Project) պարունակում է տեղեկատվություն 5 միլիոն ռեսուրսների մասին, մինչդեռ Google որոնման համակարգի տվյալների բազան բաղկացած է ավելի քան 8 միլիարդ փաստաթղթերից:

1995 թվականին հայտնվեցին Lycos և AltaVista որոնողական համակարգերը։ Վերջինս երկար տարիներ առաջատար է համացանցում տեղեկատվության որոնման ոլորտում։

1997 թվականին Սերգեյ Բրինը և Լարի Փեյջը ստեղծեցին Google որոնողական համակարգը՝ որպես Սթենֆորդի համալսարանի հետազոտական ​​նախագծի մի մաս: Google-ը ներկայումս ամենահայտնի որոնողական համակարգն է աշխարհում:

1997 թվականի սեպտեմբերին պաշտոնապես հայտարարվեց Yandex որոնման համակարգը, որն ամենահայտնին է ռուսալեզու ինտերնետում։

Ներկայումս կան երեք հիմնական որոնման համակարգեր (միջազգային)՝ Google, Yahoo և, որոնք ունեն իրենց տվյալների բազաները և որոնման ալգորիթմները։ Այլ որոնողական համակարգերի մեծ մասը (որոնցից շատերը կան) այս կամ այն ​​ձևով օգտագործում են թվարկված երեքի արդյունքները: Օրինակ, AOL որոնումը (search.aol.com) օգտագործում է Google տվյալների բազան, մինչդեռ AltaVista, Lycos-ը և AllTheWeb-ն օգտագործում են Yahoo տվյալների բազան:

5. Որոնման համակարգի կազմը և գործունեության սկզբունքները

Ռուսաստանում հիմնական որոնողական համակարգը Yandex-ն է, որին հաջորդում են Rambler.ru-ն, Google.ru-ն, Aport.ru-ն, Mail.ru-ն: Ավելին, այս պահին Mail.ru-ն օգտագործում է Yandex որոնման համակարգը և տվյալների բազան։

Գրեթե բոլոր խոշոր որոնման համակարգերն ունեն իրենց կառուցվածքը՝ տարբերվող մյուսներից: Այնուամենայնիվ, հնարավոր է բացահայտել բոլոր որոնման համակարգերի համար ընդհանուր հիմնական բաղադրիչները: Կառուցվածքային տարբերությունները կարող են լինել միայն այդ բաղադրիչների փոխազդեցության մեխանիզմների իրականացման տեսքով:

Ինդեքսավորման մոդուլ

Ինդեքսավորման մոդուլը բաղկացած է երեք օժանդակ ծրագրերից (ռոբոտներ).

Spider-ը վեբ էջեր ներբեռնելու համար նախատեսված ծրագիր է: Սարդը ներբեռնում է էջը և առբերում այդ էջից բոլոր ներքին հղումները։ Յուրաքանչյուր էջի html կոդը ներբեռնվում է: Ռոբոտներն օգտագործում են HTTP արձանագրություններ՝ էջերը ներբեռնելու համար: Սարդն աշխատում է հետևյալ կերպ. Ռոբոտը սերվերին ուղարկում է «get/path/document» հարցումը և որոշ այլ HTTP հարցումների հրամաններ: Ի պատասխան՝ ռոբոտը ստանում է տեքստային հոսք, որը պարունակում է ծառայության տեղեկատվություն և հենց փաստաթուղթը:

  • Էջի URL
  • էջը ներբեռնելու ամսաթիվը
  • Սերվերի պատասխան http վերնագիր
  • էջի մարմին (html կոդ)

Crawler-ը («ճանապարհորդող» սարդ) ծրագիր է, որն ավտոմատ կերպով հետևում է էջի բոլոր հղումներին: Ընտրում է էջում առկա բոլոր հղումները: Նրա խնդիրն է որոշել, թե ուր պետք է գնա սարդը հաջորդը՝ հիմնվելով հղումների կամ հասցեների նախապես որոշված ​​ցանկի վրա: Crawler-ը, հետևելով գտնված հղումներին, որոնում է նոր փաստաթղթեր, որոնք դեռևս անհայտ են որոնման համակարգին:

Indexer-ը (ռոբոտի ինդեքսատոր) ծրագիր է, որը վերլուծում է սարդերի կողմից ներբեռնված վեբ էջերը։ Ինդեքսատորը վերլուծում է էջը իր բաղադրիչ մասերի և վերլուծում դրանք՝ օգտագործելով իր սեփական բառաբանական և ձևաբանական ալգորիթմները: Վերլուծվում են էջի տարբեր տարրեր, ինչպիսիք են տեքստը, վերնագրերը, հղումները, կառուցվածքային և ոճային առանձնահատկությունները, հատուկ ծառայության HTML թեգերը և այլն:

Այսպիսով, ինդեքսավորման մոդուլը թույլ է տալիս սողալ ռեսուրսների որոշակի փաթեթ՝ օգտագործելով հղումներ, ներբեռնել հանդիպած էջերը, ստացված փաստաթղթերից նոր էջերի հղումներ հանել և կատարել այդ փաստաթղթերի ամբողջական վերլուծություն:

Տվյալների բազա

Տվյալների բազան կամ որոնման համակարգի ինդեքսը տվյալների պահպանման համակարգ է, տեղեկատվական զանգված, որտեղ պահվում են ինդեքսավորման մոդուլի կողմից ներբեռնված և մշակված բոլոր փաստաթղթերի հատուկ փոխակերպված պարամետրերը:

Որոնման սերվեր

Որոնման սերվերը ամբողջ համակարգի ամենակարևոր տարրն է, քանի որ որոնման որակն ու արագությունը ուղղակիորեն կախված են դրա գործունեության հիմքում ընկած ալգորիթմներից:

Որոնման սերվերը աշխատում է հետևյալ կերպ.

  • Օգտագործողից ստացված հարցումը ենթարկվում է մորֆոլոգիական վերլուծության: Տվյալների բազայում պարունակվող յուրաքանչյուր փաստաթղթի տեղեկատվական միջավայրը ստեղծվում է (որը հետագայում կցուցադրվի ձևով, այսինքն՝ որոնման արդյունքների էջում խնդրանքին համապատասխանող տեքստային տեղեկատվություն):
  • Ստացված տվյալները որպես մուտքային պարամետրեր փոխանցվում են հատուկ վարկանիշային մոդուլին: Տվյալները մշակվում են բոլոր փաստաթղթերի համար, ինչի արդյունքում յուրաքանչյուր փաստաթուղթ ունի իր վարկանիշը, որը բնութագրում է օգտագործողի կողմից մուտքագրված հարցման համապատասխանությունը և որոնման համակարգի ինդեքսում պահվող այս փաստաթղթի տարբեր բաղադրիչները:
  • Կախված օգտագործողի ընտրությունից, այս վարկանիշը կարող է ճշգրտվել լրացուցիչ պայմաններով (օրինակ, այսպես կոչված, «ընդլայնված որոնում»):
  • Այնուհետև ստեղծվում է հատված, այսինքն՝ յուրաքանչյուր հայտնաբերված փաստաթղթի համար վերնագիրը, հարցմանը լավագույնս համապատասխանող կարճ համառոտագիր և հենց փաստաթղթի հղումը հանվում են փաստաթղթերի աղյուսակից, և ընդգծվում են գտնված բառերը:
  • Ստացված որոնման արդյունքները փոխանցվում են օգտագործողին SERP-ի (Search Engine Result Page) տեսքով՝ որոնման արդյունքների էջ:

Ինչպես տեսնում եք, այս բոլոր բաղադրիչները սերտորեն կապված են միմյանց հետ և աշխատում են փոխազդեցության մեջ՝ ձևավորելով որոնման համակարգի գործունեության հստակ, բավականին բարդ մեխանիզմ, որը պահանջում է հսկայական ռեսուրսներ:

6. Եզրակացություն

Այժմ ամփոփենք վերը նշված բոլորը:

  • Ցանկացած որոնման համակարգի առաջնային նպատակն է մարդկանց տրամադրել հենց այն տեղեկատվությունը, որը նրանք փնտրում են:
  • Որոնման համակարգերի հիմնական բնութագրերը.
    1. Ամբողջականություն
    2. Ճշգրտություն
    3. Համապատասխանություն
    4. Որոնման արագություն
    5. Տեսանելիություն
  • Առաջին լիարժեք որոնողական համակարգը WebCrawler նախագիծն էր, որը հրապարակվել է 1994 թվականին։
  • Որոնման համակարգը ներառում է հետևյալ բաղադրիչները.
    1. Ինդեքսավորման մոդուլ
    2. Տվյալների բազա
    3. Որոնման սերվեր

Հուսով ենք, որ մեր վարպետության դասը թույլ կտա ձեզ ավելի լավ ծանոթանալ որոնման համակարգի հայեցակարգին և ավելի լավ հասկանալ որոնման համակարգերի հիմնական գործառույթները, բնութագրերը և գործառնական սկզբունքները:

1. Պայմաններ և սահմանումներ Անձնական տվյալների մշակման վերաբերյալ սույն պայմանագրում (այսուհետ՝ Համաձայնագիր) ստորև բերված պայմաններն ունեն հետևյալ սահմանումները. Օպերատոր - Անհատ ձեռնարկատեր Օլեգ Ալեքսանդրովիչ Դնեպրովսկի: Համաձայնագրի ընդունում - Պայմանագրի բոլոր պայմանների ամբողջական և անվերապահ ընդունում՝ անձնական տվյալների ուղարկման և մշակման միջոցով: Անձնական տվյալներ - Օգտագործողի (անձնական տվյալների առարկա) կայքում մուտքագրված տեղեկատվություն և ուղղակիորեն կամ անուղղակիորեն կապված այս Օգտատիրոջ հետ: Օգտագործող՝ ցանկացած ֆիզիկական կամ իրավաբանական անձ, ով հաջողությամբ ավարտել է կայքում մուտքագրման դաշտերը լրացնելու ընթացակարգը: Մուտքագրման դաշտերը լրացնելն այն ընթացակարգն է, որով Օգտատերն ուղարկում է իր անունը, ազգանունը, հեռախոսահամարը, անձնական էլ.փոստի հասցեն (այսուհետ՝ Անձնական տվյալներ) կայքի գրանցված օգտատերերի տվյալների բազա, որն իրականացվում է նույնականացման նպատակով: օգտագործողը. Մուտքային դաշտերը լրացնելու արդյունքում անձնական տվյալները ուղարկվում են Օպերատորի տվյալների բազա: Ներածման դաշտերը լրացնելը կամավոր է: կայք - կայք, որը տեղակայված է ինտերնետում և բաղկացած է մեկ էջից: 2. Ընդհանուր դրույթներ 2.1. Սույն Համաձայնագիրը կազմված է «Անձնական տվյալների մասին» 2006 թվականի հուլիսի 27-ի թիվ 152-FZ դաշնային օրենքի պահանջների և 13.11-րդ հոդվածի դրույթների հիման վրա՝ «Ռուսաստանի Դաշնության օրենսդրությունը խախտելու ոլորտում. անձնական տվյալներ» Ռուսաստանի Դաշնության Վարչական իրավախախտումների վերաբերյալ օրենսգրքի և վավեր է բոլոր անձնական տվյալների համար, որոնք Օպերատորը կարող է ստանալ Օգտատիրոջ մասին Կայքից օգտվելիս: 2.2. Կայքում Օգտագործողի կողմից մուտքագրման դաշտերը լրացնելը նշանակում է Օգտագործողի անվերապահ համաձայնություն սույն Համաձայնագրի բոլոր պայմանների հետ (Պայմանագրի ընդունում): Այս պայմանների հետ անհամաձայնության դեպքում Օգտատերը չի լրացնում Կայքի մուտքագրման դաշտերը: 2.3. Օգտատիրոջ համաձայնությունը Օպերատորին անձնական տվյալների տրամադրման և Օպերատորի կողմից դրանց մշակման վերաբերյալ վավեր է մինչև Օպերատորի գործունեության դադարեցումը կամ մինչև Օգտագործողի համաձայնությունը չեղարկվի: Ընդունելով սույն Համաձայնագիրը և անցնելով Գրանցման ընթացակարգը, ինչպես նաև այնուհետև մուտք գործելով Կայք, Օգտագործողը հաստատում է, որ իր կամքով և իր շահերից ելնելով, նա փոխանցում է իր անձնական տվյալները՝ մշակման Օպերատորին և համաձայնում է. դրանց վերամշակումը։ Օգտագործողը ծանուցվում է, որ իր անձնական տվյալների մշակումը կիրականացվի Օպերատորի կողմից 2006 թվականի հուլիսի 27-ի «Անձնական տվյալների մասին» թիվ 152-FZ Դաշնային օրենքի հիման վրա: 3. Օպերատորին փոխանցվող օգտատիրոջ մասին անձնական տվյալների և այլ տեղեկությունների ցանկ 3. 1. Օպերատորի կայքէջից օգտվելիս Օգտագործողը տրամադրում է հետևյալ անձնական տվյալները. 3.1.1. Հուսալի անձնական տվյալներ, որոնք Օգտագործողը տրամադրում է իր մասին անկախ մուտքագրման դաշտերը լրացնելիս և/կամ Կայքի ծառայություններից օգտվելիս՝ ներառյալ ազգանունը, անունը, հայրանունը, հեռախոսահամարը (տուն կամ բջջային), անձնական էլ.փոստի հասցեն: 3.1.2. Տվյալներ, որոնք ավտոմատ կերպով փոխանցվում են Կայքի ծառայություններին՝ դրանց օգտագործման ընթացքում՝ օգտագործելով Օգտատիրոջ սարքում տեղադրված ծրագրակազմը, ներառյալ IP հասցեն, տեղեկատվությունը «Cookies»-ից, Օգտատիրոջ զննարկչի (կամ այլ ծրագրի միջոցով, որի միջոցով հասանելի են ծառայությունները): 3.2. Օպերատորը չի ստուգում Օգտատիրոջ կողմից տրամադրված անձնական տվյալների ճշգրտությունը: Այս դեպքում Օպերատորը ենթադրում է, որ Օգտատերը տրամադրում է վստահելի և բավարար անձնական տեղեկատվություն մուտքագրման դաշտերում առաջադրված հարցերի վերաբերյալ: 4. Անձնական տվյալների հավաքագրման և օգտագործման նպատակները, կանոնները 4.1. Օպերատորը մշակում է անձնական տվյալները, որոնք անհրաժեշտ են Օգտատիրոջը ծառայություններ մատուցելու և ծառայություններ մատուցելու համար: 4.2. Օգտատիրոջ անձնական տվյալները Օպերատորի կողմից օգտագործվում են հետևյալ նպատակներով. 4.2.1. Օգտագործողի նույնականացում; 4.2.2. Օգտագործողին անհատականացված ծառայությունների մատուցում (ինչպես նաև ընկերության նոր ակցիաների և ծառայությունների մասին նամակներ ուղարկելու միջոցով տեղեկացում); 4.2.3. Անհրաժեշտության դեպքում Օգտատիրոջ հետ կապի պահպանում, ներառյալ ծառայությունների օգտագործման, ծառայությունների մատուցման հետ կապված ծանուցումներ, հարցումներ և տեղեկություններ ուղարկելը, ինչպես նաև Օգտատիրոջ հարցումների և դիմումների մշակումը. 4.3. Անձնական տվյալների մշակման ընթացքում կիրականացվեն հետևյալ գործողությունները՝ հավաքում, գրանցում, համակարգում, կուտակում, պահպանում, պարզաբանում (թարմացում, փոփոխություն), հանում, օգտագործում, արգելափակում, ջնջում, ոչնչացում։ 4.4. Օգտագործողը չի առարկում, որ իր կողմից նշված տեղեկատվությունը որոշակի դեպքերում կարող է տրամադրվել Ռուսաստանի Դաշնության լիազորված պետական ​​մարմիններին՝ Ռուսաստանի Դաշնության գործող օրենսդրությանը համապատասխան: 4.5. Օգտատիրոջ անձնական տվյալները պահպանվում և մշակվում են Օպերատորի կողմից սույն Համաձայնագրով նախատեսված կարգով Օպերատորի գործունեության ողջ ժամանակահատվածի համար: 4.6. Անձնական տվյալների մշակումն իրականացվում է Օպերատորի կողմից տվյալների շտեմարանների պահպանմամբ, ավտոմատացված, մեխանիկական և ձեռքով մեթոդներով: 4.7. Կայքն օգտագործում է թխուկներ և այլ տեխնոլոգիաներ՝ Կայքի ծառայությունների օգտագործմանը հետևելու համար: Այս տվյալները անհրաժեշտ են Կայքի տեխնիկական գործունեությունը օպտիմալացնելու և ծառայությունների մատուցման որակը բարելավելու համար: Կայքն ավտոմատ կերպով գրանցում է տեղեկատվություն (ներառյալ URL-ը, IP հասցեն, դիտարկիչի տեսակը, լեզուն, հարցման ամսաթիվը և ժամը) Կայքի յուրաքանչյուր այցելուի մասին: Օգտագործողը իրավունք ունի Կայք այցելելիս հրաժարվել անձնական տվյալներ տրամադրելուց կամ անջատել «Քուքիները», սակայն այս դեպքում Կայքի ոչ բոլոր գործառույթները կարող են ճիշտ աշխատել: 4.8. Սույն Համաձայնագրով նախատեսված գաղտնիության պայմանները վերաբերում են բոլոր այն տեղեկատվությանը, որը Օպերատորը կարող է ստանալ Օգտատիրոջ մասին Կայքում վերջինիս գտնվելու և Կայքից օգտվելու ընթացքում: 4.9. Տեղեկությունները, որոնք հրապարակայնորեն բացահայտվում են սույն Համաձայնագրի կատարման ընթացքում, ինչպես նաև այն տեղեկությունները, որոնք կարող են ձեռք բերել կողմերի կամ երրորդ անձանց կողմից այն աղբյուրներից, որոնց ցանկացած անձ ազատ մուտք ունի, գաղտնի չեն: 4.10. Օպերատորը ձեռնարկում է բոլոր անհրաժեշտ միջոցները՝ պաշտպանելու Օգտագործողի անձնական տվյալների գաղտնիությունը չարտոնված մուտքից, փոփոխումից, բացահայտումից կամ ոչնչացումից, ներառյալ՝ տվյալների հավաքագրման, պահպանման և մշակման գործընթացների մշտական ​​ներքին ստուգման և անվտանգության ապահովումը. ապահովում է տվյալների ֆիզիկական անվտանգությունը՝ կանխելով չթույլատրված մուտքը տեխնիկական համակարգեր, որոնք ապահովում են Կայքի շահագործումը, որտեղ Օպերատորը պահպանում է անձնական տվյալները. տրամադրում է անձնական տվյալների մուտք միայն Օպերատորի այն աշխատակիցներին կամ լիազորված անձանց, ովքեր այս տեղեկատվության կարիքն ունեն Օգտատիրոջը ծառայությունների մատուցման, ինչպես նաև Կայքի շահագործման, զարգացման և կատարելագործման հետ անմիջականորեն կապված պարտականություններ կատարելու համար: 4.11. Օգտատիրոջ անձնական տվյալները մնում են գաղտնի, բացառությամբ այն դեպքերի, երբ Օգտագործողը կամավոր կերպով տեղեկատվություն է տրամադրում իր մասին անսահմանափակ թվով անձանց ընդհանուր մուտքի համար: 4.12. Օպերատորի կողմից Օգտատիրոջ անձնական տվյալների փոխանցումը օրինական է Օպերատորի վերակազմակերպման և Օպերատորի իրավահաջորդին իրավունքների փոխանցման ժամանակ, մինչդեռ նրա կողմից ստացված անձնական տեղեկատվության առնչությամբ սույն Համաձայնագրի պայմաններին համապատասխանելու բոլոր պարտավորությունները. փոխանցվել է իրավահաջորդին։ 4.13. Այս հայտարարությունը վերաբերում է միայն Օպերատորի կայքին: Ընկերությունը չի վերահսկում և պատասխանատվություն չի կրում երրորդ կողմի կայքերի (ծառայությունների) համար, որոնց օգտատերը կարող է մուտք գործել Օպերատորի կայքում առկա հղումների միջոցով, ներառյալ որոնման արդյունքներում: Նման Կայքերում (ծառայություններ) կարող են հավաքվել կամ պահանջվել օգտատերից այլ անձնական տեղեկություններ, և կարող են կատարվել այլ գործողություններ: 5. Օգտագործողի իրավունքները՝ որպես անձնական տվյալների սուբյեկտ, օգտատիրոջ կողմից անձնական տվյալների փոփոխություն և ջնջում 5.1. Օգտագործողը իրավունք ունի՝ 5.1.2. Օպերատորից պահանջել պարզաբանել իր անձնական տվյալները, արգելափակել կամ ոչնչացնել դրանք, եթե անձնական տվյալները թերի են, հնացած, ոչ ճշգրիտ, ապօրինի ձեռք բերված կամ անհրաժեշտ չեն մշակման նշված նպատակի համար, ինչպես նաև ձեռնարկել օրենքով նախատեսված միջոցներ՝ պաշտպանելու նրա իրավունքները: 5.1.3. Ստանալ տեղեկատվություն իր անձնական տվյալների մշակման վերաբերյալ, ներառյալ՝ 5.1.3.1. Օպերատորի կողմից անձնական տվյալների մշակման փաստի հաստատում. 5.1.3.2. օպերատորի կողմից օգտագործվող անձնական տվյալների մշակման նպատակներն ու մեթոդները. 5.1.3.3. Օպերատորի անվանումը և գտնվելու վայրը. 5.1.3.4. մշակված անձնական տվյալներ՝ կապված անձնական տվյալների համապատասխան առարկայի, դրանց ստացման աղբյուրի հետ, եթե դաշնային օրենքով նախատեսված չէ նման տվյալների ներկայացման այլ կարգ. 5.1.3.5. անձնական տվյալների մշակման պայմանները, ներառյալ դրանց պահպանման ժամկետները. 5.1.3.6. Ռուսաստանի Դաշնության գործող օրենսդրությամբ նախատեսված այլ տեղեկություններ: 5.2. Անձնական տվյալների մշակման համաձայնությունից հրաժարվելը Օգտատիրոջ կողմից կարող է իրականացվել՝ Օպերատորին ուղարկելով համապատասխան գրավոր (շոշափելի կրիչի վրա տպված և Օգտատիրոջ կողմից ստորագրված) ծանուցում: 6. Օպերատորի պարտականությունները. Անձնական տվյալների հասանելիություն 6.1. Օպերատորը պարտավորվում է ապահովել Օպերատորի Կայքի Օգտատերերի անձնական տվյալների չարտոնված և ոչ նպատակային մուտքի կանխումը: Այս դեպքում Կայքի Օգտատերերի անձնական տվյալների լիազորված և նպատակային մուտքը բոլոր շահագրգիռ կողմերի կողմից կհամարվի մուտք դեպի դրանք՝ իրականացված Օպերատորի Կայքի նպատակների և առարկայի շրջանակներում: Միևնույն ժամանակ, Օպերատորը պատասխանատվություն չի կրում Օգտատերերի անձնական տվյալների հնարավոր չարաշահման համար, որոնք առաջանում են հետևյալի հետևանքով. Օպերատորի կայքերի կանխամտածված կամ ոչ միտումնավոր օգտագործման հետ կապված, բացառությամբ երրորդ անձանց կողմից դրանց նախատեսված նպատակների. 6.2 Օպերատորը ձեռնարկում է անհրաժեշտ և բավարար կազմակերպչական և տեխնիկական միջոցներ՝ պաշտպանելու օգտատիրոջ անձնական տվյալները չարտոնված կամ պատահական մուտքից, ոչնչացումից, ձևափոխումից, արգելափակումից, պատճենումից, տարածումից, ինչպես նաև երրորդ անձանց այլ անօրինական գործողություններից: 7. Փոփոխություններ Գաղտնիության քաղաքականության մեջ: Կիրառելի օրենսդրություն 7.1. Օպերատորն իրավունք ունի փոփոխություններ կատարել սույն Կանոնակարգերում՝ առանց Օգտատերերին հատուկ ծանուցման: Երբ փոփոխություններ են կատարվում ընթացիկ հրատարակության մեջ, նշվում է վերջին թարմացման ամսաթիվը: Կանոնակարգի նոր խմբագրությունն ուժի մեջ է մտնում հրապարակման պահից, եթե այլ բան նախատեսված չէ Կանոնակարգի նոր խմբագրությամբ: 7.2. Սույն Կանոնակարգի և Օգտագործողի և Օպերատորի հարաբերությունների նկատմամբ կիրառվում է Ռուսաստանի Դաշնության օրենքը, որը ծագում է Կանոնակարգի կիրառման հետ կապված: ընդունում եմ, չեմ ընդունում

Մենք այնքան էլ եզակի չենք, որքան կարծում ենք. մեզանից առաջ միլիոնավոր մարդիկ տարակուսած են, իսկ մեզանից հետո միլիոնավոր մարդիկ գրեթե նույն հարցերով կգլխավորեն որոնման համակարգը: Մյուս կողմից, մենք չափազանց անկանխատեսելի ենք. մեր խնդրանքի ձևակերպման վրա ազդում են բազմաթիվ գործոններ, որոնց մասին մենք տեղյակ չենք: Եվ գոնե այս պատճառով մեզանից յուրաքանչյուրի խնդրանքը, որքան էլ այն բանական լինի, պահանջում է անհատական ​​մոտեցում։

Իրականում, Yandex որոնողական համակարգի ամբողջ աշխատանքը հանգում է երկու պարզ բանի. հասկանալ, թե ինչ է իրականում ցանկանում իմանալ մարդը, և մի քանի վայրկյանում գտնել համապատասխանները ինտերնետում միլիարդավոր փաստաթղթերի մեջ:

Վերցրեք մատնահետքեր

Որոնողական համակարգի օպերացիոն համակարգը որոշ չափով նման է Matrix-ին, իսկ որոնողական ռոբոտը (իր կողմից ստեղծված բարդ, ինքնուրույն որոշումներ կայացնող ծրագիրը) նման է Agent Smith-ին:

Որպեսզի չփնտրի ամբողջ ինտերնետը ամեն անգամ, երբ ինչ-որ մեկին ինչ-որ բան պետք է իմանալ, որոնողական համակարգը նախօրոք կատարում է աշխատանքի մի մասը՝ այն ստուգում է, թե ինչ կա համացանցում և որտեղ է այն՝ օգտագործելով հազարավոր որոնողական ռոբոտներ: Նրանք գալիս են երկու տեսակի ՝ հիմնական և արագ: Հիմնականը սողում և մշակում է ինտերնետը որպես ամբողջություն, իսկ արագը՝ փաստաթղթեր, որոնք հայտնվել են մեկ րոպե կամ նույնիսկ մի քանի վայրկյան առաջ։ Ռոբոտի ծրագրերի խնդիրն է՝ ընտրել օգտատերերի համար հարմար և օգտակար տեղեկատվություն, մշակել այն՝ ջնջելով ամեն ինչ հնացած և ավելորդ։ Սա ինչ-որ առումով հիշեցնում է աղբի տեսակավորումը՝ թուղթ մի տարայի մեջ, ապակի՝ մյուսում, պլաստիկ՝ երրորդում, սննդի թափոններ՝ չորրորդում...

Ռոբոտների կողմից հավաքագրված տեղեկատվությունը կազմում է այսպես կոչված ինտերնետային քասթը: Այն պահվում է հազարավոր Yandex սերվերների վրա և անընդհատ թարմացվում է։ Բանջորը նման է ցուցակի, որը ցույց է տալիս, թե որտեղից ինչ տեղեկատվություն գտնել: Այս ցանկում յուրաքանչյուր հիմնաբառ ունի ոչ թե մեկ, այլ միլիոնավոր «էջեր»: Ապահովելու համար, որ բոլոր nugget թարմացումները հասանելի են օգտատերերին, դրանք պահոցից տեղափոխվում են «բազային որոնում»: Հիմնական ռոբոտի տվյալները փոխանցվում են մի քանի օրը մեկ, իսկ արագ ռոբոտից՝ իրական ժամանակում։

Մաքուր ջրի մեջ բերեք



ՆԿԱՐԱԶԱՏՈՒՄ՝ ԵՎԳԵՆԻ ՏՈՆԿՈՆՈԳԻԱ

Պատրաստված տվյալների բազայում տվյալ հարցի պատասխանը փնտրելիս մեքենան բախվում է երկու հիմնական դժվարության. Առաջին դժվարությունը լեզուն է։ Նախքան հարցի պատասխանը փնտրելը, մեքենայի համար կարևոր է հասկանալ, թե ինչ լեզվով պետք է դա անի: Օրինակ, ռուսախոս մարդու համար «Արքայազն Իգորի ջոկատի» որոնումը կգտնի փաստաթղթեր բանակի մասին տեղեկություններով, իսկ ուկրաինացու համար «Արքայազն Իգորի ջոկատը» կվերադարձնի նաև փաստաթղթեր, որտեղ հիշատակվում է արքայադուստր Օլգան, նրա կինը, քանի որ. ուկրաիներեն «կինը» «ջոկատ» է։ Իսկ հարուստ ռուսաց լեզվում նույն բառը կամ նրա ածանցյալները կարող են տարբեր նշանակություն ունենալ։ Օրինակ՝ «պողպատ» բառը «պողպատ» գոյականի և «դառնալ» բայի ձևերից է։ Երկրորդ դժվարությունը մարդու հոգեբանությունն է։ Հարցում մուտքագրելիս մենք ակնկալում ենք արագ և ճշգրիտ պատասխան՝ բնականաբար չմտահոգվելու, թե արդյոք հարցման ձևակերպումը համապատասխանում է մաթեմատիկական վերլուծության սկզբունքներին, որով աշխատում է մեքենայի ուղեղը: Օրինակ՝ որոնման տողում մուտքագրելով «Նապոլեոն» բառը՝ ի՞նչ է ուզում ստանալ մարդը՝ տորթի բաղադրատոմս կամ ֆրանսիական կայսրի կենսագրությունը, կոնյակ գնել, թե՞ գտնել հոգեբուժարանի հասցեն:


Նման իրավիճակներում գործում են մի քանի տեխնոլոգիաներ։ Դուք կարող եք ձեզ մի քանի հուշումներ տալ որոնման տողի տակ, որոնք կնշեն ձեր հարցումը: Հավանեք, ընտրեք այն, ինչ ձեզ հարկավոր է՝ Նապոլեոնի բաղադրատոմսեր կամ Նապոլեոն - Բոնապարտ: Եթե ​​օգտագործողը չի արձագանքում մեքենայի խնդրանքին և բառեր չի ավելացնում «Նապոլեոնին», ապա «Սպեկտր» տեխնոլոգիան օգնում է հարցին. և կայսրի և ձիու մասին) ...): Բացի այդ, անհատականացման մեխանիզմները օգնում են հասկանալ օգտատիրոջը. մեքենայի գիտելիքներն այն մասին, թե ինչ էր այս օգտվողը փնտրում իր համակարգչում մեկ օր, երկու, երեք կամ ամիս առաջ. դուք արդյունքներ եք ասում, որ Նապոլեոնը տորթ է:

Համակցություններ՝ հետաքրքրությունների ակումբներ

Որոնողական համակարգի խնդիրը պարզապես որոնման հարցումից բառեր և արտահայտություններ պարունակող փաստաթղթեր ընտրելը չէ: Մեքենան պետք է հասկանա, թե որ փաստաթղթերն են համապատասխանում մեր հակասական պահանջներին և ինչու են դրանք բավարարում: Ուզու՞մ ենք տեղեկություններ ստանալ Նապոլեոն տորթի մասին, թե՞ գուցե մի քանի տարի եղել ենք հավակնոտ անունով ֆիթնես ակումբ, կամ նույնիսկ ամբողջովին մտահոգվել ենք ցածրահասակ մարդկանց բարդույթներով։ Ամեն դեպքում, խնդրի լուծումը պահանջում է ոչ տրիվիալ մոտեցում։


Yandex որոնման ծրագրի ստեղծողները գտել են այս մոտեցումը՝ ընտրության իրավունքը պատվիրակելով մեքենային։ Մի կողմից անհոգի, բայց շատ արագ ու խելացի մեքենան ոչինչ չգիտի ու չի ուզում իմանալ մեր մասին՝ որպես անհատների, իսկ մյուս կողմից՝ փորձում է հնարավորինս շատ բան իմանալ բոլորի մասին։

Բացի օգտատիրոջ աշխարհագրական դիրքից և նրա հարցումների լեզվաբանական վերլուծությունից, որոնողական համակարգն օգտագործում է մի քանի հազար չափանիշներ, որոնք բոլորովին ակնհայտ չեն մարդկանց համար։

Խաբեությունն այն է, որ մեքենան ինքնուրույն մշակում և թարմացնում է այս չափանիշները:

Այն պարզապես օգտագործում է տվյալներ միլիոնավոր մարդկանց նախասիրությունների և օգտատերերի վարքագծի վերաբերյալ և կապում է այս «թվաբանական միջինը» մեր հարցումների պատմության հետ: Սկզբունքները, որոնք առաջնորդում են Մատրիցան իր ներսում՝ համեմատելով օգտվողների շահերի հազարավոր կատեգորիաները, որոնք մշակել է, հաճախ չեն տեղավորվում ավանդական մարդկային պատկերացումների մեջ այն մասին, թե սկզբունքորեն ինչ «հետաքրքրություններ» կարող են լինել: Դրանք տասնյակ հազարավոր են։ Նրանք միմյանց հետ ստեղծում են տարբեր, երբեմն ծիծաղելի համադրություններ։ Օրինակ, այս համակցություններից մեկը կարող է լինել այն, որ որոնման արդյունքները համապատասխանում են տրիտոններ բուծող մարդու շահերին: Միևնույն ժամանակ, մարդը ոչ միայն հետաքրքրված է տրիտոններով, այլ արդեն բուծում է դրանք, բայց միայն առաջին տարին:

Վարկանիշներ. Օգնող ձեռքեր


Մատրիցն, իհարկե, ինքն է որոշում (բարձրագույն մաթեմատիկայի օգնությամբ) ինչ և ինչ հաջորդականությամբ պետք է ցուցադրվի օգտատերերին՝ ելնելով տասնյակ հազարավոր չափանիշներից։ Բայց Matrix-ն օգտագործում է նաև կենդանի մարդկանց՝ Յանդեքսի 1000 աշխատակիցներ, այսպես կոչված գնահատողներ, գնահատում են որոնման արդյունքները որոշակի հարցման համար (իհարկե, ամեն հարցում չէ, որ գնահատվում է, և դա չի արվում իրական ժամանակում)՝ որոշելու, թե արդյոք նրանք բավարարում են պահանջներին։ սովորական օգտագործողի ակնկալիքները. ոչ այնքան ռացիոնալ, որքան մեքենան, ոչ այնքան ճշգրիտ ձևակերպմամբ, հակասական և զգացմունքային: