Головна Пристрої

Пошукові системи Інтернет: Яндекс, Google, Rambler, Yahoo. Склад, функції, принцип роботи. Найпростіший опис принципу роботи пошукової системи яндекс Комбінації: клуби за інтересами

Привіт, дорогі друзі! У цій статті ми продовжимо розглядати пошукову систему Яндекс, і, як ви пам'ятаєте, у минулих статтях була розглянута історія створення цієї великої компанії, яка займає перше місце серед конкурентів у Росії і не тільки.

Все це добре, але новачків та досвідчених сайтобудівників цікавить найголовніше питання, звичайно ж, пов'язане з тим, як виводити свої проекти на перші місця ТОП видачі.

Тому давайте розглянемо, як працює пошукова система Яндекс, щоб зрозуміти, на які граблі можна наступити, та й чого взагалі варто чекати від російської пошукової машини.

Минулої статті ми з тобою обговорювали. Тема виявилася досить цікавою та корисною. Тому я вирішив її доповнити, поглибити так би мовити.

Отже, напевно, із запитанням «Навіщо пошуковик індексує документи» я погарячив – це і їжу зрозуміло. Залишилося з'ясувати питання «як».

Алгоритми ранжування сайтів

Для початку давай познайомимося з деякими алгоритмами, які є основними для будь-якої пошукової системи:

- Алгоритм прямого пошуку.

Що це таке – пам'ятаєте, що читали чудову історію в одній із книг. І ви починаєте шукати по черзі. Взяли одну книгу – погортали – не знайшли, взяли іншу… Принцип зрозумілий, але цей спосіб надзвичайно довгий. Це також зрозуміло.

- Алгоритм зворотного пошуку.

Для цього алгоритму створюється із кожної сторінки твого блогу – створюється текстовий файл. У цьому файлі перераховуються в алфавітному порядку всі слова, які ти використовував. Навіть позиція цього слова у тексті вказується (координати у тексті).

Це досить швидкий спосіб, але пошук відбувається з якоюсь похибкою.

Тут головне розуміти, що цей алгоритм шукає не в інтернеті, не пошуком по блогу. А в окремо взятому текстовому файлі, створеному колись давно. Коли робот заходив до тебе. І ці файли (зворотні індекси) зберігаються на серверах Яндекса.

То були базові алгоритми пошуку. Тобто. як Яндекс просто знаходить потрібні документи З цим начебто проблем не повинно бути.

Але документів Яндекс знає не один і навіть не 100, а за останніми даними з моїх джерел - Яндекс знає близько 11 млрд. документів (10 727 736 489 сторінок).

І серед цієї кількості потрібно вибрати документи, які підходять під запит. І що ще важливіше – треба якось ранжувати їх. Тобто. побудувати за рівнем важливості, а точніше за ступенем корисності для читача.

Математичні моделі пошуку

Для вирішення цього питання на допомогу приходять математичні моделі. Ось про найпростіші моделі ми зараз і поговоримо.

Булівська мат.модель– Якщо слово зустрічається у документі – документ вважається знайденим. Просто на збіг та нічого складного.

Але тут є проблеми. Наприклад, якщо ти як користувач введеш якесь популярне слово, а ще краще прийменник «в», який є найпоширенішим словом у російській мові і зустрічається в КОЖНОМУ документі – то тобі видасть таку кількість результатів, що ти навіть не усвідомлюєш таку цифру, скільки тобі документів знайшлося. Тому з'явилася така модель.

Векторна мат.- Ця модель визначає "вага" документа. Вже як збіг зустрічається, а й це слово має зустрічатися кілька разів. Причому що більше слово зустрічається – то вище релевантність (відповідність).

Саме векторну модель використовують ВСІ пошукові системи.

Вірогідна модель- Більш складна. Принцип такий: пошуковик знайшов сам стандарт сторінки. Наприклад, ви шукаєте інформацію про історію Яндекса. У Яндекса зберігається якийсь еталон, припустимо, це буде моя попередня стаття про Яндекс.

І всі інші документи він порівнюватиме із цією статтею. І логіка тут така: чим більше сторінка твого блогу схожа на мою статтю – тим ймовірнішим є той факт, що твоя сторінка блогу теж буде корисна читачеві і теж розповідає про історію Яндекса.

Щоб скоротити кількість документів, які потрібно показувати користувачеві – було запроваджено поняття релевантності, тобто. відповідності.

Наскільки сторінка твого блогу справді відповідає темі. Це важлива тема щодо якості пошуку.

Асесори - хто це і за що відповідають

Потрібна ця релевантність ще й оцінки якості роботи алгоритмів.

Для цього є штаб спецназу – їх називають Асесори. Це спеціальні люди, котрі руками переглядають пошукову видачу.

Вони мають інструкцію, як перевіряти сайти, як оцінювати і т.п. І вони руками визначають по порядку підходять твої сторінки пошуковим запитам чи не підходить.

І ось від думки асесорів залежить якість пошукових алгоритмів. Якщо всі асесори скажуть, що пошукова видача не відповідає запитам – це означає неправильний алгоритм ранжування і тут вина лише Яндекса.

Якщо асесори говорять про те, що тільки один сайт не відповідає запиту – це означає, що сайт відлітає кудись далеко і знижується у видачі. Точніше не весь сайт, а лише одна стаття, але це не суть.

Звичайно, асесори не можуть руками та очима переглянути та оцінити ВСІ статті. Це ж зрозуміло.

І на допомогу приходять інші параметри, якими проходить ранжування сторінок.

Їх дуже багато, ну наприклад:

вага сторінки (ВІЦ, PageRank, пузоміркив загальному);
авторитетність домену;
релевантність тексту запиту;
релевантність текстів зовнішніх посилань на запит;
а також безліч інших факторів ранжирування.

Асесори вносять зауваження, а люди, які відповідають за налаштування математичної моделі ранжування, вже, у свою чергу, редагують формулу, в результаті чого пошуковик працює якісніше.

Основні критерії оцінки роботи формули:

1. Точність видачі пошукової системи- Відсоток документів, що відповідають запиту (релевантних). Тобто. чим менше сторінок, що не відповідають запиту, присутній - тим краще.

2. Повнота видачі пошукової системи- це відношення релевантних веб-сторінок за цим запитом до загальної кількості релевантних документів, що знаходяться в колекції (сукупності сторінок, що знаходяться у пошуковій системі).

Наприклад, якщо у всій колекції релевантних сторінок більше, ніж у пошуковій видачі, це означає неповноту видачі. Це сталося через те, що деяка частина релевантних веб-сторінок потрапила під фільтр.

3. Актуальність видачі пошукової системи- це відповідність веб-сторінки тому, що написано у сніпеті. Наприклад, документ може сильно відрізнятися або зовсім не існувати, але у видачі бути присутнім.

Актуальність видачі залежить від того, як часто сканує пошуковий робот документи зі своєї колекції.

Збір колекції (індексація сторінок сайту) здійснюється спеціальною програмою – пошуковим роботом.

Пошуковий робот отримує список адрес для індексації, копіює їх, далі вміст скопійованих веб-сторінок віддає на обробку алгоритму, який перетворює їх на зворотні індекси.

Ну, от «у двох словах», якщо можна сказати, ми обговорили принципи роботи пошуковика.

Давай підсумуємо:

Пошуковий робот приходить до тебе на блог.
Пошуковий робот зберігає зворотний індекс сторінки для подальшого пошуку.
За допомогою математичної моделі документ обробляється та видається у пошуковій видачі за формулами та з урахуванням думки асесора.

Це якщо дуже спрощено. Просто щоб склалося базове розуміння роботи пошукової системи Яндекс.

Я зараз написав так багато тексту, і, можливо, стільки всього не зрозуміло. Тому я пропоную тобі повернутися на цю статтю трохи пізніше та переглянути ось це відео.

Це чудове керівництво, за яким свого часу і я навчався.

Сподіваюся дана інформація допоможе краще зрозуміти, чому якийсь із ваших сайтів займає відповідні позиції у пошуку та зробити все, щоб їх покращити.

На цьому я з вами прощаюся, якщо є питання, я завжди радий відповісти на них у коментарях. А може, ви хочете доповнити статтю?

У будь-якому випадку висловлюйте свою думку. !

Яндекс, на сьогоднішній день, – найпопулярніша в Росії пошукова система. Статистика сервісу LiveInternet, Вказує частку Яндекса в масі загальноросійської аудиторії - це 53,4%, якщо враховувати тільки Москву і область, то ще вище - 67,9% (Москва за запитами займає більше 50% від всієї Росії).

Сайт www.yandex.ru був створений в 1997 році, для нього вистачало всього одного сервера, який стояв під робочим столом одного з групи перших розробників Яндекса, Дмитра, на прізвище Тейблюм. Дуже швидко після відкриття придбали другий сервер, а незабаром, коли потрібно встановити ще один, стало зрозуміло, що під столом вистачає простору або на три сервери Яндекса, або […]

Розробники пошукових машин прагнуть дати користувачам найкращі відповіді на їх запити. Іноді такою відповіддю може бути число (наприклад, погода в якомусь місті), картинка (наприклад, адреса на карті), переклад слова або чотиривірш. Коли під рукою є потрібний масив інформації, відповідь можна дати відразу. Тому Яндекс доповнює результати пошуку по інтернету відповідями від [...]

Приблизно кожен десятий запит до Яндекса – «навігаційний», тобто складається з назви організації чи сайту, і користувач хоче перейти на сайт цієї організації. У цьому випадку пошуковий рядок Яндекса використовується замість адресного рядка браузера та решта дев'яти пошукових результатів користувача зазвичай не цікавлять. Не відволікаючи користувача від головної мети, ми додали після головного, […]

Основне завдання пошукової системи – дати відповідь на запитання користувача. Коли користувач запитує, пошукова система не звертається до кожного сайту в інтернеті, а шукає по базі відомих їй сторінок – пошуковому індексу. Там вона знаходить усі сторінки зі словами із запиту. Посилання на ці сторінки користувач і бачить на сторінках результатів пошуку.

Як ми бачимо, Яндекс не стоїть на місці, і я впевнений, що пошукові технології цієї системи будуть розвиватися і надалі, щоб підвищувати якість пошуку, яку поки важко назвати ідеальною.

10 листопада 2009 року Яндексом було анонсовано нову версію пошукового алгоритму – Сніжинськ. Корінні зміни відбулися в алгоритмі розрахунку релевантності – представники Яндекса написали таке: «Нам вдалося створити більш точну і набагато складнішу математичну модель, яка призвела до суттєвого приросту як пошук. Завдяки переробці архітектури ранжирування у пошуку вдалося реалізувати облік кількох тисяч […]

Тестування нової версії алгоритму Яндекса розпочалося 9 липня 2008 року. За заявами Яндекса, «основні зміни у програмі пов'язані з новим підходом до машинного навчання і, як наслідок, відмінностями у способі врахування факторів ранжирування у формулі».

14 квітня 2008 року адресою buki.yandex.ru почала тестуватись новий пошуковий алгоритм «Магадан». Крім того, що збільшилася вдвічі кількість факторів ранжирування, було також додано наступні нововведення:

Перш ніж пускатися в алгоритмічні нетрі, давайте згадаємо, а як взагалі влаштовано пошукову систему. Логічну структуру пошукової системи можна представити у вигляді трьох модулів (див. схему) Робот (краулер, crawler) – спеціальна програма, яка обходить інтернет-сайти та завантажує їх вміст. Робот має спеціальний розклад, згідно з яким він здійснює свій обхід. Сторінки сайту, завантажені роботом, спеціальним […]

66. Що має великий вплив: посилання з фрі-платформи (блогспот, жж і т.д.) або з автономного сайту/блогу? З безкоштовних платформ вага передається нижче, ніж із автономних сайтів. Однак вплив може бути більшим. Це з безліччю чинників: поточний анкор-лист, стан порівнюваних сайтів та інших. Однозначної відповіді це питання дати неможливо. 67. Найбільша вага передається між […]

Вамана Тур – подорожі, авіаквитки та візи по всьому світу та в Індію, Непал, Шрі-Ланку, на Мальдіви, Маврикій та багато інших місць планети. Поради мандрівникам та пілігримам. Як отримати максимальну користь від подорожі. Дивовижні історичні хроніки та оповідання бувалих мандрівників.

Для чого використовується облік зовнішніх посилань на сайт Як можна бачити з попереднього розділу майже всі фактори, що впливають на ранжування, знаходяться під контролем автора сторінки. Таким чином, для пошукової системи стає неможливим відрізнити дійсно якісний документ, від сторінки створеної спеціально під задану пошукову фразу або навіть сторінки, згенерованої роботом і корисної інформації, що взагалі не несе. […]

Вже давно стали невід'ємною частиною українського Інтернету. Пошукові системи зараз - це величезні і складні механізми, що є не тільки інструментом пошуку інформації, але й привабливими сферами для бізнесу.

Більшість користувачів пошукових систем ніколи не замислювалися (або замислювалися, але не знайшли відповіді) про принцип роботи пошукових систем, про схему обробки запитів користувачів, про те, з чого ці системи складаються і як функціонують.

Цей майстер-клас покликаний дати відповідь на питання про те, як працюють пошукові системи. Однак, Ви не знайдете тут факторів, що впливають на ранжування документів. І, тим більше, не варто розраховувати на докладне пояснення алгоритму роботи Яндекса. Його, за словами Іллі Сегаловича, - директора з технологій та розробки пошукової машини «Яндекс», можна дізнатися лише «під тортурами» самого Іллі Сегаловича…

2. Поняття та функції пошукової системи

Пошукова система - це програмно-апаратний комплекс, призначений для пошуку в мережі Інтернет і реагує на запит користувача, що задається у вигляді текстової фрази (пошукового запиту), видачею списку посилань на джерела інформації, в порядку релевантності (відповідно до запиту). Найбільші міжнародні пошукові системи: "Google", "Yahoo", "MSN". У російському Інтернеті це - "Яндекс", "Рамблер", "Апорт".

Розглянемо докладніше поняття пошукового запиту з прикладу пошукової системи «Яндекс». Пошуковий запит повинен бути сформульований користувачем відповідно до того, що він хоче знайти максимально коротко і просто. Допустимо, ми хочемо знайти інформацію в «Яндексі» про те, як вибрати автомобіль. Для цього відкриваємо головну сторінку «Яндекса» і вводимо текст пошукового запиту «як вибрати автомобіль». Далі, наше завдання зводиться до того, щоб відкрити надані на наш запит посилання на джерела інформації в Інтернет. Проте цілком можна і не знайти потрібну нам інформацію. Якщо таке сталося, то або потрібно перефразувати свій запит, або в базі пошукової системи дійсно немає жодної актуальної інформації по нашому запиту (таке може бути при заданні дуже «вузьких» запитів, як наприклад «як вибрати автомобіль в Архангельську»)

Першочергове завдання будь-якої пошукової системи – доставляти людям саме ту інформацію, яку вони шукають. Навчити користувачів робити «правильні» запити до системи, тобто. запити, які відповідають принципам роботи пошукових систем, неможливі. Тому розробники створюють такі алгоритми та принципи роботи пошукових систем, які б дозволяли знаходити користувачам інформацію, яку вони шукають.

Це означає, що пошукова система повинна "думати" так само, як думає користувач при пошуку інформації. Коли користувач звертається із запитом до пошукової машини, він хоче знайти те, що йому потрібно максимально швидко і просто. Отримуючи результат, він оцінює роботу системи, керуючись кількома основними параметрами. Чи знайшов він те, що шукав? Якщо не знайшов, то скільки разів йому довелося перефразувати запит, щоб знайти потрібне? Наскільки актуальну інформацію він зміг знайти? Наскільки швидко опрацьовувала запит пошукова машина? Наскільки зручно було представлено результати пошуку? Чи був шуканий результат першим чи сотим? Як багато непотрібного сміття було знайдено нарівні із корисною інформацією? Чи знайдеться потрібна інформація при зверненні до пошукової системи, скажімо, через тиждень, чи через місяць?

Для того, щоб задовольнити відповіді на всі ці питання, розробники пошукових машин постійно вдосконалюють алгоритми та принципи пошуку, додають нові функції та можливості, всіляко намагаються прискорити роботу системи.

3. Основні характеристики пошукової системи

Опишемо основні характеристики пошукових систем:

Повнота
Повнота - одна з основних характеристик пошукової системи, що є відношенням кількості знайдених за запитом документів до загальної кількості документів у мережі Інтернет, що задовольняють даному запиту. Наприклад, якщо в Інтернеті є 100 сторінок, що містять словосполучення «як вибрати автомобіль», а за відповідним запитом було знайдено лише 60 із них, то повнота пошуку буде 0,6. Очевидно, що чим повніше пошук, тим менша ймовірність того, що користувач не знайде потрібний документ, за умови, що він взагалі існує в Інтернеті.
Точність
Точність - ще одна основна характеристика пошукової машини, яка визначається мірою відповідності знайдених документів запиту користувача. Наприклад, якщо за запитом «як вибрати автомобіль» знаходиться 100 документів, у 50 з них міститься словосполучення «як вибрати автомобіль», а в інших просто ці слова («як правильно вибрати магнітолу і встановити в автомобіль»), то точність пошуку вважається рівною 50/100 (=0,5). Чим точніше пошук, тим швидше користувач знайде потрібні йому документи, тим менше «сміття» серед них буде зустрічатися, тим рідше знайдені документи не відповідатимуть запиту.
Актуальність
Актуальність - не менш важлива складова пошуку, що характеризується часом, що проходить з моменту публікації документів у мережі Інтернет, до занесення їх до індексної бази пошукової системи. Наприклад, наступного дня після появи цікавої новини велика кількість користувачів звернулася до пошукових систем з відповідними запитами. Об'єктивно з моменту публікації новинної інформації на цю тему пройшло менше доби, проте основні документи вже були проіндексовані та доступні для пошуку завдяки існуванню у великих пошукових систем так званої «швидкої бази», яка оновлюється кілька разів на день.
Швидкість пошуку
Швидкість пошуку тісно пов'язана з його стійкістю до навантажень. Наприклад, за даними ТОВ «Рамблер Інтернет Холдинг», на сьогоднішній день у робочі години до пошукової машини Рамблер надходить близько 60 запитів на секунду. Така завантаженість потребує скорочення часу обробки окремого запиту. Тут інтереси користувача та пошукової системи збігаються: відвідувач бажає отримати результати якнайшвидше, а пошукова машина повинна відпрацьовувати запит максимально оперативно, щоб не гальмувати обчислення наступних запитів.
Наочність

4. Коротка історія розвитку пошукових систем

У початковий період розвитку Інтернет, кількість його користувачів була невелика, а обсяг доступної інформації порівняно невеликий. Здебільшого доступ до мережі Інтернет мали лише співробітники науково-дослідної сфери. У цей час завдання пошуку інформації в Інтернеті не було таким актуальним, як нині.

Одним із перших способів організації доступу до інформаційних ресурсів мережі стало створення відкритих каталогів сайтів, посилання на ресурси у яких групувалися згідно з тематикою. Першим проектом став сайт Yahoo.com, що відкрився навесні 1994 року. Після того, як кількість сайтів у каталозі значно збільшилася, було додано можливість пошуку потрібної інформації з каталогу. У повному розумінні це ще не було пошуковою системою, тому що пошукова область була обмежена лише ресурсами, які є в каталозі, а не всіма Інтернет ресурсами.

Каталоги посилань широко використовувалися раніше, проте практично втратили свою популярність нині. Так як навіть сучасні, величезні за своїм обсягом каталоги, містять інформацію лише про мізерну частину мережі Інтернет. Найбільший каталог мережі DMOZ (його ще називають Open Directory Project) містить інформацію про 5 мільйонів ресурсів, тоді як база пошукової системи Google складається з понад 8 мільярдів документів.

У 1995 році з'явилися пошукові системи Lycos та AltaVista. Остання довгі роки була лідером у сфері пошуку інформації в мережі Інтернет.

У 1997 році Сергій Брін та Ларрі Пейдж створили пошукову машину Google у рамках дослідницького проекту у Стендфордському університеті. Зараз Google – найпопулярніша пошукова система у світі!

У вересні 1997 року було офіційно анонсовано пошукову систему Yandex, що є найпопулярнішою в російськомовному Інтернеті.

В даний час існують три основні пошукові системи (міжнародні) - Google, Yahoo і , що мають власні бази та алгоритми пошуку. Більшість інших пошукових систем (яких налічується велика кількість) використовує у тому чи іншому вигляді результати трьох перелічених. Наприклад, пошук AOL (search.aol.com) використовує базу Google, а AltaVista, Lycos та AllTheWeb – базу Yahoo.

5. Склад та принципи роботи пошукової системи

У Росії основною пошуковою системою є «Яндекс», далі – Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причому зараз Mail.ru використовує механізм і базу пошуку «Яндекса».

Майже всі великі пошукові системи мають свою власну структуру, відмінну від інших. Однак, можна виділити загальні для всіх пошукових машин основні компоненти. Відмінності у структурі може лише у вигляді реалізації механізмів взаємодії цих компонентів.

Модуль індексування

Модуль індексування складається з трьох допоміжних програм (роботів):

Spider (павук) – програма, призначена для завантаження веб-сторінок. "Павук" забезпечує скачування сторінки та витягує всі внутрішні посилання з цієї сторінки. Завантажується HTML-код кожної сторінки. Для завантаження сторінок роботи використовують протоколи HTTP. Працює «павук» в такий спосіб. Робот на сервер передає запит "get/path/document" та деякі інші команди HTTP-запиту. У відповідь робот отримує текстовий потік, що містить службову інформацію і сам документ.

URL сторінки
дата, коли сторінку завантажили
http-заголовок відповіді сервера
тіло сторінки (html-код)

Crawler («мандрівний» павук) – програма, яка автоматично проходить за всіма посиланнями, знайденими на сторінці. Виділяє всі посилання на сторінці. Його завдання - визначити, куди далі має йти павук, спираючись на посилання або виходячи із заздалегідь заданого списку адрес. Crawler, слідуючи за знайденими посиланнями, здійснює пошук нових документів, ще невідомих пошуковій системі.

Indexer (робот-індексатор) - програма, яка аналізує веб-сторінки, завантажені павуками. Індексатор розбирає сторінку на складові та аналізує їх, застосовуючи власні лексичні та морфологічні алгоритми. Аналізують різні елементи сторінки, такі як текст, заголовки, посилання структурні та стильові особливості, спеціальні службові html-теги і т.д.

Таким чином, модуль індексування дозволяє обходити за посиланнями задану безліч ресурсів, завантажувати сторінки, що зустрічаються, витягувати посилання на нові сторінки з одержуваних документів і проводити повний аналіз цих документів.

База даних

База даних, або індекс пошукової системи - це система зберігання даних, інформаційний масив, в якому зберігаються спеціальним чином перетворені параметри всіх завантажених та оброблених модулем індексування документів.

Пошуковий сервер

Пошуковий сервер є найважливішим елементом усієї системи, тому що від алгоритмів, які лежать в основі її функціонування, безпосередньо залежить якість та швидкість пошуку.

Пошуковий сервер працює наступним чином:

Отриманий від користувача запит піддається морфологічному аналізу. Генерується інформаційне оточення кожного документа, що міститься в базі (яке і буде згодом відображено у вигляді , тобто відповідної запиту текстової інформації на сторінці результатів пошуку).
Отримані дані передаються як вхідні параметри спеціальному модулю ранжування. Відбувається обробка даних за всіма документами, внаслідок чого для кожного документа розраховується власний рейтинг, що характеризує релевантність запиту, введеного користувачем, та різних складових цього документа, що зберігаються в індексі пошукової системи.
Залежно від вибору користувача, цей рейтинг може бути скоригований додатковими умовами (наприклад, так званий «розширений пошук»).
Далі генерується сніппет, тобто для кожного знайденого документа з таблиці документів вилучаються заголовок, коротка анотація, найбільш відповідна запиту і посилання на сам документ, причому знайдені слова підсвічуються.
Отримані результати пошуку передаються користувачеві як SERP (Search Engine Result Page) – сторінки видачі пошукових результатів.

Як видно, всі ці компоненти тісно пов'язані один з одним і працюють у взаємодії, утворюючи чіткий досить складний механізм роботи пошукової системи, що вимагає величезних витрат ресурсів.

6. Висновок

Тепер підсумуємо все вищесказане.

Першочергове завдання будь-якої пошукової системи – доставляти людям саме ту інформацію, яку вони шукають.
Основні характеристики пошукових систем:
1. Повнота
2. Точність
3. Актуальність
4. Швидкість пошуку
5. Наочність
Першою повноцінною пошуковою системою став проект WebCrawler, що вийшов друком у 1994 році.
До складу пошукової системи входять компоненти:
1. Модуль індексування
2. База даних
3. Пошуковий сервер

Сподіваємося, наш майстер-клас дозволить Вам ближче ознайомитися з поняттям ПС, краще дізнатися про основні функції, характеристики та принцип роботи пошукових систем.

1. Терміни та визначення У цій угоді про обробку персональних даних (далі - Угода) наведені нижче терміни мають такі визначення: Оператор - ІП Дніпровський Олег Олександрович. Акцепт Угоди - повне та беззастережне прийняття всіх умов Угоди шляхом надсилання та обробки персональних даних. Персональні дані - інформація, внесена Користувачем (суб'єктом персональних даних) на сайті та прямо чи опосередковано пов'язана з цим Користувачем. Користувач - будь-яка фізична чи юридична особа, яка успішно пройшла процедуру заповнення полів уведення на сайті. Заповнення полів введення - процедура надсилання Користувачем імені, прізвища, номера телефону, персональної адреси електронної пошти (далі - Персональні дані) до бази зареєстрованих користувачів сайту, яка здійснюється з метою ідентифікації Користувача. В результаті заповнення полів введення персональні дані надсилаються до бази даних Оператора. Заповнення полів уведення здійснюється добровільно. сайт – сайт, розміщений у мережі Інтернет і що складається з однієї сторінки. 2. Загальні засади 2.1. Ця Угода складена на підставі вимог Федерального закону від 27.07.2006 р. No 152-ФЗ «Про персональні дані» та положень Статті 13.11 про «Порушення законодавства Російської Федерації в галузі персональних даних» Кодексу про адміністративні правопорушення Російської Федерації та діє щодо всіх персональних даних даних, які Оператор може отримати про Користувача під час використання ним Сайту. 2.2. Заповнення полів введення Користувачем на Сайті означає беззастережну згоду Користувачем з усіма умовами цієї Угоди (Акцепт Угоди). У разі незгоди з цими умовами, Користувач не здійснює Заповнення полів введення на Сайті. 2.3. Згода Користувача на надання персональних даних Оператору та їх обробку Оператором діє до моменту припинення діяльності Оператора або до відкликання згоди Користувачем. Акцептувавши цю Угоду, та пройшовши процедуру Реєстрації, а також здійснюючи подальший доступ до Сайту, Користувач підтверджує, що він, діючи своєю волею та у своєму інтересі, передає свої персональні дані для обробки Оператору та погоджується на їх обробку. Користувач повідомлено, що обробка його персональних даних здійснюватиметься Оператором на підставі Федерального закону від 27.07.2006 р. № 152-ФЗ «Про персональні дані». 3. Перелік персональних даних та іншої інформації про користувача, що підлягають передачі Оператору 3. 1. При використанні Сайту Оператора Користувачем надаються такі персональні дані: 3.1.1. Достовірна персональна інформація, яку Користувач надає про себе самостійно при Заповненні полів введення та/або в процесі використання сервісів Сайту, включаючи прізвище, ім'я, по батькові, номер телефону (домашню або мобільну), персональну адресу електронної пошти. 3.1.2. Дані, які автоматично передаються сервісам Сайту в процесі їх використання за допомогою встановленого на пристрої Користувача програмного забезпечення, у тому числі IP-адреси, інформації з Cookies, інформації про браузер Користувача (або іншої програми, за допомогою якої здійснюється доступ до сервісів). 3.2. Оператор не перевіряє достовірність персональних даних, що надаються Користувачем. При цьому Оператор виходить з того, що Користувач надає достовірну та достатню персональну інформацію з питань, які пропонуються у Полях введення. 4. Цілі, правила збору та використання персональних даних 4.1. Оператор здійснює обробку персональних даних, які необхідні для надання сервісів та надання послуг Користувачеві. 4.2. Персональні дані Користувача використовуються Оператором у таких цілях: 4.2.1. Ідентифікація Користувача; 4.2.2. Надання Користувачеві персоналізованих сервісів та послуг (а також, інформування про нові акції та послуги компанії, шляхом розсилки листів); 4.2.3. Підтримка зв'язку з Користувачем у разі потреби, у тому числі направлення повідомлень, запитів та інформації, пов'язаних з використанням сервісів, надання послуг, а також обробка запитів та заявок від Користувача; 4.3. У ході обробки персональних даних буде здійснено такі дії: збір, запис, систематизація, накопичення, зберігання, уточнення (оновлення, зміна), вилучення, використання, блокування, видалення, знищення. 4.4. Користувач не заперечує, що зазначені їм відомості у певних випадках можуть надаватися уповноваженим державним органам РФ відповідно до чинного законодавства РФ. 4.5. Персональні дані Користувача зберігаються та обробляються Оператором у порядку, передбаченому цією Угодою, протягом усього терміну провадження діяльності Оператором. 4.6. Обробка персональних даних здійснюється Оператором шляхом ведення баз даних автоматизованим, механічним, ручним способами. 4.7. Сайт використовує файли cookies та інші технології, щоб відстежувати використання сервісів сайту. Ці дані необхідні для оптимізації технічної роботи Сайту та підвищення якості надання послуг. На Сайтеї автоматично записуються відомості (включаючи URL, IP-адресу, тип браузера, мову, дату та час запиту) про кожного відвідувача Сайту. Користувач має право відмовитися від надання персональних даних під час відвідування Сайту або вимкнути файли Cookies, але в цьому випадку не всі функції Сайту можуть працювати правильно. 4.8. Умови конфіденційності, передбачені цією Угодою, поширюються на всю інформацію, яку Оператор може отримати про Користувача під час перебування останнього на Сайті та використання Сайту. 4.9. Не є конфіденційною інформація, публічно розкрита в ході виконання цієї Угоди, а також інформація, яка може бути одержана сторонами або третіми особами з джерел, до яких є вільний доступ будь-яким особам. 4.10. Оператор вживає всіх необхідних заходів для захисту конфіденційності персональних даних Користувача від несанкціонованого доступу, зміни, розкриття чи знищення, у тому числі: забезпечує постійну внутрішню перевірку процесів збирання, зберігання та обробки даних та забезпечення безпеки; забезпечує фізичну безпеку даних, запобігаючи неправомірному доступу до технічних систем, що забезпечують роботу Сайту, в яких Оператор зберігає персональні дані; надає доступ до персональних даних лише тим співробітникам Оператора або уповноваженим особам, яким ця інформація необхідна для виконання обов'язків, безпосередньо пов'язаних з наданням послуг Користувачеві, а також експлуатації, розробки та покращення Сайту. 4.11. Щодо персональних даних Користувача зберігається їхня конфіденційність, крім випадків добровільного надання Користувачем інформації про себе для загального доступу до необмеженого кола осіб. 4.12. Передача Оператором персональних даних Користувача правомірна при реорганізації Оператора та передачі прав правонаступнику Оператора, при цьому до правонаступника переходять усі зобов'язання щодо дотримання умов цієї Угоди стосовно отриманої ним персональної інформації. 4.13. Це Положення застосовується лише до Сайту Оператора. Компанія не контролює та не несе відповідальності за сайти (сервіси) третіх осіб, на які користувач може перейти за посиланнями, доступними на Сайті Оператора, у тому числі у результатах пошуку. На таких Сайтах (сервісах) у користувача може збиратися або запитуватись інша персональна інформація, а також можуть здійснюватися інші дії 5. Права користувача як суб'єкта персональних даних, зміна та видалення користувачем персональних даних 5.1. Користувач має право: 5.1.2. Вимагати від Оператора уточнення його персональних даних, їхнього блокування чи знищення у разі, якщо персональні дані є неповними, застарілими, неточними, незаконно отриманими або не є необхідними для заявленої мети обробки, а також вживати передбачених законом заходів щодо захисту своїх прав. 5.1.3. Отримувати інформацію, що стосується обробки його персональних даних, у тому числі: 5.1.3.1. підтвердження факту опрацювання персональних даних Оператором; 5.1.3.2. цілі та застосовувані оператором способи обробки персональних даних; 5.1.3.3. найменування та місце знаходження Оператора; 5.1.3.4. оброблювані персональні дані, які стосуються відповідного суб'єкту персональних даних, джерело їх отримання, якщо інший порядок подання таких даних не передбачено федеральним законом; 5.1.3.5. терміни обробки персональних даних, зокрема терміни їх зберігання; 5.1.3.6. інші відомості, передбачені чинним законодавством РФ. 5.2. Відкликання згоди на обробку персональних даних може бути здійснене Користувачем шляхом направлення Оператору відповідного письмового (роздрукованого на матеріальному носії та підписаного Користувачем) повідомлення. 6. Обов'язки Оператора. Доступ до персональних даних 6.1. Оператор зобов'язується забезпечувати недопущення несанкціонованого та не цільового доступу до персональних даних Користувачів Сайту Оператора. При цьому санкціонованим та цільовим доступом до персональних даних Користувачів Сайту вважатиметься доступ до них усіх зацікавлених осіб, що реалізується в рамках цілей діяльності та тематики Сайту Оператора. Водночас Оператор не несе відповідальності за можливе не цільове використання персональних даних Користувачів, що сталося внаслідок: технічних неполадок у програмному забезпеченні та в технічних засобах та мережах, що знаходяться поза контролем Оператора; у зв'язку з навмисним або ненавмисним використанням Сайтів Оператора не за їх прямим призначенням третіми особами; 6.2 Оператор вживає необхідних та достатніх організаційних та технічних заходів для захисту персональної інформації користувача від неправомірного або випадкового доступу, знищення, зміни, блокування, копіювання, розповсюдження, а також від інших неправомірних дій з нею третіх осіб. 7. Зміна Положення про політику конфіденційності. Застосовне законодавство 7.1. Оператор має право вносити зміни до цього Положення без будь-якого спеціального повідомлення Користувачів. Під час внесення змін до актуальної редакції вказується дата останнього оновлення. Нова редакція Положення набирає чинності з її розміщення, якщо інше не передбачено новою редакцією Положення. 7.2. До цього Положення та відносин між Користувачем та Оператором, що виникають у зв'язку із застосуванням Положення, підлягає застосуванню право Російської Федерації. Приймаю Не приймаю

Ми не такі унікальні, як думаємо: мільйони людей до нас спантеличували і мільйони після нас спантеличать пошуковик майже однаковими питаннями. З іншого боку, ми надто непередбачувані: на формулювання нашого запиту впливає величезна кількість неусвідомлюваних факторів. І хоча б тому запит кожного з нас, яким би банальним він не був, потребує індивідуального підходу.

Фактично вся робота пошукача «Яндекс» зводиться до двох простих речей: зрозуміти, що насправді хоче дізнатися людина, і за кілька секунд знайти для неї серед мільярдів документів у Мережі підходящі.

Зняти відбитки

Система роботи пошукача чимось схожа на Матрицю, а пошуковий робот (створена нею складна програма, що самостійно приймає рішення) - на агента Сміта.

Щоб не обшукувати весь Інтернет щоразу, коли комусь щось потрібно дізнатися, пошуковик робить частину роботи заздалегідь – перевіряє, що є в Мережі та де це лежить, за допомогою тисяч пошукових роботів. Вони бувають двох типів: основний та швидкий. Основний обходить і обробляє Інтернет загалом, а швидкий - документи, що з'явилися хвилину чи навіть кілька секунд тому. Завдання програм-роботів - відібрати придатну та корисну для користувачів інформацію, переробити її, відсіявши все застаріле та непотрібне. У чомусь це нагадує сортування сміття: папір в один контейнер, скло в інший, пластик у третій, харчові відходи у четвертий...

Зібрана роботами інформація утворює так званий зліпок Інтернету. Він зберігається на тисячах серверів Яндекса і постійно оновлюється. Зліпок схожий на список, де зазначено, де яку інформацію можна знайти. У цьому списку у кожного ключового слова вказано не одну, а мільйони сторінок. Щоб усі оновлення зліпка були доступні користувачам, їх переносять із сховища на базовий пошук. Дані від основного робота переносяться разів у кілька днів, як від швидкого робота - у час.

Вивести на чисту воду

ІЛЮСТРАЦІЯ: ЄВГЕН ТОНКОНОГИЙ

Розшукуючи відповідь на поставлене запитання у підготовленій базі, машина стикається з двома основними складнощами. Перша складність – мова. Перш ніж шукати відповідь на питання, машині важливо зрозуміти якою мовою це робити. Наприклад, для російськомовної людини на запит «дружина князя Ігоря» пошук знайде документи з інформацією про військо, а для українця на «дружина князя Ігоря» видасть також документи, які згадують княгиню Ольгу, його дружину, бо українською «дружина» - це "дружина". Та й у багатій російській одне й те саме слово чи його похідні можуть означати різні речі. Наприклад, слово "сталі" - це одна з форм іменника "сталь" і дієслова "стати". Друга складність – людська психологія. Вводячи запит, ми очікуємо швидкої і точної відповіді, не переймаючись, природно, про відповідність формулювання запиту принципам математичного аналізу, якими працює мозок машини. Наприклад, ввівши в пошуковий рядок слово «наполеон», що людина хоче отримати: рецепт торта чи біографію французького імператора, купити коньяк чи знайти адресу психіатричної лікарні?

У таких ситуаціях у справу вступають одразу кілька технологій. Можна видати вам під рядком пошуку кілька підказок, які конкретизують запит. Мовляв, виберіть те, що вам потрібно: Наполеон-рецепти або Наполеон - Бонапарт. Якщо користувач не реагує на прохання машини і не додає до «наполеона» слів, то справі допомагає технологія «Спектр»: не сподіваючись на допомогу, машина одразу шукає інформацію за кількома категоріями (і про торт, і про імператора, і про кінь як). ..). Крім того, зрозуміти користувача допомагають механізми персоналізації - знання машини про те, що цей користувач шукав зі свого комп'ютера день-два-три-місяць тому: якщо ви часто задавали «Яндексу» питання про кулінарію, то машина спочатку покаже вам результати, що говорять, що наполеон – торт.

Комбінації: клуби за інтересами

Завдання пошукової машини не зводиться до того, щоб просто відібрати документи, в яких зустрічаються слова та словосполучення пошукового запиту. Машина має зрозуміти, які документи відповідають нашим суперечливим вимогам та чому вони їм відповідають. Чи хочемо ми отримати інформацію про наполеон - тістечко, або, можливо, ми кілька років відвідували фітнес-клуб з пафосною назвою, а то й зовсім стурбовані комплексами людей невисокого зростання. У будь-якому випадку вирішення завдання потребує нетривіального підходу.

Автори пошукової програми «Яндекс» знайшли такий підхід, делегувавши право вибору машині. З одного боку, бездушна, але дуже швидка та розумна машина не знає і не хоче нічого знати про нас як про особистості, а з іншого – вона намагається з'ясувати про кожного якнайбільше.

Крім географічного положення користувача та лінгвістичного аналізу його запитів, пошукова машина використовує кілька тисяч критеріїв, зовсім не очевидних для людини.

Фокус у тому, що ці критерії машина розробляє та оновлює самостійно.

Вона просто використовує дані про переваги та користувальницьку поведінку мільйонів людей і пов'язує це «середнє арифметичне» з історією наших запитів. Принципи, якими керується Матриця в собі, зіставляючи тисячі розроблених нею категорій користувальницьких інтересів, часто вкладаються у традиційні людські уявлення у тому, якими у принципі може бути «інтереси». Їхні десятки тисяч. Вони створюють один з одним різні, часом кумедні, комбінації. Наприклад, однією з таких комбінацій може бути відповідність результатів пошуку інтересам людини, яка розводить тритони. При цьому людина не просто цікавиться тритонами, а вже розводить їх, а лише перший рік.

Оцінка. Руки допомоги

Матриця, звісно, сама вирішує (з допомогою вищої математики), що у якій послідовності потрібно показати користувачам виходячи з десятків тисяч критеріїв. Але живих людей Матриця теж використовує - 1000 співробітників «Яндекса», так званих асесорів, оцінюють результати пошуку за тим чи іншим запитом (звичайно, не кожен запит оцінюється, і робиться це не в режимі реального часу) на їхню відповідність очікуванням звичайного користувача : не такого раціонального, як машина, не такого точного у формулюваннях, суперечливого та емоційного