dom Urządzenia

Wyszukiwarki internetowe: Yandex, Google, Rambler, Yahoo. Skład, funkcje, zasada działania. Najprostszy opis zasady działania wyszukiwarki Yandex Kombinacje: kluby zainteresowań

Cześć drodzy przyjaciele! W tym artykule będziemy nadal przyglądać się wyszukiwarce Yandex, a jak pamiętacie, w poprzednich artykułach omawialiśmy historię powstania tej wspaniałej firmy, która zajmuje pierwsze miejsce wśród swoich konkurentów w Rosji i poza nią.

Wszystko to dobrze, ale początkujących i doświadczonych twórców witryn interesuje oczywiście najważniejsze pytanie, związane z tym, jak wynieść swoje projekty na pierwsze miejsca w TOP wynikach wyszukiwania.

Dlatego przyjrzyjmy się, jak działa wyszukiwarka Yandex, aby zrozumieć, na jakie błędy możesz nadepnąć i czego ogólnie można się spodziewać po rosyjskiej wyszukiwarce.

W ostatnim artykule omówiliśmy. Temat okazał się całkiem ciekawy i przydatny. Dlatego też postanowiłam go uzupełnić, że tak powiem, pogłębić.

Więc chyba dałem się ponieść pytaniu „Dlaczego wyszukiwarka indeksuje dokumenty”? To oczywiste. Pozostaje tylko odpowiedzieć na pytanie „jak”.

Algorytmy rankingu stron internetowych

Najpierw zapoznajmy się z niektórymi algorytmami, które są podstawą każdej wyszukiwarki:

— Algorytm wyszukiwania bezpośredniego.

Co to jest - pamiętasz, jak czytałeś cudowną historię w jednej z książek. I zaczynasz szukać jeden po drugim. Wzięli jedną książkę, przejrzeli ją, nie znaleźli, wzięli inną... Zasada jest jasna, ale ta metoda jest niezwykle długa. Jest to również zrozumiałe.

— Algorytm wyszukiwania wstecznego.

W przypadku tego algorytmu z każdej strony Twojego bloga tworzony jest plik tekstowy. Ten plik zawiera listę w kolejności alfabetycznej WSZYSTKICH użytych słów. Wskazane jest nawet położenie tego słowa w tekście (współrzędne w tekście).

Jest to dość szybka metoda, ale wyszukiwanie już następuje z pewnym błędem.

Najważniejszą rzeczą do zrozumienia jest to, że ten algorytm nie wyszukuje w Internecie, a nie na blogu. Oraz w osobnym pliku tekstowym, który powstał dawno temu. Kiedy robot przyszedł do ciebie. A te pliki (indeksy odwrotne) są przechowywane na serwerach Yandex.

Takie były więc podstawowe algorytmy wyszukiwania. Te. jak Yandex po prostu znajduje niezbędne dokumenty. Wydaje się, że nie powinno być z tym żadnych problemów.

Ale Yandex zna więcej niż jeden, a nawet 100 dokumentów, ale według najnowszych danych z moich źródeł Yandex zna około 11 miliardów dokumentów (10 727 736 489 stron).

A spośród całej tej ilości musisz wybrać dokumenty pasujące do żądania. A co ważniejsze, musisz je jakoś uszeregować. Te. uporządkować według stopnia ważności, a raczej stopnia użyteczności dla czytelnika.

Matematyczne modele poszukiwań

Aby rozwiązać ten problem, na ratunek przychodzą modele matematyczne. Teraz porozmawiamy o najprostszych modelach.

Boolowski model matematyczny– Jeśli w dokumencie pojawia się słowo, dokument uważa się za znaleziony. Po prostu zbieg okoliczności i nic skomplikowanego.

Ale są problemy. Na przykład, jeśli jako użytkownik wpiszesz jakieś popularne słowo lub jeszcze lepiej przyimek „v”, który jest najczęstszym słowem w języku rosyjskim i występuje w KAŻDYM dokumencie, otrzymasz wiele wyników że nawet nie zdajesz sobie sprawy z takiej liczby, ile dokumentów znalazłeś? W związku z tym pojawił się następujący model maty.

Wektorowy model matematyczny– model ten określa „wagę” dokumentu. Nie tylko występuje zbieg okoliczności, ale słowo musi wystąpić kilka razy. Co więcej, im częściej pojawia się to słowo, tym większa jest jego trafność (zgodność).

Jest to model wektorowy używany przez WSZYSTKIE wyszukiwarki.

Model probabilistyczny- bardziej złożony. Zasada jest taka: wyszukiwarka sama znalazła szablon strony. Na przykład szukasz informacji o historii Yandex. Yandex przechowuje jakiś standard, powiedzmy, że będzie to mój poprzedni artykuł o Yandex.

I porówna wszystkie inne dokumenty z tym artykułem. Logika jest następująca: im bardziej Twoja strona bloga jest podobna do mojego artykułu, tym BARDZIEJ PRAWDZIWE jest to, że Twoja strona bloga będzie również użyteczna dla czytelnika i opowie także o historii Yandex.

Aby zmniejszyć liczbę dokumentów, które należy pokazać użytkownikowi, wprowadzono pojęcie istotności, tj. zgodność.

Jak adekwatna jest strona Twojego bloga do tematu? Jest to ważny temat, jeśli chodzi o jakość wyszukiwania.

Asesorzy – kim są i za co odpowiadają?

Znaczenie to jest również potrzebne do oceny jakości algorytmów.

W tym celu funkcjonuje sztab sił specjalnych – nazywa się ich Asesorami. To wyjątkowi ludzie, którzy przeglądają wyniki wyszukiwania rękami.

Zawierają instrukcje dotyczące sprawdzania witryn, oceniania itp. I ręcznie określają, czy Twoje strony nadają się do wyszukiwanych haseł, czy nie.

A jakość algorytmów wyszukiwania zależy od opinii asesorów. Jeśli wszyscy asesorzy stwierdzą, że wyniki wyszukiwania nie odpowiadają zapytaniom, oznacza to, że algorytm rankingu jest nieprawidłowy i tylko Yandex jest temu winny.

Jeśli asesorzy stwierdzą, że tylko jedna witryna nie spełnia wymagań, oznacza to, że witryna odlatuje gdzieś daleko i spada w wynikach wyszukiwania. Dokładniej, nie całą witrynę, ale tylko jeden artykuł, ale „nie o to chodzi”.

Oczywiście asesorzy nie mogą przeglądać i oceniać WSZYSTKICH artykułów własnymi rękami i oczami. To jest zrozumiałe.

Na ratunek przychodzą inne parametry, według których strony są klasyfikowane.

Jest ich mnóstwo, np.:

waga strony (vIC, PageRank, dziecięce guzki W sumie);
władza domeny;
związek tekstu z wnioskiem;
adekwatność tekstów linków zewnętrznych do zapytania;
a także wiele innych czynników rankingowych.

Oceniający zgłaszają uwagi, a osoby odpowiedzialne za ustawienie matematycznego modelu rankingowego edytują formułę, dzięki czemu wyszukiwarka działa wydajniej.

Główne kryteria oceny działania formuły:

1. Dokładność wyników wyszukiwania- procent dokumentów zgodnych z żądaniem (istotne). Te. Im mniej stron nie pasujących do żądania, tym lepiej.

2. Kompletność wyników wyszukiwania- jest to stosunek odpowiednich stron internetowych dla danego zapytania do całkowitej liczby odpowiednich dokumentów w zbiorze (ogółem stron znalezionych w wyszukiwarce).

Na przykład, jeśli w całym zbiorze jest więcej trafnych stron niż w wynikach wyszukiwania, oznacza to, że wyniki są niekompletne. Stało się tak, ponieważ niektóre odpowiednie strony internetowe zostały odfiltrowane.

3. Trafność wyników wyszukiwania- jest to zgodność strony internetowej z tym, co jest napisane we fragmencie. Na przykład dokument może bardzo się różnić lub w ogóle nie istnieć, ale nadal być obecny w wynikach wyszukiwania.

Trafność wyników wyszukiwania zależy bezpośrednio od tego, jak często robot wyszukujący skanuje dokumenty ze swojej kolekcji.

Zbieranie kolekcji (indeksowanie stron serwisu) odbywa się za pomocą specjalnego programu – robota wyszukującego.

Robot wyszukujący otrzymuje listę adresów do zaindeksowania, kopiuje je, a następnie przekazuje zawartość skopiowanych stron internetowych do przetworzenia algorytmowi, który konwertuje je na indeksy odwrotne.

Cóż, „w dużym skrócie”, że tak powiem, omówiliśmy zasady działania wyszukiwarki.

Podsumujmy:

Na Twojego bloga przychodzi robot wyszukiwania.
Robot wyszukiwania przechowuje odwrotny indeks strony na potrzeby kolejnych wyszukiwań.
Za pomocą modelu matematycznego dokument jest przetwarzany i wyświetlany w wynikach wyszukiwania za pomocą formuł i z uwzględnieniem opinii asesora.

To jest bardzo, bardzo uproszczone. Aby uzyskać podstawową wiedzę na temat działania wyszukiwarki Yandex.

Napisałem już tak dużo tekstu i być może tak wiele jest niejasnych. Dlatego sugeruję powrót do tego artykułu nieco później i obejrzenie tego filmu.

To doskonały poradnik, z którego też kiedyś się uczyłem.

Mam nadzieję, że te informacje pomogą Ci lepiej zrozumieć, dlaczego jedna z Twoich witryn zajmuje odpowiednie pozycje w wynikach wyszukiwania i zrobić wszystko, aby je ulepszyć.

Tym się żegnam, jeśli macie jakieś pytania, zawsze chętnie odpowiem na nie w komentarzach. A może chcesz dodać coś do artykułu?

W każdym razie wyraź swoją opinię. !

Yandex jest dziś najpopularniejszą wyszukiwarką w Rosji. Statystyki serwisu Internet na żywo, pokazuje udział Yandexu w masie ogólnorosyjskiej publiczności - wynosi 53,4%, jeśli weźmiemy pod uwagę tylko Moskwę i region, to jest jeszcze wyższy - 67,9% (Moskwa, według żądań, zajmuje ponad 50% całej Rosji).

Strona www.yandex.ru powstała w 1997 roku; wystarczył jej tylko jeden serwer, który stał pod pulpitem jednego z pierwszych programistów Yandex, Dmitry'ego, który nazywał się Teiblyum. Bardzo szybko po otwarciu kupiliśmy drugi serwer, a wkrótce, gdy trzeba było zainstalować kolejny, stało się jasne, że pod stołem jest wystarczająco dużo miejsca na trzy serwery Yandex lub […]

Twórcy wyszukiwarek starają się zapewnić użytkownikom najlepsze odpowiedzi na ich zapytania. Czasami taką odpowiedzią może być liczba (np. pogoda w mieście), obrazek (np. adres na mapie), tłumaczenie słowa lub czterowiersz. Gdy dysponuje się odpowiednim zestawem informacji, odpowiedź można udzielić natychmiast. Dlatego Yandex uzupełnia wyniki wyszukiwania w Internecie odpowiedziami ze swojego […]

Mniej więcej co dziesiąte żądanie skierowane do Yandex ma charakter „nawigacyjny”, to znaczy składa się z nazwy organizacji lub strony internetowej, a użytkownik chce wejść na stronę tej organizacji. W tym przypadku zamiast paska adresu przeglądarki używany jest pasek wyszukiwania Yandex, a użytkownik z reguły nie jest zainteresowany pozostałymi dziewięcioma wynikami wyszukiwania. Nie odrywając użytkownika od głównego celu, po głównym celu dodaliśmy […]

Głównym zadaniem wyszukiwarki jest udzielenie odpowiedzi na pytanie użytkownika. Kiedy użytkownik zadaje zapytanie, wyszukiwarka nie dociera do każdej witryny w Internecie, lecz przeszukuje bazę znanych jej stron – indeks wyszukiwania. Znajduje tam wszystkie strony ze słowami z zapytania. Użytkownik widzi linki do tych stron na stronach wyników wyszukiwania.

Jak widzimy, Yandex nie stoi w miejscu i jestem pewien, że technologie wyszukiwania tego systemu będą nadal się rozwijać w celu poprawy jakości wyszukiwania, którą trudno jeszcze nazwać idealną.

10 listopada 2009 r. Yandex ogłosił nową wersję algorytmu wyszukiwania - Snezhinsk. Zasadnicze zmiany nastąpiły w algorytmie obliczania trafności – przedstawiciele Yandex napisali: „Udało nam się stworzyć dokładniejszy i znacznie bardziej złożony model matematyczny, co doprowadziło do znacznego wzrostu jakości wyszukiwania. Dzięki przeprojektowaniu architektury rankingów wyszukiwania możliwe było wdrożenie rozliczania kilku tysięcy [...]

Testowanie nowej wersji algorytmu Yandex rozpoczęło się 9 lipca 2008 roku. Zdaniem Yandex „główne zmiany w programie wiążą się z nowym podejściem do uczenia maszynowego i co za tym idzie, różnicami w sposobie uwzględniania czynników rankingowych w formule”.

14 kwietnia 2008 r. Rozpoczęto testowanie nowego algorytmu wyszukiwania „Magadan” na buki.yandex.ru. Oprócz podwojenia liczby czynników rankingowych dodano także następujące innowacje:

Zanim wyruszymy w algorytmiczną dżunglę, przypomnijmy sobie, jak ogólnie działa wyszukiwarka. Logiczną strukturę systemu wyszukiwania można przedstawić w postaci trzech modułów (patrz diagram). Robot (crawler) to specjalny program, który przeszukuje strony internetowe i pobiera ich zawartość. Robot ma specjalny harmonogram, według którego wykonuje swoje obchody. Strony serwisu ładowane przez robota, specjalny [...]

66. Co ma większy wpływ: link z bezpłatnej platformy (blogspot, LJ itp.) czy z witryny/bloga offline? Bezpłatne platformy przenoszą mniejszą wagę niż samodzielne witryny. Jednak wpływ może być większy. Składa się na to wiele czynników: aktualna lista zakotwiczeń, stan porównywanych witryn itp. Nie da się udzielić jednoznacznej odpowiedzi na to pytanie. 67. Największy ciężar przenosi się pomiędzy […]

Vamana Tour - podróże, bilety lotnicze i wizy na całym świecie oraz do Indii, Nepalu, Sri Lanki, Malediwów, Mauritiusa i wielu innych miejsc na planecie. Rady dla podróżników i pielgrzymów. Jak najlepiej wykorzystać podróż. Niesamowite kroniki historyczne i historie doświadczonych podróżników.

Jaki jest cel uwzględniania linków zewnętrznych do witryny Jak widać z poprzedniej sekcji, prawie wszystkie czynniki wpływające na ranking są pod kontrolą autora strony. Tym samym wyszukiwarka nie jest w stanie odróżnić dokumentu naprawdę wysokiej jakości od strony stworzonej specjalnie pod dane wyszukiwane hasło lub nawet strony wygenerowanej przez robota, która nie zawiera w ogóle przydatnych informacji. […]

Od dawna stały się integralną częścią rosyjskiego Internetu. Wyszukiwarki to obecnie ogromne i złożone mechanizmy, które stanowią nie tylko narzędzie do wyszukiwania informacji, ale także kuszące obszary dla biznesu.

Większość użytkowników wyszukiwarek nigdy nie zastanawiała się (lub nie myślała o tym, ale nie znalazła odpowiedzi) o zasadzie działania wyszukiwarek, o schemacie przetwarzania żądań użytkowników, o tym, z czego te systemy się składają i jak działają...

Ta klasa mistrzowska ma na celu odpowiedzieć na pytanie, jak działają wyszukiwarki. Nie znajdziesz tu jednak czynników wpływających na ranking dokumentów. Co więcej, nie należy liczyć na szczegółowe wyjaśnienie algorytmu Yandex. Według Ilyi Segalovich, dyrektora ds. technologii i rozwoju wyszukiwarki Yandex, może zostać rozpoznany „podczas tortur” jedynie przez samego Ilyę Segalovicha…

2. Pojęcie i funkcje wyszukiwarki

System wyszukiwania to kompleks oprogramowania i sprzętu przeznaczony do przeszukiwania Internetu i odpowiadania na żądania użytkownika, określone w formie frazy tekstowej (zapytania wyszukiwania), poprzez utworzenie listy linków do źródeł informacji, w kolejności trafności ( zgodnie z żądaniem). Największe międzynarodowe wyszukiwarki: "Google", Yahoo , MSN . W rosyjskim Internecie są to Yandex, Rambler, Aport.

Przyjrzyjmy się bliżej koncepcji zapytania wyszukiwania na przykładzie wyszukiwarki Yandex. Zapytanie powinno być sformułowane przez użytkownika zgodnie z tym, co chce znaleźć, możliwie krótko i prosto. Załóżmy, że chcemy znaleźć w Yandex informacje na temat wyboru samochodu. Aby to zrobić, otwórz stronę główną Yandex i wprowadź tekst zapytania „jak wybrać samochód”. Następnie nasze zadanie sprowadza się do otwarcia podanych na nasze żądanie linków do źródeł informacji w Internecie. Jest jednak całkiem możliwe, że nie znajdziemy potrzebnych nam informacji. Jeżeli tak się stanie, to albo trzeba przeformułować swoje zapytanie, albo w bazie wyszukiwarki rzeczywiście nie ma żadnych istotnych informacji na temat naszego zapytania (może się to zdarzyć przy zadawaniu bardzo „wąskich” zapytań, jak np. „jak wybrać samochód w Archangielsku”)

Podstawowym celem każdej wyszukiwarki jest dostarczanie użytkownikom dokładnie takich informacji, jakich szukają. I naucz użytkowników wysyłania „poprawnych” żądań do systemu, tj. zapytania zgodne z zasadami działania wyszukiwarek są niemożliwe. Dlatego programiści tworzą algorytmy i zasady działania wyszukiwarek, które pozwolą użytkownikom znaleźć informacje, których szukają.

Oznacza to, że wyszukiwarka musi „myśleć” w ten sam sposób, w jaki myśli użytkownik, szukając informacji. Kiedy użytkownik kieruje zapytanie do wyszukiwarki, chce znaleźć to, czego potrzebuje, tak szybko i łatwo, jak to możliwe. Otrzymując wynik, ocenia wydajność systemu, kierując się kilkoma podstawowymi parametrami. Czy znalazł to, czego szukał? Jeśli go nie znalazł, ile razy musiał przeformułować zapytanie, aby znaleźć to, czego szukał? Ile istotnych informacji mógł znaleźć? Jak szybko wyszukiwarka przetworzyła zapytanie? Jak wygodne były prezentowane wyniki wyszukiwania? Czy wynik, którego szukałeś, był pierwszym czy setnym? Ile niepotrzebnych śmieci znaleziono wraz z przydatnymi informacjami? Czy potrzebne informacje zostaną znalezione w wyszukiwarce, powiedzmy, za tydzień, czy za miesiąc?

Aby odpowiedzieć na wszystkie te pytania, twórcy wyszukiwarek stale udoskonalają algorytmy i zasady wyszukiwania, dodając nowe funkcje i możliwości oraz starając się na wszelkie możliwe sposoby przyspieszyć działanie systemu.

3. Główne cechy wyszukiwarki

Opiszmy główne cechy wyszukiwarek:

Kompletność
Kompletność to jedna z głównych cech systemu wyszukiwania, która jest stosunkiem liczby dokumentów znalezionych na żądanie do całkowitej liczby dokumentów w Internecie, które spełniają dane żądanie. Na przykład, jeśli w Internecie jest 100 stron zawierających frazę „jak wybrać samochód”, a dla odpowiedniego zapytania znaleziono tylko 60 z nich, wówczas kompletność wyszukiwania wyniesie 0,6. Oczywiście im pełniejsze wyszukiwanie, tym mniejsze prawdopodobieństwo, że użytkownik nie znajdzie potrzebnego mu dokumentu, o ile w ogóle istnieje on w Internecie.
Dokładność
Dokładność to kolejna główna cecha wyszukiwarki, która zależy od stopnia, w jakim znalezione dokumenty odpowiadają zapytaniu użytkownika. Przykładowo, jeśli zapytanie „jak wybrać samochód” zawiera 100 dokumentów, 50 z nich zawiera frazę „jak wybrać samochód”, a pozostałe zawierają po prostu te słowa („jak wybrać odpowiednie radio i zamontować je w samochód”), wówczas przyjmuje się, że dokładność wyszukiwania jest równa 50/100 (=0,5). Im dokładniejsze wyszukiwanie, tym szybciej użytkownik znajdzie potrzebne mu dokumenty, im mniej będzie wśród nich różnego rodzaju „śmieci”, tym rzadziej znalezione dokumenty nie będą odpowiadały jego żądaniom.
Znaczenie
Równie ważnym elementem wyszukiwania jest trafność, która charakteryzuje się czasem, jaki upływa od momentu opublikowania dokumentów w Internecie do chwili ich wpisania do bazy indeksów wyszukiwarki. Na przykład dzień po pojawieniu się ciekawych wiadomości duża liczba użytkowników zwróciła się do wyszukiwarek z odpowiednimi zapytaniami. Obiektywnie, od publikacji newsów na ten temat minął niecały dzień, ale główne dokumenty zostały już zindeksowane i udostępnione do przeszukiwania, dzięki istnieniu tzw. „szybkiej bazy danych” dużych wyszukiwarek, która jest aktualizowany kilka razy dziennie.
Szybkość wyszukiwania
Szybkość wyszukiwania jest ściśle powiązana z odpornością na obciążenie. Na przykład według Rambler Internet Holding LLC dzisiaj w godzinach pracy wyszukiwarka Rambler otrzymuje około 60 żądań na sekundę. Takie obciążenie wymaga skrócenia czasu rozpatrywania indywidualnego wniosku. Tutaj interesy użytkownika i wyszukiwarki są zbieżne: odwiedzający chce jak najszybciej uzyskać wyniki, a wyszukiwarka musi jak najszybciej przetworzyć żądanie, aby nie spowalniać kalkulacji kolejnych zapytań.
Widoczność

4. Krótka historia rozwoju wyszukiwarek

W początkowym okresie rozwoju Internetu liczba jego użytkowników była niewielka, a ilość dostępnych informacji stosunkowo niewielka. Dostęp do Internetu mieli w większości wyłącznie pracownicy naukowi. W tamtym czasie zadanie wyszukiwania informacji w Internecie nie było tak pilne jak obecnie.

Jednym z pierwszych sposobów zorganizowania dostępu do sieciowych zasobów informacyjnych było utworzenie otwartych katalogów stron, linków do zasobów, w których pogrupowano tematycznie. Pierwszym takim projektem była witryna Yahoo.com, która została otwarta wiosną 1994 roku. Po znaczącym zwiększeniu liczby stron w katalogu dodano możliwość wyszukiwania niezbędnych informacji w katalogu. W pełnym tego słowa znaczeniu nie była to jeszcze wyszukiwarka, gdyż obszar poszukiwań ograniczał się jedynie do zasobów znajdujących się w katalogu, a nie do wszystkich zasobów Internetu.

Katalogi linków były szeroko stosowane w przeszłości, ale obecnie prawie całkowicie straciły na popularności. Bo nawet współczesne, ogromne objętościowo katalogi zawierają informacje jedynie o znikomej części Internetu. Największy katalog sieci DMOZ (zwany także projektem Open Directory) zawiera informacje o 5 milionach zasobów, natomiast baza danych wyszukiwarki Google to ponad 8 miliardów dokumentów.

W 1995 roku pojawiły się wyszukiwarki Lycos i AltaVista. Ten ostatni od wielu lat jest liderem w zakresie wyszukiwania informacji w Internecie.

W 1997 roku Sergey Brin i Larry Page stworzyli wyszukiwarkę Google w ramach projektu badawczego na Uniwersytecie Stanforda. Google to obecnie najpopularniejsza wyszukiwarka na świecie!

We wrześniu 1997 roku oficjalnie ogłoszono wyszukiwarkę Yandex, która jest najpopularniejszą w rosyjskojęzycznym Internecie.

Obecnie istnieją trzy główne wyszukiwarki (międzynarodowe) – Google, Yahoo i, które posiadają własne bazy danych i algorytmy wyszukiwania. Większość innych wyszukiwarek (a jest ich wiele) korzysta w takiej czy innej formie z wyników trzech wymienionych na liście. Na przykład wyszukiwarka AOL (search.aol.com) korzysta z bazy danych Google, podczas gdy AltaVista, Lycos i AllTheWeb korzystają z bazy danych Yahoo.

5. Skład i zasady działania systemu wyszukiwania

W Rosji główną wyszukiwarką jest Yandex, a następnie Rambler.ru, Google.ru, Aport.ru, Mail.ru. Ponadto w tej chwili Mail.ru korzysta z wyszukiwarki i bazy danych Yandex.

Prawie wszystkie główne wyszukiwarki mają swoją własną strukturę, różniącą się od innych. Można jednak zidentyfikować główne elementy wspólne dla wszystkich wyszukiwarek. Różnice w strukturze mogą polegać jedynie na implementacji mechanizmów interakcji tych komponentów.

Moduł indeksujący

Moduł indeksujący składa się z trzech programów pomocniczych (robotów):

Spider to program przeznaczony do pobierania stron internetowych. Pająk pobiera stronę i pobiera wszystkie linki wewnętrzne z tej strony. Pobierany jest kod HTML każdej strony. Roboty korzystają z protokołów HTTP do pobierania stron. Pająk działa w następujący sposób. Robot wysyła do serwera żądanie „pobierz/ścieżkę/dokument” i kilka innych poleceń żądania HTTP. W odpowiedzi robot otrzymuje strumień tekstowy zawierający informacje o usłudze oraz sam dokument.

Strona URL
data pobrania strony
Nagłówek http odpowiedzi serwera
treść strony (kod HTML)

Crawler („wędrujący” pająk) to program, który automatycznie podąża za wszystkimi linkami znajdującymi się na stronie. Zaznacza wszystkie linki obecne na stronie. Jego zadaniem jest określenie, dokąd pająk powinien udać się dalej, na podstawie linków lub z góry określonej listy adresów. Robot, podążając za znalezionymi linkami, wyszukuje nowe dokumenty, które są jeszcze nieznane wyszukiwarce.

Indexer (robot indeksujący) to program analizujący strony internetowe pobierane przez pająki. Indeksator analizuje stronę na części składowe i analizuje je przy użyciu własnych algorytmów leksykalnych i morfologicznych. Analizowane są różne elementy strony, takie jak tekst, nagłówki, linki, cechy strukturalne i stylistyczne, znaczniki HTML usług specjalnych itp.

Dzięki temu moduł indeksujący umożliwia przeszukanie zadanego zbioru zasobów za pomocą linków, pobranie napotkanych stron, wyodrębnienie linków do nowych stron z otrzymanych dokumentów oraz dokonanie pełnej analizy tych dokumentów.

Baza danych

Baza danych, czyli indeks wyszukiwarki, to system przechowywania danych, tablica informacyjna, w której przechowywane są specjalnie przekonwertowane parametry wszystkich dokumentów pobieranych i przetwarzanych przez moduł indeksujący.

Wyszukaj serwer

Serwer wyszukiwania jest najważniejszym elementem całego systemu, ponieważ jakość i szybkość wyszukiwania zależą bezpośrednio od algorytmów leżących u podstaw jego funkcjonowania.

Serwer wyszukiwania działa w następujący sposób:

Żądanie otrzymane od użytkownika poddawane jest analizie morfologicznej. Dla każdego dokumentu znajdującego się w bazie generowane jest środowisko informacyjne (które następnie zostanie wyświetlone w formie, czyli informacji tekstowej odpowiadającej żądaniu na stronie wyników wyszukiwania).
Otrzymane dane przekazywane są jako parametry wejściowe do specjalnego modułu rankingowego. Dla wszystkich dokumentów przetwarzane są dane, dzięki czemu każdy dokument posiada własną ocenę, charakteryzującą trafność zapytania wprowadzonego przez użytkownika oraz poszczególne elementy tego dokumentu zapisane w indeksie wyszukiwarki.
W zależności od wyboru użytkownika ocena ta może zostać skorygowana o dodatkowe warunki (np. tzw. „wyszukiwanie zaawansowane”).
Następnie generowany jest fragment, czyli dla każdego znalezionego dokumentu z tabeli dokumentów pobierany jest tytuł, krótkie streszczenie najlepiej pasujące do zapytania oraz link do samego dokumentu, a znalezione słowa są podświetlane.
Powstałe wyniki wyszukiwania przekazywane są użytkownikowi w postaci SERP (ang. Search Engine Result Page) – strony wyników wyszukiwania.

Jak widać wszystkie te komponenty są ze sobą ściśle powiązane i współpracują ze sobą, tworząc przejrzysty, dość złożony mechanizm działania systemu wyszukiwania, wymagający ogromnych ilości zasobów.

6. Wniosek

Podsumujmy teraz wszystkie powyższe.

Podstawowym celem każdej wyszukiwarki jest dostarczanie użytkownikom dokładnie takich informacji, jakich szukają.
Główne cechy wyszukiwarek:
1. Kompletność
2. Dokładność
3. Znaczenie
4. Szybkość wyszukiwania
5. Widoczność
Pierwszą pełnoprawną wyszukiwarką był projekt WebCrawler opublikowany w 1994 roku.
System wyszukiwania składa się z następujących komponentów:
1. Moduł indeksujący
2. Baza danych
3. Wyszukaj serwer

Mamy nadzieję, że nasza klasa mistrzowska pozwoli Ci lepiej zapoznać się z koncepcją wyszukiwarki i lepiej zrozumieć główne funkcje, cechy i zasady działania wyszukiwarek.

1. Terminy i definicje W niniejszej umowie o przetwarzanie danych osobowych (zwanej dalej Umową) poniższe terminy mają następujące definicje: Operator - Przedsiębiorca indywidualny Oleg Aleksandrowicz Dneprowski. Akceptacja Umowy – pełna i bezwarunkowa akceptacja wszystkich warunków Umowy poprzez przesłanie i przetwarzanie danych osobowych. Dane osobowe – informacje wprowadzone przez Użytkownika (przedmiot danych osobowych) w serwisie i bezpośrednio lub pośrednio związane z tym Użytkownikiem. Użytkownik - każda osoba fizyczna lub prawna, która pomyślnie przeszła procedurę wypełniania pól wejściowych w serwisie. Wypełnienie pól wejściowych to procedura polegająca na przesłaniu przez Użytkownika swojego imienia, nazwiska, numeru telefonu, osobistego adresu e-mail (dalej jako Dane Osobowe) do bazy zarejestrowanych użytkowników serwisu, przeprowadzana w celu identyfikacji użytkownik. W wyniku wypełnienia pól wejściowych dane osobowe zostają przesłane do bazy Operatora. Wypełnienie pól wejściowych jest dobrowolne. serwis internetowy – serwis internetowy znajdujący się w sieci Internet i składający się z jednej strony. 2. Postanowienia ogólne 2.1. Niniejsza Umowa została sporządzona w oparciu o wymogi ustawy federalnej z dnia 27 lipca 2006 r. nr 152-FZ „O danych osobowych” oraz postanowienia art. 13.11 dotyczące „Naruszenia ustawodawstwa Federacji Rosyjskiej w zakresie dane osobowe” Kodeksu wykroczeń administracyjnych Federacji Rosyjskiej i obowiązuje dla wszystkich danych osobowych, które Operator może uzyskać na temat Użytkownika podczas korzystania z Witryny. 2.2. Wypełnienie przez Użytkownika pól wejściowych w Serwisie oznacza bezwarunkową zgodę Użytkownika na wszystkie warunki niniejszej Umowy (Akceptacja Umowy). W przypadku braku zgody na niniejsze warunki Użytkownik nie wypełnia pól wejściowych w Serwisie. 2.3. Zgoda Użytkownika na udostępnienie Operatorowi danych osobowych i ich przetwarzanie przez Operatora obowiązuje do czasu zakończenia działalności Operatora lub do czasu wycofania zgody przez Użytkownika. Akceptując niniejszą Umowę i przechodząc procedurę Rejestracji, a także wchodząc później na Stronę, Użytkownik potwierdza, że działając z własnej woli i we własnym interesie przekazuje swoje dane osobowe do przetwarzania Operatorowi oraz wyraża zgodę na ich przetwarzanie. Użytkownik zostaje poinformowany, że przetwarzanie jego danych osobowych będzie realizowane przez Operatora na podstawie ustawy federalnej z dnia 27 lipca 2006 r. nr 152-FZ „O danych osobowych”. 3. Lista danych osobowych i innych informacji o użytkowniku, które należy przekazać Operatorowi 3. 1. Korzystając z Serwisu Operatora Użytkownik podaje następujące dane osobowe: 3.1.1. Wiarygodne dane osobowe, które Użytkownik podaje o sobie niezależnie podczas wypełniania pól wejściowych i/lub w trakcie korzystania z usług Strony, w tym nazwisko, imię, patronimika, numer telefonu (domowy lub komórkowy), osobisty adres e-mail. 3.1.2. Dane przekazywane automatycznie do usług Serwisu w trakcie korzystania z nich za pomocą oprogramowania zainstalowanego na urządzeniu Użytkownika, w tym adres IP, informacje zawarte w plikach Cookies, informacje o przeglądarce Użytkownika (lub innym programie, za pośrednictwem którego uzyskuje się dostęp do usług). 3.2. Operator nie weryfikuje prawidłowości podanych przez Użytkownika danych osobowych. W takim przypadku Operator zakłada, że Użytkownik podał rzetelne i wystarczające dane osobowe na pytania zaproponowane w Polach wprowadzania danych. 4. Cele, zasady gromadzenia i wykorzystywania danych osobowych 4.1. Operator przetwarza dane osobowe, które są niezbędne do świadczenia usług i świadczenia usług na rzecz Użytkownika. 4.2. Dane osobowe Użytkownika wykorzystywane są przez Operatora w następujących celach: 4.2.1. Identyfikacja użytkownika; 4.2.2. Zapewnienie Użytkownikowi spersonalizowanych usług (a także informowanie o nowych promocjach i usługach firmy poprzez wysyłanie listów); 4.2.3. Prowadzenie komunikacji z Użytkownikiem w razie potrzeby, w tym przesyłanie powiadomień, żądań i informacji związanych z korzystaniem z usług, świadczeniem usług, a także przetwarzaniem żądań i wniosków od Użytkownika; 4.3. Podczas przetwarzania danych osobowych dokonywane będą następujące czynności: zbieranie, utrwalanie, systematyzacja, gromadzenie, przechowywanie, wyjaśnianie (aktualizacja, zmiana), wydobywanie, wykorzystywanie, blokowanie, usuwanie, niszczenie. 4.4. Użytkownik nie sprzeciwia się temu, aby określone przez niego informacje w niektórych przypadkach mogły zostać przekazane uprawnionym organom państwowym Federacji Rosyjskiej zgodnie z obowiązującym ustawodawstwem Federacji Rosyjskiej. 4,5. Dane osobowe Użytkownika są przechowywane i przetwarzane przez Operatora w sposób przewidziany w niniejszej Umowie przez cały okres działalności Operatora. 4.6. Przetwarzanie danych osobowych odbywa się przez Operatora poprzez prowadzenie baz danych, metodami zautomatyzowanymi, mechanicznymi i ręcznymi. 4.7. Witryna korzysta z plików cookie i innych technologii w celu śledzenia korzystania z usług Witryny. Dane te są niezbędne do optymalizacji technicznego działania Serwisu i poprawy jakości świadczenia usług. Witryna automatycznie rejestruje informacje (w tym adres URL, adres IP, typ przeglądarki, język, datę i godzinę żądania) o każdym odwiedzającym Witrynę. Użytkownik ma prawo odmówić podania danych osobowych podczas odwiedzania Serwisu lub wyłączyć obsługę plików Cookies, jednak w takim przypadku nie wszystkie funkcje Serwisu mogą działać poprawnie. 4.8. Warunki poufności przewidziane w niniejszej Umowie mają zastosowanie do wszystkich informacji, jakie Operator może uzyskać na temat Użytkownika w trakcie jego pobytu w Serwisie i korzystania z Serwisu. 4.9. Informacje ujawnione publicznie w trakcie wykonywania niniejszej Umowy, a także informacje, które strony lub osoby trzecie mogą uzyskać ze źródeł, do których każda osoba ma swobodny dostęp, nie są poufne. 4.10. Operator podejmuje wszelkie niezbędne działania mające na celu ochronę poufności danych osobowych Użytkownika przed nieuprawnionym dostępem, modyfikacją, ujawnieniem lub zniszczeniem, w tym: zapewnia stałą wewnętrzną weryfikację procesów gromadzenia, przechowywania i przetwarzania danych oraz zapewnienie bezpieczeństwa; zapewnia fizyczne bezpieczeństwo danych, uniemożliwiając nieuprawniony dostęp do systemów technicznych zapewniających działanie Serwisu, w którym Operator przechowuje dane osobowe; zapewnia dostęp do danych osobowych jedynie tym pracownikom Operatora lub osobom upoważnionym, które potrzebują tych informacji do wykonywania obowiązków bezpośrednio związanych ze świadczeniem usług na rzecz Użytkownika, a także obsługą, rozwojem i ulepszaniem Serwisu. 4.11. Dane osobowe Użytkownika pozostają poufne, za wyjątkiem przypadków, gdy Użytkownik dobrowolnie udostępni informacje o sobie w celu ogólnego dostępu nieograniczonej liczbie osób. 4.12. Przekazanie przez Operatora danych osobowych Użytkownika jest zgodne z prawem w okresie reorganizacji Operatora i przeniesienia praw na następcę prawnego Operatora, natomiast wszelkie obowiązki dopełnienia warunków niniejszej Umowy w stosunku do otrzymanych przez niego danych osobowych mają charakter przeniesiony na następcę prawnego. 4.13. Niniejsze Oświadczenie dotyczy wyłącznie Strony Internetowej Operatora. Spółka nie kontroluje i nie ponosi odpowiedzialności za strony (usługi) podmiotów zewnętrznych, do których użytkownik może uzyskać dostęp za pośrednictwem linków dostępnych na Stronie Operatora, w tym w wynikach wyszukiwania. Na takich Stronach (usługach) mogą być zbierane lub żądane od użytkownika inne dane osobowe oraz mogą być wykonywane inne czynności 5. Prawa użytkownika jako podmiotu danych osobowych, zmiana i usunięcie danych osobowych przez użytkownika 5.1. Użytkownik ma prawo: 5.1.2. Żądania od Operatora doprecyzowania jego danych osobowych, ich zablokowania lub zniszczenia, jeżeli dane osobowe są niekompletne, nieaktualne, niedokładne, pozyskane nielegalnie lub nie są niezbędne do wskazanego celu przetwarzania, a także podjęcia przewidzianych prawem środków w celu ochrony jego praw. 5.1.3. Otrzymuj informacje dotyczące przetwarzania jego danych osobowych, w tym informacje zawierające: 5.1.3.1. potwierdzenie faktu przetwarzania danych osobowych przez Operatora; 5.1.3.2. cele i sposoby przetwarzania danych osobowych stosowane przez operatora; 5.1.3.3. nazwa i lokalizacja Operatora; 5.1.3.4. przetwarzane dane osobowe związane z przedmiotem danych osobowych, źródłem ich otrzymania, chyba że prawo federalne przewiduje inną procedurę przedstawiania takich danych; 5.1.3.5. warunki przetwarzania danych osobowych, w tym okresy przechowywania; 5.1.3.6. inne informacje przewidziane przez obowiązujące ustawodawstwo Federacji Rosyjskiej. 5.2. Wycofanie zgody na przetwarzanie danych osobowych może zostać dokonane przez Użytkownika poprzez przesłanie Operatorowi stosownego pisemnego oświadczenia (wydrukowanego na nośniku materialnym i podpisanego przez Użytkownika). 6. Obowiązki Operatora. Dostęp do danych osobowych 6.1. Operator zobowiązuje się do zapewnienia zapobiegania nieuprawnionemu i niezamierzonemu dostępowi do danych osobowych Użytkowników Serwisu Operatora. W takim przypadku autoryzowany i ukierunkowany dostęp do danych osobowych Użytkowników Serwisu będzie uważany za dostęp do nich wszystkich zainteresowanych stron, realizowany w ramach celów i tematyki Serwisu Operatora. Jednocześnie Operator nie ponosi odpowiedzialności za ewentualne niewłaściwe wykorzystanie danych osobowych Użytkowników, które nastąpi na skutek: problemów technicznych w oprogramowaniu oraz sprzęcie i sieciach niezależnych od Operatora; w związku z zamierzonym lub niezamierzonym korzystaniem ze Stron Operatora w sposób inny niż zgodny z ich przeznaczeniem przez osoby trzecie; 6.2 Operator podejmuje niezbędne i wystarczające środki organizacyjne i techniczne w celu ochrony danych osobowych użytkownika przed nieuprawnionym lub przypadkowym dostępem, zniszczeniem, modyfikacją, blokowaniem, kopiowaniem, rozpowszechnianiem, a także przed innymi niezgodnymi z prawem działaniami osób trzecich. 7. Zmiany w Polityce Prywatności. Obowiązujące ustawodawstwo 7.1. Operator ma prawo dokonać zmian w niniejszym Regulaminie bez specjalnego powiadamiania Użytkowników. W przypadku wprowadzenia zmian w bieżącym wydaniu wskazywana jest data ostatniej aktualizacji. Nowe wydanie Regulaminu wchodzi w życie z chwilą jego opublikowania, chyba że nowe wydanie Regulaminu stanowi inaczej. 7.2. Do niniejszego Regulaminu oraz relacji pomiędzy Użytkownikiem a Operatorem powstałych w związku ze stosowaniem Regulaminu stosuje się prawo Federacji Rosyjskiej. Akceptuję, nie akceptuję

Nie jesteśmy tak wyjątkowi, jak nam się wydaje: miliony ludzi przed nami dziwiły się, a miliony po nas będą zaskakiwać wyszukiwarkę niemal identycznymi pytaniami. Z drugiej strony jesteśmy zbyt nieprzewidywalni: na sformułowanie naszej prośby ma wpływ ogromna ilość czynników, z których nie zdajemy sobie sprawy. I przynajmniej z tego powodu prośba każdego z nas, niezależnie od tego, jak banalna może być, wymaga indywidualnego podejścia.

W rzeczywistości cała praca wyszukiwarki Yandex sprowadza się do dwóch prostych rzeczy: zrozumienia, co dana osoba naprawdę chce wiedzieć, i za kilka sekund znalezienia odpowiednich wśród miliardów dokumentów w Internecie.

Weź odciski palców

System operacyjny wyszukiwarki jest nieco podobny do Matrixa, a robot wyszukiwania (stworzony przez niego złożony, niezależny program podejmujący decyzje) jest podobny do Agenta Smitha.

Aby nie przeszukiwać całego Internetu za każdym razem, gdy ktoś potrzebuje się czegoś dowiedzieć, wyszukiwarka część pracy wykonuje z wyprzedzeniem - sprawdza, co i gdzie jest w sieci, korzystając z tysięcy robotów wyszukujących. Występują w dwóch rodzajach: podstawowym i szybkim. Główny przeszukuje i przetwarza cały Internet, a szybki - dokumenty, które pojawiły się minutę, a nawet kilka sekund temu. Zadaniem programów robotów jest wyselekcjonowanie odpowiednich i przydatnych dla użytkowników informacji, przetworzenie ich, wyeliminowanie wszystkiego, co przestarzałe i niepotrzebne. Przypomina to w pewnym sensie sortowanie śmieci: w jednym pojemniku papier, w drugim szkło, w trzecim plastik, w czwartym odpady żywnościowe...

Informacje zbierane przez roboty tworzą tzw. rzut internetowy. Jest przechowywany na tysiącach serwerów Yandex i jest stale aktualizowany. Model użytkowy przypomina listę informującą, gdzie i jakie informacje można znaleźć. Na tej liście każde słowo kluczowe ma nie jedną, ale miliony „stron”. Aby mieć pewność, że wszystkie aktualizacje nuggetów będą dostępne dla użytkowników, są one przenoszone z repozytorium do „wyszukiwania podstawowego”. Dane z robota głównego przesyłane są co kilka dni, a z robota szybkiego – w czasie rzeczywistym.

Doprowadzić do czystej wody

ILUSTRACJA: EWGENIJ TONKONOGY

Poszukując odpowiedzi na zadane pytanie w przygotowanej bazie danych, maszyna napotyka dwie główne trudności. Pierwszą trudnością jest język. Zanim zaczniesz szukać odpowiedzi na pytanie, ważne jest, aby maszyna zrozumiała, w jakim języku ma to zrobić. Przykładowo dla osoby rosyjskojęzycznej wyszukiwanie „oddział księcia Igora” spowoduje znalezienie dokumentów zawierających informacje o wojsku, a dla Ukraińca „oddział księcia Igora” zwróci także dokumenty wymieniające księżniczkę Olgę, jego żonę, ponieważ po ukraińsku „żona” to „oddział”. A w bogatym języku rosyjskim to samo słowo lub jego pochodne mogą oznaczać różne rzeczy. Na przykład słowo „stal” jest jedną z form rzeczownika „stal” i czasownika „stać się”. Drugą trudnością jest psychologia człowieka. Wpisując zapytanie oczekujemy szybkiej i trafnej odpowiedzi, nie martwiąc się naturalnie o to, czy treść zapytania odpowiada zasadom analizy matematycznej, według której działa mózg maszyny. Na przykład, wpisując w wyszukiwarkę słowo „Napoleon”, co dana osoba chce uzyskać: przepis na ciasto lub biografię francuskiego cesarza, kupić koniak lub znaleźć adres szpitala psychiatrycznego?

W takich sytuacjach w grę wchodzi kilka technologii. Pod paskiem wyszukiwania możesz podać kilka wskazówek, które pozwolą określić Twoje żądanie. Wybierz, czego potrzebujesz: przepisy Napoleona lub Napoleon - Bonaparte. Jeśli użytkownik nie zareaguje na żądanie maszyny i nie doda słów do „Napoleona”, wówczas pomaga technologia „Spectrum”: nie licząc na pomoc, maszyna natychmiast wyszukuje informacje w kilku kategoriach (o torcie, i o cesarzu, i o koniu…). Ponadto mechanizmy personalizacji pomagają zrozumieć użytkownika - wiedza maszyny o tym, czego ten użytkownik szukał na swoim komputerze dzień, dwa, trzy lub miesiące temu: jeśli często zadawałeś Yandexowi pytania dotyczące gotowania, maszyna najpierw pokaże wyniki, które mówią, że Napoleon to ciasto.

Kombinacje: kluby zainteresowań

Zadaniem wyszukiwarki nie jest po prostu wybieranie dokumentów zawierających słowa i frazy z wyszukiwanego hasła. Maszyna musi zrozumieć, które dokumenty spełniają nasze sprzeczne wymagania i dlaczego je spełniają. Czy chcemy uzyskać informacje o torcie Napoleona, a może od kilku lat odwiedzamy klub fitness o pretensjonalnej nazwie, a może zupełnie przejmują się kompleksami niskich ludzi. W każdym razie rozwiązanie problemu wymaga nietrywialnego podejścia.

Twórcy programu wyszukiwania Yandex znaleźli to podejście, delegując prawo wyboru maszynie. Z jednej strony bezduszna, ale bardzo szybka i inteligentna maszyna nie wie i nie chce nic o nas jako jednostkach wiedzieć, a z drugiej strony stara się dowiedzieć o każdym jak najwięcej.

Oprócz lokalizacji geograficznej użytkownika i analizy językowej jego zapytań, wyszukiwarka wykorzystuje kilka tysięcy kryteriów, które nie są wcale oczywiste dla człowieka.

Sztuka polega na tym, że maszyna samodzielnie opracowuje i aktualizuje te kryteria.

Wykorzystuje po prostu dane dotyczące preferencji i zachowań użytkowników milionów ludzi i wiąże tę „średnią arytmetyczną” z historią naszych zapytań. Zasady, którymi kieruje się Matrix w sobie, porównując tysiące kategorii zainteresowań użytkowników, które rozwinęła, często nie pasują do tradycyjnych ludzkich wyobrażeń na temat tego, czym w zasadzie mogą być „zainteresowania”. Jest ich dziesiątki tysięcy. Tworzą ze sobą różne, czasem zabawne, kombinacje. Na przykład jedna z tych kombinacji może polegać na tym, że wyniki wyszukiwania odpowiadają zainteresowaniom osoby hodującej traszki. Jednocześnie dana osoba nie tylko interesuje się traszkami, ale już je hoduje, ale tylko przez pierwszy rok.

Oceny. Pomocne dłonie

Matryca oczywiście sama decyduje (przy pomocy wyższej matematyki), co i w jakiej kolejności należy pokazać użytkownikom na podstawie dziesiątek tysięcy kryteriów. Ale Matrix wykorzystuje także żywych ludzi – 1000 pracowników Yandex, tzw. asesorów, ocenia wyniki wyszukiwania pod kątem konkretnego żądania (oczywiście nie każde żądanie jest oceniane i nie dzieje się to w czasie rzeczywistym), aby ustalić, czy spełniają one oczekiwania zwykłego użytkownika: nie tak racjonalne jak maszyna, nie tak precyzyjne w sformułowaniach, sprzeczne i emocjonalne.