Domov Zařízení

Internetové vyhledávače: Yandex, Google, Rambler, Yahoo. Složení, funkce, princip činnosti. Nejjednodušší popis principu fungování kombinace vyhledávače Yandex: zájmové kluby

Dobrý den drazí přátelé! V tomto článku se budeme i nadále dívat na vyhledávač Yandex, a jak si pamatujete, v předchozích článcích jsme diskutovali o historii vytvoření této skvělé společnosti, která je na prvním místě mezi svými konkurenty v Rusku i mimo něj.

To vše je dobré, ale začátečníky i zkušené tvůrce stránek zajímá ta nejdůležitější otázka, samozřejmě související s tím, jak dostat své projekty na první místa v TOP výsledcích vyhledávání.

Proto se podívejme, jak funguje vyhledávač Yandex, abychom pochopili, na jaké chyby můžete šlápnout a co od ruského vyhledávače obecně očekávat.

V minulém článku jsme diskutovali. Téma se ukázalo jako docela zajímavé a užitečné. Proto jsem se rozhodl ji takříkajíc doplnit, prohloubit.

Takže jsem se asi trochu nechal unést otázkou „Proč vyhledávač indexuje dokumenty“? Zbývá jen vyřešit otázku „jak“.

Algoritmy hodnocení webových stránek

Nejprve se seznámíme s některými algoritmy, které jsou zásadní pro jakýkoli vyhledávač:

— Algoritmus přímého vyhledávání.

Co to je - vzpomínáte si, že jste četli nádherný příběh v jedné z knih. A začnete hledat jeden po druhém. Vzali jednu knihu, prohlédli ji, nenašli, vzali jinou... Princip je jasný, ale tato metoda je extrémně dlouhá. To je také pochopitelné.

— Algoritmus zpětného vyhledávání.

Pro tento algoritmus se z každé stránky vašeho blogu vytvoří textový soubor. Tento soubor uvádí v abecedním pořadí VŠECHNA slova, která jste použili. I poloha tohoto slova v textu je uvedena (souřadnice v textu).

Jedná se o poměrně rychlou metodu, ale vyhledávání již probíhá s nějakou chybou.

Hlavní věc, kterou je zde třeba pochopit, je, že tento algoritmus nevyhledává na internetu, nikoli na blogu. A to v samostatném textovém souboru, který vznikl už dávno. Když k vám robot přišel. A tyto soubory (reverzní indexy) jsou uloženy na serverech Yandex.

Takže to byly základní vyhledávací algoritmy. Tito. jak Yandex jednoduše najde potřebné dokumenty. Zdá se, že by s tím neměly být žádné problémy.

Yandex ale zná více než jeden nebo dokonce 100 dokumentů, ale podle posledních údajů z mých zdrojů zná Yandex asi 11 miliard dokumentů (10 727 736 489 stránek).

A mezi vším tím množstvím musíte vybrat dokumenty, které odpovídají požadavku. A co je důležitější, musíte je nějak seřadit. Tito. seřadit podle míry důležitosti, nebo spíše podle míry užitečnosti pro čtenáře.

Matematické vyhledávací modely

K vyřešení tohoto problému přicházejí na pomoc matematické modely. Nyní budeme mluvit o nejjednodušších modelech.

Booleovský matematický model– Pokud se v dokumentu objeví slovo, považuje se dokument za nalezený. Prostě náhoda a nic složitého.

Ale jsou zde problémy. Pokud například jako uživatel zadáte nějaké oblíbené slovo nebo ještě lépe předložku „v“, což je nejběžnější slovo v ruském jazyce a nachází se v KAŽDÉM dokumentu, dostanete tolik výsledků že si takové číslo ani neuvědomujete, Kolik dokumentů jste našel? Proto se objevil následující model rohože.

Vektorový matematický model– tento model určuje „váhu“ dokumentu. Nejen, že se náhoda vyskytuje, ale slovo se musí vyskytovat vícekrát. Navíc, čím více se slovo objevuje, tím vyšší je relevance (shoda).

Je to vektorový model, který používají VŠECHNY vyhledávače.

Pravděpodobnostní model– složitější. Princip je tento: vyhledávač našel šablonu stránky sám. Například hledáte informace o historii Yandexu. Yandex ukládá nějaký standard, řekněme, že toto bude můj předchozí článek o Yandexu.

A všechny ostatní dokumenty porovná s tímto článkem. A logika je tato: čím více je vaše stránka blogu podobná mému článku, tím PRAVDĚPODOBNĚJŠÍ je skutečnost, že vaše stránka blogu bude také užitečná pro čtenáře a také vypráví o historii Yandexu.

Pro snížení počtu dokumentů, které je potřeba uživateli ukázat, byl zaveden koncept relevance, tzn. dodržování.

Jak relevantní je vaše stránka blogu k tématu? Toto je důležité téma, pokud jde o kvalitu vyhledávání.

Hodnotitelé – kdo jsou a za co zodpovídají?

Tato relevance je také potřebná pro posouzení kvality algoritmů.

K tomuto účelu je zde velitelství speciálních jednotek – říká se jim Assessors. Jsou to zvláštní lidé, kteří prohlížejí výsledky vyhledávání rukama.

Mají návod, jak stránky kontrolovat, jak hodnotit atd. A ručně určují, zda jsou vaše stránky vhodné pro vyhledávací dotazy či nikoli.

A kvalita vyhledávacích algoritmů závisí na názoru hodnotitelů. Pokud všichni hodnotitelé tvrdí, že výsledky vyhledávání neodpovídají dotazům, znamená to, že algoritmus hodnocení je nesprávný a na vině je pouze Yandex.

Pokud hodnotitelé řeknou, že pouze jedna stránka nevyhovuje požadavku, znamená to, že stránka letí někam daleko a je ve výsledcích vyhledávání snížena. Přesněji řečeno, ne celý web, ale pouze jeden článek, ale o to „nejde“.

Hodnotitelé samozřejmě nemohou kontrolovat a hodnotit VŠECHNY články rukama a očima. To je pochopitelné.

A na pomoc přicházejí další parametry, podle kterých jsou stránky seřazeny.

Je jich hodně, např.

váha stránky (vIC, PageRank, dětské hrbolky Celkově vzato);
doménová autorita;
relevance textu k žádosti;
relevance textů externích odkazů k požadavku;
stejně jako mnoho dalších hodnotících faktorů.

Hodnotitelé přidávají komentáře a lidé, kteří jsou zodpovědní za nastavení matematického hodnotícího modelu, zase upravují vzorec, v důsledku čehož vyhledávač funguje efektivněji.

Hlavní kritéria pro hodnocení výkonnosti formule:

1. Přesnost výsledků vyhledávače- procento dokumentů, které odpovídají požadavku (relevantní). Tito. Čím méně stránek neodpovídá požadavku, tím lépe.

2. Úplnost výsledků vyhledávače- jedná se o poměr relevantních webových stránek pro daný dotaz k celkovému počtu relevantních dokumentů ve sbírce (celkový počet stránek nalezených ve vyhledávači).

Pokud je například v celé kolekci více relevantních stránek než ve výsledcích vyhledávání, znamená to, že výsledky nejsou úplné. Stalo se to proto, že některé relevantní webové stránky byly filtrovány.

3. Relevance výsledků vyhledávače- to je soulad webové stránky s tím, co je napsáno v úryvku. Dokument může být například velmi odlišný nebo vůbec neexistuje, ale přesto může být přítomen ve výsledcích vyhledávání.

Relevance výsledků vyhledávání přímo závisí na tom, jak často vyhledávací robot skenuje dokumenty ze své sbírky.

Sběr kolekce (indexování stránek webu) provádí speciální program - vyhledávací robot.

Vyhledávací robot obdrží seznam adres pro indexování, zkopíruje je a poté odešle obsah zkopírovaných webových stránek ke zpracování do algoritmu, který je převede na reverzní indexy.

No, takříkajíc „ve zkratce“ jsme diskutovali o principech vyhledávače.

Pojďme si to shrnout:

Na váš blog přijde vyhledávací robot.
Vyhledávací robot ukládá zpětný index stránky pro další vyhledávání.
Pomocí matematického modelu je dokument zpracován a zobrazen ve výsledcích vyhledávání pomocí vzorců a s přihlédnutím k názoru posuzovatele.

To je velmi, velmi zjednodušené. Jen pro základní pochopení toho, jak funguje vyhledávač Yandex.

Napsal jsem teď tolik textu a možná toho tolik není jasné. Proto vám doporučuji vrátit se k tomuto článku o něco později a podívat se na toto video.

Je to výborný průvodce, od kterého jsem se svého času také učil.

Doufám, že vám tyto informace pomohou lépe porozumět tomu, proč jeden z vašich webů zaujímá vhodné pozice ve vyhledávání, a uděláte vše pro jejich zlepšení.

Tímto se s vámi loučím, pokud máte nějaké dotazy, vždy je rád zodpovím v komentářích. Nebo chcete článek doplnit?

V každém případě vyjádřete svůj názor. !

Yandex je dnes nejpopulárnějším vyhledávačem v Rusku. Servisní statistiky Živý internet, ukazuje podíl Yandexu na mase celoruského publika - je to 53,4%, pokud vezmeme v úvahu pouze Moskvu a region, pak je to ještě vyšší - 67,9% (Moskva podle požadavků zabírá více než 50 % celého Ruska).

Web www.yandex.ru byl vytvořen v roce 1997, stačil na něj pouze jeden server, který stál pod pracovní plochou jednoho ze skupiny prvních vývojářů Yandexu, Dmitryho, jehož příjmení bylo Teibleum. Velmi rychle po otevření jsme zakoupili druhý server a brzy, když bylo nutné nainstalovat další, bylo jasné, že pod stolem je dostatek místa buď pro tři servery Yandex, nebo […]

Vývojáři vyhledávačů se snaží poskytovat uživatelům ty nejlepší odpovědi na jejich dotazy. Někdy může být takovou odpovědí číslo (například počasí ve městě), obrázek (například adresa na mapě), překlad slova nebo čtyřverší. Když máte po ruce vhodnou řadu informací, odpověď může být poskytnuta okamžitě. Yandex proto doplňuje výsledky vyhledávání na internetu o odpovědi ze svých […]

Přibližně každý desátý požadavek na Yandex je „navigační“, to znamená, že se skládá z názvu organizace nebo webu a uživatel chce přejít na web této organizace. V tomto případě se místo adresního řádku prohlížeče používá vyhledávací panel Yandex a uživatel se zpravidla nezajímá o zbývajících devět výsledků vyhledávání. Aniž bychom odváděli pozornost uživatele od hlavního cíle, přidali jsme po hlavním […]

Hlavním úkolem vyhledávače je odpovědět na otázku uživatele. Když uživatel zadá dotaz, vyhledávač nevstoupí na všechny stránky na internetu, ale prohledává databázi stránek, které zná – index vyhledávání. Tam najde všechny stránky se slovy z dotazu. Uživatel vidí odkazy na tyto stránky na stránkách s výsledky vyhledávání.

Jak vidíme, Yandex nestojí na místě a jsem si jistý, že vyhledávací technologie tohoto systému se budou nadále vyvíjet, aby se zlepšila kvalita vyhledávání, kterou lze jen stěží nazvat ideální.

10. listopadu 2009 společnost Yandex oznámila novou verzi vyhledávacího algoritmu - Snezhinsk. V algoritmu pro výpočet relevance došlo k zásadním změnám - zástupci Yandexu napsali následující: „Podařilo se nám vytvořit přesnější a mnohem složitější matematický model, což vedlo k výraznému zvýšení kvality vyhledávání. Díky redesignu architektury hodnocení vyhledávání bylo možné implementovat účtování několika tisíc [...]

Testování nové verze algoritmu Yandex začalo 9. července 2008. Podle Yandexu „hlavní změny v programu souvisejí s novým přístupem ke strojovému učení a v důsledku toho s rozdíly ve způsobu, jakým jsou ve vzorci zohledňovány faktory hodnocení.“

14. dubna 2008 se na adrese buki.yandex.ru začal testovat nový vyhledávací algoritmus „Magadan“. Kromě zdvojnásobení počtu hodnotících faktorů byly přidány také tyto inovace:

Než se pustíme do algoritmické džungle, připomeňme si, jak vyhledávač obecně funguje. Logická struktura vyhledávacího systému může být reprezentována ve formě tří modulů (viz obrázek) Robot (crawler) je speciální program, který prochází internetové stránky a stahuje jejich obsah. Robot má speciální rozvrh, podle kterého provádí svá kola. Stránky webu načítané robotem, speciální [...]

66. Co má větší vliv: odkaz z bezplatné platformy (blogspot, LJ atd.) nebo z offline stránky/blogu? Bezplatné platformy přenášejí menší váhu než samostatné weby. Dopad by však mohl být větší. Je to způsobeno mnoha faktory: aktuálním seznamem kotev, stavem porovnávaných stránek atd. Na tuto otázku nelze jednoznačně odpovědět. 67. Největší váha se přenáší mezi […]

Vamana Tour - cestování, letenky a víza po celém světě a do Indie, Nepálu, Srí Lanky, Malediv, Mauricia a mnoha dalších míst planety. Rady pro cestovatele a poutníky. Jak ze své cesty vytěžit maximum. Úžasné historické kroniky a příběhy zkušených cestovatelů.

Jaký je účel zohlednění externích odkazů na stránky Jak můžete vidět z předchozí části, téměř všechny faktory ovlivňující hodnocení jsou pod kontrolou autora stránky? Pro vyhledávač se tak stává nemožné rozeznat skutečně kvalitní dokument od stránky vytvořené speciálně pro danou hledanou frázi nebo dokonce stránky generované robotem, která vůbec neobsahuje užitečné informace. […]

Dlouho se staly nedílnou součástí ruského internetu. Vyhledávače jsou dnes obrovské a složité mechanismy, které představují nejen nástroj pro vyhledávání informací, ale také lákavé oblasti pro podnikání.

Většina uživatelů vyhledávačů nikdy nepřemýšlela (nebo o tom nepřemýšlela, ale nenašla odpověď) o principu fungování vyhledávačů, o schématu zpracování uživatelských požadavků, o tom, z čeho se tyto systémy skládají a jak fungují...

Tato hlavní třída je navržena tak, aby odpověděla na otázku, jak fungují vyhledávače. Nenajdete zde však faktory, které ovlivňují pořadí dokumentů. Kromě toho byste neměli počítat s podrobným vysvětlením algoritmu Yandex. Podle Ilji Segaloviče, ředitele technologie a vývoje vyhledávače Yandex, může být rozpoznán pouze „na mučení“ samotným Ilyou Segalovičem...

2. Pojem a funkce vyhledávače

Vyhledávací systém je softwarový a hardwarový komplex určený k prohledávání internetu a odpovídání na požadavek uživatele, specifikovaný ve formě textové fráze (vyhledávací dotaz), vytvořením seznamu odkazů na zdroje informací v pořadí podle relevance ( v souladu s žádostí). Největší mezinárodní vyhledávače: "Google", Yahoo, MSN. Na ruském internetu jsou to Yandex, Rambler, Aport.

Podívejme se blíže na koncept vyhledávacího dotazu pomocí vyhledávače Yandex jako příkladu. Vyhledávací dotaz by měl uživatel formulovat v souladu s tím, co chce najít, co nejstručněji a nejjednodušeji. Řekněme, že chceme v Yandexu najít informace o tom, jak vybrat auto. Chcete-li to provést, otevřete hlavní stránku Yandex a zadejte text vyhledávacího dotazu „jak si vybrat auto“. Dále je naším úkolem otevřít odkazy poskytnuté na naši žádost na zdroje informací na internetu. Je však dost možné, že potřebné informace nenajdeme. Pokud k tomu dojde, pak buď musíte svůj požadavek přeformulovat, nebo databáze vyhledávačů skutečně nemá k našemu požadavku žádné relevantní informace (to se může stát při velmi „úzkých“ dotazech, jako např. „jak si vybrat auto v Archangelsku“)

Primárním cílem každého vyhledávače je doručit lidem přesně ty informace, které hledají. A naučit uživatele zadávat „správné“ požadavky do systému, tzn. dotazy, které jsou v souladu s principy fungování vyhledávačů, jsou nemožné. Vývojáři proto vytvářejí algoritmy a provozní principy pro vyhledávače, které uživatelům umožní najít informace, které hledají.

To znamená, že vyhledávač musí „myslet“ stejně jako uživatel při vyhledávání informací. Když uživatel zadá požadavek do vyhledávače, chce co nejrychleji a nejsnáze najít to, co potřebuje. Po obdržení výsledku vyhodnotí výkon systému podle několika základních parametrů. Našel, co hledal? Pokud to nenašel, kolikrát musel dotaz přeformulovat, aby našel, co hledal? Kolik relevantních informací mohl najít? Jak rychle vyhledávač zpracoval dotaz? Jak pohodlné byly zobrazeny výsledky vyhledávání? Byl výsledek, který jste hledali, první nebo stý? Kolik zbytečných odpadků bylo nalezeno spolu s užitečnými informacemi? Budou potřebné informace nalezeny při přístupu do vyhledávače řekněme za týden nebo za měsíc?

Aby vývojáři vyhledávačů uspokojili všechny tyto otázky odpověďmi, neustále zlepšují vyhledávací algoritmy a principy, přidávají nové funkce a schopnosti a snaží se všemi možnými způsoby urychlit provoz systému.

3. Hlavní charakteristiky vyhledávače

Pojďme si popsat hlavní vlastnosti vyhledávačů:

Úplnost
Úplnost je jednou z hlavních charakteristik vyhledávacího systému, což je poměr počtu dokumentů nalezených žádostí k celkovému počtu dokumentů na internetu, které danou žádost splňují. Pokud je například na internetu 100 stránek obsahujících frázi „jak si vybrat auto“ a pro odpovídající dotaz bylo nalezeno pouze 60 z nich, bude úplnost vyhledávání 0,6. Je zřejmé, že čím je vyhledávání úplnější, tím je méně pravděpodobné, že uživatel nenajde požadovaný dokument, za předpokladu, že na internetu vůbec existuje.
Přesnost
Přesnost je další hlavní charakteristikou vyhledávače, která je dána mírou shody nalezených dokumentů s dotazem uživatele. Pokud například dotaz „jak si vybrat auto“ obsahuje 100 dokumentů, 50 z nich obsahuje frázi „jak si vybrat auto“ a zbytek jednoduše obsahuje tato slova („jak vybrat správné rádio a nainstalovat jej do auto“), pak se přesnost vyhledávání považuje za rovnou 50/100 (=0,5). Čím přesnější je vyhledávání, tím rychleji uživatel najde potřebné dokumenty, tím méně různých druhů „odpadků“ mezi nimi najde, tím méně často nalezené dokumenty nebudou odpovídat požadavku.
Relevantnost
Neméně důležitou složkou vyhledávání je relevance, která je charakterizována dobou, která uplyne od okamžiku zveřejnění dokumentů na internetu do jejich zadání do indexové databáze vyhledávačů. Například den poté, co se objevily zajímavé zprávy, se velké množství uživatelů obrátilo na vyhledávače s relevantními dotazy. Objektivně neuplynul ani den od zveřejnění zpravodajských informací na toto téma, ale hlavní dokumenty již byly indexovány a dostupné k vyhledávání, a to díky existenci tzv. „rychlé databáze“ velkých vyhledávačů, které je aktualizován několikrát denně.
Rychlost vyhledávání
Rychlost vyhledávání úzce souvisí s jeho odolností vůči zátěži. Například podle Rambler Internet Holding LLC dnes během pracovní doby vyhledávač Rambler přijímá asi 60 požadavků za sekundu. Taková pracovní zátěž vyžaduje zkrácení doby zpracování jednotlivého požadavku. Zde se zájmy uživatele a vyhledávače shodují: návštěvník chce získat výsledky co nejrychleji a vyhledávač musí požadavek zpracovat co nejrychleji, aby nezpomaloval výpočet následných dotazů.
Viditelnost

4. Stručná historie vývoje vyhledávačů

V počátečním období rozvoje internetu byl počet jeho uživatelů malý a množství dostupných informací relativně malé. Přístup k internetu měli většinou pouze výzkumní pracovníci. V této době nebylo hledání informací na internetu tak naléhavé jako nyní.

Jedním z prvních způsobů, jak organizovat přístup k síťovým informačním zdrojům, bylo vytvoření otevřených adresářů stránek, odkazů na zdroje, ve kterých byly seskupeny podle tématu. Prvním takovým projektem byl web Yahoo.com, který byl otevřen na jaře roku 1994. Poté, co se výrazně zvýšil počet stránek v katalogu, přibyla možnost vyhledávat potřebné informace v katalogu. V plném smyslu to ještě nebyl vyhledávač, protože oblast vyhledávání byla omezena pouze na zdroje v katalogu, nikoli na všechny internetové zdroje.

Adresáře odkazů byly v minulosti široce používány, ale v současnosti téměř úplně ztratily svou popularitu. Protože i moderní katalogy, které mají obrovský objem, obsahují informace pouze o zanedbatelné části internetu. Největší adresář sítě DMOZ (nazývaný také Open Directory Project) obsahuje informace o 5 milionech zdrojů, zatímco databázi vyhledávače Google tvoří více než 8 miliard dokumentů.

V roce 1995 se objevily vyhledávače Lycos a AltaVista. Posledně jmenovaný je již řadu let lídrem v oblasti vyhledávání informací na internetu.

V roce 1997 vytvořili Sergey Brin a Larry Page vyhledávač Google jako součást výzkumného projektu na Stanfordské univerzitě. Google je v současnosti nejpopulárnější vyhledávač na světě!

V září 1997 byl oficiálně oznámen vyhledávač Yandex, který je nejpopulárnější na ruskojazyčném internetu.

V současné době existují tři hlavní vyhledávače (mezinárodní) – Google, Yahoo a, které mají vlastní databáze a vyhledávací algoritmy. Většina ostatních vyhledávačů (kterých je velké množství) používá v té či oné podobě výsledky ze tří uvedených. Například vyhledávání AOL (search.aol.com) používá databázi Google, zatímco AltaVista, Lycos a AllTheWeb používají databázi Yahoo.

5. Složení a principy fungování vyhledávacího systému

V Rusku je hlavním vyhledávačem Yandex, následovaný Rambler.ru, Google.ru, Aport.ru, Mail.ru. V současné době navíc Mail.ru používá vyhledávač a databázi Yandex.

Téměř všechny velké vyhledávače mají svou vlastní strukturu, odlišnou od ostatních. Je však možné identifikovat hlavní součásti společné všem vyhledávačům. Rozdíly ve struktuře mohou být pouze ve formě implementace mechanismů interakce těchto složek.

Indexovací modul

Indexovací modul se skládá ze tří pomocných programů (robotů):

Spider je program určený ke stahování webových stránek. Pavouk stáhne stránku a načte z ní všechny interní odkazy. Stáhne se html kód každé stránky. Roboti používají ke stahování stránek protokoly HTTP. Pavouk funguje následovně. Robot odešle na server požadavek „get/path/document“ a některé další příkazy HTTP požadavku. V reakci na to robot obdrží textový proud obsahující servisní informace a samotný dokument.

URL stránky
datum stažení stránky
HTTP hlavička odpovědi serveru
tělo stránky (html kód)

Crawler („cestující“ pavouk) je program, který automaticky sleduje všechny odkazy nalezené na stránce. Vybere všechny odkazy na stránce. Jeho úkolem je určit, kam má pavouk jít dál, na základě odkazů nebo na základě předem určeného seznamu adres. Crawler podle nalezených odkazů vyhledává nové dokumenty, které vyhledávač dosud nezná.

Indexer (robot indexer) je program, který analyzuje webové stránky stažené pavouky. Indexátor analyzuje stránku na jednotlivé části a analyzuje je pomocí vlastních lexikálních a morfologických algoritmů. Analyzují se různé prvky stránky, jako je text, nadpisy, odkazy, strukturální a stylové prvky, speciální servisní HTML značky atd.

Modul indexování vám tedy umožňuje procházet danou sadu zdrojů pomocí odkazů, stahovat nalezené stránky, extrahovat odkazy na nové stránky z přijatých dokumentů a provádět kompletní analýzu těchto dokumentů.

Databáze

Databáze nebo index vyhledávače je systém ukládání dat, informační pole, ve kterém jsou uloženy speciálně převedené parametry všech dokumentů stažených a zpracovaných indexovacím modulem.

Vyhledávací server

Vyhledávací server je nejdůležitějším prvkem celého systému, protože kvalita a rychlost vyhledávání přímo závisí na algoritmech, které jsou základem jeho fungování.

Vyhledávací server funguje následovně:

Požadavek přijatý od uživatele je podroben morfologické analýze. Pro každý dokument obsažený v databázi se vygeneruje informační prostředí (které se následně zobrazí ve formě, tedy textové informace odpovídající požadavku na stránce s výsledky vyhledávání).
Přijatá data jsou předávána jako vstupní parametry speciálnímu hodnotícímu modulu. Data jsou zpracovávána pro všechny dokumenty, v důsledku čehož má každý dokument své vlastní hodnocení, které charakterizuje relevanci dotazu zadaného uživatelem a různé součásti tohoto dokumentu uložené v indexu vyhledávače.
V závislosti na volbě uživatele může být toto hodnocení upraveno dalšími podmínkami (například tzv. „pokročilé vyhledávání“).
Dále se vygeneruje úryvek, to znamená pro každý nalezený dokument se z tabulky dokumentu extrahuje název, krátký abstrakt, který nejlépe odpovídá dotazu, a odkaz na samotný dokument a nalezená slova se zvýrazní.
Výsledné výsledky vyhledávání jsou uživateli předány ve formě SERP (Search Engine Result Page) – stránky s výsledky vyhledávání.

Jak vidíte, všechny tyto komponenty spolu úzce souvisejí a fungují v interakci a tvoří jasný, poměrně složitý mechanismus pro fungování vyhledávacího systému, který vyžaduje obrovské množství zdrojů.

6. Závěr

Nyní si shrňme vše výše uvedené.

Primárním cílem každého vyhledávače je doručit lidem přesně ty informace, které hledají.
Hlavní vlastnosti vyhledávačů:
1. Úplnost
2. Přesnost
3. Relevantnost
4. Rychlost vyhledávání
5. Viditelnost
Prvním plnohodnotným vyhledávačem byl projekt WebCrawler, publikovaný v roce 1994.
Vyhledávací systém obsahuje následující součásti:
1. Indexovací modul
2. Databáze
3. Vyhledávací server

Doufáme, že naše mistrovská třída vám umožní lépe se seznámit s konceptem vyhledávače a lépe porozumět hlavním funkcím, vlastnostem a principům fungování vyhledávačů.

1. Pojmy a definice V této smlouvě o zpracování osobních údajů (dále jen Smlouva) mají níže uvedené pojmy následující definice: Provozovatel - Fyzická osoba podnikatel Oleg Aleksandrovich Dneprovsky. Přijetí Smlouvy - úplné a bezvýhradné přijetí všech podmínek Smlouvy zasláním a zpracováním osobních údajů. Osobní údaje - informace zadané Uživatelem (předmět osobních údajů) na stránky a přímo či nepřímo související s tímto Uživatelem. Uživatel - jakákoli fyzická nebo právnická osoba, která úspěšně dokončila postup vyplňování vstupních polí na webu. Vyplnění vstupních polí je postup, kdy Uživatel odešle své jméno, příjmení, telefonní číslo, osobní e-mailovou adresu (dále jen Osobní údaje) do databáze registrovaných uživatelů stránek, prováděný za účelem identifikace uživatel. V důsledku vyplnění vstupních polí jsou osobní údaje odeslány do databáze Provozovatele. Vyplnění vstupních polí je dobrovolné. webová stránka - webová stránka umístěná na internetu a skládající se z jedné stránky. 2. Obecná ustanovení 2.1. Tato dohoda je sepsána na základě požadavků federálního zákona ze dne 27. července 2006 č. 152-FZ „O osobních údajích“ a ustanovení článku 13.11 o „Porušení právních předpisů Ruské federace v oblasti osobní údaje“ zákoníku správních deliktů Ruské federace a platí pro všechny osobní údaje, které může Provozovatel o Uživateli získat při používání Stránek. 2.2. Vyplnění vstupních polí Uživatelem na Stránce znamená bezpodmínečný souhlas Uživatele se všemi podmínkami této Smlouvy (Přijetí Smlouvy). V případě nesouhlasu s těmito podmínkami Uživatel nevyplňuje vstupní pole na Stránkách. 2.3. Souhlas Uživatele s poskytnutím osobních údajů Provozovateli a jejich zpracováním Provozovatelem platí do ukončení činnosti Provozovatele nebo do odvolání souhlasu Uživatelem. Přijetím této Smlouvy a provedením Registrační procedury, jakož i následným vstupem na Stránky Uživatel potvrzuje, že jedná o své svobodné vůli a ve vlastním zájmu, předává své osobní údaje ke zpracování Provozovateli a souhlasí s tím, jejich zpracování. Uživatel je upozorněn, že zpracování jeho osobních údajů bude prováděno Provozovatelem na základě federálního zákona ze dne 27. července 2006 č. 152-FZ „O osobních údajích“. 3. Seznam osobních údajů a dalších informací o uživateli k předání Provozovateli 3. 1. Při používání Webu Provozovatele poskytuje Uživatel následující osobní údaje: 3.1.1. Spolehlivé osobní údaje, které o sobě Uživatel poskytuje nezávisle při vyplňování vstupních polí a/nebo v procesu používání služeb webu, včetně příjmení, jména, příjmení, telefonního čísla (domácího nebo mobilního), osobní e-mailové adresy. 3.1.2. Údaje, které jsou automaticky přenášeny do služeb Stránek během jejich používání pomocí softwaru nainstalovaného na zařízení Uživatele, včetně IP adresy, informací z cookies, informací o prohlížeči Uživatele (nebo jiném programu, jehož prostřednictvím se ke službám přistupuje). 3.2. Provozovatel neověřuje správnost osobních údajů poskytnutých Uživatelem. Provozovatel v tomto případě předpokládá, že uživatel poskytuje spolehlivé a dostatečné osobní údaje k otázkám navrženým ve vstupních polích. 4. Účely, pravidla pro shromažďování a používání osobních údajů 4.1. Provozovatel zpracovává osobní údaje, které jsou nezbytné k poskytování služeb a poskytování služeb Uživateli. 4.2. Osobní údaje Uživatele používá Provozovatel k následujícím účelům: 4.2.1. Identifikace uživatele; 4.2.2. Poskytování personalizovaných služeb Uživateli (a také informování o nových akcích a službách společnosti zasíláním dopisů); 4.2.3. Udržování kontaktu s Uživatelem v případě potřeby, včetně zasílání oznámení, požadavků a informací souvisejících s využíváním služeb, poskytováním služeb, jakož i vyřizování žádostí a žádostí Uživatele; 4.3. Při zpracování osobních údajů budou prováděny tyto úkony: shromažďování, evidence, systematizace, shromažďování, uchovávání, upřesňování (aktualizace, změna), vytěžování, použití, blokování, výmaz, zničení. 4.4. Uživatel nenamítá, že jím uvedené informace v určitých případech mohou být poskytnuty oprávněným státním orgánům Ruské federace v souladu s platnou legislativou Ruské federace. 4.5. Osobní údaje Uživatele jsou uchovávány a zpracovávány Provozovatelem způsobem stanoveným touto Smlouvou po celou dobu činnosti Provozovatele. 4.6. Zpracování osobních údajů je ze strany Provozovatele prováděno vedením databází, automatizovanými, mechanickými a manuálními způsoby. 4.7. Web používá soubory cookie a další technologie ke sledování používání služeb webu. Tyto údaje jsou nezbytné pro optimalizaci technického provozu Stránek a zlepšení kvality poskytování služeb. Stránka automaticky zaznamenává informace (včetně URL, IP adresy, typu prohlížeče, jazyka, data a času požadavku) o každém návštěvníkovi Stránky. Uživatel má právo odmítnout poskytnutí osobních údajů při návštěvě Stránek nebo zakázat Cookies, ale v tomto případě nemusí všechny funkce Stránek fungovat správně. 4.8. Podmínky důvěrnosti uvedené v této smlouvě se vztahují na veškeré informace, které může Provozovatel o Uživateli získat během jeho pobytu na Stránkách a používání Stránek. 4.9. Informace, které jsou zveřejněny během plnění této smlouvy, stejně jako informace, které mohou strany nebo třetí strany získat ze zdrojů, ke kterým má kterákoli osoba volný přístup, nejsou důvěrné. 4.10. Provozovatel přijímá veškerá nezbytná opatření k ochraně důvěrnosti osobních údajů Uživatele před neoprávněným přístupem, úpravou, zveřejněním nebo zničením, včetně: zajištění neustálého interního ověřování procesů shromažďování, uchovávání a zpracování údajů a zajištění bezpečnosti; zajišťuje fyzické zabezpečení dat, brání neoprávněnému přístupu k technickým systémům zajišťujícím provoz Stránek, ve kterých Provozovatel uchovává osobní údaje; poskytuje přístup k osobním údajům pouze těm zaměstnancům Provozovatele nebo oprávněným osobám, které tyto informace potřebují k plnění povinností přímo souvisejících s poskytováním služeb Uživateli, jakož i provozem, rozvojem a zlepšováním Stránek. 4.11. Osobní údaje Uživatele zůstávají důvěrné s výjimkou případů, kdy Uživatel dobrovolně poskytne informace o sobě pro obecný přístup neomezenému počtu osob. 4.12. Předání osobních údajů Uživatele Provozovatelem je zákonné po dobu reorganizace Provozovatele a přechodu práv na právního nástupce Provozovatele, přičemž veškeré povinnosti dodržovat podmínky této Smlouvy ve vztahu k jím obdrženým osobním údajům jsou zákonné. přechází na právního nástupce. 4.13. Toto prohlášení se vztahuje pouze na webové stránky Provozovatele. Společnost nekontroluje a nenese odpovědnost za stránky (služby) třetích stran, ke kterým má uživatel přístup prostřednictvím odkazů dostupných na webových stránkách Provozovatele, včetně výsledků vyhledávání. Na takových Stránkách (službách) mohou být shromažďovány nebo vyžadovány další osobní údaje od uživatele a mohou být prováděny další akce 5. Práva uživatele jako subjektu osobních údajů, změna a výmaz osobních údajů uživatelem 5.1. Uživatel má právo: 5.1.2. Požadovat, aby Provozovatel objasnil jeho osobní údaje, zablokoval je nebo je zlikvidoval, pokud jsou osobní údaje neúplné, neaktuální, nepřesné, získané nezákonně nebo nejsou nezbytné pro stanovený účel zpracování, a dále přijal zákonem stanovená opatření k ochraně jeho práv. 5.1.3. Obdržet informace o zpracování jeho osobních údajů, včetně informací obsahujících: 5.1.3.1. potvrzení o skutečnosti zpracování osobních údajů Provozovatelem; 5.1.3.2. účely a způsoby zpracování osobních údajů, které provozovatel používá; 5.1.3.3. jméno a sídlo Provozovatele; 5.1.3.4. zpracovávané osobní údaje související s příslušným subjektem osobních údajů, zdroj jejich obdržení, pokud federální zákon nestanoví jiný postup předkládání těchto údajů; 5.1.3.5. podmínky zpracování osobních údajů, včetně doby jejich uchovávání; 5.1.3.6. další informace stanovené platnými právními předpisy Ruské federace. 5.2. Odvolání souhlasu se zpracováním osobních údajů může Uživatel provést zasláním příslušného písemného (vytištěného na hmotném nosiči a podepsaného Uživatelem) Provozovateli. 6. Povinnosti Provozovatele. Přístup k osobním údajům 6.1. Provozovatel se zavazuje zajistit zamezení neoprávněného a necíleného přístupu k osobním údajům Uživatelů Webu Provozovatele. Za oprávněný a cílený přístup k osobním údajům uživatelů stránek bude v tomto případě považován přístup k nim všemi zainteresovanými stranami realizovaný v rámci cílů a předmětu stránek provozovatele. Provozovatel zároveň nenese odpovědnost za případné zneužití osobních údajů Uživatelů, ke kterému dojde v důsledku: technických problémů v softwaru a hardwaru a sítích mimo kontrolu Provozovatele; v souvislosti s úmyslným či neúmyslným použitím webových stránek Provozovatele k jinému než zamýšlenému účelu třetími osobami; 6.2 Provozovatel přijímá nezbytná a dostatečná organizační a technická opatření k ochraně osobních údajů uživatele před neoprávněným nebo nahodilým přístupem, zničením, úpravou, blokováním, kopírováním, šířením, jakož i před jiným protiprávním jednáním třetích osob. 7. Změny Zásad ochrany osobních údajů. Platné právní předpisy 7.1. Provozovatel má právo provádět změny těchto Pravidel bez zvláštního upozornění Uživatelů. Pokud jsou v aktuálním vydání provedeny změny, zobrazí se datum poslední aktualizace. Nové vydání Řádu vstupuje v platnost okamžikem jeho zveřejnění, nestanoví-li nové vydání Řádu jinak. 7.2. Na toto Nařízení a vztah mezi Uživatelem a Provozovatelem vzniklý v souvislosti s aplikací Nařízení se vztahuje právo Ruské federace. Přijímám Nepřijímám

Nejsme tak jedineční, jak si myslíme: miliony lidí před námi a miliony po nás budou zmatkovat vyhledávač téměř stejnými otázkami. Na druhou stranu jsme příliš nepředvídatelní: formulaci naší žádosti ovlivňuje obrovské množství faktorů, které si neuvědomujeme. A přinejmenším z tohoto důvodu vyžaduje požadavek každého z nás, jakkoli banální, individuální přístup.

Ve skutečnosti celá práce vyhledávače Yandex spočívá ve dvou jednoduchých věcech: porozumět tomu, co člověk skutečně chce vědět, a během několika sekund najít vhodné mezi miliardami dokumentů na internetu.

Odeberte otisky prstů

Operační systém vyhledávače je trochu podobný Matrixu a vyhledávací robot (složitý, nezávisle rozhodovací program, který vytvořil) je podobný Agentu Smithovi.

Abychom neprohledávali celý internet pokaždé, když se někdo potřebuje něco dozvědět, udělá vyhledávač část práce předem – pomocí tisíců vyhledávacích robotů zkontroluje, co na webu je a kde je. Jsou ve dvou typech: základní a rychlé. Hlavní prochází a zpracovává internet jako celek a ten rychlý - dokumenty, které se objevily před minutou nebo dokonce před několika sekundami. Úkolem robotických programů je vybrat vhodné a užitečné informace pro uživatele, zpracovat je, odstranit vše zastaralé a nepotřebné. V některých ohledech to připomíná třídění odpadků: papír v jednom kontejneru, sklo ve druhém, plast ve třetím, potravinový odpad ve čtvrtém...

Informace shromážděné roboty tvoří takzvané internetové obsazení. Je uložen na tisících serverů Yandex a je neustále aktualizován. Nugget je jako seznam, který vám říká, kde najdete jaké informace. V tomto seznamu nemá každé klíčové slovo jednu, ale miliony „stránek“. Aby bylo zajištěno, že všechny aktualizace nugetů budou uživatelům dostupné, přesunou se z úložiště do „základního vyhledávání“. Data z hlavního robota se přenášejí každých několik dní az rychlého robota - v reálném čase.

Přiveďte do čisté vody

ILUSTRACE: EVGENY TONKONOGY

Při hledání odpovědi na danou otázku v připravené databázi se stroj potýká se dvěma hlavními potížemi. První problém je jazyk. Před hledáním odpovědi na otázku je důležité, aby stroj pochopil, v jakém jazyce to má dělat. Například pro rusky mluvícího člověka se při hledání „čata knížete Igora“ najdou dokumenty s informacemi o armádě a pro Ukrajince „četka knížete Igora“ také vrátí dokumenty zmiňující princeznu Olgu, jeho manželku, od r. v ukrajinštině „manželka“ je „komando“. A v bohatém ruském jazyce může stejné slovo nebo jeho odvozeniny znamenat různé věci. Například slovo „ocel“ je jednou z forem podstatného jména „ocel“ a slovesa „stát se“. Druhým problémem je lidská psychologie. Při zadávání požadavku očekáváme rychlou a přesnou odpověď, aniž bychom si přirozeně dělali starosti, zda formulace požadavku odpovídá principům matematické analýzy, podle které pracuje mozek stroje. Co chce člověk například zadáním slova „Napoleon“ do vyhledávacího pole získat: recept na dort nebo biografii francouzského císaře, koupit si koňak nebo najít adresu psychiatrické léčebny?

V takových situacích vstupuje do hry několik technologií. Pod vyhledávací lištou vám můžete poskytnout několik tipů, které upřesní váš požadavek. Jako, vyberte si, co potřebujete: Napoleon recepty nebo Napoleon - Bonaparte. Pokud uživatel nereaguje na požadavek stroje a nepřidává slova k „Napoleon“, pak technologie „Spectrum“ pomáhá věci: bez naděje na pomoc stroj okamžitě vyhledává informace v několika kategoriích (o dortu, a o císaři a o koni ...). Kromě toho mechanismy personalizace pomáhají porozumět uživateli – znalost stroje o tom, co tento uživatel hledal na svém počítači před dnem, dvěma, třemi nebo měsíci: pokud jste často položili Yandexu otázky týkající se vaření, stroj nejprve zobrazí vaše výsledky říkají, že Napoleon je dort.

Kombinace: zájmové kluby

Úkolem vyhledávače není pouze vybrat dokumenty, které obsahují slova a fráze z vyhledávacího dotazu. Stroj musí pochopit, které dokumenty splňují naše protichůdné požadavky a proč je splňují. Chceme získat informace o dortu Napoleona, nebo jsme možná pár let navštěvovali fitness klub s honosným názvem, nebo nás dokonce úplně znepokojují komplexy malých lidí. V každém případě řešení problému vyžaduje netriviální přístup.

Tvůrci vyhledávacího programu Yandex našli tento přístup tím, že delegovali právo volby na stroj. Jednak bezduchý, ale velmi rychlý a chytrý stroj o nás jako jednotlivcích nic neví a nechce vědět a jednak se snaží o každém zjistit co nejvíce.

Kromě geografické polohy uživatele a lingvistické analýzy jeho dotazů využívá vyhledávač několik tisíc kritérií, která pro člověka nejsou vůbec zřejmá.

Trik je v tom, že stroj tato kritéria vyvíjí a aktualizuje nezávisle.

Jednoduše používá data o preferencích a uživatelském chování milionů lidí a dává tento „aritmetický průměr“ do souvislosti s historií našich dotazů. Principy, které vedou Matrix uvnitř sebe, srovnávající tisíce kategorií uživatelských zájmů, které vyvinul, často nezapadají do tradičních lidských představ o tom, jaké „zájmy“ v principu mohou být. Jsou jich desítky tisíc. Vytvářejí mezi sebou různé, někdy vtipné, kombinace. Jednou z těchto kombinací může být například to, že výsledky vyhledávání odpovídají zájmům člověka, který chová čolky. Člověk se přitom o čolky jen nezajímá, ale už je chová, ale teprve prvním rokem.

Hodnocení. Pomocné ruce

Matice samozřejmě sama rozhoduje (s pomocí vyšší matematiky), co a v jakém pořadí je potřeba uživatelům zobrazit na základě desítek tisíc kritérií. Matrix ale využívá i živé lidi – 1000 zaměstnanců Yandexu, takzvaných hodnotitelů, hodnotí výsledky vyhledávání pro konkrétní požadavek (samozřejmě ne každý požadavek je vyhodnocen, a to se neprovádí v reálném čase), aby zjistili, zda splňují očekávání běžného uživatele: nejsou tak racionální jako stroj, nejsou tak přesné ve formulaci, rozporuplné a emocionální.