Domov Zariadenia

Internetové vyhľadávače: Yandex, Google, Rambler, Yahoo. Zloženie, funkcie, princíp činnosti. Najjednoduchší popis princípu fungovania kombinácie vyhľadávacieho nástroja Yandex: záujmové kluby

Dobrý deň milí priatelia! V tomto článku sa budeme aj naďalej pozerať na vyhľadávací nástroj Yandex, a ako si pamätáte, v predchádzajúcich článkoch sme diskutovali o histórii vytvorenia tejto skvelej spoločnosti, ktorá je na prvom mieste medzi svojimi konkurentmi v Rusku aj mimo neho.

To všetko je dobré, no začiatočníkov aj skúsených tvorcov stránok zaujíma najdôležitejšia otázka, samozrejme, súvisiaca s tým, ako dostať svoje projekty na prvé miesta v TOP výsledkoch vyhľadávania.

Pozrime sa preto, ako funguje vyhľadávací nástroj Yandex, aby sme pochopili, na aké chyby môžete vstúpiť a čo vo všeobecnosti očakávať od ruského vyhľadávača.

V minulom článku sme diskutovali. Téma sa ukázala byť celkom zaujímavá a užitočná. Preto som sa rozhodol ho takpovediac doplniť, prehĺbiť.

Takže som sa asi nechal trochu uniesť otázkou „Prečo vyhľadávací nástroj indexuje dokumenty“? Je to zbytočné. Zostáva len zistiť otázku „ako“.

Algoritmy hodnotenia webových stránok

Najprv sa zoznámime s niektorými algoritmami, ktoré sú základom každého vyhľadávacieho nástroja:

— Algoritmus priameho vyhľadávania.

Čo to je - pamätáte si, že ste v jednej z kníh čítali nádherný príbeh. A začnete hľadať jeden po druhom. Zobrali jednu knihu, prezreli ju, nenašli, zobrali ďalšiu... Princíp je jasný, ale táto metóda je extrémne dlhá. To je tiež pochopiteľné.

— Algoritmus spätného vyhľadávania.

Pre tento algoritmus sa z každej stránky vášho blogu vytvorí textový súbor. Tento súbor uvádza v abecednom poradí VŠETKY slová, ktoré ste použili. Dokonca je uvedená aj pozícia tohto slova v texte (súradnice v texte).

Ide o pomerne rýchlu metódu, no vyhľadávanie už prebieha s nejakou chybou.

Hlavná vec, ktorú treba pochopiť, je, že tento algoritmus nevyhľadáva na internete, nie vyhľadávaním na blogu. A to v samostatnom textovom súbore, ktorý vznikol už dávno. Keď k vám prišla robota. A tieto súbory (reverzné indexy) sú uložené na serveroch Yandex.

Takže toto boli základné vyhľadávacie algoritmy. Tie. ako Yandex jednoducho nájde potrebné dokumenty. Zdá sa, že s tým by nemali byť žiadne problémy.

Ale Yandex pozná viac ako jeden alebo dokonca 100 dokumentov, ale podľa najnovších údajov z mojich zdrojov Yandex pozná asi 11 miliárd dokumentov (10 727 736 489 strán).

A medzi všetkým týmto množstvom musíte vybrať dokumenty, ktoré zodpovedajú požiadavke. A čo je dôležitejšie, musíte ich nejako zoradiť. Tie. usporiadať podľa miery dôležitosti, respektíve podľa miery užitočnosti pre čitateľa.

Matematické modely vyhľadávania

Na vyriešenie tohto problému prichádzajú na záchranu matematické modely. Teraz budeme hovoriť o najjednoduchších modeloch.

Booleovský matematický model– Ak sa v dokumente objaví slovo, dokument sa považuje za nájdený. Len náhoda a nič zložité.

Ale sú tu problémy. Napríklad, ak ako používateľ zadáte nejaké populárne slovo alebo ešte lepšie predložku „v“, ktorá je najbežnejším slovom v ruštine a nachádza sa v KAŽDOM dokumente, dostanete toľko výsledkov že si také číslo ani neuvedomujete, Koľko dokladov ste našli? Preto sa objavil nasledujúci model rohože.

Vektorový matematický model– tento model určuje „hmotnosť“ dokumentu. Nielenže sa náhoda vyskytuje, ale slovo sa musí vyskytnúť niekoľkokrát. Navyše, čím viac sa slovo objavuje, tým vyššia je jeho relevantnosť (súlad).

Je to vektorový model, ktorý používajú VŠETKY vyhľadávače.

Pravdepodobnostný model- viac komplexné. Princíp je takýto: vyhľadávač si šablónu stránky našiel sám. Napríklad hľadáte informácie o histórii Yandex. Yandex ukladá nejaký štandard, povedzme, že toto bude môj predchádzajúci článok o Yandex.

A všetky ostatné dokumenty porovná s týmto článkom. A logika je tu takáto: čím viac sa vaša blogová stránka podobá môjmu článku, tým PRAVDEPODOBNEJŠIE je skutočnosť, že vaša blogová stránka bude užitočná aj pre čitateľa a tiež rozpráva o histórii Yandexu.

Pre zníženie počtu dokumentov, ktoré je potrebné používateľovi ukázať, bol zavedený koncept relevantnosti, t.j. súlad.

Do akej miery je vaša blogová stránka relevantná pre danú tému? Toto je dôležitá téma, pokiaľ ide o kvalitu vyhľadávania.

Hodnotitelia – kto sú a za čo sú zodpovední?

Tento význam je potrebný aj na posúdenie kvality algoritmov.

Na tento účel existuje veliteľstvo špeciálnych síl - nazývajú sa posudzovatelia. Sú to špeciálni ľudia, ktorí si prezerajú výsledky vyhľadávania rukami.

Majú návod, ako kontrolovať stránky, ako hodnotiť atď. A manuálne určujú, či sú vaše stránky vhodné pre vyhľadávacie dopyty alebo nie.

A kvalita vyhľadávacích algoritmov závisí od názoru hodnotiteľov. Ak všetci hodnotitelia tvrdia, že výsledky vyhľadávania nezodpovedajú požiadavkám, znamená to, že algoritmus hodnotenia je nesprávny a na vine je len Yandex.

Ak hodnotitelia povedia, že len jedna lokalita nevyhovuje požiadavke, znamená to, že lokalita letí niekam ďaleko a je vo výsledkoch vyhľadávania znížená. Presnejšie, nie celý web, ale iba jeden článok, ale o to „nejde“.

Samozrejme, posudzovatelia nemôžu kontrolovať a hodnotiť VŠETKY články rukami a očami. To je pochopiteľné.

A na pomoc prichádzajú ďalšie parametre, podľa ktorých sú stránky zoradené.

Je ich veľa, napr.

hmotnosť stránky (vIC, PageRank, detské hrbolčeky Všetko vo všetkom);
autorita domény;
relevantnosť textu k žiadosti;
relevantnosť textov externých odkazov k dopytu;
ako aj mnoho ďalších faktorov hodnotenia.

Hodnotitelia komentujú a ľudia, ktorí sú zodpovední za nastavenie matematického hodnotiaceho modelu, zasa upravujú vzorec, vďaka čomu vyhľadávač funguje efektívnejšie.

Hlavné kritériá hodnotenia účinnosti vzorca:

1. Presnosť výsledkov vyhľadávača- percento dokumentov, ktoré zodpovedajú žiadosti (relevantné). Tie. Čím menej stránok nezodpovedá požiadavke, tým lepšie.

2. Úplnosť výsledkov vyhľadávača- ide o pomer relevantných webových stránok pre daný dopyt k celkovému počtu relevantných dokumentov v kolekcii (celkový počet stránok nájdených vo vyhľadávači).

Ak je napríklad v celej kolekcii viac relevantných stránok ako vo výsledkoch vyhľadávania, znamená to, že výsledky sú neúplné. Stalo sa to preto, že niektoré relevantné webové stránky boli filtrované.

3. Relevantnosť výsledkov vyhľadávača- ide o súlad webovej stránky s tým, čo je napísané v úryvku. Dokument môže byť napríklad veľmi odlišný alebo vôbec neexistuje, no stále sa môže nachádzať vo výsledkoch vyhľadávania.

Relevantnosť výsledkov vyhľadávania priamo závisí od toho, ako často vyhľadávací robot skenuje dokumenty zo svojej zbierky.

Zber kolekcie (indexovanie stránok lokality) vykonáva špeciálny program - vyhľadávací robot.

Vyhľadávací robot dostane zoznam adries na indexovanie, skopíruje ich a potom odošle obsah skopírovaných webových stránok na spracovanie do algoritmu, ktorý ich prevedie na reverzné indexy.

No, takpovediac „v skratke“, diskutovali sme o princípoch vyhľadávacieho nástroja.

Poďme si to zhrnúť:

Na váš blog príde vyhľadávací robot.
Vyhľadávací robot uloží reverzný index stránky pre následné vyhľadávanie.
Pomocou matematického modelu sa dokument spracuje a zobrazí vo výsledkoch vyhľadávania pomocou vzorcov a s prihliadnutím na názor posudzovateľa.

Toto je veľmi, veľmi zjednodušené. Len pre základné pochopenie toho, ako funguje vyhľadávací nástroj Yandex.

Teraz som napísal toľko textu a možno toľko nie je jasné. Preto vám navrhujem vrátiť sa k tomuto článku o niečo neskôr a pozrieť si toto video.

Je to vynikajúci sprievodca, z ktorého som sa svojho času naučil aj ja.

Dúfam, že vám tieto informácie pomôžu lepšie pochopiť, prečo jedna z vašich stránok obsadzuje vhodné pozície vo vyhľadávaní, a urobíte všetko pre to, aby ste ich zlepšili.

Týmto sa s vami lúčim, ak máte nejaké otázky, vždy ich rád zodpoviem v komentároch. Alebo možno chcete pridať do článku?

V každom prípade vyjadrite svoj názor. !

Yandex je dnes najpopulárnejším vyhľadávacím nástrojom v Rusku. Štatistiky služieb Živý internet, ukazuje podiel Yandexu na mase celoruského publika - je to 53,4%, ak vezmeme do úvahy iba Moskvu a región, potom je to ešte vyššie - 67,9% (Moskva podľa požiadaviek zaberá viac ako 50 % celého Ruska).

Webová stránka www.yandex.ru bola vytvorená v roku 1997, stačil na ňu iba jeden server, ktorý stál pod pracovnou plochou jedného zo skupiny prvých vývojárov Yandexu, Dmitrija, ktorého priezvisko bolo Teibleum. Veľmi rýchlo po otvorení sme kúpili druhý server a čoskoro, keď bolo potrebné nainštalovať ďalší, bolo jasné, že pod stolom je dosť miesta buď pre tri servery Yandex, alebo […]

Vývojári vyhľadávačov sa snažia poskytnúť používateľom najlepšie odpovede na ich otázky. Niekedy môže byť takouto odpoveďou číslo (napríklad počasie v meste), obrázok (napríklad adresa na mape), preklad slova alebo štvorveršia. Keď máte po ruke vhodné množstvo informácií, odpoveď môže byť poskytnutá okamžite. Preto Yandex dopĺňa výsledky internetového vyhľadávania odpoveďami zo svojej […]

Približne každá desiata požiadavka na Yandex je „navigačná“, to znamená, že pozostáva z názvu organizácie alebo webovej stránky a používateľ chce prejsť na webovú stránku tejto organizácie. V tomto prípade sa namiesto panela s adresou prehliadača používa vyhľadávací panel Yandex a používateľ sa spravidla nezaujíma o zvyšných deväť výsledkov vyhľadávania. Bez toho, aby sme odvádzali pozornosť používateľa od hlavného cieľa, pridali sme po hlavnom […]

Hlavnou úlohou vyhľadávača je odpovedať na otázku používateľa. Keď používateľ zadá dotaz, vyhľadávač nevstúpi na každú stránku na internete, ale prehľadáva databázu stránok, ktoré pozná – index vyhľadávania. Tam nájde všetky strany so slovami z dopytu. Používateľ vidí odkazy na tieto stránky na stránkach s výsledkami vyhľadávania.

Ako vidíme, Yandex nestojí na mieste a som si istý, že vyhľadávacie technológie tohto systému sa budú naďalej rozvíjať s cieľom zlepšiť kvalitu vyhľadávania, ktorú možno len ťažko nazvať ideálnou.

Dňa 10. novembra 2009 spoločnosť Yandex oznámila novú verziu vyhľadávacieho algoritmu - Snezhinsk. Zásadné zmeny nastali v algoritme na výpočet relevancie - zástupcovia spoločnosti Yandex napísali toto: „Podarilo sa nám vytvoriť presnejší a oveľa zložitejší matematický model, čo viedlo k výraznému zvýšeniu kvality vyhľadávania. Vďaka redizajnu architektúry hodnotenia vyhľadávania bolo možné implementovať účtovníctvo niekoľkých tisíc [...]

Testovanie novej verzie algoritmu Yandex sa začalo 9. júla 2008. Podľa Yandexu „hlavné zmeny v programe súvisia s novým prístupom k strojovému učeniu a v dôsledku toho rozdiely v spôsobe, akým sa vo vzorci zohľadňujú faktory hodnotenia.“

14. apríla 2008 sa na adrese buki.yandex.ru začal testovať nový vyhľadávací algoritmus „Magadan“. Okrem zdvojnásobenia počtu hodnotiacich faktorov boli pridané aj tieto inovácie:

Predtým, ako sa pustíme do algoritmickej džungle, pripomeňme si, ako vyhľadávací nástroj vo všeobecnosti funguje. Logická štruktúra vyhľadávacieho systému môže byť reprezentovaná vo forme troch modulov (pozri obrázok) Robot (crawler) je špeciálny program, ktorý prehľadáva internetové stránky a sťahuje ich obsah. Robot má špeciálny harmonogram, podľa ktorého vykonáva svoje kolá. Webové stránky načítavané robotom, špeciálna [...]

66. Čo má väčší vplyv: odkaz z bezplatnej platformy (blogspot, LJ atď.) alebo z offline stránky/blogu? Bezplatné platformy prenášajú menšiu váhu ako samostatné stránky. Dopad by však mohol byť väčší. Je to spôsobené mnohými faktormi: aktuálny zoznam kotiev, stav porovnávaných lokalít atď. Na túto otázku nie je možné dať jednoznačnú odpoveď. 67. Najväčšia váha sa prenáša medzi […]

Vamana Tour - cestovanie, letenky a víza po celom svete a do Indie, Nepálu, Srí Lanky, Maldív, Maurícia a mnohých ďalších miest planéty. Rady pre cestovateľov a pútnikov. Ako zo svojho výletu vyťažiť maximum. Úžasné historické kroniky a príbehy skúsených cestovateľov.

Aký je účel zohľadňovania externých odkazov na stránku Ako môžete vidieť z predchádzajúcej časti, takmer všetky faktory ovplyvňujúce hodnotenie sú pod kontrolou autora stránky. Pre vyhľadávač sa tak stáva nemožné rozlíšiť skutočne kvalitný dokument od stránky vytvorenej špeciálne pre danú hľadanú frázu alebo dokonca od stránky vygenerovanej robotom, ktorá vôbec neobsahuje užitočné informácie. […]

Už dlho sa stali neoddeliteľnou súčasťou ruského internetu. Vyhľadávače sú v súčasnosti obrovské a zložité mechanizmy, ktoré predstavujú nielen nástroj na vyhľadávanie informácií, ale aj lákavé oblasti pre podnikanie.

Väčšina používateľov vyhľadávačov nikdy nepremýšľala (alebo o tom nepremýšľala, ale nenašla odpoveď) nad princípom fungovania vyhľadávačov, schémou spracovania požiadaviek používateľov, z čoho tieto systémy pozostávajú a ako fungujú...

Táto hlavná trieda je navrhnutá tak, aby odpovedala na otázku, ako fungujú vyhľadávače. Nenájdete tu však faktory, ktoré ovplyvňujú poradie dokumentov. Okrem toho by ste sa nemali spoliehať na podrobné vysvetlenie algoritmu Yandex. Podľa Ilju Segaloviča, riaditeľa technológie a vývoja vyhľadávacieho nástroja Yandex, ho „mučením“ môže rozpoznať iba samotný Ilya Segalovič...

2. Koncepcia a funkcie vyhľadávača

Vyhľadávací systém je softvérový a hardvérový komplex určený na vyhľadávanie na internete a odpovedanie na požiadavku používateľa, špecifikovanú vo forme textovej frázy (vyhľadávací dotaz), vytvorením zoznamu odkazov na zdroje informácií v poradí podľa relevantnosti ( v súlade so žiadosťou). Najväčšie medzinárodné vyhľadávače: "Google", Yahoo , MSN . Na ruskom internete sú to Yandex, Rambler, Aport.

Pozrime sa bližšie na koncept vyhľadávacieho dopytu pomocou vyhľadávacieho nástroja Yandex ako príkladu. Vyhľadávací dotaz by mal používateľ formulovať v súlade s tým, čo chce nájsť, čo najstručnejšie a najjednoduchšie. Povedzme, že chceme v Yandex nájsť informácie o tom, ako si vybrať auto. Ak to chcete urobiť, otvorte hlavnú stránku Yandex a zadajte text vyhľadávacieho dopytu „ako si vybrať auto“. Ďalej je našou úlohou otvoriť odkazy poskytnuté na našu žiadosť na zdroje informácií na internete. Je však dosť možné, že potrebné informácie nenájdeme. Ak k tomu dôjde, musíte buď preformulovať svoju požiadavku, alebo databáza vyhľadávača naozaj nemá žiadne relevantné informácie o našej požiadavke (to sa môže stať pri veľmi „úzkych“ dopytoch, ako napríklad „ako si vybrať auto v Archangeľsku”)

Primárnym cieľom každého vyhľadávača je doručiť ľuďom presne tie informácie, ktoré hľadajú. A naučiť používateľov zadávať „správne“ požiadavky do systému, t.j. dopyty, ktoré sú v súlade s princípmi fungovania vyhľadávačov, sú nemožné. Preto vývojári vytvárajú algoritmy a prevádzkové princípy pre vyhľadávače, ktoré používateľom umožnia nájsť informácie, ktoré hľadajú.

To znamená, že vyhľadávací nástroj musí „myslieť“ rovnako ako používateľ pri vyhľadávaní informácií. Keď používateľ zadá požiadavku do vyhľadávača, chce čo najrýchlejšie a najjednoduchšie nájsť to, čo potrebuje. Po prijatí výsledku vyhodnotí výkon systému podľa niekoľkých základných parametrov. Našiel, čo hľadal? Ak to nenašiel, koľkokrát musel preformulovať dopyt, aby našiel to, čo hľadal? Koľko relevantných informácií mohol nájsť? Ako rýchlo vyhľadávač spracoval dopyt? Ako pohodlné boli prezentované výsledky vyhľadávania? Bol výsledok, ktorý ste hľadali prvý alebo stý? Koľko zbytočného odpadu sa našlo spolu s užitočnými informáciami? Nájdu sa potrebné informácie pri prístupe do vyhľadávača povedzme o týždeň alebo o mesiac?

S cieľom uspokojiť všetky tieto otázky odpoveďami vývojári vyhľadávacích nástrojov neustále zdokonaľujú vyhľadávacie algoritmy a princípy, pridávajú nové funkcie a možnosti a snažia sa všetkými možnými spôsobmi urýchliť fungovanie systému.

3. Hlavné charakteristiky vyhľadávača

Opíšme hlavné charakteristiky vyhľadávacích nástrojov:

Úplnosť
Úplnosť je jednou z hlavných charakteristík vyhľadávacieho systému, čo je pomer počtu dokumentov nájdených podľa požiadavky k celkovému počtu dokumentov na internete, ktoré vyhovujú danej požiadavke. Napríklad, ak je na internete 100 stránok obsahujúcich frázu „ako si vybrať auto“ a iba 60 z nich bolo nájdených pre zodpovedajúci dopyt, potom bude úplnosť vyhľadávania 0,6. Je zrejmé, že čím je vyhľadávanie úplnejšie, tým je menej pravdepodobné, že používateľ nenájde dokument, ktorý potrebuje, za predpokladu, že na internete vôbec existuje.
Presnosť
Presnosť je ďalšou hlavnou charakteristikou vyhľadávača, ktorá je určená mierou, do akej sa nájdené dokumenty zhodujú s dopytom používateľa. Ak napríklad dotaz „ako si vybrať auto“ obsahuje 100 dokumentov, 50 z nich obsahuje frázu „ako si vybrať auto“ a zvyšok jednoducho obsahuje tieto slová („ako si vybrať správne rádio a nainštalovať ho do auto“), potom sa presnosť vyhľadávania považuje za rovnajúcu sa 50/100 (=0,5). Čím presnejšie vyhľadávanie, tým rýchlejšie používateľ nájde dokumenty, ktoré potrebuje, tým menej rôznych druhov „smetí“ sa medzi nimi nájde, tým menej často nájdené dokumenty nebudú zodpovedať požiadavke.
Relevantnosť
Nemenej dôležitou zložkou vyhľadávania je relevantnosť, ktorá je charakterizovaná časom, ktorý uplynie od zverejnenia dokumentov na internete až po ich zadanie do indexovej databázy vyhľadávačov. Napríklad deň po tom, čo sa objavili zaujímavé správy, sa veľké množstvo používateľov obrátilo na vyhľadávače s relevantnými dopytmi. Objektívne neuplynul ani deň od zverejnenia spravodajských informácií na túto tému, ale hlavné dokumenty už boli indexované a dostupné na vyhľadávanie vďaka existencii takzvanej „rýchlej databázy“ veľkých vyhľadávačov, ktoré sa aktualizuje niekoľkokrát denne.
Rýchlosť vyhľadávania
Rýchlosť vyhľadávania úzko súvisí s jeho odolnosťou voči zaťaženiu. Napríklad podľa Rambler Internet Holding LLC dnes počas pracovnej doby vyhľadávací nástroj Rambler prijíma približne 60 požiadaviek za sekundu. Takáto pracovná záťaž si vyžaduje skrátenie času spracovania individuálnej požiadavky. Tu sa záujmy používateľa a vyhľadávača zhodujú: návštevník chce získať výsledky čo najrýchlejšie a vyhľadávač musí požiadavku spracovať čo najrýchlejšie, aby nespomalil výpočet následných dopytov.
Viditeľnosť

4. Stručná história vývoja vyhľadávačov

V počiatočnom období rozvoja internetu bol počet jeho používateľov malý a množstvo dostupných informácií relatívne malé. Prístup na internet mali väčšinou len výskumní pracovníci. V tejto dobe nebola úloha vyhľadávania informácií na internete taká naliehavá ako teraz.

Jedným z prvých spôsobov organizácie prístupu k sieťovým informačným zdrojom bolo vytvorenie otvorených adresárov stránok, odkazov na zdroje, v ktorých boli zoskupené podľa témy. Prvým takýmto projektom bola webová stránka Yahoo.com, ktorá bola otvorená na jar 1994. Po výraznom zvýšení počtu stránok v katalógu pribudla možnosť vyhľadať si potrebné informácie v katalógu. V plnom zmysle to ešte nebol vyhľadávací nástroj, pretože oblasť vyhľadávania bola obmedzená iba na zdroje prítomné v katalógu a nie na všetky internetové zdroje.

Adresáre odkazov boli v minulosti široko používané, ale v súčasnosti takmer úplne stratili svoju popularitu. Keďže aj moderné katalógy s obrovským objemom obsahujú informácie len o zanedbateľnej časti internetu. Najväčší adresár siete DMOZ (nazývaný aj Open Directory Project) obsahuje informácie o 5 miliónoch zdrojov, pričom databázu vyhľadávača Google tvorí viac ako 8 miliárd dokumentov.

V roku 1995 sa objavili vyhľadávače Lycos a AltaVista. Tá je už dlhé roky lídrom v oblasti vyhľadávania informácií na internete.

V roku 1997 vytvorili Sergey Brin a Larry Page vyhľadávací nástroj Google ako súčasť výskumného projektu na Stanfordskej univerzite. Google je momentálne najpopulárnejší vyhľadávač na svete!

V septembri 1997 bol oficiálne ohlásený vyhľadávací nástroj Yandex, ktorý je najpopulárnejší na ruskojazyčnom internete.

V súčasnosti existujú tri hlavné vyhľadávače (medzinárodné) – Google, Yahoo a, ktoré majú svoje vlastné databázy a vyhľadávacie algoritmy. Väčšina ostatných vyhľadávačov (ktorých je veľké množstvo) používa v tej či onej forme výsledky troch uvedených. Napríklad vyhľadávanie AOL (search.aol.com) používa databázu Google, zatiaľ čo AltaVista, Lycos a AllTheWeb používajú databázu Yahoo.

5. Zloženie a princípy fungovania vyhľadávacieho systému

V Rusku je hlavným vyhľadávacím nástrojom Yandex, po ktorom nasledujú Rambler.ru, Google.ru, Aport.ru, Mail.ru. Okrem toho v súčasnosti Mail.ru používa vyhľadávací nástroj a databázu Yandex.

Takmer všetky veľké vyhľadávače majú svoju vlastnú štruktúru, odlišnú od ostatných. Je však možné identifikovať hlavné komponenty spoločné pre všetky vyhľadávače. Rozdiely v štruktúre môžu byť len vo forme implementácie mechanizmov interakcie týchto komponentov.

Modul indexovania

Indexovací modul pozostáva z troch pomocných programov (robotov):

Spider je program určený na sťahovanie webových stránok. Pavúk stiahne stránku a načíta všetky interné odkazy z tejto stránky. Stiahne sa html kód každej stránky. Roboty používajú na sťahovanie stránok protokoly HTTP. Pavúk funguje nasledovne. Robot odošle požiadavku „get/path/document“ a niektoré ďalšie príkazy HTTP požiadavky na server. Ako odpoveď robot dostane textový tok obsahujúci servisné informácie a samotný dokument.

URL stránky
dátum stiahnutia stránky
HTTP hlavička odpovede servera
telo stránky (html kód)

Crawler („cestujúci“ pavúk) je program, ktorý automaticky sleduje všetky odkazy nájdené na stránke. Vyberie všetky odkazy na stránke. Jeho úlohou je na základe odkazov alebo na základe vopred určeného zoznamu adries určiť, kam má pavúk ísť ďalej. Crawler podľa nájdených odkazov hľadá nové dokumenty, ktoré vyhľadávač stále nepozná.

Indexer (robot indexer) je program, ktorý analyzuje webové stránky stiahnuté pavúkmi. Indexátor analyzuje stránku na jednotlivé časti a analyzuje ich pomocou vlastných lexikálnych a morfologických algoritmov. Analyzujú sa rôzne prvky stránky, ako napríklad text, nadpisy, odkazy, štrukturálne a štýlové prvky, špeciálne servisné značky HTML atď.

Modul indexovania vám teda umožňuje prehľadávať danú množinu zdrojov pomocou odkazov, sťahovať nájdené stránky, extrahovať odkazy na nové stránky z prijatých dokumentov a vykonať kompletnú analýzu týchto dokumentov.

Databáza

Databáza alebo index vyhľadávacieho nástroja je systém na ukladanie údajov, informačné pole, v ktorom sú uložené špeciálne skonvertované parametre všetkých dokumentov stiahnutých a spracovaných indexovacím modulom.

Vyhľadávací server

Vyhľadávací server je najdôležitejším prvkom celého systému, pretože kvalita a rýchlosť vyhľadávania priamo závisí od algoritmov, ktoré sú základom jeho fungovania.

Vyhľadávací server funguje nasledovne:

Požiadavka prijatá od používateľa je podrobená morfologickej analýze. Pre každý dokument obsiahnutý v databáze sa vygeneruje informačné prostredie (ktoré sa následne zobrazí vo forme, teda textovej informácie zodpovedajúcej požiadavke na stránke s výsledkami vyhľadávania).
Prijaté dáta sa odovzdávajú ako vstupné parametre špeciálnemu hodnotiacemu modulu. Údaje sa spracúvajú pre všetky dokumenty, v dôsledku čoho má každý dokument svoje vlastné hodnotenie, ktoré charakterizuje relevantnosť dopytu zadaného používateľom a rôzne zložky tohto dokumentu uložené v indexe vyhľadávača.
V závislosti od výberu používateľa môže byť toto hodnotenie upravené ďalšími podmienkami (napríklad takzvané „rozšírené vyhľadávanie“).
Ďalej sa vygeneruje úryvok, to znamená, že pre každý nájdený dokument sa z tabuľky dokumentu extrahuje názov, krátky abstrakt, ktorý najlepšie zodpovedá dopytu, a odkaz na samotný dokument a nájdené slová sa zvýraznia.
Výsledné výsledky vyhľadávania sa prenášajú používateľovi vo forme SERP (Search Engine Result Page) – stránky s výsledkami vyhľadávania.

Ako vidíte, všetky tieto komponenty spolu úzko súvisia a fungujú v interakcii a tvoria jasný, pomerne zložitý mechanizmus fungovania vyhľadávacieho systému, ktorý si vyžaduje obrovské množstvo zdrojov.

6. Záver

Teraz zhrňme všetko vyššie uvedené.

Primárnym cieľom každého vyhľadávača je doručiť ľuďom presne tie informácie, ktoré hľadajú.
Hlavné vlastnosti vyhľadávacích nástrojov:
1. Úplnosť
2. Presnosť
3. Relevantnosť
4. Rýchlosť vyhľadávania
5. Viditeľnosť
Prvým plnohodnotným vyhľadávačom bol projekt WebCrawler, publikovaný v roku 1994.
Vyhľadávací systém obsahuje nasledujúce komponenty:
1. Modul indexovania
2. Databáza
3. Vyhľadávací server

Dúfame, že naša majstrovská trieda vám umožní lepšie sa zoznámiť s konceptom vyhľadávača a lepšie pochopiť hlavné funkcie, vlastnosti a princípy fungovania vyhľadávačov.

1. Pojmy a definície V tejto zmluve o spracovaní osobných údajov (ďalej len Zmluva) majú nižšie uvedené pojmy nasledujúce definície: Prevádzkovateľ - Fyzická osoba podnikateľ Oleg Aleksandrovich Dneprovsky. Prijatie Zmluvy - úplné a bezvýhradné prijatie všetkých podmienok Zmluvy odoslaním a spracovaním osobných údajov. Osobné údaje – informácie zadané Používateľom (subjekt osobných údajov) na stránku a priamo alebo nepriamo súvisiace s týmto Používateľom. Používateľ - každá fyzická alebo právnická osoba, ktorá úspešne dokončila postup vyplnenia vstupných polí na stránke. Vyplnenie vstupných polí je postup, ktorým Používateľ odošle svoje meno, priezvisko, telefónne číslo, osobnú e-mailovú adresu (ďalej len Osobné údaje) do databázy registrovaných používateľov stránky, vykonávaný za účelom identifikácie používateľ. V dôsledku vyplnenia vstupných polí sú osobné údaje odoslané do databázy Prevádzkovateľa. Vyplnenie vstupných polí je dobrovoľné. webová stránka - webová stránka umiestnená na internete a pozostávajúca z jednej stránky. 2. Všeobecné ustanovenia 2.1. Táto dohoda je vypracovaná na základe požiadaviek federálneho zákona z 27. júla 2006 č. 152-FZ „O osobných údajoch“ a ustanovení článku 13.11 o „Porušovaní právnych predpisov Ruskej federácie v oblasti osobné údaje“ Kódexu správnych deliktov Ruskej federácie a platí pre všetky osobné údaje, ktoré môže Prevádzkovateľ o Používateľovi získať pri používaní Stránky. 2.2. Vyplnenie vstupných polí Používateľom na Stránke znamená bezpodmienečný súhlas Používateľa so všetkými podmienkami tejto Zmluvy (Prijatie Zmluvy). V prípade nesúhlasu s týmito podmienkami Užívateľ nevypĺňa vstupné polia na Stránke. 2.3. Súhlas Používateľa s poskytnutím osobných údajov Prevádzkovateľovi a ich spracovaním Prevádzkovateľom platí do ukončenia činnosti Prevádzkovateľa alebo do odvolania súhlasu Používateľom. Prijatím tejto Zmluvy a vykonaním Registračného postupu, ako aj následným vstupom na Stránku Používateľ potvrdzuje, že konajúc z vlastnej vôle a vo vlastnom záujme odovzdáva svoje osobné údaje na spracovanie Prevádzkovateľovi a súhlasí s tým, ich spracovanie. Používateľ je upozornený, že spracovanie jeho osobných údajov bude Prevádzkovateľ vykonávať na základe federálneho zákona z 27. júla 2006 č. 152-FZ „O osobných údajoch“. 3. Zoznam osobných údajov a iných informácií o používateľovi, ktoré majú byť prenesené Prevádzkovateľovi 3. 1. Používateľ pri používaní Webovej stránky Prevádzkovateľa poskytuje nasledovné osobné údaje: 3.1.1. Spoľahlivé osobné údaje, ktoré používateľ o sebe poskytne nezávisle pri vypĺňaní vstupných polí a/alebo v procese používania služieb stránky, vrátane priezviska, mena, priezviska, telefónneho čísla (domáceho alebo mobilného), osobnej e-mailovej adresy. 3.1.2. Údaje, ktoré sa automaticky prenášajú do služieb Stránky počas ich používania pomocou softvéru nainštalovaného na zariadení Používateľa, vrátane IP adresy, informácií zo súborov cookie, informácií o prehliadači Používateľa (alebo inom programe, prostredníctvom ktorého sa k službám pristupuje). 3.2. Prevádzkovateľ neoveruje správnosť osobných údajov poskytnutých Používateľom. Prevádzkovateľ v tomto prípade predpokladá, že Používateľ poskytuje spoľahlivé a dostatočné osobné informácie o otázkach navrhnutých vo Vstupných poliach. 4. Účely, pravidlá zhromažďovania a používania osobných údajov 4.1. Prevádzkovateľ spracúva osobné údaje, ktoré sú nevyhnutné na poskytovanie služieb a poskytovanie služieb Užívateľovi. 4.2. Osobné údaje Užívateľa využíva Prevádzkovateľ na tieto účely: 4.2.1. Identifikácia užívateľa; 4.2.2. Poskytovanie personalizovaných služieb Používateľovi (ako aj informovanie o nových akciách a službách spoločnosti zasielaním listov); 4.2.3. Udržiavanie kontaktu s Používateľom v prípade potreby vrátane zasielania upozornení, žiadostí a informácií súvisiacich s využívaním služieb, poskytovaním služieb, ako aj vybavovaním žiadostí a žiadostí Používateľa; 4.3. Pri spracúvaní osobných údajov sa budú vykonávať tieto úkony: zhromažďovanie, zaznamenávanie, systematizácia, zhromažďovanie, uchovávanie, objasňovanie (aktualizácia, zmena), extrakcia, použitie, blokovanie, vymazanie, zničenie. 4.4. Používateľ nenamieta, že ním uvedené informácie v určitých prípadoch môžu byť poskytnuté oprávneným štátnym orgánom Ruskej federácie v súlade s platnou legislatívou Ruskej federácie. 4.5. Osobné údaje Užívateľa sú uchovávané a spracovávané Prevádzkovateľom spôsobom uvedeným v tejto Zmluve po celú dobu činnosti Prevádzkovateľa. 4.6. Spracúvanie osobných údajov vykonáva Prevádzkovateľ vedením databáz, automatizovanými, mechanickými a manuálnymi metódami. 4.7. Stránka používa súbory cookie a ďalšie technológie na sledovanie používania služieb lokality. Tieto údaje sú potrebné na optimalizáciu technickej prevádzky Stránky a zlepšenie kvality poskytovania služieb. Stránka automaticky zaznamenáva informácie (vrátane URL, IP adresy, typu prehliadača, jazyka, dátumu a času požiadavky) o každom návštevníkovi Stránky. Používateľ má právo odmietnuť poskytnutie osobných údajov pri návšteve Stránky alebo zakázať Cookies, avšak v tomto prípade nemusia všetky funkcie Stránky fungovať správne. 4.8. Podmienky mlčanlivosti uvedené v tejto zmluve sa vzťahujú na všetky informácie, ktoré môže Prevádzkovateľ získať o Používateľovi počas jeho pobytu na Stránke a používania Stránky. 4.9. Informácie, ktoré sa zverejnia počas vykonávania tejto zmluvy, ako aj informácie, ktoré môžu zmluvné strany alebo tretie strany získať zo zdrojov, ku ktorým má ľubovoľná osoba voľný prístup, nie sú dôverné. 4.10. Prevádzkovateľ prijíma všetky potrebné opatrenia na ochranu dôvernosti osobných údajov Používateľa pred neoprávneným prístupom, úpravou, zverejnením alebo zničením, vrátane: zabezpečenia neustáleho interného overovania procesov zhromažďovania, uchovávania a spracovania údajov a zaistenia bezpečnosti; zabezpečuje fyzickú bezpečnosť údajov, bráni neoprávnenému prístupu k technickým systémom, ktoré zabezpečujú prevádzku Stránky, v ktorej Prevádzkovateľ uchováva osobné údaje; poskytuje prístup k osobným údajom len tým zamestnancom Prevádzkovateľa alebo oprávneným osobám, ktoré tieto informácie potrebujú na plnenie povinností priamo súvisiacich s poskytovaním služieb Užívateľovi, ako aj s prevádzkou, vývojom a zlepšovaním Stránky. 4.11. Osobné údaje Používateľa zostávajú dôverné, okrem prípadov, keď Používateľ dobrovoľne poskytne informácie o sebe pre všeobecný prístup neobmedzenému počtu osôb. 4.12. Prenos osobných údajov Používateľa zo strany Prevádzkovateľa je zákonný počas reorganizácie Prevádzkovateľa a prechodu práv na právneho nástupcu Prevádzkovateľa, pričom všetky povinnosti dodržiavať podmienky tejto Zmluvy vo vzťahu k ním prijatým osobným údajom sú zákonné. prejde na právneho nástupcu. 4.13. Toto vyhlásenie sa vzťahuje len na webovú stránku Prevádzkovateľa. Spoločnosť nekontroluje a nezodpovedá za stránky (služby) tretích strán, ku ktorým má používateľ prístup prostredníctvom odkazov dostupných na Webovej stránke Prevádzkovateľa, a to aj vo výsledkoch vyhľadávania. Na takýchto stránkach (službách) sa môžu zhromažďovať alebo požadovať od používateľa ďalšie osobné údaje a môžu sa vykonávať iné akcie 5. Práva užívateľa ako subjektu osobných údajov, zmena a vymazanie osobných údajov užívateľom 5.1. Užívateľ má právo: 5.1.2. Vyžadovať od Prevádzkovateľa, aby objasnil jeho osobné údaje, zablokoval ich alebo zlikvidoval, ak sú osobné údaje neúplné, neaktuálne, nepresné, získané nezákonne alebo nie sú potrebné na uvedený účel spracúvania, a tiež prijal zákonom stanovené opatrenia na ochranu jeho práv. 5.1.3. Dostávať informácie o spracúvaní jeho osobných údajov vrátane informácií obsahujúcich: 5.1.3.1. potvrdenie skutočnosti o spracúvaní osobných údajov Prevádzkovateľom; 5.1.3.2. účely a spôsoby spracúvania osobných údajov, ktoré prevádzkovateľ používa; 5.1.3.3. meno a sídlo Prevádzkovateľa; 5.1.3.4. spracúvané osobné údaje súvisiace s príslušným subjektom osobných údajov, zdroj ich získania, pokiaľ federálny zákon neustanovuje iný postup pri predkladaní takýchto údajov; 5.1.3.5. podmienky spracovania osobných údajov vrátane doby ich uchovávania; 5.1.3.6. ďalšie informácie stanovené v platnej legislatíve Ruskej federácie. 5.2. Odvolanie súhlasu so spracovaním osobných údajov môže Užívateľ uskutočniť zaslaním Prevádzkovateľa primeraného písomného (vytlačeného na hmotnom nosiči a podpísaného Užívateľom) oznámenia. 6. Zodpovednosti Prevádzkovateľa. Prístup k osobným údajom 6.1. Prevádzkovateľ sa zaväzuje zabezpečiť zamedzenie neoprávneného a necieleného prístupu k osobným údajom Používateľov webových stránok Prevádzkovateľa. V tomto prípade sa za oprávnený a cielený prístup k osobným údajom Používateľov Stránky bude považovať prístup všetkých zainteresovaných strán realizovaný v rámci cieľov a predmetu Stránky Prevádzkovateľa. Prevádzkovateľ zároveň nezodpovedá za prípadné zneužitie osobných údajov Používateľov, ku ktorému dôjde v dôsledku: technických problémov v softvéri a v hardvéri a sieťach mimo kontroly Prevádzkovateľa; v súvislosti s úmyselným alebo neúmyselným používaním webových stránok prevádzkovateľa na iný ako zamýšľaný účel tretími osobami; 6.2 Prevádzkovateľ prijíma potrebné a dostatočné organizačné a technické opatrenia na ochranu osobných údajov užívateľa pred neoprávneným alebo náhodným prístupom, zničením, úpravou, blokovaním, kopírovaním, šírením, ako aj pred iným protiprávnym konaním tretích osôb s ním. 7. Zmeny Zásad ochrany osobných údajov. Platné právne predpisy 7.1. Prevádzkovateľ má právo vykonávať zmeny týchto Pravidiel bez osobitného upozornenia Používateľov. Po vykonaní zmien v aktuálnom vydaní sa zobrazí dátum poslednej aktualizácie. Nové vydanie Poriadku nadobúda účinnosť okamihom jeho zverejnenia, pokiaľ nie je v novom vydaní Poriadku stanovené inak. 7.2. Na toto nariadenie a vzťah medzi Používateľom a Prevádzkovateľom vznikajúci v súvislosti s aplikáciou Nariadenia sa vzťahuje právo Ruskej federácie. Prijímam Neprijímam

Nie sme takí jedineční, ako si myslíme: milióny ľudí pred nami a milióny po nás si budú lámať hlavu s vyhľadávačom takmer rovnakými otázkami. Na druhej strane sme príliš nepredvídateľní: formuláciu našej požiadavky ovplyvňuje obrovské množstvo faktorov, ktoré si neuvedomujeme. A minimálne z tohto dôvodu si požiadavka každého z nás, nech je akokoľvek banálna, vyžaduje individuálny prístup.

V skutočnosti sa celá práca vyhľadávacieho nástroja Yandex skladá z dvoch jednoduchých vecí: pochopiť, čo človek skutočne chce vedieť, a za pár sekúnd nájsť vhodné medzi miliardami dokumentov na internete.

Zoberte odtlačky prstov

Operačný systém vyhľadávacieho nástroja je do istej miery podobný Matrixu a vyhľadávací robot (komplexný program s nezávislým rozhodovaním, ktorý vytvoril) je podobný Agentovi Smithovi.

Aby sa neprehľadával celý internet zakaždým, keď sa niekto potrebuje niečo dozvedieť, vyhľadávač urobí časť práce vopred – skontroluje, čo je na webe a kde sa nachádza, pomocou tisícok vyhľadávacích robotov. Prichádzajú v dvoch typoch: základné a rýchle. Hlavný prehľadáva a spracováva internet ako celok a rýchly - dokumenty, ktoré sa objavili pred minútou alebo dokonca pred niekoľkými sekundami. Úlohou programov robotov je vybrať vhodné a užitočné informácie pre používateľov, spracovať ich, odstrániť všetko zastarané a nepotrebné. V niektorých ohľadoch to pripomína triedenie odpadu: papier v jednom kontajneri, sklo v druhom, plast v treťom, potravinový odpad v štvrtom...

Informácie zhromaždené robotmi tvoria takzvané internetové obsadenie. Je uložený na tisíckach serverov Yandex a neustále sa aktualizuje. Nugget je ako zoznam, ktorý vám povie, kde nájdete aké informácie. V tomto zozname má každé kľúčové slovo nie jednu, ale milióny „stránok“. Aby sa zabezpečilo, že všetky aktualizácie sú pre používateľov dostupné, presunú sa z úložiska do „základného vyhľadávania“. Údaje z hlavného robota sa prenášajú každých pár dní a z rýchleho robota v reálnom čase.

Priveďte do čistej vody

ILUSTRÁCIA: EVGENY TONKONOGY

Pri hľadaní odpovede na danú otázku v pripravenej databáze sa stroj stretáva s dvoma hlavnými ťažkosťami. Prvým problémom je jazyk. Pred hľadaním odpovede na otázku je dôležité, aby stroj pochopil, v akom jazyku to má robiť. Napríklad rusky hovoriacemu človeku sa pri vyhľadávaní „čata kniežaťa Igora“ nájdu dokumenty s informáciami o armáde a ukrajincovi „čata kniežaťa Igora“ vráti aj dokumenty, v ktorých sa spomína princezná Oľga, jeho manželka, od r. v ukrajinčine je „manželka“ „čata“. A v bohatom ruskom jazyku môže to isté slovo alebo jeho deriváty znamenať rôzne veci. Napríklad slovo „oceľ“ je jednou z foriem podstatného mena „oceľ“ a slovesa „stať sa“. Druhým problémom je ľudská psychológia. Pri zadávaní požiadavky očakávame rýchlu a presnú odpoveď, bez prirodzenej obavy, či znenie požiadavky zodpovedá princípom matematickej analýzy, podľa ktorej pracuje mozog stroja. Napríklad zadaním slova „Napoleon“ do vyhľadávacieho panela, čo chce človek získať: recept na koláč alebo životopis francúzskeho cisára, kúpiť si koňak alebo nájsť adresu psychiatrickej liečebne?

V takýchto situáciách vstupuje do hry viacero technológií. Pod vyhľadávacím panelom vám môžete poskytnúť niekoľko rád, ktoré určia vašu požiadavku. Nech sa páči, vyberte si, čo potrebujete: Napoleonské recepty alebo Napoleon - Bonaparte. Ak používateľ nereaguje na požiadavku stroja a nepridá slová do „Napoleon“, potom pomôže technológia „Spectrum“: bez toho, aby dúfal v pomoc, stroj okamžite vyhľadá informácie v niekoľkých kategóriách (o koláči, a o cisárovi a o koni) ...). Mechanizmy personalizácie navyše pomáhajú porozumieť používateľovi – znalosť stroja o tom, čo tento používateľ hľadal na svojom počítači pred dňom, dvoma, tromi alebo mesiacmi: ak ste sa často pýtali Yandex na otázky o varení, stroj najprv zobrazí vaše výsledky hovoria, že Napoleon je koláč.

Kombinácie: záujmové kluby

Úlohou vyhľadávača nie je jednoducho vybrať dokumenty, ktoré obsahujú slová a frázy z vyhľadávacieho dopytu. Stroj musí pochopiť, ktoré dokumenty spĺňajú naše protichodné požiadavky a prečo ich spĺňajú. Chceme získať informácie o Napoleonovom torte, alebo sme pár rokov navštívili fitness klub s honosným názvom, alebo sme dokonca úplne znepokojení komplexmi nízkych ľudí. V každom prípade si riešenie problému vyžaduje netriviálny prístup.

Tvorcovia vyhľadávacieho programu Yandex našli tento prístup delegovaním práva voľby na stroj. Na jednej strane bezduchý, no veľmi rýchly a šikovný stroj o nás ako jednotlivcoch nič nevie a nechce vedieť a na druhej strane sa snaží o každom zistiť čo najviac.

Okrem geografickej polohy používateľa a lingvistickej analýzy jeho dopytov používa vyhľadávač niekoľko tisíc kritérií, ktoré pre človeka nie sú vôbec zrejmé.

Trik je v tom, že stroj tieto kritériá vyvíja a aktualizuje nezávisle.

Jednoducho používa údaje o preferenciách a správaní používateľov miliónov ľudí a spája tento „aritmetický priemer“ s históriou našich dopytov. Princípy, ktoré riadia Matrix v sebe, porovnávajúc tisíce kategórií záujmov používateľov, ktoré vyvinula, často nezapadajú do tradičných ľudských predstáv o tom, aké „záujmy“ v princípe môžu byť. Sú ich desaťtisíce. Vzájomne vytvárajú rôzne, niekedy vtipné kombinácie. Jednou z týchto kombinácií môže byť napríklad to, že výsledky vyhľadávania zodpovedajú záujmom človeka, ktorý chová mloky. Človek sa zároveň o mloky len nezaujíma, ale už ich chová, ale len prvý rok.

hodnotenia. Pomocné ruky

Matica, samozrejme, sama rozhoduje (s pomocou vyššej matematiky), čo a v akom poradí je potrebné používateľom zobraziť na základe desiatok tisíc kritérií. Matrix však využíva aj živých ľudí – 1 000 zamestnancov Yandexu, takzvaných hodnotiteľov, vyhodnocuje výsledky vyhľadávania pre konkrétnu požiadavku (samozrejme, nie každá požiadavka sa vyhodnocuje, a to sa nerobí v reálnom čase), aby zistili, či spĺňajú očakávania bežného užívateľa: nie také racionálne ako stroj, nie také presné vo formulácii, rozporuplné a emocionálne.