Internetes keresők: Yandex, Google, Rambler, Yahoo. Összetétel, funkciók, működési elv. A Yandex keresőmotor működési elvének legegyszerűbb leírása Kombinációk: érdeklődési körök

Sziasztok kedves barátaim! Ebben a cikkben továbbra is megvizsgáljuk a Yandex keresőmotorját, és mint emlékszel, a korábbi cikkekben megvitattuk ennek a nagyszerű cégnek a létrehozásának történetét, amely az első helyen áll versenytársai között Oroszországban és azon kívül.

Mindez jó, de a kezdőket és a tapasztalt oldalépítőket természetesen a legfontosabb kérdés érdekli, ami azzal kapcsolatos, hogy projektjeik hogyan kerüljenek az első helyre a TOP keresési eredmények között.

Ezért nézzük meg, hogyan működik a Yandex kereső, hogy megértsük, milyen hibákat léphet fel, és általában mit várhat el egy orosz keresőtől.

Az utolsó cikkben, amit megvitattunk. A téma igen érdekesnek és hasznosnak bizonyult. Ezért úgy döntöttem, hogy úgymond kiegészítem, elmélyítem.

Szóval valószínűleg elragadtatott a kérdés: „Miért indexel egy keresőmotor dokumentumokat”? Már csak a „hogyan” kérdést kell kitalálni.

Weboldal rangsorolási algoritmusai

Először is ismerkedjünk meg néhány olyan algoritmussal, amelyek minden keresőmotor számára alapvetőek:

— Közvetlen keresési algoritmus.

Mi az - emlékszel, hogy olvasott egy csodálatos történetet az egyik könyvben. És elkezded egyenként keresni. Fogtak egy könyvet, átnézték, nem találták, vettek egy másikat... Az elv világos, de ez a módszer rendkívül hosszú. Ez is érthető.

— Fordított keresési algoritmus.

Ehhez az algoritmushoz a blogod minden oldaláról szöveges fájl jön létre. Ez a fájl ábécé sorrendben felsorolja az ÖSSZES használt szót. Még ennek a szónak a szövegben elfoglalt helyét is jelzi (koordináták a szövegben).

Ez egy meglehetősen gyors módszer, de a keresés már megtörténik némi hibával.

A legfontosabb dolog, amit itt meg kell érteni, hogy ez az algoritmus nem az interneten, nem a blogon keres. És egy külön szöveges fájlban, ami nagyon régen készült. Amikor a robot odajött hozzád. És ezeket a fájlokat (fordított indexek) a Yandex szerverein tárolják.

Tehát ezek voltak az alapvető keresési algoritmusok. Azok. hogyan találja meg a Yandex egyszerűen a szükséges dokumentumokat. Úgy tűnik, ezzel nem lehet gond.

De a Yandex több mint egy vagy akár 100 dokumentumot ismer, de a forrásaimból származó legfrissebb adatok szerint a Yandex körülbelül 11 milliárd dokumentumot (10 727 736 489 oldal) ismer.

Ezen mennyiség közül pedig ki kell választania a kérésnek megfelelő dokumentumokat. És ami még fontosabb, valahogy rangsorolni kell őket. Azok. fontossági foka, vagy inkább az olvasó számára hasznosság foka szerint rendezze.

Matematikai keresési modellek

A probléma megoldásához matematikai modellek segítenek. Most a legegyszerűbb modellekről fogunk beszélni.

Boole-féle matematikai modell– Ha egy szó szerepel egy dokumentumban, a dokumentum megtaláltnak minősül. Csak véletlen egybeesés és semmi bonyolult.

De vannak itt problémák. Például, ha felhasználóként beír egy népszerű szót, vagy még jobb, a „v” elöljárószót, amely a leggyakoribb szó az orosz nyelvben, és MINDEN dokumentumban megtalálható, akkor sok találatot kap. hogy nem is vesz észre egy ilyen számot, Hány dokumentumot talált? Ezért a következő szőnyegmodell jelent meg.

Vektor matematikai modell– ez a modell határozza meg a dokumentum „súlyát”. Nemcsak az egybeesés következik be, hanem a szónak többször is előfordulnia kell. Sőt, minél többször jelenik meg egy szó, annál nagyobb a relevancia (megfelelőség).

Ezt a vektormodellt MINDEN keresőmotor használja.

Valószínűségi modell- bonyolultabb. Az elv a következő: a kereső magát az oldalsablont találta meg. Például információkat keres a Yandex történetéről. A Yandex valamilyen szabványt tárol, mondjuk ez lesz az előző cikkem a Yandexről.

És az összes többi dokumentumot összehasonlítja ezzel a cikkel. A logika pedig a következő: minél jobban hasonlít a blogoldala az én cikkemre, annál VALÓSZÍNŰBB az a tény, hogy blogoldala is hasznos lesz az olvasó számára, és a Yandex történetéről is mesél.

A felhasználónak megjelenítendő dokumentumok számának csökkentése érdekében bevezették a relevancia fogalmát, i. megfelelés.

Mennyire releváns a blogoldala a témához? Ez egy fontos téma a keresés minősége szempontjából.

Értékelők – kik ők és miért felelősek?

Erre a relevanciára az algoritmusok minőségének értékeléséhez is szükség van.

Erre a célra van egy különleges erők főhadiszállása – ezeket Értékelőknek hívják. Ezek különleges emberek, akik a kezükkel nézik át a keresési eredményeket.

Útmutatást kapnak a webhelyek ellenőrzésére, értékelésére stb. És manuálisan határozzák meg, hogy oldalai alkalmasak-e a keresési lekérdezésekre vagy sem.

A keresési algoritmusok minősége pedig az értékelők véleményétől függ. Ha az összes értékelő azt mondja, hogy a keresési eredmények nem felelnek meg a lekérdezéseknek, ez azt jelenti, hogy a rangsorolási algoritmus hibás, és csak a Yandex a hibás.

Ha az értékelők azt mondják, hogy csak egy webhely nem felel meg a kérésnek, az azt jelenti, hogy az oldal valahova messze repül, és leesik a keresési eredmények között. Pontosabban nem az egész webhelyet, hanem csak egy cikket, de „nem ez a lényeg”.

Természetesen az értékelők nem tekinthetnek át és nem értékelhetnek MINDEN cikket a kezükkel és a szemükkel. Ez érthető.

És más paraméterek, amelyek alapján az oldalakat rangsorolják, segítenek.

Nagyon sok van belőlük, pl.

  • oldal súlya (vIC, PageRank, baba dudorokÖsszességében);
  • domain jogosultság;
  • a szöveg relevanciája a kérés szempontjából;
  • a külső hivatkozás szövegeinek relevanciája a lekérdezés szempontjából;
  • valamint sok más rangsorolási tényező.

Az értékelők megjegyzéseket tesznek, a matematikai rangsorolási modell felállításáért felelős személyek pedig szerkesztik a képletet, aminek eredményeként a kereső hatékonyabban működik.

A képlet teljesítményének értékelésének fő kritériumai:

1. A keresőmotor találatainak pontossága- a kérelemnek megfelelő dokumentumok százalékos aránya (releváns). Azok. Minél kevesebb oldal nem felel meg a kérésnek, annál jobb.

2. A keresőmotor találatainak teljessége- ez az adott lekérdezéshez releváns weboldalak aránya a gyűjteményben található összes releváns dokumentumhoz (a keresőben talált oldalak összességéhez).

Például, ha a teljes gyűjteményben több releváns oldal található, mint a keresési eredmények között, ez azt jelenti, hogy a találatok hiányosak. Ez azért történt, mert néhány releváns weboldal ki lett szűrve.

3. A keresőmotor eredményeinek relevanciája- ez a weboldal megfelelése a részletben leírtaknak. Előfordulhat például, hogy egy dokumentum nagyon eltérő, vagy egyáltalán nem létezik, de továbbra is jelen lehet a keresési eredmények között.

A keresési eredmények relevanciája közvetlenül attól függ, hogy a keresőrobot milyen gyakran szkenneli be a gyűjteményéből származó dokumentumokat.

A gyűjteménygyűjtést (a webhely oldalainak indexelése) egy speciális program - egy keresőrobot - végzi.

A keresőrobot megkapja a címlistát indexeléshez, lemásolja azokat, majd a másolt weboldalak tartalmát feldolgozásra küldi egy algoritmusnak, amely fordított indexekké alakítja azokat.

Nos, úgymond „dióhéjban”, megbeszéltük a kereső alapelveit.

Összefoglaljuk:

  1. Egy keresőrobot érkezik a blogodhoz.
  2. A keresőrobot eltárolja az oldal fordított indexét a további keresésekhez.
  3. A dokumentum feldolgozása matematikai modell segítségével képletek segítségével, az értékelő véleményének figyelembevételével a keresési eredmények között történik.

Ez nagyon-nagyon leegyszerűsítve. Csak azért, hogy megértsük a Yandex keresőmotor működését.

Most annyi szöveget írtam, és talán annyi nem világos. Ezért azt javaslom, hogy egy kicsit később térjen vissza ehhez a cikkhez, és nézze meg ezt a videót.

Ez egy kiváló útmutató, amiből egy időben én is tanultam.

Remélem, hogy ez az információ segít jobban megérteni, hogy az Ön egyik webhelye miért foglal el megfelelő pozíciót a keresésekben, és mindent megtesz azok javítása érdekében.

Ezzel elköszönök tőletek, ha kérdése van, kommentben mindig szívesen válaszolok. Vagy esetleg hozzá szeretne adni a cikkhez?

Mindenesetre fejtse ki véleményét. !

A Yandex ma a legnépszerűbb keresőmotor Oroszországban. Szolgáltatási statisztikák Élő Internet, a Yandex részesedését mutatja az össz-orosz közönség tömegében - ez 53,4%, ha csak Moszkvát és a régiót vesszük figyelembe, akkor még magasabb - 67,9% (Moszkva a kérések szerint többet foglal el, mint az egész Oroszország 50%-a).

A www.yandex.ru weboldalt 1997-ben hozták létre, csak egy szerver volt, amely az első Yandex fejlesztők egyik csoportjának, Dmitrijnek az asztala alatt állt, akinek vezetékneve Teiblyum volt. A megnyitás után nagyon gyorsan vásároltunk egy második szervert, és hamarosan, amikor egy másikat kellett telepíteni, kiderült, hogy az asztal alatt van elég hely vagy három Yandex szervernek, vagy […]

A keresőmotor-fejlesztők arra törekednek, hogy a felhasználók a legjobb választ adják kérdéseikre. Néha egy ilyen válasz lehet egy szám (például egy város időjárása), egy kép (például egy cím a térképen), egy szó fordítása vagy egy négysor. Ha megfelelő információkészlet áll rendelkezésére, azonnal meg lehet adni a választ. Ezért a Yandex kiegészíti az internetes keresési eredményeket a […]

Körülbelül minden tizedik, a Yandexhez intézett kérés „navigációs”, azaz egy szervezet vagy webhely nevéből áll, és a felhasználó ennek a szervezetnek a webhelyére kíván lépni. Ebben az esetben a Yandex keresősávot használják a böngésző címsora helyett, és a felhasználót általában nem érdekli a fennmaradó kilenc keresési eredmény. Anélkül, hogy elvonnánk a felhasználó figyelmét a fő célról, a fő cél után hozzáadtuk […]

A keresőmotor fő feladata, hogy válaszoljon a felhasználó kérdésére. Amikor a felhasználó lekérdezést tesz fel, a keresőmotor nem ér el minden webhelyet az interneten, hanem az általa ismert oldalak adatbázisában – a keresési indexben – keres. Ott megtalálja az összes oldalt a lekérdezés szavaival. A felhasználó ezekre az oldalakra mutató hivatkozásokat lát a keresési eredményoldalakon.

Amint látjuk, a Yandex nem áll meg, és biztos vagyok benne, hogy ennek a rendszernek a keresési technológiái tovább fognak fejlődni a keresés minőségének javítása érdekében, amely még aligha nevezhető ideálisnak.

2009. november 10-én a Yandex bejelentette a keresési algoritmus új verzióját - Snezhinsk. Alapvető változások történtek a relevancia kiszámításának algoritmusában - a Yandex képviselői a következőket írták: „Sikerült egy pontosabb és sokkal összetettebb matematikai modellt létrehoznunk, ami a keresés minőségének jelentős javulását eredményezte. A keresési rangsor architektúra átalakításának köszönhetően több ezer [...]

A Yandex algoritmus új verziójának tesztelése 2008. július 9-én kezdődött. A Yandex szerint „a program főbb változásai a gépi tanulás új megközelítésével kapcsolatosak, és ennek eredményeként a rangsorolási tényezők képletben való figyelembevételének eltérő módjai.”

2008. április 14-én megkezdték az új „Magadan” keresési algoritmus tesztelését a buki.yandex.ru oldalon. A rangsorolási tényezők számának megduplázása mellett a következő újításokkal is bővült:

Mielőtt belemerülnénk az algoritmikus dzsungelbe, emlékezzünk a keresőmotorok általános működésére. A keresőrendszer logikai felépítése három modul formájában ábrázolható (lásd az ábrát) A robot (crawler) egy speciális program, amely internetes oldalakat jár be, és letölti azok tartalmát. A robot egy speciális ütemtervvel rendelkezik, amely szerint hajtja végre a köröket. A robot által feltöltött oldalak egy speciális [...]

66. Minek van nagyobb befolyása: egy ingyenes platformról (blogspot, LJ stb.) vagy offline oldalról/blogról származó hivatkozás? Az ingyenes platformok kisebb súlyt hordoznak, mint az önálló webhelyek. A hatás azonban nagyobb lehet. Ez számos tényezőnek köszönhető: a jelenlegi horgonylista, az összehasonlított oldalak állapota stb. Erre a kérdésre nem lehet egyértelmű választ adni. 67. A legnagyobb súlyt […]

Vamana Tour - utazás, repülőjegyek és vízumok szerte a világon, valamint Indiába, Nepálba, Srí Lankára, a Maldív-szigetekre, Mauritiusra és a bolygó sok más helyére. Tanácsok utazóknak és zarándokoknak. Hogyan hozhatja ki a legtöbbet utazásából. Csodálatos történelmi krónikák és tapasztalt utazók történetei.

Mi a célja az oldalra mutató külső hivatkozások figyelembevételének Amint az előző részből kiderül, szinte minden rangsorolást befolyásoló tényező az oldal szerzőjének irányítása alatt áll? Így lehetetlenné válik a kereső számára, hogy megkülönböztessen egy valóban jó minőségű dokumentumot a kifejezetten egy adott keresőkifejezésre készített vagy akár egy robot által generált oldaltól, amely egyáltalán nem tartalmaz hasznos információkat. […]

Régóta az orosz internet szerves részévé váltak. A keresőmotorok ma már hatalmas és összetett mechanizmusok, amelyek nemcsak információkereső eszközt jelentenek, hanem csábító területeket is jelentenek az üzleti élet számára.

A legtöbb keresőmotor-felhasználó soha nem gondolkodott (vagy gondolkodott rajta, de nem talált rá választ) a keresőmotorok működési elvére, a felhasználói kérések feldolgozásának sémájára, arra, hogy ezek a rendszerek miből állnak és hogyan működnek...

Ez a mesterkurzus arra a kérdésre készült, hogy megválaszolja a keresőmotorok működését. Itt azonban nem talál olyan tényezőket, amelyek befolyásolják a dokumentumok rangsorolását. Ezenkívül nem szabad számolnia a Yandex algoritmus részletes magyarázatával. Ilja Szegalovics, a Yandex keresőmotor technológiai és fejlesztési igazgatója szerint őt csak maga Ilja Szegalovics „kínzás közben” ismerheti fel...

2. A kereső fogalma és funkciói

A keresőrendszer egy szoftver- és hardverkomplexum, amelyet arra terveztek, hogy keressen az interneten, és válaszoljon a felhasználói kérésekre, szöveges kifejezés (keresési lekérdezés) formájában, információforrásokra mutató hivatkozások listájának elkészítésével, a relevancia sorrendjében ( a kérésnek megfelelően). A legnagyobb nemzetközi keresők: "Google", Yahoo, MSN. Az orosz interneten ezek a Yandex, a Rambler, az Aport.

Nézzük meg közelebbről a keresési lekérdezés fogalmát a Yandex keresőmotor segítségével. A keresési lekérdezést a felhasználónak annak megfelelően kell megfogalmaznia, hogy mit szeretne találni, a lehető legrövidebben és legegyszerűbben. Tegyük fel, hogy a Yandexben szeretnénk információkat találni az autó kiválasztásáról. Ehhez nyissa meg a Yandex főoldalát, és írja be a „hogyan válasszunk autót” keresési lekérdezés szövegét. Ezt követően a feladatunk az, hogy megnyitjuk a kérésünkre megadott hivatkozásokat az internetes információforrásokhoz. Lehetséges azonban, hogy nem találjuk meg a szükséges információkat. Ha ez megtörténik, akkor vagy újra kell fogalmaznia a kérését, vagy a keresőmotor adatbázisa valóban nem tartalmaz releváns információt a kérésünkre vonatkozóan (ez akkor fordulhat elő, ha nagyon „szűk” lekérdezéseket teszünk fel, mint pl. „hogyan válasszunk egy autó Arhangelszkben)

Minden keresőmotor elsődleges célja, hogy az embereknek pontosan azt az információt közölje, amit keresnek. A felhasználókat pedig megtanítani „helyes” kérésekre a rendszer felé, pl. a keresőmotorok működési elveinek megfelelő lekérdezések lehetetlenek. Ezért a fejlesztők olyan algoritmusokat és működési elveket hoznak létre a keresőmotorok számára, amelyek lehetővé teszik a felhasználók számára, hogy megtalálják a keresett információkat.

Ez azt jelenti, hogy a keresőmotornak ugyanúgy kell „gondolnia”, mint a felhasználónak, amikor információt keres. Amikor a felhasználó kérést intéz egy keresőmotorhoz, a lehető leggyorsabban és legegyszerűbben szeretné megtalálni, amire szüksége van. Az eredmény kézhezvételekor több alapvető paramétertől vezérelve értékeli a rendszer teljesítményét. Megtalálta, amit keresett? Ha nem találta meg, hányszor kellett átfogalmaznia a lekérdezést, hogy megtalálja, amit keresett? Mennyi releváns információt találhatott? Milyen gyorsan dolgozta fel a keresőmotor a kérést? Mennyire voltak kényelmesek a keresési eredmények megjelenítése? A keresett eredmény az első vagy a századik volt? Mennyi felesleges szemetet találtak a hasznos információkkal együtt? A keresőmotorhoz való hozzáféréskor, mondjuk, egy hét vagy egy hónap múlva meglesz a szükséges információ?

Annak érdekében, hogy mindezen kérdéseket válaszokkal kielégítsék, a keresőmotor-fejlesztők folyamatosan fejlesztik a keresési algoritmusokat és elveket, új funkciókat és képességeket adnak hozzá, és minden lehetséges módon igyekeznek felgyorsítani a rendszer működését.

3. A keresőmotor főbb jellemzői

Ismertesse a keresőmotorok főbb jellemzőit:

  • Teljesség

    A teljesség a keresőrendszer egyik fő jellemzője, amely a lekéréssel talált dokumentumok számának aránya az interneten található összes, az adott kérést kielégítő dokumentum számához viszonyítva. Például, ha az interneten 100 oldal található, amely tartalmazza a „hogyan válasszunk autót” kifejezést, és ezek közül csak 60 található a megfelelő lekérdezéshez, akkor a keresés teljessége 0,6 lesz. Nyilvánvalóan minél teljesebb a keresés, annál kevésbé valószínű, hogy a felhasználó nem találja meg a számára szükséges dokumentumot, feltéve, hogy az egyáltalán létezik az interneten.

  • Pontosság

    A pontosság a keresőmotor másik fő jellemzője, amelyet az határoz meg, hogy a talált dokumentumok mennyire egyeznek a felhasználó lekérdezésével. Például, ha a „hogyan válasszunk autót” lekérdezés 100 dokumentumot tartalmaz, ezek közül 50 tartalmazza a „hogyan válasszak autót” kifejezést, a többi pedig egyszerűen ezeket a szavakat („hogyan válasszuk ki a megfelelő rádiót és telepítsük egy autó”), akkor a keresési pontosságot 50/100-nak (=0,5) tekintjük. Minél pontosabb a keresés, annál gyorsabban találja meg a felhasználó a számára szükséges dokumentumokat, minél kevesebb különféle „szemét” található közöttük, a talált dokumentumok annál ritkábban nem felelnek meg a kérésnek.

  • Relevancia

    A relevancia ugyanilyen fontos összetevője a keresésnek, amelyet az jellemez, hogy a dokumentumok interneten való közzétételétől a keresőmotor index adatbázisába való bekerüléséig eltelik az idő. Például az érdekes hírek megjelenése utáni napon nagyszámú felhasználó fordult releváns lekérdezésekkel a keresőmotorokhoz. Objektíven egy nap sem telt el a témával kapcsolatos hírek megjelenése óta, de a főbb dokumentumok már indexelve és kereshetővé váltak, köszönhetően a nagy keresőmotorok úgynevezett „gyors adatbázisának”, amely naponta többször frissül.

  • Keresési sebesség

    A keresési sebesség szorosan összefügg a terhelési ellenállásával. Például a Rambler Internet Holding LLC szerint ma munkaidőben a Rambler keresőmotorja körülbelül 60 kérést kap másodpercenként. Az ilyen munkaterhelés csökkenti az egyedi kérések feldolgozásának idejét. Itt a felhasználó és a keresőmotor érdekei egybeesnek: a látogató minél gyorsabban szeretne eredményt kapni, a keresőnek pedig a lehető leggyorsabban kell feldolgoznia a kérést, hogy ne lassítsa a későbbi lekérdezések számítását.

  • Láthatóság

4. A keresőmotorok fejlődésének rövid története

Az Internet fejlődésének kezdeti időszakában felhasználóinak száma csekély, a rendelkezésre álló információ mennyisége viszonylag csekély volt. A legtöbb esetben csak a kutatók fértek hozzá az internethez. Ebben az időben az internetes információkeresés nem volt olyan sürgős, mint most.

A hálózati információs erőforrásokhoz való hozzáférés megszervezésének egyik első módja a webhelyek nyílt könyvtárainak létrehozása volt, amelyekben az erőforrásokra mutató hivatkozásokat témák szerint csoportosítottak. Az első ilyen projekt a Yahoo.com weboldal volt, amely 1994 tavaszán nyílt meg. Miután a katalógusban található webhelyek száma jelentősen megnőtt, a katalógusban lehetőség nyílt a szükséges információk keresésére. Teljes értelemben ez még nem volt keresőmotor, mivel a keresési terület csak a katalógusban található erőforrásokra korlátozódott, és nem minden internetes forrásra.

A linkkönyvtárakat korábban széles körben használták, de mára szinte teljesen elvesztették népszerűségüket. Mivel még a modern, hatalmas mennyiségű katalógusok is csak az Internet elenyésző részéről tartalmaznak információt. A DMOZ hálózat legnagyobb címtára (más néven Open Directory Project) mintegy 5 millió forrás információt tartalmaz, míg a Google kereső adatbázisa több mint 8 milliárd dokumentumból áll.

1995-ben megjelentek a Lycos és az AltaVista keresőmotorok. Ez utóbbi évek óta vezető szerepet tölt be az internetes információkeresés területén.

1997-ben Sergey Brin és Larry Page a Stanford Egyetem kutatási projektjének részeként létrehozta a Google keresőmotorját. A Google jelenleg a legnépszerűbb kereső a világon!

1997 szeptemberében hivatalosan is bejelentették a Yandex keresőmotort, amely a legnépszerűbb az orosz nyelvű interneten.

Jelenleg három fő keresőmotor létezik (nemzetközi) - a Google, a Yahoo és, amelyek saját adatbázisokkal és keresési algoritmusokkal rendelkeznek. A legtöbb más keresőmotor (amelyek közül sok van) ilyen vagy olyan formában használja a felsorolt ​​három találatát. Például az AOL keresés (search.aol.com) a Google adatbázisát használja, míg az AltaVista, a Lycos és az AllTheWeb a Yahoo adatbázist.

5. A keresőrendszer összetétele és működési elvei

Oroszországban a fő keresőmotor a Yandex, ezt követi a Rambler.ru, Google.ru, Aport.ru, Mail.ru. Ezenkívül a Mail.ru jelenleg a Yandex keresőmotorját és adatbázisát használja.

Szinte minden nagyobb keresőmotor saját szerkezettel rendelkezik, amely különbözik a többitől. Lehetőség van azonban az összes keresőmotorban közös fő összetevők azonosítására. A szerkezeti különbségek csak ezen összetevők kölcsönhatási mechanizmusainak megvalósításában lehetnek.

Indexelő modul

Az indexelő modul három segédprogramból (robotból) áll:

A Spider egy weboldalak letöltésére tervezett program. A pók letölti az oldalt, és lekéri az oldalról az összes belső hivatkozást. Minden oldal html kódja letöltődik. A robotok HTTP protokollokat használnak az oldalak letöltéséhez. A pók a következőképpen működik. A robot elküldi a „get/path/document” kérést és néhány más HTTP kérés parancsot a szervernek. Válaszul a robot megkapja a szolgáltatási információkat és magát a dokumentumot tartalmazó szövegfolyamot.

  • Oldal URL-je
  • az oldal letöltésének dátuma
  • Szerver válasz http fejléc
  • oldal törzse (html kód)

A Crawler ("utazó" pók) egy olyan program, amely automatikusan követi az oldalon található összes hivatkozást. Kijelöli az oldalon található összes hivatkozást. Feladata az, hogy meghatározza, merre menjen tovább a pók, hivatkozások vagy egy előre meghatározott címlista alapján. A Crawler a talált linkeket követve olyan új dokumentumokat keres, amelyek még ismeretlenek a kereső számára.

Az Indexer (robot indexer) egy olyan program, amely elemzi a pókok által letöltött weboldalakat. Az indexelő elemzi az oldalt alkotóelemeire, és saját lexikai és morfológiai algoritmusai segítségével elemzi azokat. Különféle oldalelemeket elemeznek, például szöveget, címsorokat, hivatkozásokat, szerkezeti és stílusjegyeket, speciális szolgáltatási HTML-címkéket stb.

Így az indexelő modul lehetővé teszi egy adott erőforráskészlet feltérképezését hivatkozások segítségével, a talált oldalak letöltését, az új oldalakra mutató hivatkozások kinyerését a kapott dokumentumokból, és ezeknek a dokumentumoknak a teljes elemzését.

Adatbázis

Az adatbázis vagy keresőindex egy adattároló rendszer, egy információs tömb, amelyben az indexelő modul által letöltött és feldolgozott összes dokumentum speciálisan átalakított paraméterei tárolódnak.

Keresőszerver

A keresőszerver az egész rendszer legfontosabb eleme, mivel a keresés minősége és sebessége közvetlenül függ a működését megalapozó algoritmusoktól.

A keresőszerver a következőképpen működik:

  • A felhasználótól kapott kérést morfológiai elemzésnek vetjük alá. Az adatbázisban található minden egyes dokumentum információs környezete generálódik (amely ezt követően formában, azaz a keresési eredményoldalon a kérésnek megfelelő szöveges információ formájában jelenik meg).
  • A kapott adatokat bemeneti paraméterként egy speciális rangsoroló modulhoz továbbítják. Minden dokumentum adatfeldolgozása megtörténik, ennek eredményeként minden dokumentumnak saját minősítése van, amely jellemzi a felhasználó által bevitt lekérdezés relevanciáját, illetve a keresőindexben tárolt dokumentum különböző összetevőit.
  • A felhasználó választásától függően ez az értékelés további feltételekkel módosítható (például az úgynevezett „bővített keresés”).
  • Ezután egy töredéket generálunk, vagyis minden talált dokumentumhoz kivonjuk a dokumentumtáblából a címet, a lekérdezésnek leginkább megfelelő rövid kivonatot, valamint magára a dokumentumra mutató hivatkozást, és kiemeljük a talált szavakat.
  • A kapott keresési eredményeket SERP (Search Engine Result Page) – keresési eredményoldal – formájában továbbítják a felhasználónak.

Mint látható, ezek az összetevők szorosan kapcsolódnak egymáshoz és kölcsönhatásban működnek, világos, meglehetősen összetett mechanizmust alkotva a keresőrendszer működéséhez, amely hatalmas erőforrásokat igényel.

6. Következtetés

Most pedig foglaljuk össze a fentieket.

  • Minden keresőmotor elsődleges célja, hogy az embereknek pontosan azt az információt közölje, amit keresnek.
  • A keresőmotorok főbb jellemzői:
    1. Teljesség
    2. Pontosság
    3. Relevancia
    4. Keresési sebesség
    5. Láthatóság
  • Az első teljes értékű kereső az 1994-ben megjelent WebCrawler projekt volt.
  • A keresőrendszer a következő összetevőket tartalmazza:
    1. Indexelő modul
    2. Adatbázis
    3. Keresőszerver

Reméljük, hogy mesterkurzusunk lehetővé teszi, hogy jobban megismerje a keresőmotor fogalmát, és jobban megértse a keresőmotorok fő funkcióit, jellemzőit és működési elveit.

1. Kifejezések és fogalommeghatározások Ebben a személyes adatok kezeléséről szóló megállapodásban (a továbbiakban: Megállapodás) az alábbi kifejezések meghatározásai a következők: Üzemeltető – egyéni vállalkozó Oleg Aleksandrovich Dneprovsky. A Szerződés elfogadása - a Megállapodás összes feltételének teljes és feltétel nélküli elfogadása személyes adatok elküldésével és feldolgozásával. Személyes adatok - a Felhasználó (a személyes adatok alanya) által az oldalon megadott, közvetlenül vagy közvetve ezzel a Felhasználóval kapcsolatos információk. Felhasználó - minden természetes vagy jogi személy, aki sikeresen befejezte a beviteli mezők kitöltésének folyamatát az oldalon. A beviteli mezők kitöltése az az eljárás, amellyel a Felhasználó beazonosítás céljából beküldi keresztnevét, vezetéknevét, telefonszámát, személyes e-mail címét (a továbbiakban: Személyes adat) az oldal regisztrált felhasználóinak adatbázisába. a felhasználó. A beviteli mezők kitöltése eredményeként a személyes adatok az Üzemeltető adatbázisába kerülnek. A beviteli mezők kitöltése önkéntes. weboldal - az interneten található, egy oldalból álló webhely. 2. Általános rendelkezések 2.1. Ez a megállapodás a 2006. július 27-i 152-FZ „A személyes adatokról” szövetségi törvény követelményei és az „Orosz Föderáció jogszabályainak megsértése a személyes adatok területén” című 13.11. cikkének rendelkezései alapján készült. személyes adatok” az Orosz Föderáció adminisztratív szabálysértési kódexében foglaltak szerint, és minden olyan személyes adatra érvényes, amelyet az Üzemeltető a Webhely használata során a Felhasználóról megszerezhet. 2.2. A beviteli mezők Felhasználó általi kitöltése az oldalon azt jelenti, hogy a Felhasználó feltétel nélkül beleegyezik a jelen Szerződés összes feltételébe (a Szerződés elfogadása). Ha nem ért egyet ezekkel a feltételekkel, a Felhasználó nem tölti ki az oldalon található beviteli mezőket. 2.3. A Felhasználó hozzájárulása a személyes adatok Üzemeltető részére történő átadásához és azok Üzemeltető általi kezeléséhez az Üzemeltető tevékenységének megszűnéséig vagy a Felhasználó hozzájárulásának visszavonásáig érvényes. A Felhasználó a jelen Szerződés elfogadásával és a regisztrációs eljárás lefolytatásával, valamint az oldal utólagos belépésével megerősíti, hogy szabad akaratából és saját érdekében személyes adatait feldolgozás céljából átadja az Üzemeltetőnek, és hozzájárul ahhoz, hogy feldolgozásuk. A Felhasználót értesítjük, hogy személyes adatainak feldolgozását az Üzemeltető a 2006. július 27-i 152-FZ „A személyes adatokról” szövetségi törvény alapján végzi. 3. Az Üzemeltetőnek átadandó, a felhasználóra vonatkozó személyes adatok és egyéb információk listája 3. 1. Az Üzemeltető weboldalának használata során a Felhasználó az alábbi személyes adatokat adja meg: 3.1.1. Megbízható személyes adatok, amelyeket a Felhasználó a beviteli mezők kitöltésekor és/vagy a Weboldal szolgáltatásainak igénybevétele során önállóan ad meg magáról, ideértve a vezetéknév, keresztnév, apanév, telefonszám (otthoni vagy mobil), személyes e-mail cím. 3.1.2. Azok az adatok, amelyek a Felhasználó eszközére telepített szoftver használatával azok használata során automatikusan átkerülnek a Webhely szolgáltatásaiba, ideértve az IP-címet, a cookie-kból származó információkat, a Felhasználó böngészőjére vonatkozó információkat (vagy más olyan programokat, amelyeken keresztül a szolgáltatások elérhetők). 3.2. Az Üzemeltető nem ellenőrzi a Felhasználó által megadott személyes adatok pontosságát. Ebben az esetben az Üzemeltető feltételezi, hogy a Felhasználó megbízható és elegendő személyes információt ad a beviteli mezőkben javasolt kérdésekről. 4. A személyes adatok gyűjtésének és felhasználásának céljai, szabályai 4.1. Az Üzemeltető olyan személyes adatokat kezel, amelyek a Felhasználó szolgáltatásainak nyújtásához és szolgáltatások nyújtásához szükségesek. 4.2. A Felhasználó személyes adatait az Üzemeltető az alábbi célokra használja fel: 4.2.1. Felhasználó azonosítása; 4.2.2. A Felhasználó személyre szabott szolgáltatásainak biztosítása (valamint a cég új akcióiról, szolgáltatásairól levélben történő tájékoztatás); 4.2.3. Szükség esetén kapcsolattartás a Felhasználóval, ideértve a szolgáltatások igénybevételével, szolgáltatásnyújtásával kapcsolatos értesítések, kérések, információk küldését, valamint a Felhasználó kérelmének, kérelmeinek feldolgozását; 4.3. A személyes adatok kezelése során a következő tevékenységekre kerül sor: gyűjtés, rögzítés, rendszerezés, felhalmozás, tárolás, pontosítás (frissítés, módosítás), kimásolás, felhasználás, zárolás, törlés, megsemmisítés. 4.4. A felhasználó nem tiltakozik az ellen, hogy az általa meghatározott információkat bizonyos esetekben átadják az Orosz Föderáció felhatalmazott állami szerveinek, az Orosz Föderáció hatályos jogszabályainak megfelelően. 4.5. A Felhasználó személyes adatait az Üzemeltető a jelen Szerződésben meghatározott módon tárolja és kezeli az Üzemeltető tevékenységének teljes időtartama alatt. 4.6. A személyes adatok kezelését az Üzemeltető adatbázisok vezetésével, automatizált, mechanikus és manuális módszerekkel végzi. 4.7. A webhely cookie-kat és egyéb technológiákat használ a webhely szolgáltatásainak használatának nyomon követésére. Ezek az adatok az oldal technikai működésének optimalizálásához és a szolgáltatás minőségének javításához szükségesek. Az oldal automatikusan rögzíti az információkat (beleértve az URL-t, az IP-címet, a böngésző típusát, a nyelvet, a kérés dátumát és időpontját) a webhely minden látogatójáról. A felhasználónak jogában áll megtagadni a személyes adatok megadását a Webhely meglátogatásakor, vagy letiltani a sütiket, de ebben az esetben előfordulhat, hogy a Webhely nem minden funkciója működik megfelelően. 4.8. A jelen Szerződésben meghatározott titoktartási feltételek minden olyan információra vonatkoznak, amelyet az Üzemeltető a Felhasználóról az Oldalon való tartózkodása és az Oldal használata során szerezhet meg. 4.9. A jelen Megállapodás végrehajtása során nyilvánosan közzétett információk, valamint azok az információk, amelyeket a felek vagy harmadik felek olyan forrásokból szerezhetnek be, amelyekhez bárki szabadon hozzáférhet, nem minősül bizalmasnak. 4.10. Az Üzemeltető minden szükséges intézkedést megtesz annak érdekében, hogy a Felhasználó személyes adatait megóvja a jogosulatlan hozzáféréstől, módosítástól, nyilvánosságra hozataltól vagy megsemmisítéstől, ideértve: az adatgyűjtési, tárolási és feldolgozási folyamatok folyamatos belső ellenőrzését és a biztonság garantálását; biztosítja az adatok fizikai biztonságát, megakadályozva az illetéktelen hozzáférést az oldal működését biztosító technikai rendszerekhez, amelyekben az Üzemeltető személyes adatokat tárol; a személyes adatokhoz csak az Üzemeltető azon alkalmazottai vagy felhatalmazott személyek számára biztosít hozzáférést, akiknek szükségük van ezekre az információkra a Felhasználónak nyújtott szolgáltatásokkal, valamint az Oldal üzemeltetésével, fejlesztésével és fejlesztésével közvetlenül összefüggő feladatok ellátásához. 4.11. A Felhasználó személyes adatai bizalmasak maradnak, kivéve azokat az eseteket, amikor a Felhasználó önként ad magáról adatokat általános hozzáférés céljából korlátlan számú személy számára. 4.12. A Felhasználó személyes adatainak Üzemeltető általi továbbítása az Üzemeltető átszervezése és a jogutód részére történő jogátruházás során jogszerű, míg a jelen Szerződésben foglaltak betartására vonatkozó minden kötelezettség a hozzá eljuttatott személyes adatokkal kapcsolatban átkerült a jogutódhoz. 4.13. Ez a nyilatkozat csak az Üzemeltető webhelyére vonatkozik. A Vállalat nem ellenőrzi és nem vállal felelősséget harmadik felek webhelyeiért (szolgáltatásaiért), amelyekhez a felhasználó az Üzemeltető webhelyén elérhető hivatkozásokon keresztül hozzáférhet, beleértve a keresési eredményeket is. Az ilyen oldalakon (szolgáltatásokon) más személyes adatok is gyűjthetők vagy kérhetők a felhasználótól, és egyéb műveletek is végrehajthatók 5. A felhasználó, mint a személyes adatok alanyának jogai, a személyes adatok felhasználó általi megváltoztatása és törlése 5.1. A felhasználónak joga van: 5.1.2. Kötelezheti az Üzemeltetőt személyes adatainak pontosítására, zárolására vagy megsemmisítésére, ha a személyes adat hiányos, elavult, pontatlan, jogellenesen jutott vagy az adatkezelés megjelölt céljához nem szükséges, valamint jogainak védelme érdekében törvényben előírt intézkedéseket is megtenni. 5.1.3. Tájékoztatást kaphat személyes adatainak kezeléséről, beleértve az alábbiakat: 5.1.3.1. a személyes adatok Üzemeltető általi feldolgozásának tényének megerősítése; 5.1.3.2. az üzemeltető által a személyes adatok feldolgozásának céljai és módjai; 5.1.3.3. az Üzemeltető neve és székhelye; 5.1.3.4. a személyes adatok érintett alanyával kapcsolatos kezelt személyes adatok, azok beérkezésének forrása, kivéve, ha a szövetségi törvény eltérő eljárást ír elő az ilyen adatok bemutatására; 5.1.3.5. a személyes adatok feldolgozásának feltételei, beleértve a tárolás időtartamát; 5.1.3.6. az Orosz Föderáció hatályos jogszabályai által előírt egyéb információk. 5.2. A személyes adatok kezeléséhez adott hozzájárulásának visszavonását a Felhasználó az Üzemeltető megfelelő írásos (tárgyi adathordozóra nyomtatott és a Felhasználó által aláírt) értesítésével teheti meg. 6. Az Üzemeltető kötelezettségei. Személyes adatokhoz való hozzáférés 6.1. Az Üzemeltető vállalja, hogy megakadályozza az Üzemeltető Weboldal Felhasználóinak személyes adataihoz való jogosulatlan és nem célzott hozzáférést. Ebben az esetben a Weboldal Felhasználóinak személyes adataihoz való engedélyezett és célzott hozzáférés minden érdekelt fél általi hozzáférésnek minősül, amely az Üzemeltető Webhely céljainak és tárgyának keretei között valósul meg. Ugyanakkor az Üzemeltető nem vállal felelősséget a Felhasználók személyes adataival való esetleges visszaélésért, amely a következők miatt következik be: a szoftverben, valamint a hardverben és a hálózatokban az Üzemeltetőn kívül eső műszaki problémák; az Üzemeltető Weboldalainak harmadik fél általi szándékos vagy nem szándékos, nem rendeltetésszerű használatával kapcsolatban; 6.2 Az Üzemeltető megteszi a szükséges és elégséges szervezési és technikai intézkedéseket annak érdekében, hogy megvédje a felhasználó személyes adatait a jogosulatlan vagy véletlenszerű hozzáféréstől, megsemmisítéstől, módosítástól, letiltástól, másolástól, terjesztéstől, valamint harmadik felek egyéb jogellenes cselekményeitől. 7. Az adatvédelmi szabályzat változásai. Alkalmazandó jogszabályok 7.1. Az Üzemeltető jogosult a jelen Szabályzatot a Felhasználók külön értesítése nélkül módosítani. Az aktuális kiadás módosítása esetén az utolsó frissítés dátuma jelenik meg. A Szabályzat új kiadása a közzététel pillanatától lép hatályba, hacsak a Szabályzat új kiadása másként nem rendelkezik. 7.2. Az Orosz Föderáció joga alkalmazandó erre a rendeletre, valamint a Felhasználó és az Üzemeltető közötti, a Rendelet alkalmazásával összefüggésben létrejött kapcsolatra. elfogadom nem fogadom el

Nem vagyunk olyan egyediek, mint gondolnánk: előttünk emberek milliói értetlenkednek, utánunk pedig milliók teszik majd fejtörést a keresőben szinte azonos kérdésekkel. Másrészt túlságosan kiszámíthatatlanok vagyunk: kérésünk megfogalmazását rengeteg olyan tényező befolyásolja, amelyekről nem tudunk. És legalább ezért, mindannyiunk kérése, bármilyen banális is legyen, egyéni megközelítést igényel.

Valójában a Yandex keresőmotor teljes munkája két egyszerű dologból áll: megérteni, hogy az ember mit szeretne igazán tudni, és néhány másodperc alatt megtalálni a megfelelőt az interneten található dokumentumok milliárdjai között.

Vegyen ujjlenyomatokat

A kereső operációs rendszere némileg hasonlít a Matrixhoz, a keresőrobot (az általa létrehozott összetett, önálló döntéshozó program) pedig Smith ügynökhöz.

Annak érdekében, hogy ne keressen a teljes interneten minden alkalommal, amikor valakinek tudnia kell valamit, a keresőmotor előre elvégzi a munka egy részét - több ezer keresőrobot segítségével ellenőrzi, hogy mi van a weben és hol van. Két típusuk van: alap és gyors. A fő az internet egészét feltérképezi és feldolgozza, a gyors pedig olyan dokumentumokat, amelyek egy perccel vagy akár néhány másodperccel ezelőtt jelentek meg. A robotprogramok feladata a felhasználók számára megfelelő és hasznos információk kiválasztása, feldolgozása, kigyomlálva minden elavult és szükségtelent. Ez bizonyos szempontból a szemétválogatásra emlékeztet: az egyik edényben papír, a másikban az üveg, a harmadikban a műanyag, a negyedikben az élelmiszerhulladék...

A robotok által gyűjtött információk alkotják az úgynevezett internetes castot. Több ezer Yandex szerveren tárolják, és folyamatosan frissítik. A rög olyan, mint egy lista, amely megmondja, hol találhat információt. Ebben a listában minden kulcsszónak nem egy, hanem milliónyi „oldala” van. Annak biztosítása érdekében, hogy az összes nugget-frissítés elérhető legyen a felhasználók számára, áthelyezik azokat a lerakatból az „alapkeresésbe”. A fő robottól néhány naponként, a gyors robottól valós időben továbbítják az adatokat.

Vigye tiszta vízhez



ILLUSZTRÁCIÓ: TONKONOGY EVGENY

Egy előkészített adatbázisban egy adott kérdésre keresve a választ a gépnek két fő nehézséggel kell szembenéznie. Az első nehézség a nyelv. Mielőtt választ keresne egy kérdésre, fontos, hogy a gép megértse, milyen nyelven kell ezt megtennie. Például egy oroszul beszélő személy számára az „Igor herceg osztaga” kereséskor a hadseregre vonatkozó információkat tartalmazó dokumentumokat talál, az ukrán esetében pedig az „Igor herceg osztaga” olyan dokumentumokat is visszaad, amelyek Olga hercegnőt, a feleségét említik, mivel ukránul a „feleség” „osztag”. A gazdag orosz nyelvben pedig ugyanaz a szó vagy származékai különböző dolgokat jelenthetnek. Például az „acél” szó az „acél” főnév és a „become” ige egyik formája. A második nehézség az emberi pszichológia. Egy kérés megadásakor gyors és pontos választ várunk, természetesen nem kell aggódnunk, hogy a kérés megfogalmazása megfelel-e a matematikai elemzés azon elveinek, amelyek alapján a gép agya működik. Például, ha beírja a „Napóleon” szót a keresősávba, mit szeretne kapni az ember: süteményreceptet vagy a francia császár életrajzát, konyakot vásárolni, vagy megkeresni egy pszichiátriai kórház címét?


Ilyen helyzetekben többféle technológia lép életbe. Számos tippet adhat a keresősáv alatt, amelyek meghatározzák a kérést. Például válassza ki, amire szüksége van: Napóleon receptjei vagy Napóleon - Bonaparte. Ha a felhasználó nem válaszol a gép kérésére, és nem ad szavakat a „Napoleon”-hoz, akkor a „Spectrum” technológia segíti a dolgot: segítség reménye nélkül a gép azonnal több kategóriában keres információt (a tortáról, és a császárról és a lóról..). Ezenkívül a személyre szabási mechanizmusok segítenek megérteni a felhasználót – a gép tudását arról, hogy a felhasználó mit keresett a számítógépén egy nappal, két, három vagy hónapja: ha gyakran tett fel kérdéseket a Yandexnek a főzéssel kapcsolatban, akkor a gép először megmutatja az eredmények azt mondják, hogy Napóleon egy torta.

Kombinációk: érdeklődési körök

A keresőmotor feladata nem egyszerűen az, hogy olyan dokumentumokat jelöljön ki, amelyek szavakat és kifejezéseket tartalmaznak a keresési lekérdezésből. A gépnek meg kell értenie, hogy mely dokumentumok felelnek meg egymásnak ellentmondó követelményeinknek, és miért felelnek meg azoknak. Akarunk-e információkat szerezni a Napóleon tortáról, esetleg pár éve egy igényes nevű fitneszklubba látogattunk, vagy akár teljesen aggaszt az alacsony emberek komplexusai. Mindenesetre a probléma megoldása nem triviális megközelítést igényel.


A Yandex keresőprogram készítői úgy találták meg ezt a megközelítést, hogy a választás jogát a gépre ruházták. Egyrészt egy lélektelen, de nagyon gyors és okos gépezet nem tud és nem is akar tudni semmit rólunk, mint egyénekről, másrészt mindenkiről igyekszik minél többet megtudni.

A kereső a felhasználó földrajzi elhelyezkedése és lekérdezésének nyelvi elemzése mellett több ezer olyan kritériumot használ, amelyek egyáltalán nem nyilvánvalóak az ember számára.

A trükk az, hogy a gép önállóan fejleszti és frissíti ezeket a kritériumokat.

Egyszerűen több millió ember preferenciáira és felhasználói viselkedésére vonatkozó adatokat használja fel, és ezt a „számtani átlagot” a lekérdezéseink történetéhez kapcsolja. Azok az alapelvek, amelyek a Mátrixot önmagában irányítják, összehasonlítva az általa kialakított több ezer felhasználói érdeklődési kategóriát, gyakran nem illeszkednek a hagyományos emberi elképzelésekbe arról, hogy elvileg mi is lehet az „érdek”. Több tízezer van belőlük. Különféle, néha vicces kombinációkat hoznak létre egymással. Az egyik ilyen kombináció lehet például az, hogy a keresési eredmények megfelelnek egy gőtéket tenyésztő személy érdeklődésének. Ugyanakkor az ember nem csak érdeklődik a gőték iránt, hanem már tenyészti is, de csak az első évben.

Értékelések. Segítő kezek


A mátrix természetesen maga dönti el (a magasabb matematika segítségével), hogy mit és milyen sorrendben kell megmutatni a felhasználóknak több tízezer kritérium alapján. De a Mátrix élő embereket is használ - a Yandex 1000 alkalmazottja, az úgynevezett értékelők értékelik egy adott kérés keresési eredményeit (természetesen nem minden kérést értékelnek ki, és ez nem valós időben történik), hogy megállapítsa, megfelelnek-e a kéréseknek. egy hétköznapi felhasználó elvárásai: nem olyan racionális, mint egy gép, nem olyan precíz megfogalmazás, ellentmondásos és érzelmes.