Motoare de căutare pe Internet: Yandex, Google, Rambler, Yahoo. Compoziție, funcții, principiu de funcționare. Cea mai simplă descriere a principiului de funcționare a motorului de căutare Yandex Combinații: cluburi de interese

Salutare dragi prieteni! În acest articol vom continua să ne uităm la motorul de căutare Yandex și, după cum vă amintiți, în articolele anterioare am discutat despre istoria creării acestei mari companii, care se află pe primul loc printre concurenții săi din Rusia și nu numai.

Toate acestea sunt bune, dar începătorii și constructorii de site-uri experimentați sunt interesați de cea mai importantă întrebare, desigur, legată de cum să-și aducă proiectele pe primele locuri în rezultatele căutării de TOP.

Prin urmare, să ne uităm la modul în care funcționează motorul de căutare Yandex pentru a înțelege ce greșeli puteți păși și la ce să vă așteptați de la un motor de căutare rus în general.

În ultimul articol am discutat. Subiectul s-a dovedit a fi destul de interesant și util. Prin urmare, am decis să o suplimentez, să o aprofundez, ca să zic așa.

Deci, probabil că m-am lăsat puțin luat de întrebarea „De ce un motor de căutare indexează documentele”? Nu este o idee. Tot ce rămâne este să ne dai seama de întrebarea „cum”.

Algoritmi de clasare a site-urilor web

Mai întâi, să facem cunoștință cu câțiva algoritmi care sunt fundamentali pentru orice motor de căutare:

— Algoritm de căutare directă.

Ce este - îți amintești că ai citit o poveste minunată într-una dintre cărți. Și începi să cauți unul câte unul. Au luat o carte, s-au uitat prin ea, nu au găsit-o, au luat alta... Principiul este clar, dar această metodă este extrem de lungă. Acest lucru este de asemenea de înțeles.

— Algoritm de căutare inversă.

Pentru acest algoritm, se creează un fișier text din fiecare pagină a blogului tău. Acest fișier listează în ordine alfabetică TOATE cuvintele pe care le-ați folosit. Chiar și poziția acestui cuvânt în text este indicată (coordonatele în text).

Aceasta este o metodă destul de rapidă, dar căutarea are loc deja cu o eroare.

Principalul lucru de înțeles aici este că acest algoritm nu caută pe Internet, nu căutând pe un blog. Și într-un fișier text separat care a fost creat cu mult timp în urmă. Când robotul a venit la tine. Și aceste fișiere (indexuri inverse) sunt stocate pe serverele Yandex.

Deci, aceștia au fost algoritmii de căutare de bază. Acestea. cum Yandex găsește pur și simplu documentele necesare. Nu ar trebui să pară să existe probleme cu asta.

Dar Yandex cunoaște mai mult de unul sau chiar 100 de documente, dar conform celor mai recente date din sursele mele, Yandex știe aproximativ 11 miliarde de documente (10.727.736.489 de pagini).

Și dintre toată această cantitate, trebuie să selectați documentele care se potrivesc cu cererea. Și mai important, trebuie să le clasați cumva. Acestea. aranjați după gradul de importanță, sau mai degrabă după gradul de utilitate pentru cititor.

Modele matematice de căutare

Pentru a rezolva această problemă, modelele matematice vin în ajutor. Acum vom vorbi despre cele mai simple modele.

Modelul matematic boolean– Dacă într-un document apare un cuvânt, documentul este considerat găsit. Doar o coincidență și nimic complicat.

Dar aici sunt probleme. De exemplu, dacă, în calitate de utilizator, introduceți un cuvânt popular, sau chiar mai bine, prepoziția „v”, care este cel mai comun cuvânt în limba rusă și se găsește în FIECARE document, atunci vi se vor da atât de multe rezultate ca nici nu-ti dai seama de un asemenea numar, Cate documente ai gasit? Prin urmare, a apărut următorul model de covoraș.

Model matematic vectorial– acest model determină „greutatea” documentului. Nu numai că apare coincidența, dar cuvântul trebuie să apară de mai multe ori. Mai mult, cu cât un cuvânt apare mai mult, cu atât relevanța (conformitatea) este mai mare.

Este modelul vectorial pe care îl folosesc TOATE motoarele de căutare.

Model probabilistic- mai complex. Principiul este acesta: motorul de căutare a găsit propriul șablon de pagină. De exemplu, căutați informații despre istoria Yandex. Yandex stochează un fel de standard, să spunem că acesta va fi articolul meu anterior despre Yandex.

Și va compara toate celelalte documente cu acest articol. Și logica aici este aceasta: cu cât pagina dvs. de blog este mai asemănătoare cu articolul meu, cu atât mai probabil este faptul că pagina dvs. de blog va fi, de asemenea, utilă cititorului și, de asemenea, vorbește despre istoria Yandex.

Pentru a reduce numărul de documente care trebuie arătate utilizatorului, a fost introdus conceptul de relevanță, i.e. conformitate.

Cât de relevantă este pagina ta de blog față de subiect? Acesta este un subiect important când vine vorba de calitatea căutării.

Evaluatorii – cine sunt și de ce sunt responsabili?

Această relevanță este necesară și pentru a evalua calitatea algoritmilor.

În acest scop există un cartier general al forțelor speciale - se numesc Evaluatori. Aceștia sunt oameni speciali care se uită prin rezultatele căutării cu mâinile lor.

Au instrucțiuni despre cum să verifice site-urile, cum să evalueze etc. Și determină manual dacă paginile tale sunt potrivite pentru interogări de căutare sau nu.

Iar calitatea algoritmilor de căutare depinde de opinia evaluatorilor. Dacă toți evaluatorii spun că rezultatele căutării nu corespund solicitărilor, aceasta înseamnă că algoritmul de clasare este incorect și Yandex este singurul de vină.

Daca evaluatorii spun ca un singur site nu satisface cererea, inseamna ca site-ul zboara undeva departe si este coborat in rezultatele cautarii. Mai precis, nu întregul site, ci doar un articol, dar acesta „nu este ideea”.

Desigur, evaluatorii nu pot revizui și evalua TOATE articolele cu mâinile și ochii. Acest lucru este de înțeles.

Și alți parametri după care sunt clasate paginile vin în ajutor.

Sunt multe dintre ele, de exemplu:

  • greutatea paginii (vIC, PageRank, umflături de bebelușiÎn întregime);
  • autoritate de domeniu;
  • relevanța textului pentru cerere;
  • relevanța textelor link-urilor externe la interogare;
  • precum și mulți alți factori de clasare.

Evaluatorii fac comentarii, iar persoanele care sunt responsabile de configurarea modelului de clasare matematică, la rândul lor, editează formula, în urma căreia motorul de căutare funcționează mai eficient.

Principalele criterii de evaluare a performanței formulei:

1. Acuratețea rezultatelor motorului de căutare- procentul de documente care se potrivesc cu cererea (relevant). Acestea. Cu cât sunt mai puține pagini care nu se potrivesc cu solicitarea, cu atât mai bine.

2. Completitudinea rezultatelor motorului de căutare- acesta este raportul dintre paginile web relevante pentru o anumită interogare și numărul total de documente relevante din colecție (totalitatea paginilor găsite în motorul de căutare).

De exemplu, dacă există mai multe pagini relevante în întreaga colecție decât în ​​rezultatele căutării, aceasta înseamnă că rezultatele sunt incomplete. Acest lucru sa întâmplat deoarece unele dintre paginile web relevante au fost filtrate.

3. Relevanța rezultatelor motorului de căutare- aceasta este conformitatea paginii web cu ceea ce este scris în fragment. De exemplu, un document poate fi foarte diferit sau să nu existe deloc, dar să fie totuși prezent în rezultatele căutării.

Relevanța rezultatelor căutării depinde direct de cât de des scanează robotul de căutare documente din colecția sa.

Colectarea colecțiilor (indexarea paginilor site-ului) este realizată de un program special - un robot de căutare.

Robotul de căutare primește o listă de adrese pentru indexare, le copiază și apoi trimite conținutul paginilor web copiate pentru procesare la un algoritm care le convertește în indexuri inverse.

Ei bine, „pe scurt”, ca să spunem așa, am discutat despre principiile motorului de căutare.

Să rezumăm:

  1. Un robot de căutare vine pe blogul tău.
  2. Robotul de căutare stochează indexul invers al paginii pentru căutări ulterioare.
  3. Folosind un model matematic, documentul este procesat și afișat în rezultatele căutării folosind formule și ținând cont de opinia evaluatorului.

Acest lucru este foarte, foarte simplificat. Doar pentru a obține o înțelegere de bază a modului în care funcționează motorul de căutare Yandex.

Am scris acum atât de mult text și poate că atât de multe nu sunt clare. Prin urmare, vă sugerez să reveniți la acest articol puțin mai târziu și să urmăriți acest videoclip.

Acesta este un ghid excelent, din care am învățat și eu la un moment dat.

Sper că aceste informații vă vor ajuta să înțelegeți mai bine de ce unul dintre site-urile dvs. ocupă poziții adecvate în căutări și să faceți totul pentru a le îmbunătăți.

Cu asta îmi iau rămas-bun de la tine, dacă ai întrebări, sunt mereu fericit să le răspund în comentarii. Sau poate vrei să adaugi la articol?

În orice caz, exprimați-vă părerea. !

Yandex, astăzi, este cel mai popular motor de căutare din Rusia. Statistica serviciului LiveInternet, arată ponderea Yandex în masa publicului integral rus - este de 53,4%, dacă luăm în considerare doar Moscova și regiune, atunci este chiar mai mare - 67,9% (Moscova, conform solicitărilor, ocupă mai mult de 50% din toată Rusia).

Site-ul web www.yandex.ru a fost creat în 1997; un singur server era suficient pentru el, care se afla sub desktopul unuia dintre primii dezvoltatori Yandex, Dmitry, al cărui nume de familie era Teiblyum. Foarte repede după deschidere, am achiziționat un al doilea server și, în curând, când a fost necesar să instalăm altul, a devenit clar că era suficient spațiu sub masă fie pentru trei servere Yandex, fie pentru […]

Dezvoltatorii motoarelor de căutare se străduiesc să ofere utilizatorilor cele mai bune răspunsuri la întrebările lor. Uneori, un astfel de răspuns poate fi un număr (de exemplu, vremea într-un oraș), o imagine (de exemplu, o adresă pe o hartă), o traducere a unui cuvânt sau a unui catren. Când aveți o gamă adecvată de informații la îndemână, răspunsul poate fi dat imediat. Prin urmare, Yandex completează rezultatele căutării pe Internet cu răspunsuri de la […]

Aproximativ fiecare a zecea solicitare către Yandex este „de navigație”, adică constă din numele unei organizații sau al unui site web, iar utilizatorul dorește să acceseze site-ul web al acestei organizații. În acest caz, bara de căutare Yandex este utilizată în locul barei de adrese ale browserului, iar utilizatorul, de regulă, nu este interesat de celelalte nouă rezultate ale căutării. Fără a distrage atenția utilizatorului de la obiectivul principal, am adăugat după […]

Sarcina principală a unui motor de căutare este să răspundă la întrebarea utilizatorului. Când un utilizator solicită o interogare, motorul de căutare nu accesează fiecare site de pe Internet, ci caută printr-o bază de date de pagini cunoscute de acesta - indexul de căutare. Acolo găsește toate paginile cu cuvintele din interogare. Utilizatorul vede link-uri către aceste pagini în paginile cu rezultatele căutării.

După cum vedem, Yandex nu stă pe loc și sunt sigur că tehnologiile de căutare ale acestui sistem vor continua să se dezvolte pentru a îmbunătăți calitatea căutării, ceea ce cu greu poate fi numit încă ideal.

La 10 noiembrie 2009, Yandex a anunțat o nouă versiune a algoritmului de căutare - Snezhinsk. S-au produs modificări fundamentale în algoritmul de calcul al relevanței - reprezentanții Yandex au scris următoarele: „Am reușit să creăm un model matematic mai precis și mult mai complex, ceea ce a condus la o creștere semnificativă a calității căutării. Datorită reproiectării arhitecturii de clasare a căutării, a fost posibilă implementarea contabilității a câteva mii [...]

Testarea noii versiuni a algoritmului Yandex a început pe 9 iulie 2008. Potrivit Yandex, „principalele modificări ale programului sunt legate de o nouă abordare a învățării automate și, ca urmare, diferențe în modul în care factorii de clasare sunt luați în considerare în formulă”.

Pe 14 aprilie 2008, noul algoritm de căutare „Magadan” a început să fie testat la adresa buki.yandex.ru. Pe lângă dublarea numărului de factori de clasare, au fost adăugate și următoarele inovații:

Înainte de a ne aventura în jungla algoritmică, să ne amintim cum funcționează un motor de căutare în general. Structura logică a unui sistem de căutare poate fi reprezentată sub forma a trei module (vezi diagrama) Robot (crawler) este un program special care accesează cu crawlere site-urile Internet și descarcă conținutul acestora. Robotul are un program special conform căruia își desfășoară rundele. Pagini de site încărcate de un robot, un [...]

66. Ce are mai multă influență: un link de pe o platformă gratuită (blogspot, LJ etc.) sau de pe un site/blog offline? Platformele gratuite transferă mai puțină greutate decât site-urile independente. Cu toate acestea, impactul ar putea fi mai mare. Acest lucru se datorează multor factori: lista actuală de ancorare, starea site-urilor comparate etc. Este imposibil să dai un răspuns fără ambiguitate la această întrebare. 67. Cea mai mare greutate este transferată între […]

Tur Vamana - călătorii, bilete de avion și vize în întreaga lume și în India, Nepal, Sri Lanka, Maldive, Mauritius și multe alte locuri de pe planetă. Sfaturi pentru călători și pelerini. Cum să profitați la maximum de călătoria dvs. Cronici istorice uimitoare și povești ale călătorilor experimentați.

Care este scopul luării în considerare a legăturilor externe către un site După cum puteți vedea din secțiunea anterioară, aproape toți factorii care influențează clasarea sunt sub controlul autorului paginii. Astfel, devine imposibil ca un motor de căutare să distingă un document cu adevărat de înaltă calitate de o pagină creată special pentru o anumită expresie de căutare sau chiar de o pagină generată de un robot care nu conține deloc informații utile. […]

Ele au devenit de multă vreme o parte integrantă a internetului rusesc. Motoarele de căutare sunt acum mecanisme uriașe și complexe care reprezintă nu doar un instrument de căutare a informațiilor, ci și zone tentante pentru afaceri.

Majoritatea utilizatorilor motoarelor de căutare nu s-au gândit niciodată (sau s-au gândit la asta, dar nu au găsit un răspuns) la principiul de funcționare a motoarelor de căutare, la schema de procesare a cererilor utilizatorilor, în ce constau aceste sisteme și cum funcționează...

Această clasă de master este concepută pentru a răspunde la întrebarea cum funcționează motoarele de căutare. Totuși, nu veți găsi aici factori care influențează clasarea documentelor. Mai mult, nu ar trebui să contați pe o explicație detaliată a algoritmului Yandex. El, potrivit lui Ilya Segalovici, directorul tehnologiei și dezvoltării motorului de căutare Yandex, poate fi recunoscut „sub tortură” doar de Ilya Segalovici însuși...

2. Conceptul și funcțiile unui motor de căutare

Un sistem de căutare este un complex software și hardware conceput să caute pe internet și să răspundă la o solicitare a utilizatorului, specificată sub forma unei fraze text (interogare de căutare), prin producerea unei liste de legături către surse de informații, în ordinea relevanței ( conform cererii). Cele mai mari motoare de căutare internaționale: "Google", Yahoo , MSN . Pe internetul rusesc, acestea sunt Yandex, Rambler, Aport.

Să aruncăm o privire mai atentă asupra conceptului de interogare de căutare folosind motorul de căutare Yandex ca exemplu. Interogarea de căutare ar trebui să fie formulată de utilizator în conformitate cu ceea ce dorește să găsească, cât mai scurt și simplu posibil. Să presupunem că vrem să găsim informații în Yandex despre cum să alegem o mașină. Pentru a face acest lucru, deschideți pagina principală Yandex și introduceți textul interogării de căutare „cum să alegeți o mașină”. În continuare, sarcina noastră se rezumă la deschiderea legăturilor furnizate la cererea noastră către sursele de informații de pe Internet. Cu toate acestea, este foarte posibil să nu găsim informațiile de care avem nevoie. Dacă se întâmplă acest lucru, atunci fie trebuie să reformulați cererea, fie baza de date a motorului de căutare chiar nu are nicio informație relevantă cu privire la solicitarea noastră (acest lucru se poate întâmpla atunci când solicitați interogări foarte „înguste”, cum ar fi, de exemplu, „cum să alegeți o mașină în Arhangelsk”)

Scopul principal al oricărui motor de căutare este de a oferi oamenilor exact informațiile pe care le caută. Și învață utilizatorii să facă cereri „corecte” către sistem, de exemplu. interogările care respectă principiile de funcționare ale motoarelor de căutare sunt imposibile. Prin urmare, dezvoltatorii creează algoritmi și principii de funcționare pentru motoarele de căutare care ar permite utilizatorilor să găsească informațiile pe care le caută.

Aceasta înseamnă că motorul de căutare trebuie să „gândească” la fel cum gândește utilizatorul atunci când caută informații. Când un utilizator face o solicitare către un motor de căutare, el dorește să găsească ceea ce are nevoie cât mai repede și ușor posibil. Primind rezultatul, evaluează performanța sistemului, ghidat de mai mulți parametri de bază. A găsit ceea ce căuta? Dacă nu l-a găsit, de câte ori a trebuit să reformuleze interogarea pentru a găsi ceea ce căuta? Câte informații relevante ar putea găsi? Cât de repede a procesat motorul de căutare interogarea? Cât de convenabil au fost prezentate rezultatele căutării? Rezultatul pe care îl căutați a fost primul sau al sutelea? Cât gunoi inutile a fost găsit împreună cu informații utile? Informațiile necesare vor fi găsite la accesarea unui motor de căutare, să zicem, într-o săptămână, sau într-o lună?

Pentru a satisface toate aceste întrebări cu răspunsuri, dezvoltatorii de motoare de căutare îmbunătățesc constant algoritmii și principiile de căutare, adaugă noi funcții și capabilități și încearcă în toate modurile posibile să accelereze funcționarea sistemului.

3. Principalele caracteristici ale unui motor de căutare

Să descriem principalele caracteristici ale motoarelor de căutare:

  • Completitudine

    Completitudinea este una dintre principalele caracteristici ale unui sistem de căutare, care este raportul dintre numărul de documente găsite prin cerere și numărul total de documente de pe Internet care satisfac cererea dată. De exemplu, dacă există 100 de pagini pe Internet care conțin expresia „cum să alegi o mașină” și doar 60 dintre ele au fost găsite pentru interogarea corespunzătoare, atunci caracterul complet al căutării va fi de 0,6. Evident, cu cât căutarea este mai completă, cu atât este mai puțin probabil ca utilizatorul să nu găsească documentul de care are nevoie, cu condiția ca acesta să existe deloc pe Internet.

  • Precizie

    Precizia este o altă caracteristică principală a unui motor de căutare, care este determinată de gradul în care documentele găsite se potrivesc cu interogarea utilizatorului. De exemplu, dacă interogarea „cum să alegi o mașină” conține 100 de documente, 50 dintre ele conțin expresia „cum să alegi o mașină”, iar restul conțin pur și simplu aceste cuvinte („cum să alegi radioul potrivit și să-l instalezi în o mașină”), atunci precizia căutării este considerată egală cu 50/100 (=0,5). Cu cât căutarea este mai precisă, cu atât utilizatorul va găsi mai repede documentele de care are nevoie, cu atât mai puține tipuri de „gunoi” vor fi găsite printre acestea, cu atât mai rar documentele găsite nu vor corespunde cererii.

  • Relevanţă

    Relevanța este o componentă la fel de importantă a căutării, care se caracterizează prin timpul care trece din momentul în care documentele sunt publicate pe Internet și până când sunt introduse în baza de date a indexului motorului de căutare. De exemplu, a doua zi după ce au apărut știri interesante, un număr mare de utilizatori au apelat la motoarele de căutare cu interogări relevante. Obiectiv, a trecut mai puțin de o zi de la publicarea informațiilor de știri pe această temă, dar principalele documente au fost deja indexate și disponibile pentru căutare, datorită existenței așa-numitei „baze de date rapide” a marilor motoare de căutare, care este actualizat de mai multe ori pe zi.

  • Viteza de căutare

    Viteza de căutare este strâns legată de rezistența la sarcină. De exemplu, conform Rambler Internet Holding LLC, astăzi, în timpul programului de lucru, motorul de căutare Rambler primește aproximativ 60 de solicitări pe secundă. Un astfel de volum de muncă necesită reducerea timpului de procesare a unei cereri individuale. Aici coincid interesele utilizatorului și ale motorului de căutare: vizitatorul dorește să obțină rezultate cât mai repede, iar motorul de căutare trebuie să proceseze solicitarea cât mai repede posibil, pentru a nu încetini calculul interogărilor ulterioare.

  • Vizibilitate

4. Scurt istoric al dezvoltării motoarelor de căutare

În perioada inițială a dezvoltării Internetului, numărul utilizatorilor săi a fost mic, iar cantitatea de informații disponibile a fost relativ mică. În cea mai mare parte, doar personalul de cercetare avea acces la internet. În acest moment, sarcina de a căuta informații pe internet nu era la fel de urgentă ca acum.

Una dintre primele modalități de organizare a accesului la resursele informaționale din rețea a fost crearea de directoare deschise de site-uri, link-uri către resurse în care au fost grupate în funcție de subiecte. Primul astfel de proiect a fost site-ul Yahoo.com, care a fost deschis în primăvara anului 1994. După ce numărul de site-uri din catalog a crescut semnificativ, a fost adăugată posibilitatea de a căuta informațiile necesare în catalog. În sensul deplin, nu era încă un motor de căutare, întrucât zona de căutare era limitată doar la resursele prezente în catalog, și nu la toate resursele de pe Internet.

Directoarele de link-uri au fost utilizate pe scară largă în trecut, dar și-au pierdut aproape complet popularitatea în prezent. Deoarece chiar și cataloagele moderne, uriașe ca volum, conțin informații doar despre o parte neglijabilă a Internetului. Cel mai mare director al rețelei DMOZ (numit și Proiectul Open Directory) conține informații despre 5 milioane de resurse, în timp ce baza de date a motorului de căutare Google este formată din peste 8 miliarde de documente.

În 1995, au apărut motoarele de căutare Lycos și AltaVista. Acesta din urmă este lider în domeniul căutării de informații pe Internet de mulți ani.

În 1997, Sergey Brin și Larry Page au creat motorul de căutare Google ca parte a unui proiect de cercetare la Universitatea Stanford. Google este în prezent cel mai popular motor de căutare din lume!

În septembrie 1997, motorul de căutare Yandex, care este cel mai popular de pe internetul în limba rusă, a fost anunțat oficial.

În prezent, există trei motoare de căutare principale (internaționale) - Google, Yahoo și, care au propriile baze de date și algoritmi de căutare. Majoritatea celorlalte motoare de căutare (dintre care există un număr mare) folosesc într-o formă sau alta rezultatele celor trei enumerate. De exemplu, căutarea AOL (search.aol.com) utilizează baza de date Google, în timp ce AltaVista, Lycos și AllTheWeb folosesc baza de date Yahoo.

5. Componența și principiile de funcționare ale sistemului de căutare

În Rusia, principalul motor de căutare este Yandex, urmat de Rambler.ru, Google.ru, Aport.ru, Mail.ru. Mai mult, în acest moment, Mail.ru utilizează motorul de căutare și baza de date Yandex.

Aproape toate motoarele de căutare majore au propria lor structură, diferită de celelalte. Cu toate acestea, este posibil să se identifice principalele componente comune tuturor motoarelor de căutare. Diferențele de structură pot fi doar sub forma implementării mecanismelor de interacțiune a acestor componente.

Modul de indexare

Modulul de indexare este format din trei programe auxiliare (roboți):

Spider este un program conceput pentru a descărca pagini web. Păianjenul descarcă pagina și preia toate linkurile interne de pe pagina respectivă. Codul html al fiecărei pagini este descărcat. Roboții folosesc protocoale HTTP pentru a descărca pagini. Păianjenul funcționează după cum urmează. Robotul trimite cererea „get/path/document” și alte comenzi de solicitare HTTP către server. Ca răspuns, robotul primește un flux de text care conține informații de serviciu și documentul în sine.

  • Adresa URL a paginii
  • data la care pagina a fost descărcată
  • Antet http pentru răspunsul serverului
  • corpul paginii (cod html)

Crawler („călător”) este un program care urmărește automat toate linkurile găsite pe pagină. Selectează toate linkurile prezente pe pagină. Sarcina sa este de a determina unde ar trebui să meargă păianjenul, pe baza link-urilor sau pe baza unei liste predeterminate de adrese. Crawler, urmând linkurile găsite, caută documente noi care sunt încă necunoscute motorului de căutare.

Indexer (robot indexer) este un program care analizează paginile web descărcate de păianjeni. Indexatorul parsează pagina în părțile sale componente și le analizează folosind proprii algoritmi lexicali și morfologici. Sunt analizate diferite elemente ale paginii, cum ar fi text, titluri, link-uri, caracteristici structurale și de stil, etichete HTML pentru servicii speciale etc.

Astfel, modulul de indexare vă permite să accesați cu crawlere un anumit set de resurse folosind link-uri, să descărcați pagini întâlnite, să extrageți link-uri către pagini noi din documentele primite și să efectuați o analiză completă a acestor documente.

Bază de date

O bază de date, sau index al motorului de căutare, este un sistem de stocare a datelor, o matrice de informații în care sunt stocați parametrii special convertiți ai tuturor documentelor descărcate și procesate de modulul de indexare.

Server de căutare

Serverul de căutare este cel mai important element al întregului sistem, deoarece calitatea și viteza căutării depind direct de algoritmii care stau la baza funcționării acestuia.

Serverul de căutare funcționează după cum urmează:

  • Solicitarea primită de la utilizator este supusă analizei morfologice. Se generează mediul informațional al fiecărui document conținut în baza de date (care va fi afișat ulterior în formular, adică informații text corespunzătoare solicitării din pagina cu rezultatele căutării).
  • Datele primite sunt transmise ca parametri de intrare la un modul special de clasare. Datele sunt prelucrate pentru toate documentele, drept urmare fiecare document are propriul rating care caracterizează relevanța interogării introduse de utilizator și diferitele componente ale acestui document stocate în indexul motorului de căutare.
  • În funcție de alegerea utilizatorului, această evaluare poate fi ajustată prin condiții suplimentare (de exemplu, așa-numita „căutare avansată”).
  • În continuare, se generează un fragment, adică pentru fiecare document găsit, titlul, un scurt rezumat care se potrivește cel mai bine interogării și un link către documentul în sine sunt extrase din tabelul de documente, iar cuvintele găsite sunt evidențiate.
  • Rezultatele căutării rezultate sunt transmise utilizatorului sub forma unei SERP (Search Engine Result Page) – o pagină cu rezultatele căutării.

După cum puteți vedea, toate aceste componente sunt strâns legate între ele și funcționează în interacțiune, formând un mecanism clar, destul de complex pentru funcționarea sistemului de căutare, care necesită cantități uriașe de resurse.

6. Concluzie

Acum să rezumam toate cele de mai sus.

  • Scopul principal al oricărui motor de căutare este de a oferi oamenilor exact informațiile pe care le caută.
  • Principalele caracteristici ale motoarelor de căutare:
    1. Completitudine
    2. Precizie
    3. Relevanţă
    4. Viteza de căutare
    5. Vizibilitate
  • Primul motor de căutare cu drepturi depline a fost proiectul WebCrawler, publicat în 1994.
  • Sistemul de căutare include următoarele componente:
    1. Modul de indexare
    2. Bază de date
    3. Server de căutare

Sperăm că clasa noastră de master vă va permite să vă familiarizați mai bine cu conceptul de motor de căutare și să înțelegeți mai bine principalele funcții, caracteristici și principii de funcționare ale motoarelor de căutare.

1. Termeni și definiții În acest acord privind prelucrarea datelor cu caracter personal (denumit în continuare Acordul), termenii de mai jos au următoarele definiții: Operator - Antreprenor Individual Oleg Aleksandrovich Dneprovsky. Acceptarea Acordului - acceptarea deplină și necondiționată a tuturor termenilor Acordului prin trimiterea și prelucrarea datelor cu caracter personal. Date personale – informații introduse de Utilizator (subiect al datelor personale) pe site și legate direct sau indirect de acest Utilizator. Utilizator - orice persoană fizică sau juridică care a finalizat cu succes procedura de completare a câmpurilor de introducere pe site. Completarea câmpurilor de introducere este procedura prin care Utilizatorul își trimite prenumele, prenumele, numărul de telefon, adresa personală de e-mail (denumită în continuare Date Personale) către baza de date a utilizatorilor înregistrați a site-ului, realizată în scopul identificării utilizatorul. Ca urmare a completării câmpurilor de introducere, datele personale sunt trimise în baza de date a Operatorului. Completarea câmpurilor de introducere este voluntară. site web - un site web situat pe Internet și format dintr-o pagină. 2. Dispoziții generale 2.1. Acest acord este întocmit pe baza cerințelor Legii federale din 27 iulie 2006 nr. 152-FZ „Cu privire la datele cu caracter personal” și a prevederilor articolului 13.11 privind „Încălcarea legislației Federației Ruse în domeniul date personale” din Codul de Infracțiuni Administrative al Federației Ruse și este valabil pentru toate datele personale pe care Operatorul le poate obține despre Utilizator în timpul utilizării Site-ului. 2.2. Completarea câmpurilor de introducere de către Utilizator pe Site înseamnă acordul necondiționat al Utilizatorului cu toți termenii acestui Acord (Acceptarea Acordului). În caz de dezacord cu aceste condiții, Utilizatorul nu completează câmpurile de introducere de pe Site. 2.3. Consimțământul Utilizatorului pentru furnizarea de date cu caracter personal către Operator și prelucrarea acestora de către Operator este valabil până la încetarea activităților Operatorului sau până când Utilizatorul își retrage consimțământul. Prin acceptarea acestui Acord și parcurgerea procedurii de Înregistrare, precum și prin accesarea ulterioară a Site-ului, Utilizatorul confirmă că, acționând din proprie voință și în interes propriu, își transferă datele personale pentru prelucrare către Operator și este de acord să prelucrarea acestora. Utilizatorul este informat că prelucrarea datelor sale personale va fi efectuată de către Operator în baza Legii federale din 27 iulie 2006 nr. 152-FZ „Cu privire la datele cu caracter personal”. 3. Lista de date personale și alte informații despre utilizator care urmează să fie transferate Operatorului 3. 1. Atunci când utilizează Site-ul web al Operatorului, Utilizatorul furnizează următoarele date personale: 3.1.1. Informații personale de încredere pe care Utilizatorul le oferă despre sine în mod independent atunci când completează câmpurile de introducere și/sau în procesul de utilizare a serviciilor Site-ului, inclusiv nume, prenume, patronimic, număr de telefon (de acasă sau mobil), adresa de e-mail personală. 3.1.2. Date care sunt transferate automat către serviciile Site-ului în timpul utilizării lor folosind software-ul instalat pe dispozitivul Utilizatorului, inclusiv adresa IP, informații din Cookie-uri, informații despre browserul Utilizatorului (sau alt program prin care sunt accesate serviciile). 3.2. Operatorul nu verifică acuratețea datelor cu caracter personal furnizate de Utilizator. În acest caz, Operatorul presupune că Utilizatorul furnizează informații personale de încredere și suficiente cu privire la întrebările propuse în Câmpurile de introducere. 4. Scopuri, reguli de colectare și utilizare a datelor cu caracter personal 4.1. Operatorul prelucrează datele personale care sunt necesare pentru a furniza servicii și pentru a furniza servicii Utilizatorului. 4.2. Datele personale ale Utilizatorului sunt folosite de Operator în următoarele scopuri: 4.2.1. Identificarea utilizatorului; 4.2.2. Furnizarea Utilizatorului de servicii personalizate (precum și informarea despre noile promoții și servicii ale companiei prin trimiterea de scrisori); 4.2.3. Menținerea contactului cu Utilizatorul dacă este necesar, inclusiv trimiterea de notificări, solicitări și informații legate de utilizarea serviciilor, furnizarea de servicii, precum și procesarea cererilor și aplicațiilor de la Utilizator; 4.3. In timpul prelucrarii datelor cu caracter personal se vor efectua urmatoarele actiuni: colectare, inregistrare, sistematizare, acumulare, stocare, clarificare (actualizare, modificare), extragere, utilizare, blocare, stergere, distrugere. 4.4. Utilizatorul nu obiectează că informațiile specificate de el în anumite cazuri pot fi furnizate organismelor de stat autorizate ale Federației Ruse în conformitate cu legislația actuală a Federației Ruse. 4.5. Datele personale ale Utilizatorului sunt stocate și prelucrate de Operator în modul prevăzut în prezentul Acord pe întreaga perioadă de activitate a Operatorului. 4.6. Prelucrarea datelor cu caracter personal se realizează de către Operator prin menținerea bazelor de date, prin metode automate, mecanice și manuale. 4.7. Site-ul folosește Cookie-uri și alte tehnologii pentru a urmări utilizarea serviciilor Site-ului. Aceste date sunt necesare pentru a optimiza funcționarea tehnică a Site-ului și pentru a îmbunătăți calitatea furnizării serviciilor. Site-ul înregistrează automat informații (inclusiv adresa URL, adresa IP, tipul browserului, limba, data și ora solicitării) despre fiecare vizitator al Site-ului. Utilizatorul are dreptul de a refuza furnizarea de date personale atunci când vizitează Site-ul sau de a dezactiva Cookie-urile, dar în acest caz, este posibil ca nu toate funcțiile Site-ului să funcționeze corect. 4.8. Condițiile de confidențialitate prevăzute în prezentul Acord se aplică tuturor informațiilor pe care Operatorul le poate obține despre Utilizator în timpul șederii acestuia din urmă pe Site și utilizării Site-ului. 4.9. Informațiile care sunt dezvăluite public în timpul executării prezentului Acord, precum și informațiile care pot fi obținute de părți sau terți din surse la care orice persoană are acces liber, nu sunt confidențiale. 4.10. Operatorul ia toate măsurile necesare pentru a proteja confidențialitatea datelor personale ale Utilizatorului împotriva accesului, modificării, dezvăluirii sau distrugerii neautorizate, inclusiv: asigurarea verificării interne constante a proceselor de colectare, stocare și prelucrare a datelor și asigurarea securității; asigură securitatea fizică a datelor, împiedicând accesul neautorizat la sistemele tehnice care asigură funcționarea Site-ului, în care Operatorul stochează date cu caracter personal; oferă acces la datele cu caracter personal doar acelor angajați ai Operatorului sau persoanelor autorizate care au nevoie de aceste informații pentru a îndeplini sarcini legate direct de furnizarea de servicii către Utilizator, precum și de funcționarea, dezvoltarea și îmbunătățirea Site-ului. 4.11. Datele personale ale Utilizatorului rămân confidențiale, cu excepția cazurilor în care Utilizatorul furnizează în mod voluntar informații despre sine pentru acces general la un număr nelimitat de persoane. 4.12. Transferul de către Operator al datelor cu caracter personal ale Utilizatorului este legal în perioada reorganizării Operatorului și transferul drepturilor succesorului legal al Operatorului, în timp ce toate obligațiile de a respecta termenii prezentului Acord în legătură cu informațiile personale primite de acesta sunt transferat succesorului legal. 4.13. Această Declarație se aplică numai site-ului web al Operatorului. Compania nu controlează și nu este responsabilă pentru site-urile (serviciile) terților pe care utilizatorul le poate accesa prin link-uri disponibile pe site-ul web al Operatorului, inclusiv în rezultatele căutării. Pe astfel de Site-uri (servicii), alte informații personale pot fi colectate sau solicitate de la utilizator și pot fi efectuate alte acțiuni 5. Drepturile utilizatorului ca subiect al datelor cu caracter personal, modificarea și ștergerea datelor cu caracter personal de către utilizator 5.1. Utilizatorul are dreptul: 5.1.2. Solicitați Operatorului să își clarifice datele cu caracter personal, să le blocheze sau să le distrugă dacă datele cu caracter personal sunt incomplete, depășite, inexacte, obținute ilegal sau nu sunt necesare pentru scopul declarat al prelucrării și, de asemenea, să ia măsurile prevăzute de lege pentru a-și proteja drepturile. 5.1.3. Primește informații cu privire la prelucrarea datelor sale cu caracter personal, inclusiv informații care conțin: 5.1.3.1. confirmarea faptului prelucrării datelor cu caracter personal de către Operator; 5.1.3.2. scopurile și metodele de prelucrare a datelor cu caracter personal utilizate de operator; 5.1.3.3. numele și locația Operatorului; 5.1.3.4. datele cu caracter personal prelucrate referitoare la subiectul relevant al datelor cu caracter personal, sursa primirii acestora, cu excepția cazului în care legea federală prevede o procedură diferită de prezentare a acestor date; 5.1.3.5. termenii de prelucrare a datelor cu caracter personal, inclusiv perioadele de stocare a acestora; 5.1.3.6. alte informații prevăzute de legislația actuală a Federației Ruse. 5.2. Retragerea consimțământului pentru prelucrarea datelor cu caracter personal poate fi efectuată de către Utilizator prin trimiterea Operatorului unei notificări corespunzătoare scrise (tipărite pe un suport tangibil și semnate de Utilizator). 6. Responsabilitățile Operatorului. Accesul la datele personale 6.1. Operatorul se angajează să asigure prevenirea accesului neautorizat și nedirecționat la datele personale ale Utilizatorilor Site-ului Operatorului. În acest caz, accesul autorizat și direcționat la datele personale ale Utilizatorilor Site-ului va fi considerat acces la acestea de către toate părțile interesate, implementat în cadrul obiectivelor și subiectului Site-ului Operatorului. În același timp, Operatorul nu este responsabil pentru posibila utilizare abuzivă a datelor cu caracter personal ale Utilizatorilor care apare ca urmare a: problemelor tehnice în software și în hardware și rețele aflate în afara controlului Operatorului; în legătură cu utilizarea intenționată sau neintenționată a site-urilor web ale Operatorului, altfel decât în ​​scopul propus, de către terți; 6.2 Operatorul ia măsurile organizatorice și tehnice necesare și suficiente pentru a proteja informațiile personale ale utilizatorului împotriva accesului neautorizat sau accidental, distrugerii, modificării, blocării, copierii, distribuirii, precum și împotriva altor acțiuni ilegale ale terților cu acestea. 7. Modificări ale Politicii de confidențialitate. Legislația aplicabilă 7.1. Operatorul are dreptul de a aduce modificări prezentului Regulament fără nicio notificare specială pentru Utilizatori. Când se fac modificări la ediția curentă, este indicată data ultimei actualizări. Noua ediție a Regulamentului intră în vigoare din momentul publicării sale, cu excepția cazului în care noua ediție a Regulamentului prevede altfel. 7.2. Legea Federației Ruse se aplică prezentului Regulament și relației dintre Utilizator și Operator care decurge în legătură cu aplicarea Regulamentului. Accept nu accept

Nu suntem atât de unici pe cât credem: milioane de oameni dinaintea noastră au nedumerit și milioane după noi vor deruta motorul de căutare cu întrebări aproape identice. Pe de altă parte, suntem prea imprevizibili: formularea cererii noastre este influențată de un număr imens de factori de care nu suntem conștienți. Și cel puțin din acest motiv, cererea fiecăruia dintre noi, oricât de banală ar fi, necesită o abordare individuală.

De fapt, întreaga activitate a motorului de căutare Yandex se rezumă la două lucruri simple: să înțeleagă ceea ce o persoană dorește cu adevărat să știe și, în câteva secunde, să le găsească pe cele potrivite printre miliardele de documente de pe Internet.

Luați amprentele digitale

Sistemul de operare al motorului de căutare este oarecum similar cu Matrix, iar robotul de căutare (programul complex, independent de luare a deciziilor pe care l-a creat) este similar cu Agentul Smith.

Pentru a nu căuta în întregul Internet de fiecare dată când cineva trebuie să știe ceva, motorul de căutare face o parte din muncă în avans - verifică ce este pe Web și unde se află, folosind mii de roboți de căutare. Sunt de două tipuri: de bază și rapide. Principalul accesează cu crawlere și procesează Internetul în întregime, iar cel rapid - documente care au apărut acum un minut sau chiar câteva secunde. Sarcina programelor roboți este să selecteze informații adecvate și utile pentru utilizatori, să le proceseze, eliminând tot ce este învechit și inutil. Într-un fel, acest lucru amintește de sortarea gunoiului: hârtie într-un recipient, sticlă în altul, plastic într-un al treilea, deșeuri alimentare într-un al patrulea...

Informațiile colectate de roboți formează așa-numita distribuție Internet. Este stocat pe mii de servere Yandex și este actualizat în mod constant. O pepită este ca o listă care vă spune unde să găsiți ce informații. În această listă, fiecare cuvânt cheie are nu una, ci milioane de „pagini”. Pentru a vă asigura că toate actualizările nugget sunt disponibile pentru utilizatori, acestea sunt mutate din depozit în „căutarea de bază”. Datele de la robotul principal sunt transferate la fiecare câteva zile, iar de la robotul rapid - în timp real.

Aduceți la apă curată



ILUSTRARE: EVGENY TONKONOGY

În timp ce caută răspunsul la o întrebare dată într-o bază de date pregătită, mașina se confruntă cu două dificultăți principale. Prima dificultate este limbajul. Înainte de a căuta un răspuns la o întrebare, este important ca aparatul să înțeleagă în ce limbă ar trebui să facă acest lucru. De exemplu, pentru o persoană vorbitoare de limbă rusă, căutarea „Echipă Prințului Igor” va găsi documente cu informații despre armată, iar pentru un ucrainean, „Echipa Prințului Igor” va returna și documente care menționează prințesa Olga, soția sa, deoarece în ucraineană „soția” este „echipă”. Și în limba rusă bogată, același cuvânt sau derivatele sale pot însemna lucruri diferite. De exemplu, cuvântul „oțel” este una dintre formele substantivului „oțel” și verbul „deveni”. A doua dificultate este psihologia umană. Când introducem o solicitare, ne așteptăm la un răspuns rapid și precis, fără a ne îngrijora în mod natural dacă formularea cererii corespunde principiilor analizei matematice prin care funcționează creierul mașinii. De exemplu, introducând cuvântul „Napoleon” în bara de căutare, ce vrea o persoană să obțină: o rețetă de tort sau o biografie a împăratului francez, să cumpere coniac sau să găsească adresa unui spital de psihiatrie?


În astfel de situații intră în joc mai multe tehnologii. Vă puteți oferi mai multe indicii sub bara de căutare care vă vor specifica solicitarea. Ca, alegeți ceea ce aveți nevoie: rețete Napoleon sau Napoleon - Bonaparte. Dacă utilizatorul nu răspunde la cererea mașinii și nu adaugă cuvinte la „Napoleon”, atunci tehnologia „Spectrum” ajută problema: fără a spera în ajutor, mașina caută imediat informații în mai multe categorii (despre tort, si despre imparat, si despre cal) ..). În plus, mecanismele de personalizare ajută la înțelegerea utilizatorului - cunoștințele mașinii despre ceea ce acest utilizator căuta pe computerul său cu o zi, două, trei sau luni în urmă: dacă ați adresat adesea întrebări Yandex despre gătit, atunci aparatul va afișa mai întâi rezultate care spun că Napoleon este o prăjitură.

Combinații: cluburi de interese

Sarcina unui motor de căutare nu este doar să selecteze documente care conțin cuvinte și expresii din interogarea de căutare. Aparatul trebuie să înțeleagă ce documente îndeplinesc cerințele noastre conflictuale și de ce le îndeplinesc. Vrem să obținem informații despre tortul Napoleon, sau poate am vizitat un club de fitness cu nume pretențios de câțiva ani, sau chiar suntem complet preocupați de complexele de oameni scunzi. În orice caz, rezolvarea problemei necesită o abordare non-trivială.


Creatorii programului de căutare Yandex au găsit această abordare delegând dreptul de alegere mașinii. Pe de o parte, o mașină fără suflet, dar foarte rapidă și inteligentă nu știe și nu vrea să știe nimic despre noi ca indivizi și, pe de altă parte, încearcă să afle cât mai multe despre toată lumea.

Pe lângă localizarea geografică a utilizatorului și analiza lingvistică a interogărilor sale, motorul de căutare folosește câteva mii de criterii care nu sunt deloc evidente pentru oameni.

Trucul este că mașina dezvoltă și actualizează aceste criterii în mod independent.

Pur și simplu folosește date despre preferințele și comportamentul utilizatorilor a milioane de oameni și leagă această „medie aritmetică” cu istoricul interogărilor noastre. Principiile care ghidează Matrix în sine, comparând miile de categorii de interese ale utilizatorilor pe care le-a dezvoltat, adesea nu se încadrează în ideile umane tradiționale despre ce pot fi „interesele” în principiu. Sunt zeci de mii. Ele creează combinații diferite, uneori amuzante, între ele. De exemplu, una dintre aceste combinații ar putea fi aceea că rezultatele căutării se potrivesc cu interesele unei persoane care cresc tritoni. În același timp, o persoană nu este interesată doar de tritoni, ci îi crește deja, ci doar pentru primul an.

Evaluări. Mâinile de ajutor


Matricea, desigur, decide singură (cu ajutorul matematicii superioare) ce și în ce secvență trebuie arătată utilizatorilor pe baza a zeci de mii de criterii. Dar Matrix folosește și oameni vii - 1000 de angajați Yandex, așa-numiții evaluatori, evaluează rezultatele căutării pentru o anumită cerere (desigur, nu fiecare cerere este evaluată, iar acest lucru nu se face în timp real) pentru a determina dacă îndeplinesc cerințele. așteptările unui utilizator obișnuit: nu la fel de raționale ca o mașină, nu la fel de precise în formulare, contradictorii și emoționale.