Internet pretraživači: Yandex, Google, Rambler, Yahoo. Sastav, funkcije, princip rada. Najjednostavniji opis principa rada Yandex pretraživača Kombinacije: interesni klubovi

Zdravo dragi prijatelji! U ovom članku nastavit ćemo gledati Yandex tražilicu, a kao što se sjećate, u prethodnim člancima raspravljali smo o povijesti stvaranja ove velike kompanije, koja zauzima prvo mjesto među svojim konkurentima u Rusiji i šire.

Sve je to dobro, ali početnike i iskusne graditelje sajtova zanima najvažnije pitanje, naravno, vezano za to kako svoje projekte dovesti na prva mjesta u TOP rezultatima pretrage.

Stoga, pogledajmo kako radi Yandex tražilica kako bismo razumjeli na koje greške možete stati i što općenito očekivati ​​od ruske tražilice.

U prošlom članku smo raspravljali. Ispostavilo se da je tema bila prilično zanimljiva i korisna. Stoga sam odlučio da ga, da tako kažem, dopunim, produbim.

Dakle, vjerovatno sam se malo zanio pitanjem "Zašto pretraživač indeksira dokumente"? Ostaje samo da se shvati pitanje "kako".

Algoritmi za rangiranje web stranica

Prvo, hajde da se upoznamo s nekim algoritmima koji su fundamentalni za bilo koju tražilicu:

— Algoritam direktnog pretraživanja.

Šta je to - sjećate se čitanja divne priče u jednoj od knjiga. I počnete da tražite jedan po jedan. Uzeli su jednu knjigu, pregledali je, nisu je našli, uzeli drugu... Princip je jasan, ali ovaj metod je izuzetno dug. Ovo je takođe razumljivo.

— Algoritam obrnutog pretraživanja.

Za ovaj algoritam, tekstualni fajl se kreira sa svake stranice vašeg bloga. Ova datoteka navodi abecednim redom SVE riječi koje ste koristili. Naznačen je čak i položaj ove riječi u tekstu (koordinate u tekstu).

Ovo je prilično brza metoda, ali pretraga se već događa s nekom greškom.

Glavna stvar koju treba shvatiti je da ovaj algoritam ne pretražuje na internetu, a ne pretraživanjem na blogu. I to u posebnom tekstualnom fajlu koji je davno kreiran. Kada je robot došao do tebe. I ove datoteke (obrnuti indeksi) se pohranjuju na Yandex serverima.

Dakle, ovo su bili osnovni algoritmi pretraživanja. One. kako Yandex jednostavno pronalazi potrebne dokumente. Čini se da s ovim ne bi trebalo biti nikakvih problema.

Ali Yandex zna više od jednog ili čak 100 dokumenata, ali prema najnovijim podacima iz mojih izvora, Yandex zna oko 11 milijardi dokumenata (10.727.736.489 stranica).

I među svom tom količinom potrebno je odabrati dokumente koji odgovaraju zahtjevu. I što je još važnije, morate ih nekako rangirati. One. rasporediti prema stepenu važnosti, odnosno prema stepenu korisnosti za čitaoca.

Matematički modeli pretraživanja

Za rješavanje ovog problema u pomoć priskaču matematički modeli. Sada ćemo govoriti o najjednostavnijim modelima.

Boolean matematički model– Ako se u dokumentu pojavi riječ, dokument se smatra pronađenim. Samo slučajnost i ništa komplikovano.

Ali ovdje ima problema. Na primjer, ako kao korisnik unesete neku popularnu riječ, ili još bolje, prijedlog "v", koji je najčešća riječ u ruskom jeziku i nalazi se u SVAKOM dokumentu, tada ćete dobiti toliko rezultata da ni ne shvatate toliki broj, Koliko ste dokumenata našli? Stoga se pojavio sljedeći model prostirke.

Vektorski matematički model– ovaj model određuje “težinu” dokumenta. Ne samo da se koincidencija događa, već se riječ mora pojaviti nekoliko puta. Štaviše, što se više riječi pojavljuje, to je veća relevantnost (usklađenost).

To je vektorski model koji koriste SVI pretraživači.

Vjerovatni model– složenije. Princip je sljedeći: tražilica je sama pronašla predložak stranice. Na primjer, tražite informacije o istoriji Yandexa. Yandex pohranjuje neku vrstu standarda, recimo da će ovo biti moj prethodni članak o Yandexu.

I on će uporediti sve ostale dokumente sa ovim člankom. A logika je sljedeća: što je vaša stranica bloga sličnija mom članku, VJEROVATANIJA je činjenica da će vaša stranica bloga također biti korisna čitatelju i također govori o povijesti Yandexa.

Kako bi se smanjio broj dokumenata koje je potrebno pokazati korisniku, uveden je koncept relevantnosti, tj. usklađenost.

Koliko je vaša blog stranica relevantna za temu? Ovo je važna tema kada je u pitanju kvalitet pretrage.

Procjenitelji - ko su oni i za šta su odgovorni?

Ova relevantnost je također potrebna za procjenu kvaliteta algoritama.

U tu svrhu postoji štab specijalnih snaga - oni se zovu Assessors. To su posebni ljudi koji svojim rukama pregledavaju rezultate pretraživanja.

Imaju upute kako provjeriti stranice, kako procijeniti, itd. I oni ručno određuju jesu li vaše stranice prikladne za upite pretraživanja ili ne.

A kvalitet algoritama pretraživanja ovisi o mišljenju ocjenjivača. Ako svi procjenitelji kažu da rezultati pretrage ne odgovaraju zahtjevima, to znači da je algoritam rangiranja pogrešan i da je kriv samo Yandex.

Ako procjenitelji kažu da samo jedan sajt ne ispunjava zahtjev, to znači da stranica leti negdje daleko i spuštena je u rezultatima pretrage. Tačnije, ne cijela stranica, već samo jedan članak, ali to “nije poenta”.

Naravno, procjenitelji ne mogu pregledati i ocijeniti SVE članke svojim rukama i očima. Ovo je razumljivo.

I ostali parametri po kojima se stranice rangiraju dolaze u pomoć.

Ima ih dosta, na primjer:

  • težina stranice (vIC, PageRank, bebi udarci Sve u svemu);
  • autoritet domena;
  • relevantnost teksta za zahtjev;
  • relevantnost tekstova eksternih linkova za upit;
  • kao i mnogi drugi faktori rangiranja.

Procjenitelji daju komentare, a ljudi koji su odgovorni za postavljanje matematičkog modela rangiranja, zauzvrat uređuju formulu, zbog čega pretraživač radi efikasnije.

Glavni kriteriji za procjenu učinka formule:

1. Preciznost rezultata pretraživača- procenat dokumenata koji odgovaraju zahtjevu (relevantni). One. Što manje stranica koje ne odgovaraju zahtjevu, to bolje.

2. Kompletnost rezultata pretraživača- ovo je omjer relevantnih web stranica za dati upit prema ukupnom broju relevantnih dokumenata u kolekciji (ukupnost stranica pronađenih u tražilici).

Na primjer, ako u cijeloj kolekciji ima relevantnijih stranica nego u rezultatima pretraživanja, to znači da su rezultati nepotpuni. To se dogodilo jer su neke od relevantnih web stranica bile filtrirane.

3. Relevantnost rezultata pretraživača- ovo je usklađenost web stranice sa onim što je napisano u isječku. Na primjer, dokument može biti vrlo različit ili uopće ne postoji, ali i dalje biti prisutan u rezultatima pretraživanja.

Relevantnost rezultata pretrage direktno zavisi od toga koliko često robot za pretragu skenira dokumente iz svoje kolekcije.

Prikupljanje prikupljanja (indeksiranje stranica web-mjesta) vrši se posebnim programom - robotom za pretraživanje.

Robot za pretraživanje prima listu adresa za indeksiranje, kopira ih, a zatim šalje sadržaj kopiranih web stranica na obradu algoritmu koji ih pretvara u obrnute indekse.

Pa, "ukratko", da tako kažem, razgovarali smo o principima pretraživača.

Hajde da rezimiramo:

  1. Na vaš blog dolazi robot za pretragu.
  2. Robot za pretraživanje pohranjuje obrnuti indeks stranice za naredne pretrage.
  3. Koristeći matematički model, dokument se obrađuje i prikazuje u rezultatima pretrage koristeći formule i uzimajući u obzir mišljenje ocjenjivača.

Ovo je vrlo, vrlo pojednostavljeno. Samo da steknete osnovno razumijevanje o tome kako radi Yandex pretraživač.

Sada sam napisao toliko teksta, a možda toliko toga nije jasno. Stoga predlažem da se malo kasnije vratite na ovaj članak i pogledate ovaj video.

Ovo je odličan vodič iz kojeg sam i ja svojevremeno učio.

Nadam se da će vam ove informacije pomoći da bolje shvatite zašto jedna od vaših stranica zauzima odgovarajuće pozicije u pretragama i učinite sve da ih poboljšate.

Ovim se opraštam od vas, ako imate pitanja, uvijek rado odgovorim na njih u komentarima. Ili možda želite dodati u članak?

U svakom slučaju, iznesite svoje mišljenje. !

Yandex je danas najpopularniji pretraživač u Rusiji. Statistika usluga LiveInternet, pokazuje udio Yandexa u masi sveruske publike - on je 53,4%, ako uzmemo u obzir samo Moskvu i region, onda je još veći - 67,9% (Moskva, prema zahtjevima, zauzima više od 50% ukupne Rusije).

Internet stranica www.yandex.ru nastala je 1997. godine za to, koja je stajala ispod radne površine jednog od prvih Yandex programera, Dmitrija, koji se prezivao Teiblyum. Vrlo brzo nakon otvaranja, kupili smo drugi server, a ubrzo, kada je trebalo instalirati još jedan, postalo je jasno da ispod stola ima dovoljno prostora ili za tri Yandex servera, ili za […]

Programeri pretraživača nastoje korisnicima pružiti najbolje odgovore na njihove upite. Ponekad takav odgovor može biti broj (na primjer, vrijeme u gradu), slika (na primjer, adresa na karti), prijevod riječi ili katren. Kada imate pri ruci odgovarajući niz informacija, odgovor se može dati odmah. Stoga Yandex dopunjuje rezultate internetske pretrage odgovorima sa svojih […]

Otprilike svaki deseti zahtjev Yandexu je „navigacijski“, odnosno sastoji se od naziva organizacije ili web stranice i korisnik želi otići na web stranicu ove organizacije. U ovom slučaju umjesto adresne trake pretraživača koristi se Yandex traka za pretraživanje i korisnika po pravilu ne zanima preostalih devet rezultata pretraživanja. Ne odvlačeći korisnika od glavnog cilja, dodali smo nakon glavnog […]

Glavni zadatak pretraživača je da odgovori na pitanje korisnika. Kada korisnik postavi upit, pretraživač ne pristupa svim stranicama na Internetu, već pretražuje bazu podataka njemu poznatih stranica – indeks pretraživanja. Tamo pronalazi sve stranice s riječima iz upita. Korisnik vidi linkove do ovih stranica na stranicama rezultata pretraživanja.

Kao što vidimo, Yandex ne stoji mirno, a siguran sam da će se tehnologije pretraživanja ovog sistema nastaviti razvijati kako bi se poboljšao kvalitet pretraživanja, koji se još teško može nazvati idealnim.

10. novembra 2009. Yandex je najavio novu verziju algoritma pretraživanja - Snezhinsk. Došlo je do fundamentalnih promjena u algoritmu za izračunavanje relevantnosti - predstavnici Yandexa napisali su sljedeće: „Uspjeli smo da kreiramo precizniji i mnogo složeniji matematički model, što je dovelo do značajnog povećanja kvaliteta pretraživanja. Zahvaljujući redizajnu arhitekture rangiranja pretraživanja, bilo je moguće implementirati obračun nekoliko hiljada [...]

Testiranje nove verzije Yandex algoritma počelo je 9. jula 2008. godine. Prema Yandexu, "glavne promjene u programu povezane su s novim pristupom mašinskom učenju i, kao rezultat, razlike u načinu na koji se faktori rangiranja uzimaju u obzir u formuli."

14. aprila 2008. novi algoritam pretraživanja „Magadan” počeo je da se testira na buki.yandex.ru. Uz udvostručenje broja faktora rangiranja, dodane su i sljedeće inovacije:

Prije nego što krenemo u algoritamsku džunglu, prisjetimo se kako općenito funkcionira pretraživač. Logička struktura sistema pretraživanja može se predstaviti u obliku tri modula (vidi dijagram) Robot (crawler) je poseban program koji indeksira internet stranice i preuzima njihov sadržaj. Robot ima poseban raspored po kojem izvodi svoje runde. Stranice web stranice koje učitava robot, poseban [...]

66. Šta ima veći uticaj: link sa besplatne platforme (blogspot, LJ, itd.) ili sa offline sajta/bloga? Besplatne platforme prenose manje težine od samostalnih stranica. Međutim, uticaj bi mogao biti veći. To je zbog brojnih faktora: trenutne sidrene liste, stanja lokacija koje se porede, itd. Nemoguće je dati jednoznačan odgovor na ovo pitanje. 67. Najveća težina se prenosi između […]

Vamana Tour - putovanja, avionske karte i vize širom svijeta i za Indiju, Nepal, Šri Lanku, Maldive, Mauricijus i mnoga druga mjesta na planeti. Savjeti za putnike i hodočasnike. Kako izvući maksimum iz svog putovanja. Neverovatne istorijske hronike i priče iskusnih putnika.

Koja je svrha uzimanja u obzir eksternih linkova ka sajtu Kao što vidite iz prethodnog odeljka, skoro svi faktori koji utiču na rangiranje su pod kontrolom autora stranice? Stoga postaje nemoguće za tražilicu da razlikuje istinski kvalitetan dokument od stranice kreirane posebno za datu frazu za pretraživanje ili čak stranice koju generiše robot i koja uopće ne sadrži korisne informacije. […]

Oni su odavno postali sastavni dio ruskog interneta. Pretraživači su sada ogromni i složeni mehanizmi koji predstavljaju ne samo alat za pretraživanje informacija, već i primamljiva područja za poslovanje.

Većina korisnika pretraživača nikada nije razmišljala (ili razmišljala o tome, ali nije našla odgovor) o principu rada pretraživača, o šemi za obradu korisničkih zahtjeva, o tome od čega se ti sistemi sastoje i kako funkcionišu...

Ova majstorska klasa je dizajnirana da odgovori na pitanje kako funkcioniraju tražilice. Međutim, ovdje nećete pronaći faktore koji utiču na rangiranje dokumenata. Štaviše, ne biste trebali računati na detaljno objašnjenje Yandex algoritma. Njega, prema riječima Ilye Segalovicha, direktora tehnologije i razvoja pretraživača Yandex, može prepoznati samo Ilya Segalovich "pod mučenjem"...

2. Koncept i funkcije pretraživača

Sistem za pretraživanje je softverski i hardverski kompleks dizajniran za pretraživanje Interneta i odgovaranje na korisnički zahtjev, specificiran u obliku tekstualne fraze (upita za pretraživanje), stvaranjem liste veza ka izvorima informacija, po redu relevantnosti ( u skladu sa zahtjevom). Najveći međunarodni pretraživači: "Google", Yahoo , MSN . Na ruskom internetu to su Yandex, Rambler, Aport.

Pogledajmo pobliže koncept upita za pretraživanje koristeći Yandex tražilicu kao primjer. Upit za pretragu korisnik treba da formuliše u skladu sa onim što želi da pronađe, što je moguće kraće i jednostavnije. Recimo da želimo u Yandexu pronaći informacije o tome kako odabrati automobil. Da biste to učinili, otvorite glavnu stranicu Yandexa i unesite tekst upita za pretraživanje "kako odabrati automobil". Dalje, naš zadatak se svodi na otvaranje linkova koje smo dobili na naš zahtjev do izvora informacija na Internetu. Međutim, vrlo je moguće da nećemo pronaći informacije koje su nam potrebne. Ako se to dogodi, onda ili trebate preformulisati svoj zahtjev, ili baza podataka tražilice zaista nema nikakve relevantne informacije o našem zahtjevu (to se može dogoditi kada postavljate vrlo "uske" upite, kao što je, na primjer, "kako odabrati auto u Arhangelsku")

Primarni cilj svakog pretraživača je da ljudima pruži upravo one informacije koje traže. I naučiti korisnike da postavljaju "ispravne" zahtjeve sistemu, tj. upiti koji su u skladu sa principima rada pretraživača su nemogući. Stoga programeri kreiraju algoritme i principe rada za pretraživače koji bi omogućili korisnicima da pronađu informacije koje traže.

To znači da pretraživač mora „razmišljati“ na isti način na koji korisnik razmišlja kada traži informacije. Kada korisnik uputi zahtjev pretraživaču, želi što brže i lakše pronaći ono što mu je potrebno. Primajući rezultat, on ocjenjuje performanse sistema, vodeći se nekoliko osnovnih parametara. Da li je našao ono što je tražio? Ako ga nije pronašao, koliko puta je morao preformulisati upit da pronađe ono što je tražio? Koliko je relevantnih informacija mogao pronaći? Koliko brzo je pretraživač obradio upit? Koliko su zgodni bili prikazani rezultati pretrage? Da li je rezultat koji ste tražili prvi ili stoti? Koliko je nepotrebnog smeća pronađeno uz korisne informacije? Hoće li se potrebne informacije pronaći prilikom pristupa pretraživaču, recimo, za nedelju dana ili za mesec dana?

Kako bi odgovorili na sva ova pitanja, programeri pretraživača neprestano poboljšavaju algoritme i principe pretraživanja, dodaju nove funkcije i mogućnosti i na sve moguće načine pokušavaju ubrzati rad sistema.

3. Glavne karakteristike pretraživača

Hajde da opišemo glavne karakteristike pretraživača:

  • Kompletnost

    Kompletnost je jedna od glavnih karakteristika sistema pretraživanja, a to je odnos broja dokumenata pronađenih na zahtjev prema ukupnom broju dokumenata na Internetu koji zadovoljavaju dati zahtjev. Na primjer, ako na Internetu postoji 100 stranica koje sadrže frazu "kako odabrati automobil", a pronađeno ih je samo 60 za odgovarajući upit, onda će kompletnost pretrage biti 0,6. Očigledno, što je pretraga potpunija, manja je vjerovatnoća da korisnik neće pronaći dokument koji mu je potreban, pod uslovom da on uopće postoji na internetu.

  • Preciznost

    Preciznost je još jedna glavna karakteristika pretraživača, koja je određena stepenom u kojem pronađeni dokumenti odgovaraju upitu korisnika. Na primjer, ako upit "kako odabrati automobil" sadrži 100 dokumenata, 50 njih sadrži izraz "kako odabrati automobil", a ostali jednostavno sadrže ove riječi ("kako odabrati pravi radio i instalirati ga u automobil”), tada se tačnost pretraživanja smatra jednakom 50/100 (=0,5). Što je pretraga preciznija, korisnik će brže pronaći dokumente koji su mu potrebni, što će se među njima naći manje raznih vrsta „smeća“, rjeđe pronađeni dokumenti neće odgovarati zahtjevu.

  • Relevantnost

    Relevantnost je jednako važna komponenta pretraživanja, koju karakterizira vrijeme koje prođe od trenutka objavljivanja dokumenata na Internetu do ulaska u indeksnu bazu podataka pretraživača. Na primjer, dan nakon što su se pojavile zanimljive vijesti, veliki broj korisnika se obratio pretraživačima s relevantnim upitima. Objektivno, nije prošlo manje od jednog dana od objavljivanja vijesti o ovoj temi, ali glavni dokumenti su već indeksirani i dostupni za pretraživanje, zahvaljujući postojanju tzv. „brze baze podataka“ velikih pretraživača, koji ažurira se nekoliko puta dnevno.

  • Brzina pretrage

    Brzina pretrage je usko povezana sa otpornošću na opterećenje. Na primjer, prema podacima Rambler Internet Holding LLC, danas, tokom radnog vremena, Rambler pretraživač prima oko 60 zahtjeva u sekundi. Takvo opterećenje zahtijeva smanjenje vremena obrade pojedinačnog zahtjeva. Ovdje se poklapaju interesi korisnika i tražilice: posjetitelj želi da dobije rezultate što je brže moguće, a pretraživač mora obraditi zahtjev što je brže moguće, kako ne bi usporio izračunavanje naknadnih upita.

  • Vidljivost

4. Kratka istorija razvoja pretraživača

U početnom periodu razvoja Interneta, broj njegovih korisnika bio je mali, a količina dostupnih informacija relativno mala. Većinom je samo istraživačko osoblje imalo pristup internetu. U to vrijeme, zadatak traženja informacija na internetu nije bio tako hitan kao sada.

Jedan od prvih načina za organizovanje pristupa mrežnim informacijskim resursima bilo je kreiranje otvorenih direktorijuma sajtova, linkovi ka resursima u kojima su grupisani prema temi. Prvi takav projekat bila je web stranica Yahoo.com koja je otvorena u proljeće 1994. godine. Nakon značajnog povećanja broja stranica u katalogu, dodata je mogućnost pretraživanja potrebnih informacija u katalogu. U punom smislu, to još nije bila tražilica, jer je područje pretraživanja bilo ograničeno samo na resurse prisutne u katalogu, a ne na sve internetske resurse.

Direktoriji linkova su bili naširoko korišteni u prošlosti, ali su danas skoro potpuno izgubili svoju popularnost. Budući da čak i moderni katalozi, ogromnih obima, sadrže podatke samo o zanemarljivom dijelu interneta. Najveći direktorij DMOZ mreže (koji se naziva i Open Directory Project) sadrži informacije o 5 miliona resursa, dok se baza podataka Google pretraživača sastoji od više od 8 milijardi dokumenata.

1995. godine pojavili su se pretraživači Lycos i AltaVista. Potonji je već dugi niz godina lider u oblasti pretraživanja informacija na Internetu.

Sergey Brin i Larry Page su 1997. godine kreirali Google pretraživač kao dio istraživačkog projekta na Univerzitetu Stanford. Google je trenutno najpopularniji pretraživač na svijetu!

Septembra 1997. službeno je objavljen pretraživač Yandex, koji je najpopularniji na internetu na ruskom jeziku.

Trenutno postoje tri glavna pretraživača (međunarodna) - Google, Yahoo i, koji imaju svoje baze podataka i algoritme pretraživanja. Većina drugih pretraživača (kojih ima veliki broj) koristi u ovom ili onom obliku rezultate od tri navedena. Na primjer, AOL pretraga (search.aol.com) koristi Google bazu podataka, dok AltaVista, Lycos i AllTheWeb koriste Yahoo bazu podataka.

5. Sastav i principi rada sistema pretraživanja

U Rusiji je glavni pretraživač Yandex, a slijede Rambler.ru, Google.ru, Aport.ru, Mail.ru. Štoviše, u ovom trenutku Mail.ru koristi Yandex tražilicu i bazu podataka.

Gotovo svi glavni pretraživači imaju svoju strukturu, različitu od ostalih. Međutim, moguće je identificirati glavne komponente zajedničke svim tražilicama. Razlike u strukturi mogu biti samo u obliku implementacije mehanizama interakcije ovih komponenti.

Modul za indeksiranje

Modul za indeksiranje se sastoji od tri pomoćna programa (roboti):

Spider je program dizajniran za preuzimanje web stranica. Pauk preuzima stranicu i preuzima sve interne veze sa te stranice. HTML kod svake stranice se preuzima. Roboti koriste HTTP protokole za preuzimanje stranica. Pauk radi na sljedeći način. Robot šalje serveru zahtjev “get/path/document” i neke druge naredbe HTTP zahtjeva. Kao odgovor, robot prima tekstualni tok koji sadrži informacije o servisu i sam dokument.

  • URL stranice
  • datum kada je stranica preuzeta
  • http zaglavlje odgovora servera
  • tijelo stranice (html kod)

Crawler (“putujući” pauk) je program koji automatski prati sve linkove koji se nalaze na stranici. Odabire sve veze prisutne na stranici. Njegov posao je da odredi kuda pauk treba da ide dalje, na osnovu veza ili unapred određene liste adresa. Crawler, prateći pronađene veze, traži nove dokumente koji su još uvijek nepoznati pretraživaču.

Indexer (robot indexer) je program koji analizira web stranice koje su preuzeli pauci. Indeksator analizira stranicu na njene sastavne dijelove i analizira ih korištenjem vlastitih leksičkih i morfoloških algoritama. Analiziraju se različiti elementi stranice, kao što su tekst, naslovi, veze, strukturne i stilske karakteristike, HTML oznake posebnih usluga itd.

Dakle, modul za indeksiranje vam omogućava da indeksirate zadani skup resursa koristeći veze, preuzmete pronađene stranice, izdvojite veze do novih stranica iz primljenih dokumenata i izvršite potpunu analizu ovih dokumenata.

Baza podataka

Baza podataka ili indeks pretraživača je sistem za skladištenje podataka, informacioni niz u koji se pohranjuju posebno konvertovani parametri svih dokumenata koje preuzima i obrađuje modul za indeksiranje.

Search server

Server za pretragu je najvažniji element čitavog sistema, jer kvalitet i brzina pretrage direktno zavise od algoritama koji su u osnovi njegovog funkcionisanja.

Server za pretragu radi na sljedeći način:

  • Zahtjev primljen od korisnika se podvrgava morfološkoj analizi. Generira se informacijsko okruženje svakog dokumenta sadržanog u bazi podataka (koje će se naknadno prikazati u obliku, odnosno tekstualne informacije koje odgovaraju zahtjevu na stranici rezultata pretraživanja).
  • Primljeni podaci se prosleđuju kao ulazni parametri u poseban modul za rangiranje. Podaci se obrađuju za sve dokumente, zbog čega svaki dokument ima svoju ocenu koja karakteriše relevantnost upita koji je uneo korisnik i različitih komponenti ovog dokumenta pohranjenih u indeksu pretraživača.
  • Ovisno o izboru korisnika, ova ocjena se može prilagoditi dodatnim uvjetima (na primjer, tzv. „napredna pretraga“).
  • Zatim se generiše isječak, odnosno za svaki pronađeni dokument, naslov, kratak sažetak koji najbolje odgovara upitu i veza do samog dokumenta se izdvajaju iz tabele dokumenata, a pronađene riječi su istaknute.
  • Rezultirajući rezultati pretraživanja se prenose korisniku u obliku SERP-a (Search Engine Result Page) – stranice s rezultatima pretraživanja.

Kao što vidite, sve ove komponente su usko povezane jedna s drugom i rade u interakciji, formirajući jasan, prilično složen mehanizam za rad sistema pretraživanja, koji zahtijeva ogromne količine resursa.

6. Zaključak

Sada da sumiramo sve gore navedeno.

  • Primarni cilj svakog pretraživača je da ljudima pruži upravo one informacije koje traže.
  • Glavne karakteristike pretraživača:
    1. Kompletnost
    2. Preciznost
    3. Relevantnost
    4. Brzina pretrage
    5. Vidljivost
  • Prvi punopravni pretraživač bio je projekat WebCrawler, objavljen 1994. godine.
  • Sistem pretraživanja uključuje sljedeće komponente:
    1. Modul za indeksiranje
    2. Baza podataka
    3. Search server

Nadamo se da će vam naša majstorska klasa omogućiti da se bolje upoznate s konceptom tražilice i bolje razumijete glavne funkcije, karakteristike i principe rada tražilica.

1. Uslovi i definicije U ovom ugovoru o obradi ličnih podataka (u daljem tekstu Ugovor), uslovi u nastavku imaju sledeće definicije: Operater - individualni preduzetnik Oleg Aleksandrovič Dnjeprovski. Prihvatanje Ugovora - potpuno i bezuslovno prihvatanje svih uslova Ugovora slanjem i obradom ličnih podataka. Lični podaci - podaci koje je Korisnik (subjekt ličnih podataka) unio na web stranicu i koji se direktno ili indirektno odnose na ovog Korisnika. Korisnik - svako fizičko ili pravno lice koje je uspješno završilo proceduru popunjavanja polja za unos na stranici. Popunjavanje polja za unos je procedura kojom Korisnik šalje svoje ime, prezime, broj telefona, ličnu e-mail adresu (u daljem tekstu: Lični podaci) u bazu podataka registrovanih korisnika sajta, a sprovodi se u svrhu identifikacije. korisnika. Kao rezultat popunjavanja polja za unos, lični podaci se šalju u bazu podataka Operatera. Popunjavanje polja za unos je dobrovoljno. web stranica - web stranica koja se nalazi na Internetu i sastoji se od jedne stranice. 2. Opće odredbe 2.1. Ovaj sporazum je sastavljen na osnovu zahtjeva Federalnog zakona od 27. jula 2006. br. 152-FZ „O ličnim podacima“ i odredbe člana 13.11 o „Kršenju zakona Ruske Federacije u oblasti lični podaci” Zakona o upravnim prekršajima Ruske Federacije i vrijedi za sve lične podatke koje Operater može dobiti o korisniku tokom korištenja stranice. 2.2. Popunjavanje polja za unos od strane Korisnika na Stranici znači bezuslovno slaganje Korisnika sa svim uslovima ovog Ugovora (Prihvatanje Ugovora). U slučaju neslaganja sa ovim uslovima, Korisnik ne popunjava polja za unos na Sajtu. 2.3. Pristanak Korisnika na davanje ličnih podataka Operatoru i njihovu obradu od strane Operatera vrijedi do prestanka aktivnosti Operatera ili dok Korisnik ne povuče pristanak. Prihvatanjem ovog Ugovora i prolaskom kroz proceduru registracije, kao i naknadnim pristupom Stranici, Korisnik potvrđuje da, djelujući svojom slobodnom voljom iu vlastitom interesu, prenosi svoje lične podatke na obradu Operateru i pristaje da njihovu obradu. Korisnik je obaviješten da će obradu njegovih ličnih podataka izvršiti Operater na osnovu Federalnog zakona od 27. jula 2006. br. 152-FZ „O ličnim podacima“. 3. Spisak ličnih podataka i drugih podataka o korisniku koji se prenose Operateru 3. 1. Prilikom korištenja web stranice Operatora, Korisnik daje sljedeće lične podatke: 3.1.1. Pouzdani lični podaci koje Korisnik daje o sebi samostalno prilikom popunjavanja polja za unos i/ili u procesu korišćenja usluga sajta, uključujući prezime, ime, patronime, broj telefona (kućni ili mobilni), ličnu adresu e-pošte. 3.1.2. Podaci koji se automatski prenose na usluge Stranice tokom njihovog korištenja pomoću softvera instaliranog na uređaju Korisnika, uključujući IP adresu, informacije iz kolačića, informacije o korisnikovom pretraživaču (ili drugom programu putem kojeg se pristupa uslugama). 3.2. Operater ne provjerava tačnost ličnih podataka koje daje Korisnik. U ovom slučaju, Operater pretpostavlja da Korisnik daje pouzdane i dovoljne lične podatke o pitanjima predloženim u Poljima za unos. 4. Svrhe, pravila za prikupljanje i korištenje ličnih podataka 4.1. Operater obrađuje lične podatke koji su neophodni za pružanje usluga i pružanje usluga Korisniku. 4.2. Lične podatke Korisnika Operater koristi u sljedeće svrhe: 4.2.1. Identifikacija korisnika; 4.2.2. Pružanje personalizovanih usluga Korisnika (kao i informisanje o novim promocijama i uslugama kompanije slanjem pisama); 4.2.3. Održavanje kontakta sa Korisnikom po potrebi, uključujući slanje obavještenja, zahtjeva i informacija vezanih za korištenje usluga, pružanje usluga, kao i obradu zahtjeva i aplikacija Korisnika; 4.3. Prilikom obrade ličnih podataka vršit će se sljedeće radnje: prikupljanje, evidentiranje, sistematizacija, gomilanje, čuvanje, pojašnjenje (ažuriranje, promjena), izdvajanje, korištenje, blokiranje, brisanje, uništavanje. 4.4. Korisnik se ne protivi da se informacije koje je on naveo u određenim slučajevima mogu dati ovlaštenim državnim tijelima Ruske Federacije u skladu s važećim zakonodavstvom Ruske Federacije. 4.5. Lične podatke Korisnika pohranjuje i obrađuje Operater na način predviđen ovim Ugovorom za cijelo vrijeme aktivnosti Operatera. 4.6. Obradu ličnih podataka Operater vrši održavanjem baza podataka, automatizovanim, mehaničkim i ručnim metodama. 4.7. Stranica koristi kolačiće i druge tehnologije za praćenje korištenja usluga stranice. Ovi podaci su neophodni za optimizaciju tehničkog rada Stranice i poboljšanje kvaliteta pružanja usluga. Sajt automatski beleži informacije (uključujući URL, IP adresu, tip pretraživača, jezik, datum i vreme zahteva) o svakom posetiocu Sajta. Korisnik ima pravo odbiti davanje ličnih podataka prilikom posjete Stranici ili onemogućiti kolačiće, ali u tom slučaju sve funkcije Stranice možda neće raditi ispravno. 4.8. Uslovi povjerljivosti predviđeni ovim Ugovorom primjenjuju se na sve informacije koje Operater može dobiti o Korisniku tokom njegovog boravka na Stranici i korištenja Stranice. 4.9. Informacije koje se javno objavljuju tokom izvršenja ovog Ugovora, kao i informacije koje strane ili treće strane mogu dobiti iz izvora kojima svako lice ima slobodan pristup, nisu povjerljive. 4.10. Operater poduzima sve potrebne mjere da zaštiti povjerljivost ličnih podataka Korisnika od neovlaštenog pristupa, izmjene, otkrivanja ili uništenja, uključujući: osiguranje stalne interne provjere procesa prikupljanja, pohranjivanja i obrade podataka i osiguranje sigurnosti; osigurava fizičku sigurnost podataka, sprječavajući neovlašteni pristup tehničkim sistemima koji osiguravaju rad Stranice, u kojoj Operator pohranjuje lične podatke; omogućava pristup ličnim podacima samo onim zaposlenima Operatera ili ovlaštenim osobama kojima su ove informacije potrebne za obavljanje poslova direktno vezanih za pružanje usluga Korisniku, kao i rad, razvoj i unapređenje Stranice. 4.11. Lični podaci Korisnika ostaju povjerljivi, osim u slučajevima kada Korisnik dobrovoljno daje podatke o sebi za opći pristup neograničenom broju osoba. 4.12. Prenos ličnih podataka Korisnika od strane Operatera je zakonit tokom reorganizacije Operatera i prenosa prava na pravnog sledbenika Operatera, dok su sve obaveze da se pridržava uslova ovog Ugovora u vezi sa ličnim podacima koje on primi su preneta na pravnog sledbenika. 4.13. Ova Izjava se odnosi samo na web stranicu Operatera. Kompanija ne kontrolira i nije odgovorna za stranice (usluge) trećih strana kojima korisnik može pristupiti putem linkova dostupnih na web stranici Operatora, uključujući i rezultate pretraživanja. Na takvim stranicama (uslugama) mogu se prikupljati ili zahtijevati drugi lični podaci od korisnika, a mogu se obavljati i druge radnje 5. Prava korisnika kao subjekta ličnih podataka, promjena i brisanje ličnih podataka od strane korisnika 5.1. Korisnik ima pravo: 5.1.2. Zahtevati od Operatera da pojasni svoje lične podatke, blokira ih ili uništi ako su lični podaci nepotpuni, zastareli, netačni, nezakonito pribavljeni ili nisu neophodni za navedenu svrhu obrade, kao i da preduzme zakonom predviđene mere za zaštitu njegovih prava. 5.1.3. Primati informacije u vezi sa obradom njegovih ličnih podataka, uključujući informacije koje sadrže: 5.1.3.1. potvrda činjenice obrade ličnih podataka od strane Operatera; 5.1.3.2. svrhe i metode obrade ličnih podataka koje koristi operater; 5.1.3.3. naziv i lokaciju Operatera; 5.1.3.4. obrađene lične podatke koji se odnose na relevantni subjekt ličnih podataka, izvor njihovog prijema, osim ako saveznim zakonom nije predviđen drugačiji postupak za prikazivanje takvih podataka; 5.1.3.5. uslove obrade ličnih podataka, uključujući periode njihovog čuvanja; 5.1.3.6. druge informacije predviđene važećim zakonodavstvom Ruske Federacije. 5.2. Povlačenje pristanka na obradu ličnih podataka Korisnik može izvršiti slanjem odgovarajućeg pismenog (štampanog na materijalnom mediju i potpisanog od strane Korisnika) obavještenja Operatoru. 6. Odgovornosti Operatera. Pristup ličnim podacima 6.1. Operater se obavezuje da će osigurati sprječavanje neovlaštenog i neciljanog pristupa ličnim podacima Korisnika Internet stranice Operatora. U ovom slučaju, ovlašteni i ciljani pristup ličnim podacima Korisnika Stranice smatrat će se pristupom njima svih zainteresiranih strana, koji se provodi u okviru ciljeva i predmeta Stranice Operatora. Istovremeno, Operater nije odgovoran za moguću zloupotrebu ličnih podataka Korisnika koja nastane kao rezultat: tehničkih problema u softveru i hardveru i mrežama van kontrole Operatera; u vezi s namjernim ili nenamjernim korištenjem web stranica Operatora, osim za njihovu namjenu od strane trećih strana; 6.2 Operater poduzima potrebne i dovoljne organizacijske i tehničke mjere kako bi zaštitio lične podatke korisnika od neovlaštenog ili slučajnog pristupa, uništavanja, modifikacije, blokiranja, kopiranja, distribucije, kao i od drugih nezakonitih radnji trećih lica s njima. 7. Promjene Politike privatnosti. Važeće zakonodavstvo 7.1. Operater ima pravo da vrši izmjene ovih Pravila bez ikakvog posebnog obavještavanja korisnika. Kada se izvrše promjene u trenutnom izdanju, naznačuje se datum posljednjeg ažuriranja. Novo izdanje Pravilnika stupa na snagu od momenta objavljivanja, osim ako novim izdanjem Pravilnika nije drugačije određeno. 7.2. Na ovu Uredbu i odnose između Korisnika i Operatera koji nastaju u vezi sa primjenom Uredbe primjenjuje se zakon Ruske Federacije. Prihvatam Ne prihvatam

Nismo toliko jedinstveni kao što mislimo: milioni ljudi prije nas su zbunjeni, a milioni poslije nas zbuniće pretraživač gotovo identičnim pitanjima. S druge strane, previše smo nepredvidivi: na formulaciju našeg zahtjeva utiče ogroman broj faktora kojih nismo svjesni. I barem iz tog razloga, zahtjev svakog od nas, ma koliko banalan bio, zahtijeva individualni pristup.

Zapravo, cijeli rad Yandex pretraživača svodi se na dvije jednostavne stvari: razumjeti ono što osoba zaista želi znati i za nekoliko sekundi pronaći odgovarajuće među milijardama dokumenata na Internetu.

Uzmi otiske prstiju

Operativni sistem pretraživača je donekle sličan Matrix-u, a robot za pretraživanje (kompleksni program za nezavisno odlučivanje koji je kreirao) sličan je agentu Smithu.

Kako ne bi pretraživali cijeli internet svaki put kada neko treba nešto da sazna, pretraživač odrađuje dio posla unaprijed - provjerava šta se nalazi na webu i gdje se nalazi, koristeći hiljade robota za pretraživanje. Dolaze u dvije vrste: osnovni i brzi. Glavni puzi i obrađuje Internet u cjelini, a brzi - dokumente koji su se pojavili prije minut ili čak nekoliko sekundi. Zadatak robotskih programa je odabrati prikladne i korisne informacije za korisnike, obraditi ih, uklanjajući sve zastarjelo i nepotrebno. Ovo na neki način podsjeća na sortiranje smeća: papir u jednom kontejneru, staklo u drugom, plastika u trećem, otpad od hrane u četvrtom...

Informacije koje prikupljaju roboti čine takozvanu internetsku postavu. Pohranjuje se na hiljadama Yandex servera i stalno se ažurira. Grudnjak je poput liste koja vam govori gdje da pronađete koje informacije. Na ovoj listi svaka ključna riječ ima ne jednu, već milione „stranica“. Kako bi se osiguralo da su sva nugget ažuriranja dostupna korisnicima, oni se premještaju iz spremišta u “baznu pretragu”. Podaci sa glavnog robota se prenose svakih nekoliko dana, a sa brzog robota - u realnom vremenu.

Donesite u čistu vodu



ILUSTRACIJA: EVGENY TONKONOGY

Dok traži odgovor na zadato pitanje u pripremljenoj bazi podataka, mašina se suočava sa dve glavne poteškoće. Prva poteškoća je jezik. Pre nego što potraži odgovor na pitanje, važno je da mašina razume na kom jeziku to treba da uradi. Na primjer, za osobu koja govori ruski, potraga za "odredom kneza Igora" će pronaći dokumente sa podacima o vojsci, a za Ukrajinca će "odred kneza Igora" također vratiti dokumente u kojima se spominje princeza Olga, njegova supruga, jer na ukrajinskom "supruga" je "odred". A u bogatom ruskom jeziku ista riječ ili njene izvedenice mogu značiti različite stvari. Na primjer, riječ “čelik” je jedan od oblika imenice “čelik” i glagola “postati”. Druga poteškoća je ljudska psihologija. Prilikom unosa zahtjeva očekujemo brz i precizan odgovor, bez prirodno brige o tome da li formulacija zahtjeva odgovara principima matematičke analize po kojoj radi mozak mašine. Na primjer, unošenjem riječi "Napoleon" u traku za pretraživanje, šta osoba želi dobiti: recept za tortu ili biografiju francuskog cara, kupiti konjak ili pronaći adresu psihijatrijske bolnice?


U takvim situacijama u igru ​​dolazi nekoliko tehnologija. Ispod trake za pretraživanje možete dati nekoliko savjeta koji će specificirati vaš zahtjev. Kao, odaberite šta vam treba: Napoleon recepti ili Napoleon - Bonaparte. Ako korisnik ne odgovori na zahtjev mašine i ne doda riječi na “Napoleon”, onda tehnologija “Spectrum” pomaže u tome: bez nade pomoći, mašina odmah traži informacije u nekoliko kategorija (o torti, i o caru, i o konju..). Osim toga, mehanizmi personalizacije pomažu da se razumije korisnik - znanje mašine o tome šta je ovaj korisnik tražio na svom računaru prije dan, dva, tri ili mjeseci: ako ste često postavljali Yandex pitanja o kuhanju, tada će mašina prvo pokazati ti rezultati koji govore da je Napoleon kolač.

Kombinacije: interesni klubovi

Zadatak tražilice nije jednostavno odabrati dokumente koji sadrže riječi i fraze iz upita za pretraživanje. Mašina mora razumjeti koji dokumenti ispunjavaju naše konfliktne zahtjeve i zašto ih ispunjavaju. Želimo li se informirati o Napoleonu torti, ili smo možda nekoliko godina posjećivali fitness klub pretencioznog imena, ili smo čak potpuno zabrinuti zbog kompleksa niskih ljudi. U svakom slučaju, rješavanje problema zahtijeva netrivijalan pristup.


Kreatori Yandex programa za pretragu pronašli su ovaj pristup delegirajući pravo izbora mašini. S jedne strane, bezdušna, ali vrlo brza i pametna mašina ne zna i ne želi ništa da zna o nama kao pojedincima, a sa druge strane pokušava da sazna što više o svima.

Pored geografske lokacije korisnika i lingvističke analize njegovih upita, pretraživač koristi nekoliko hiljada kriterijuma koji ljudima nisu nimalo očigledni.

Trik je u tome što mašina samostalno razvija i ažurira ove kriterijume.

Jednostavno koristi podatke o preferencijama i korisničkom ponašanju miliona ljudi i povezuje ovaj "aritmetički prosjek" s istorijom naših upita. Principi koji vode Matrix unutar sebe, upoređujući hiljade kategorija interesa korisnika koje je razvio, često se ne uklapaju u tradicionalne ljudske ideje o tome šta „interesi“ mogu biti u principu. Ima ih na desetine hiljada. Međusobno stvaraju različite, ponekad smiješne kombinacije. Na primjer, jedna od ovih kombinacija bi mogla biti da rezultati pretraživanja odgovaraju interesima osobe koja uzgaja tritone. U isto vrijeme, osoba nije samo zainteresirana za tritone, već ih već uzgaja, ali samo prve godine.

Ocene. Ruke pomoći


Matrica, naravno, sama odlučuje (uz pomoć više matematike) šta i kojim redosledom treba prikazati korisnicima na osnovu desetina hiljada kriterijuma. Ali Matrix koristi i žive ljude - 1000 zaposlenih u Yandexu, takozvanih procjenitelja, procjenjuju rezultate pretraživanja za određeni zahtjev (naravno, ne procjenjuje se svaki zahtjev, a to se ne radi u realnom vremenu) kako bi utvrdili da li ispunjavaju zahtjeve. očekivanja običnog korisnika: ne racionalna kao mašina, ni precizna u formulaciji, kontradiktorna i emotivna.