hjem Enheter

Internett-søkemotorer: Yandex, Google, Rambler, Yahoo. Sammensetning, funksjoner, operasjonsprinsipp. Den enkleste beskrivelsen av prinsippet om drift av Yandex-søkemotoren Kombinasjoner: interesseklubber

Hei kjære venner! I denne artikkelen vil vi fortsette å se på Yandex-søkemotoren, og som du husker, diskuterte vi i tidligere artikler historien om opprettelsen av dette flotte selskapet, som rangerer først blant sine konkurrenter i Russland og utover.

Alt dette er bra, men nybegynnere og erfarne nettstedbyggere er selvfølgelig interessert i det viktigste spørsmålet knyttet til hvordan de skal bringe prosjektene sine til de første plassene i de TOP-søkeresultatene.

La oss derfor se på hvordan Yandex-søkemotoren fungerer for å forstå hvilke feil du kan tråkke på, og hva du kan forvente av en russisk søkemotor generelt.

I den siste artikkelen diskuterte vi. Emnet viste seg å være ganske interessant og nyttig. Derfor bestemte jeg meg for å supplere den, utdype den, for å si det sånn.

Så jeg ble nok litt revet med av spørsmålet "Hvorfor indekserer en søkemotor"? Det er en no brainer. Alt som gjenstår er å finne ut "hvordan"-spørsmålet.

Nettstedsrangeringsalgoritmer

Først, la oss bli kjent med noen algoritmer som er grunnleggende for enhver søkemotor:

— Direkte søkealgoritme.

Hva er det - du husker å ha lest en fantastisk historie i en av bøkene. Og du begynner å lete en etter en. De tok en bok, så gjennom den, fant den ikke, tok en annen ... Prinsippet er klart, men denne metoden er ekstremt lang. Dette er også forståelig.

— Omvendt søkealgoritme.

For denne algoritmen opprettes en tekstfil fra hver side på bloggen din. Denne filen viser i alfabetisk rekkefølge ALLE ordene du brukte. Til og med plasseringen til dette ordet i teksten er angitt (koordinater i teksten).

Dette er en ganske rask metode, men søket skjer allerede med en viss feil.

Det viktigste å forstå her er at denne algoritmen ikke søker på Internett, ikke ved å søke på en blogg. Og i en egen tekstfil som ble laget for lenge siden. Da roboten kom til deg. Og disse filene (omvendte indekser) er lagret på Yandex-servere.

Så dette var de grunnleggende søkealgoritmene. De. hvordan Yandex ganske enkelt finner de nødvendige dokumentene. Det skal ikke se ut til å være noen problemer med dette.

Men Yandex kjenner til mer enn ett eller til og med 100 dokumenter, men ifølge de siste dataene fra mine kilder kjenner Yandex til rundt 11 milliarder dokumenter (10 727 736 489 sider).

Og blant all denne mengden må du velge dokumenter som samsvarer med forespørselen. Og enda viktigere, du må på en eller annen måte rangere dem. De. ordne etter graden av betydning, eller rettere sagt etter graden av nytte for leseren.

Matematiske søkemodeller

For å løse dette problemet kommer matematiske modeller til unnsetning. Nå skal vi snakke om de enkleste modellene.

Boolsk matematisk modell– Hvis et ord forekommer i et dokument, anses dokumentet som funnet. Bare en tilfeldighet og ingenting komplisert.

Men det er problemer her. For eksempel, hvis du som bruker skriver inn et populært ord, eller enda bedre, preposisjonen "v", som er det vanligste ordet i det russiske språket og finnes i HVER dokument, vil du få så mange resultater at du ikke engang skjønner et slikt tall, hvor mange dokumenter fant du? Derfor dukket følgende mattemodell opp.

Vektor matematisk modell– denne modellen bestemmer "vekten" av dokumentet. Ikke bare oppstår tilfeldighetene, men ordet må forekomme flere ganger. Dessuten, jo mer et ord vises, jo høyere relevans (compliance).

Det er vektormodellen som ALLE søkemotorer bruker.

Sannsynlighetsmodell- mer kompleks. Prinsippet er dette: søkemotoren fant selve sidemalen. For eksempel leter du etter informasjon om historien til Yandex. Yandex lagrer en slags standard, la oss si at dette vil være min forrige artikkel om Yandex.

Og han vil sammenligne alle andre dokumenter med denne artikkelen. Og logikken her er denne: jo mer lik bloggsiden din er til artikkelen min, desto MER SYNLIG er det at bloggsiden din også vil være nyttig for leseren og også forteller om historien til Yandex.

For å redusere antall dokumenter som må vises til brukeren ble relevansbegrepet introdusert, dvs. samsvar.

Hvor relevant er bloggsiden din for emnet? Dette er et viktig tema når det gjelder søkekvalitet.

Bedømmere – hvem er de og hva har de ansvar for?

Denne relevansen er også nødvendig for å vurdere kvaliteten på algoritmene.

For dette formålet er det et spesialstyrkehovedkvarter - de kalles Assessors. Dette er spesielle personer som ser gjennom søkeresultater med hendene.

De har instruksjoner om hvordan du sjekker nettsteder, hvordan du evaluerer osv. Og de bestemmer manuelt om sidene dine egner seg for søk eller ikke.

Og kvaliteten på søkealgoritmene avhenger av vurderingene til vurderingene. Hvis alle bedømmerne sier at søkeresultatene ikke samsvarer med forespørslene, betyr dette at rangeringsalgoritmen er feil og Yandex er den eneste å klandre.

Hvis bedømmerne sier at kun ett nettsted ikke oppfyller forespørselen, betyr det at siden flyr et sted langt unna og senkes i søkeresultatene. Mer presist, ikke hele nettstedet, men bare én artikkel, men dette er "ikke poenget."

Selvsagt kan ikke bedømmere gjennomgå og vurdere ALLE artikler med hendene og øynene. Dette er forståelig.

Og andre parametere som sidene rangeres etter, kommer til unnsetning.

Det er mange av dem, for eksempel:

sidevekt (vIC, PageRank, baby støt Alt i alt);
domeneautoritet;
tekstens relevans for forespørselen;
relevansen av eksterne lenketekster til spørringen;
samt mange andre rangeringsfaktorer.

Evaluatorer kommer med kommentarer, og personene som er ansvarlige for å sette opp den matematiske rangeringsmodellen, redigerer på sin side formelen, som et resultat av at søkemotoren fungerer mer effektivt.

Hovedkriteriene for å evaluere ytelsen til formelen:

1. Nøyaktighet i søkemotorresultater- prosentandel av dokumenter som samsvarer med forespørselen (relevant). De. Jo færre sider som ikke samsvarer med forespørselen, jo bedre.

2. Fullstendighet av søkemotorresultater- dette er forholdet mellom relevante nettsider for et gitt søk og det totale antallet relevante dokumenter i samlingen (totaliteten av sider funnet i søkemotoren).

Hvis det for eksempel er flere relevante sider i hele samlingen enn i søkeresultatene, betyr dette at resultatene er ufullstendige. Dette skjedde fordi noen av de relevante nettsidene ble filtrert.

3. Relevans av søkemotorresultater- dette er nettsidens samsvar med det som er skrevet i kodebiten. For eksempel kan et dokument være svært forskjellig eller ikke eksistere i det hele tatt, men fortsatt være tilstede i søkeresultatene.

Relevansen til søkeresultatene avhenger direkte av hvor ofte søkeroboten skanner dokumenter fra samlingen.

Samlingsinnsamling (indeksering av nettstedssider) utføres av et spesielt program - en søkerobot.

Søkeroboten mottar en liste over adresser for indeksering, kopierer dem, og sender deretter innholdet på de kopierte nettsidene for behandling til en algoritme som konverterer dem til omvendte indekser.

Vel, "i et nøtteskall," så å si, diskuterte vi prinsippene for søkemotoren.

La oss oppsummere:

En søkerobot kommer til bloggen din.
Søkeroboten lagrer den omvendte indeksen til siden for påfølgende søk.
Ved hjelp av en matematisk modell blir dokumentet behandlet og vist i søkeresultater ved hjelp av formler og under hensyntagen til vurderingsmannens mening.

Dette er veldig, veldig forenklet. Bare for å få en grunnleggende forståelse av hvordan Yandex-søkemotoren fungerer.

Jeg har nå skrevet så mye tekst, og kanskje så mye er uklart. Derfor foreslår jeg at du går tilbake til denne artikkelen litt senere og ser denne videoen.

Dette er en utmerket guide, som jeg også lærte av på en gang.

Jeg håper denne informasjonen vil hjelpe deg å bedre forstå hvorfor et av nettstedene dine inntar passende posisjoner i søk og gjøre alt for å forbedre dem.

Med dette sier jeg farvel til deg, hvis du har spørsmål, svarer jeg alltid gjerne på dem i kommentarfeltet. Eller kanskje du vil legge til artikkelen?

I alle fall, si din mening. !

Yandex, i dag, er den mest populære søkemotoren i Russland. Tjenestestatistikk LiveInternett, viser andelen til Yandex i massen til det all-russiske publikummet - det er 53,4%, hvis vi bare tar hensyn til Moskva og regionen, er det enda høyere - 67,9% (Moskva, ifølge forespørsler, okkuperer mer enn 50 % av hele Russland).

Nettstedet www.yandex.ru ble opprettet i 1997; bare én server var nok for det, som sto under skrivebordet til en av gruppen av første Yandex-utviklere, Dmitry, hvis etternavn var Teiblyum. Veldig raskt etter åpning kjøpte vi en annen server, og snart, da det var nødvendig å installere en annen, ble det klart at det var nok plass under bordet til enten tre Yandex-servere, eller […]

Søkemotorutviklere streber etter å gi brukerne de beste svarene på deres spørsmål. Noen ganger kan et slikt svar være et tall (for eksempel været i en by), et bilde (for eksempel en adresse på et kart), en oversettelse av et ord eller et kvad. Når du har et passende utvalg av informasjon for hånden, kan svaret gis umiddelbart. Derfor supplerer Yandex søkeresultater på Internett med svar fra […]

Omtrent hver tiende forespørsel til Yandex er "navigasjonsorientert", det vil si at den består av navnet på en organisasjon eller et nettsted, og brukeren ønsker å gå til nettstedet til denne organisasjonen. I dette tilfellet brukes Yandex-søkefeltet i stedet for nettleserens adresselinje, og brukeren er som regel ikke interessert i de resterende ni søkeresultatene. Uten å distrahere brukeren fra hovedmålet, la vi til etter hovedmålet […]

Hovedoppgaven til en søkemotor er å svare på brukerens spørsmål. Når en bruker spør et spørsmål, får ikke søkemotoren tilgang til alle nettsteder på Internett, men søker gjennom en database med sider kjent for den - søkeindeksen. Der finner hun alle sidene med ordene fra spørringen. Brukeren ser lenker til disse sidene på søkeresultatsidene.

Som vi ser, står ikke Yandex stille, og jeg er sikker på at søketeknologiene til dette systemet vil fortsette å utvikle seg for å forbedre kvaliteten på søket, som neppe kan kalles ideelt ennå.

Den 10. november 2009 annonserte Yandex en ny versjon av søkealgoritmen - Snezhinsk. Det har skjedd grunnleggende endringer i algoritmen for å beregne relevans - Yandex-representanter skrev følgende: "Vi klarte å lage en mer nøyaktig og mye mer kompleks matematisk modell, noe som førte til en betydelig økning i søkekvalitet. Takket være redesignet av søkerangeringsarkitekturen var det mulig å implementere regnskapet til flere tusen [...]

Testing av den nye versjonen av Yandex-algoritmen begynte 9. juli 2008. I følge Yandex er "hovedendringene i programmet knyttet til en ny tilnærming til maskinlæring og som et resultat av forskjeller i måten rangeringsfaktorer blir tatt i betraktning i formelen."

14. april 2008 begynte den nye søkealgoritmen "Magadan" å bli testet på buki.yandex.ru. I tillegg til å doble antall rangeringsfaktorer, ble følgende innovasjoner også lagt til:

Før vi begir oss ut i den algoritmiske jungelen, la oss huske hvordan en søkemotor fungerer generelt. Den logiske strukturen til et søkesystem kan representeres i form av tre moduler (se diagram) Robot (crawler) er et spesielt program som gjennomsøker nettsteder og laster ned innholdet. Roboten har en spesiell tidsplan som den utfører sine runder etter. Nettsidesider lastet av en robot, en spesiell [...]

66. Hva har mer innflytelse: en lenke fra en gratis plattform (blogspot, LJ, etc.) eller fra en offline side/blogg? Gratis plattformer overfører mindre vekt enn frittstående nettsteder. Effekten kan imidlertid bli større. Dette skyldes mange faktorer: gjeldende ankerliste, tilstanden til nettstedene som sammenlignes osv. Det er umulig å gi et entydig svar på dette spørsmålet. 67. Den største vekten overføres mellom […]

Vamana Tour - reiser, flybilletter og visum rundt om i verden og til India, Nepal, Sri Lanka, Maldivene, Mauritius og mange andre steder på planeten. Råd til reisende og pilegrimer. Hvordan få mest mulig ut av turen. Fantastiske historiske kronikker og historier om erfarne reisende.

Hva er hensikten med å ta hensyn til eksterne lenker til et nettsted?Som du kan se fra forrige avsnitt, er nesten alle faktorer som påvirker rangeringen under kontroll av sideforfatteren. Dermed blir det umulig for en søkemotor å skille et dokument av høy kvalitet fra en side som er laget spesielt for en gitt søkefrase eller til og med en side generert av en robot og som ikke inneholder nyttig informasjon i det hele tatt. […]

De har lenge blitt en integrert del av det russiske Internett. Søkemotorer er nå enorme og komplekse mekanismer som representerer ikke bare et informasjonssøkeverktøy, men også fristende områder for virksomheten.

De fleste søkemotorbrukere har aldri tenkt (eller tenkt på det, men ikke funnet et svar) på prinsippet om søkemotorer, om ordningen for behandling av brukerforespørsler, om hva disse systemene består av og hvordan de fungerer...

Denne mesterklassen er designet for å svare på spørsmålet om hvordan søkemotorer fungerer. Her finner du imidlertid ikke faktorer som påvirker rangeringen av dokumenter. Dessuten bør du ikke stole på en detaljert forklaring av Yandex-algoritmen. Han, ifølge Ilya Segalovich, direktør for teknologi og utvikling av Yandex-søkemotoren, kan bare gjenkjennes "under tortur" av Ilya Segalovich selv ...

2. Konsept og funksjoner til en søkemotor

Et søkesystem er et programvare- og maskinvarekompleks designet for å søke på Internett og svare på en brukerforespørsel, spesifisert i form av en tekstfrase (søkespørring), ved å produsere en liste med lenker til informasjonskilder, i rekkefølge av relevans ( i samsvar med forespørselen). De største internasjonale søkemotorene: "Google", Yahoo , MSN . På det russiske Internett er disse Yandex, Rambler, Aport.

La oss se nærmere på konseptet med et søk ved å bruke Yandex-søkemotoren som eksempel. Søket bør formuleres av brukeren i samsvar med det han ønsker å finne, så kort og enkelt som mulig. La oss si at vi ønsker å finne informasjon i Yandex om hvordan du velger en bil. For å gjøre dette, åpne Yandex hovedside og skriv inn teksten i søket "hvordan velge en bil." Deretter kommer vår oppgave ned til å åpne lenkene som er gitt på vår forespørsel til informasjonskilder på Internett. Det er imidlertid godt mulig at vi ikke finner den informasjonen vi trenger. Hvis dette skjer, må du enten omformulere forespørselen din, eller så har søkemotordatabasen virkelig ingen relevant informasjon om forespørselen vår (dette kan skje når du spør veldig "smale" søk, som for eksempel "hvordan velge en bil i Arkhangelsk")

Hovedmålet med enhver søkemotor er å levere til folk akkurat den informasjonen de leter etter. Og lære brukerne å komme med «riktige» forespørsler til systemet, dvs. spørringer som samsvarer med driftsprinsippene til søkemotorer er umulige. Derfor lager utviklere algoritmer og driftsprinsipper for søkemotorer som lar brukere finne informasjonen de leter etter.

Dette betyr at søkemotoren må "tenke" på samme måte som brukeren tenker når de søker etter informasjon. Når en bruker sender en forespørsel til en søkemotor, ønsker han å finne det han trenger så raskt og enkelt som mulig. Når han mottar resultatet, evaluerer han ytelsen til systemet, styrt av flere grunnleggende parametere. Fant han det han lette etter? Hvis han ikke fant det, hvor mange ganger måtte han omformulere søket for å finne det han lette etter? Hvor mye relevant informasjon kunne han finne? Hvor raskt behandlet søkemotoren søket? Hvor praktisk ble søkeresultatene presentert? Var resultatet du lette etter det første eller det hundrere? Hvor mye unødvendig søppel ble funnet sammen med nyttig informasjon? Vil den nødvendige informasjonen bli funnet når du får tilgang til en søkemotor, for eksempel om en uke eller om en måned?

For å tilfredsstille alle disse spørsmålene med svar, forbedrer søkemotorutviklere stadig søkealgoritmer og prinsipper, legger til nye funksjoner og muligheter, og prøver på alle mulige måter å fremskynde driften av systemet.

3. Hovedtrekk ved en søkemotor

La oss beskrive hovedkarakteristikkene til søkemotorer:

Fullstendighet
Fullstendighet er en av hovedkarakteristikkene til et søkesystem, som er forholdet mellom antall dokumenter funnet ved forespørsel og det totale antallet dokumenter på Internett som tilfredsstiller den gitte forespørselen. For eksempel, hvis det er 100 sider på Internett som inneholder uttrykket "hvordan velge en bil", og bare 60 av dem ble funnet for det tilsvarende søket, vil fullstendigheten av søket være 0,6. Jo mer fullstendig søket er, jo mindre sannsynlig er det at brukeren ikke finner dokumentet han trenger, forutsatt at det finnes på Internett i det hele tatt.
Nøyaktighet
Nøyaktighet er en annen hovedkarakteristikk ved en søkemotor, som bestemmes av i hvilken grad de funnet dokumentene samsvarer med brukerens søk. For eksempel, hvis spørringen "hvordan velge en bil" inneholder 100 dokumenter, inneholder 50 av dem uttrykket "hvordan velge en bil", og resten inneholder bare disse ordene ("hvordan velge riktig radio og installere den i en bil»), så anses søkenøyaktigheten som lik 50/100 (=0,5). Jo mer nøyaktig søket er, jo raskere vil brukeren finne dokumentene han trenger, jo mindre forskjellige typer "søppel" vil bli funnet blant dem, jo sjeldnere vil ikke de funnet dokumentene samsvare med forespørselen.
Relevans
Relevans er en like viktig komponent i søk, som kjennetegnes av tiden som går fra det øyeblikket dokumenter publiseres på Internett til de legges inn i søkemotorindeksdatabasen. For eksempel, dagen etter at interessante nyheter dukket opp, vendte et stort antall brukere seg til søkemotorer med relevante søk. Objektivt sett har det gått mindre enn en dag siden publiseringen av nyhetsinformasjon om dette emnet, men hoveddokumentene er allerede indeksert og tilgjengelige for søk, takket være eksistensen av den såkalte "raske databasen" med store søkemotorer, som oppdateres flere ganger om dagen.
Søkehastighet
Søkehastighet er nært knyttet til belastningsmotstanden. For eksempel, ifølge Rambler Internet Holding LLC, mottar Rambler-søkemotoren i dag, i arbeidstiden, omtrent 60 forespørsler per sekund. Slik arbeidsbelastning krever å redusere behandlingstiden for en individuell forespørsel. Her faller brukerens og søkemotorens interesser sammen: den besøkende ønsker å få resultater så raskt som mulig, og søkemotoren må behandle forespørselen så raskt som mulig, for ikke å bremse utregningen av påfølgende søk.
Synlighet

4. Kort historie om utviklingen av søkemotorer

I den innledende perioden med Internett-utvikling var antallet brukere lite, og mengden tilgjengelig informasjon var relativt liten. For det meste var det bare forskningspersonell som hadde tilgang til Internett. På dette tidspunktet var ikke oppgaven med å søke etter informasjon på Internett så presserende som nå.

En av de første måtene å organisere tilgang til nettverksinformasjonsressurser på var å lage åpne kataloger over nettsteder, lenker til ressurser som ble gruppert etter emne. Det første slike prosjektet var Yahoo.com-nettstedet, som åpnet våren 1994. Etter at antallet nettsteder i katalogen økte betydelig, ble muligheten til å søke etter nødvendig informasjon i katalogen lagt til. I full forstand var det ennå ikke en søkemotor, siden søkeområdet bare var begrenset til ressursene i katalogen, og ikke til alle Internett-ressurser.

Link kataloger ble mye brukt i fortiden, men har nesten fullstendig mistet sin popularitet i dag. Siden selv moderne kataloger, store i volum, inneholder informasjon bare om en ubetydelig del av Internett. Den største katalogen i DMOZ-nettverket (også kalt Open Directory Project) inneholder informasjon om 5 millioner ressurser, mens Googles søkemotordatabase består av mer enn 8 milliarder dokumenter.

I 1995 dukket søkemotorene Lycos og AltaVista opp. Sistnevnte har vært ledende innen informasjonssøk på Internett i mange år.

I 1997 opprettet Sergey Brin og Larry Page Googles søkemotor som en del av et forskningsprosjekt ved Stanford University. Google er for tiden den mest populære søkemotoren i verden!

I september 1997 ble Yandex-søkemotoren, som er den mest populære på det russiskspråklige Internett, offisielt annonsert.

For tiden er det tre hovedsøkemotorer (internasjonale) - Google, Yahoo og, som har sine egne databaser og søkealgoritmer. De fleste andre søkemotorer (som det er et stort antall av) bruker i en eller annen form resultatene til de tre oppførte. For eksempel bruker AOL-søk (search.aol.com) Google-databasen, mens AltaVista, Lycos og AllTheWeb bruker Yahoo-databasen.

5. Sammensetning og prinsipper for drift av søkesystemet

I Russland er hovedsøkemotoren Yandex, etterfulgt av Rambler.ru, Google.ru, Aport.ru, Mail.ru. Dessuten bruker Mail.ru for øyeblikket Yandex søkemotor og database.

Nesten alle store søkemotorer har sin egen struktur, forskjellig fra andre. Det er imidlertid mulig å identifisere hovedkomponentene som er felles for alle søkemotorer. Forskjeller i struktur kan bare være i form av implementering av mekanismene for interaksjon mellom disse komponentene.

Indekseringsmodul

Indekseringsmodulen består av tre hjelpeprogrammer (roboter):

Spider er et program laget for å laste ned nettsider. Edderkoppen laster ned siden og henter alle interne lenker fra den siden. HTML-koden for hver side lastes ned. Roboter bruker HTTP-protokoller for å laste ned sider. Edderkoppen fungerer som følger. Roboten sender forespørselen "get/path/document" og noen andre HTTP-forespørselskommandoer til serveren. Som svar mottar roboten en tekststrøm som inneholder tjenesteinformasjon og selve dokumentet.

Side URL
dato siden ble lastet ned
Server respons http header
sidetekst (html-kode)

Crawler ("reisende" edderkopp) er et program som automatisk følger alle lenkene som finnes på siden. Velger alle lenker på siden. Dens jobb er å bestemme hvor edderkoppen skal gå videre, basert på lenker eller en forhåndsbestemt adresseliste. Crawler, følger lenkene som er funnet, søker etter nye dokumenter som fortsatt er ukjente for søkemotoren.

Indexer (robot indexer) er et program som analyserer nettsider lastet ned av edderkopper. Indekseren analyserer siden inn i dens komponentdeler og analyserer dem ved hjelp av sine egne leksikalske og morfologiske algoritmer. Ulike sideelementer blir analysert, for eksempel tekst, overskrifter, lenker, struktur- og stilfunksjoner, spesielle HTML-tagger, etc.

Dermed lar indekseringsmodulen deg gjennomsøke et gitt sett med ressurser ved å bruke lenker, laste ned påkjørte sider, trekke ut lenker til nye sider fra mottatte dokumenter og utføre en fullstendig analyse av disse dokumentene.

Database

En database, eller søkemotorindeks, er et datalagringssystem, en informasjonsarray der spesialkonverterte parametere for alle dokumenter som er lastet ned og behandlet av indekseringsmodulen lagres.

Søk server

Søkeserveren er det viktigste elementet i hele systemet, siden kvaliteten og hastigheten på søket er direkte avhengig av algoritmene som ligger til grunn for dets funksjon.

Søkeserveren fungerer som følger:

Forespørselen mottatt fra brukeren er gjenstand for morfologisk analyse. Informasjonsmiljøet for hvert dokument som finnes i databasen genereres (som deretter vil vises i skjemaet, det vil si tekstinformasjon som tilsvarer forespørselen på søkeresultatsiden).
De mottatte dataene sendes som inngangsparametere til en spesiell rangeringsmodul. Data behandles for alle dokumenter, som et resultat av at hvert dokument har sin egen vurdering som karakteriserer relevansen til spørringen som er lagt inn av brukeren og de ulike komponentene i dette dokumentet som er lagret i søkemotorindeksen.
Avhengig av brukerens valg, kan denne vurderingen justeres av tilleggsbetingelser (for eksempel såkalt "avansert søk").
Deretter genereres en kodebit, det vil si at for hvert dokument som blir funnet, hentes tittelen, et kort sammendrag som passer best med søket, og en lenke til selve dokumentet fra dokumenttabellen, og ordene som ble funnet utheves.
De resulterende søkeresultatene overføres til brukeren i form av en SERP (Search Engine Result Page) – en søkeresultatside.

Som du kan se, er alle disse komponentene nært knyttet til hverandre og fungerer i samspill, og danner en klar, ganske kompleks mekanisme for driften av søkesystemet, som krever enorme mengder ressurser.

6. Konklusjon

La oss nå oppsummere alt det ovennevnte.

Hovedmålet med enhver søkemotor er å levere til folk akkurat den informasjonen de leter etter.
Hovedtrekk ved søkemotorer:
1. Fullstendighet
2. Nøyaktighet
3. Relevans
4. Søkehastighet
5. Synlighet
Den første fullverdige søkemotoren var WebCrawler-prosjektet, publisert i 1994.
Søkesystemet inkluderer følgende komponenter:
1. Indekseringsmodul
2. Database
3. Søk server

Vi håper at mesterklassen vår vil tillate deg å bli mer kjent med konseptet med en søkemotor og bedre forstå hovedfunksjonene, egenskapene og driftsprinsippene til søkemotorer.

1. Vilkår og definisjoner I denne avtalen om behandling av personopplysninger (heretter referert til som Avtalen), har vilkårene nedenfor følgende definisjoner: Operatør - Individuell Entreprenør Oleg Aleksandrovich Dneprovsky. Aksept av avtalen - full og ubetinget aksept av alle vilkårene i avtalen ved å sende og behandle personopplysninger. Personopplysninger - informasjon lagt inn av brukeren (gjenstand for personopplysninger) på nettstedet og direkte eller indirekte knyttet til denne brukeren. Bruker - enhver person eller juridisk enhet som har fullført prosedyren for å fylle ut inndatafeltene på nettstedet. Utfylling av inndatafelt er prosedyren for brukeren for å sende fornavn, etternavn, telefonnummer, personlige e-postadresse (heretter referert til som personopplysninger) til databasen med registrerte brukere av nettstedet, utført med det formål å identifisere brukeren. Som et resultat av å fylle ut inndatafeltene, sendes personopplysninger til operatørens database. Det er frivillig å fylle ut feltene. nettsted - et nettsted som ligger på Internett og består av én side. 2. Generelle bestemmelser 2.1. Denne avtalen er utarbeidet på grunnlag av kravene i den føderale loven av 27. juli 2006 nr. 152-FZ "Om personopplysninger" og bestemmelsene i artikkel 13.11 om "Brennelse av lovgivningen i Den russiske føderasjonen innen området personopplysninger" i den russiske føderasjonens kode for administrative lovbrudd og er gyldig for alle personopplysninger som operatøren kan få om brukeren mens han bruker nettstedet. 2.2. Utfylling av inndatafeltene av brukeren på nettstedet betyr brukerens ubetingede avtale med alle vilkårene i denne avtalen (godkjennelse av avtalen). I tilfelle uenighet med disse betingelsene, fyller ikke brukeren ut inndatafeltene på nettstedet. 2.3. Brukerens samtykke til utlevering av personopplysninger til Operatøren og deres behandling av Operatøren er gyldig inntil Operatørens aktiviteter avsluttes eller til Brukeren trekker tilbake samtykket. Ved å akseptere denne avtalen og gå gjennom registreringsprosedyren, samt ved senere å gå inn på nettstedet, bekrefter brukeren at han, som handler av egen fri vilje og i sin egen interesse, overfører sine personopplysninger for behandling til operatøren og godtar å behandlingen deres. Brukeren blir varslet om at behandlingen av hans personopplysninger vil bli utført av operatøren på grunnlag av føderal lov av 27. juli 2006 nr. 152-FZ "Om personopplysninger". 3. Liste over personopplysninger og annen informasjon om brukeren som skal overføres til Operatøren 3. 1. Når brukeren bruker operatørens nettsted, oppgir brukeren følgende personopplysninger: 3.1.1. Pålitelig personlig informasjon som brukeren selv gir om seg selv når han fyller ut inndatafelt og/eller i ferd med å bruke nettstedets tjenester, inkludert etternavn, fornavn, patronym, telefonnummer (hjemme eller mobil), personlig e-postadresse. 3.1.2. Data som automatisk overføres til nettstedets tjenester under deres bruk ved hjelp av programvare installert på brukerens enhet, inkludert IP-adresse, informasjon fra informasjonskapsler, informasjon om brukerens nettleser (eller annet program som tjenestene får tilgang til). 3.2. Operatøren verifiserer ikke nøyaktigheten av personopplysningene oppgitt av brukeren. I dette tilfellet forutsetter Operatøren at Brukeren gir pålitelig og tilstrekkelig personlig informasjon om spørsmålene som foreslås i Inndatafeltene. 4. Formål, regler for innsamling og bruk av personopplysninger 4.1. Operatøren behandler personopplysninger som er nødvendige for å yte tjenester og yte tjenester til Brukeren. 4.2. Brukerens personopplysninger brukes av Operatøren til følgende formål: 4.2.1. Brukeridentifikasjon; 4.2.2. Gi brukeren personlige tjenester (i tillegg til å informere om nye kampanjer og tjenester fra selskapet ved å sende brev); 4.2.3. Opprettholde kontakt med brukeren om nødvendig, inkludert å sende varsler, forespørsler og informasjon knyttet til bruk av tjenester, levering av tjenester, samt behandling av forespørsler og søknader fra brukeren; 4.3. Under behandlingen av personopplysninger vil følgende handlinger bli utført: innsamling, registrering, systematisering, akkumulering, lagring, avklaring (oppdatering, endring), utvinning, bruk, blokkering, sletting, destruksjon. 4.4. Brukeren protesterer ikke mot at informasjonen spesifisert av ham i visse tilfeller kan gis til autoriserte statlige organer i den russiske føderasjonen i samsvar med gjeldende lovgivning i den russiske føderasjonen. 4.5. Brukerens personopplysninger lagres og behandles av Operatøren på den måten som er angitt i denne Avtalen for hele aktivitetsperioden for Operatøren. 4.6. Behandlingen av personopplysninger utføres av Operatøren ved å vedlikeholde databaser, automatiserte, mekaniske og manuelle metoder. 4.7. Nettstedet bruker informasjonskapsler og andre teknologier for å spore bruken av nettstedets tjenester. Disse dataene er nødvendige for å optimalisere den tekniske driften av nettstedet og forbedre kvaliteten på tjenesteytelsen. Nettstedet registrerer automatisk informasjon (inkludert URL, IP-adresse, nettlesertype, språk, dato og klokkeslett for forespørselen) om hver besøkende til nettstedet. Brukeren har rett til å nekte å oppgi personopplysninger når han besøker nettstedet eller deaktivere informasjonskapsler, men i dette tilfellet kan det hende at ikke alle funksjoner på nettstedet fungerer som de skal. 4.8. Konfidensialitetsbetingelsene gitt i denne avtalen gjelder for all informasjon som operatøren kan få om brukeren under sistnevntes opphold på nettstedet og bruk av nettstedet. 4.9. Informasjon som offentliggjøres under gjennomføringen av denne avtalen, samt informasjon som kan innhentes av partene eller tredjeparter fra kilder som enhver person har fri tilgang til, er ikke konfidensiell. 4.10. Operatøren tar alle nødvendige tiltak for å beskytte konfidensialiteten til brukerens personlige data fra uautorisert tilgang, modifikasjon, avsløring eller ødeleggelse, inkludert: å sikre konstant intern verifisering av prosessene for innsamling, lagring og behandling av data og sikring av sikkerhet; sikrer fysisk sikkerhet av data, forhindrer uautorisert tilgang til tekniske systemer som sikrer driften av nettstedet, der operatøren lagrer personopplysninger; gir tilgang til personopplysninger kun til de ansatte hos Operatøren eller autoriserte personer som trenger denne informasjonen for å utføre oppgaver direkte knyttet til levering av tjenester til brukeren, samt drift, utvikling og forbedring av nettstedet. 4.11. Brukerens personopplysninger forblir konfidensielle, unntatt i tilfeller der brukeren frivillig gir informasjon om seg selv for generell tilgang til et ubegrenset antall personer. 4.12. Operatørens overføring av brukerens personopplysninger er lovlig under omorganiseringen av operatøren og overføringen av rettigheter til operatørens juridiske etterfølger, mens alle forpliktelser til å overholde vilkårene i denne avtalen i forhold til personopplysningene han mottar er overført til rettsetterfølgeren. 4.13. Denne erklæringen gjelder kun for operatørens nettsted. Selskapet kontrollerer ikke og er ikke ansvarlig for tredjeparts nettsteder (tjenester) som brukeren kan få tilgang til via lenker tilgjengelig på operatørens nettsted, inkludert i søkeresultater. På slike nettsteder (tjenester) kan annen personlig informasjon samles inn eller forespørres fra brukeren, og andre handlinger kan utføres 5. Rettigheter til brukeren som gjenstand for personopplysninger, endring og sletting av personopplysninger av brukeren 5.1. Brukeren har rettighetene: 5.1.2. Krev at Operatøren klargjør sine personopplysninger, blokkerer dem eller ødelegger dem hvis personopplysningene er ufullstendige, utdaterte, unøyaktige, ulovlig innhentet eller ikke er nødvendige for det angitte formålet med behandlingen, og også iverksette tiltak fastsatt ved lov for å beskytte hans rettigheter. 5.1.3. Motta informasjon om behandlingen av hans personopplysninger, inkludert informasjon som inneholder: 5.1.3.1. bekreftelse på at operatøren har behandlet personopplysninger; 5.1.3.2. formålene og metodene for å behandle personopplysninger som brukes av operatøren; 5.1.3.3. navn og plassering til operatøren; 5.1.3.4. behandlet personopplysninger relatert til det relevante emnet for personopplysninger, kilden til mottakelsen, med mindre en annen prosedyre for presentasjon av slike data er fastsatt i føderal lov; 5.1.3.5. vilkår for behandling av personopplysninger, inkludert perioder med lagring av dem; 5.1.3.6. annen informasjon gitt av gjeldende lovgivning i den russiske føderasjonen. 5.2. Tilbaketrekking av samtykke til behandling av personopplysninger kan utføres av brukeren ved å sende operatøren en passende skriftlig (trykt på et håndfast medium og signert av brukeren) varsel. 6. Operatørens ansvar. Tilgang til personopplysninger 6.1. Operatøren forplikter seg til å sikre forebygging av uautorisert og ikke-målrettet tilgang til personopplysninger til brukere av operatørens nettsted. I dette tilfellet vil autorisert og målrettet tilgang til personopplysningene til nettstedsbrukere anses som tilgang til dem av alle interesserte parter, implementert innenfor rammen av målene og emnet for operatørens nettsted. Samtidig er Operatøren ikke ansvarlig for mulig misbruk av Brukernes personopplysninger som oppstår som følge av: tekniske problemer i programvaren og i maskinvare og nettverk utenfor Operatørens kontroll; i forbindelse med tilsiktet eller utilsiktet bruk av operatørens nettsteder annet enn for deres tiltenkte formål av tredjeparter; 6.2 Operatøren tar nødvendige og tilstrekkelige organisatoriske og tekniske tiltak for å beskytte brukerens personopplysninger mot uautorisert eller utilsiktet tilgang, ødeleggelse, modifikasjon, blokkering, kopiering, distribusjon, samt fra andre ulovlige handlinger fra tredjeparter med den. 7. Endringer i personvernreglene. Gjeldende lovgivning 7.1. Operatøren har rett til å gjøre endringer i denne forskriften uten særskilt varsel til brukerne. Når det gjøres endringer i gjeldende utgave, vises datoen for siste oppdatering. Den nye utgaven av forskriften trer i kraft fra publiseringsøyeblikket, med mindre annet følger av den nye utgaven av forskriften. 7.2. Loven i den russiske føderasjonen skal gjelde for denne forordningen og forholdet mellom brukeren og operatøren som oppstår i forbindelse med anvendelsen av forordningen. Jeg aksepterer jeg godtar ikke

Vi er ikke så unike som vi tror: millioner av mennesker før oss forundret og millioner etter oss vil forvirre søkemotoren med nesten identiske spørsmål. På den annen side er vi for uforutsigbare: Formuleringen av forespørselen vår påvirkes av et stort antall faktorer som vi ikke er klar over. Og i det minste av denne grunn krever forespørselen fra hver enkelt av oss, uansett hvor banal den måtte være, en individuell tilnærming.

Faktisk kommer hele arbeidet til Yandex-søkemotoren ned til to enkle ting: å forstå hva en person virkelig vil vite, og på noen få sekunder å finne passende blant milliarder av dokumenter på Internett.

Ta fingeravtrykk

Søkemotorens operativsystem ligner noe på Matrix, og søkeroboten (det komplekse, uavhengige beslutningsprogrammet den opprettet) ligner på Agent Smith.

For ikke å søke på hele Internett hver gang noen trenger å vite noe, gjør søkemotoren en del av arbeidet på forhånd – den sjekker hva som er på nettet og hvor det er, ved hjelp av tusenvis av søkeroboter. De kommer i to typer: grunnleggende og raske. Den viktigste gjennomsøker og behandler Internett som helhet, og den raske - dokumenter som dukket opp for et minutt eller til og med et par sekunder siden. Robotprogrammenes oppgave er å velge egnet og nyttig informasjon for brukerne, behandle den, luke ut alt utdatert og unødvendig. På noen måter minner dette om å sortere søppel: papir i en beholder, glass i en annen, plast i en tredje, matavfall i en fjerde...

Informasjonen som samles inn av roboter utgjør den såkalte internett-casten. Den er lagret på tusenvis av Yandex-servere og oppdateres kontinuerlig. En nugget er som en liste som forteller deg hvor du finner hvilken informasjon. I denne listen har hvert søkeord ikke én, men millioner av "sider". For å sikre at alle nuggetoppdateringer er tilgjengelige for brukere, flyttes de fra depotet til "basesøket". Data fra hovedroboten overføres med noen få dagers mellomrom, og fra den raske roboten – i sanntid.

Ta med rent vann

ILLUSTRASJON: EVGENY TONKONOGY

Mens den søker etter svaret på et gitt spørsmål i en forberedt database, står maskinen overfor to hovedvansker. Den første vanskeligheten er språket. Før du leter etter svar på et spørsmål, er det viktig for maskinen å forstå på hvilket språk den skal gjøre det. For eksempel, for en russisktalende person, vil søket etter "Prins Igors tropp" finne dokumenter med informasjon om hæren, og for en ukrainer vil "Prins Igors tropp" også returnere dokumenter som nevner prinsesse Olga, hans kone, siden på ukrainsk er "kone" "lag". Og i det rike russiske språket kan det samme ordet eller dets derivater bety forskjellige ting. For eksempel er ordet "stål" en av formene for substantivet "stål" og verbet "bli". Den andre vanskeligheten er menneskelig psykologi. Når vi legger inn en forespørsel, forventer vi et raskt og nøyaktig svar, uten naturlig å bekymre oss for om ordlyden i forespørselen samsvarer med prinsippene for matematisk analyse som maskinens hjerne fungerer etter. For eksempel, ved å skrive inn ordet "Napoleon" i søkefeltet, hva ønsker en person å få: en kakeoppskrift eller en biografi om den franske keiseren, kjøpe konjakk eller finne adressen til et psykiatrisk sykehus?

I slike situasjoner spiller flere teknologier inn. Du kan gi deg flere hint under søkefeltet som spesifiserer forespørselen din. Som, velg det du trenger: Napoleon-oppskrifter eller Napoleon - Bonaparte. Hvis brukeren ikke svarer på maskinens forespørsel og ikke legger til ord til "Napoleon", hjelper "Spectrum" -teknologien saken: uten å håpe på hjelp, søker maskinen umiddelbart etter informasjon i flere kategorier (om kaken, og om keiseren, og om hesten). ...). I tillegg hjelper personaliseringsmekanismer til å forstå brukeren - maskinens kunnskap om hva denne brukeren lette etter på datamaskinen sin for en dag, to, tre eller måneder siden: hvis du ofte stilte Yandex-spørsmål om matlaging, vil maskinen først vise resultater som sier at Napoleon er en kake.

Kombinasjoner: interesseklubber

Oppgaven til en søkemotor er ikke bare å velge dokumenter som inneholder ord og uttrykk fra søket. Maskinen må forstå hvilke dokumenter som oppfyller våre motstridende krav og hvorfor de oppfyller dem. Ønsker vi å få informasjon om kaken Napoleon, eller kanskje vi besøkte en treningsklubb med et pretensiøst navn i et par år, eller er til og med helt bekymret for kompleksene til lave mennesker. I alle fall krever løsning av problemet en ikke-triviell tilnærming.

Skaperne av Yandex-søkeprogrammet fant denne tilnærmingen ved å delegere valgretten til maskinen. På den ene siden, en sjelløs, men veldig rask og smart maskin vet ikke og vil ikke vite noe om oss som individer, og på den andre siden prøver den å finne ut så mye som mulig om alle.

I tillegg til den geografiske plasseringen til brukeren og språklig analyse av søkene hans, bruker søkemotoren flere tusen kriterier som slett ikke er åpenbare for mennesker.

Trikset er at maskinen utvikler og oppdaterer disse kriteriene uavhengig.

Den bruker ganske enkelt data om preferansene og brukeratferden til millioner av mennesker og relaterer dette "aritmetiske gjennomsnittet" til historien til søkene våre. Prinsippene som styrer matrisen i seg selv, og sammenligner de tusenvis av kategorier av brukerinteresser den har utviklet, passer ofte ikke inn i tradisjonelle menneskelige ideer om hva "interesser" i prinsippet kan være. Det er titusenvis av dem. De skaper forskjellige, noen ganger morsomme, kombinasjoner med hverandre. En av disse kombinasjonene kan for eksempel være at søkeresultater samsvarer med interessene til en person som avler salamander. Samtidig er en person ikke bare interessert i salamander, men avler dem allerede, men bare det første året.

Vurderinger. Hjelpende hender

Matrisen bestemmer selvfølgelig selv (ved hjelp av høyere matematikk) hva og i hvilken rekkefølge som skal vises til brukere basert på titusenvis av kriterier. Men Matrix bruker også levende mennesker - 1000 Yandex-ansatte, de såkalte assessorene, evaluerer søkeresultatene for en bestemt forespørsel (selvfølgelig blir ikke alle forespørselen evaluert, og dette gjøres ikke i sanntid) for å avgjøre om de oppfyller forventninger til en vanlig bruker: ikke så rasjonell som en maskin, ikke så presis i formuleringen, motstridende og følelsesmessig.