në shtëpi Pajisjet

Motorët e kërkimit në internet: Yandex, Google, Rambler, Yahoo. Përbërja, funksionet, parimi i funksionimit. Përshkrimi më i thjeshtë i parimit të funksionimit të motorit të kërkimit Yandex Kombinimet: klubet e interesit

Pershendetje te dashur miq! Në këtë artikull do të vazhdojmë të shikojmë motorin e kërkimit Yandex, dhe siç e mbani mend, në artikujt e mëparshëm kemi diskutuar historinë e krijimit të kësaj kompanie të madhe, e cila renditet e para ndër konkurrentët e saj në Rusi dhe më gjerë.

E gjithë kjo është e mirë, por fillestarët dhe ndërtuesit me përvojë të faqeve janë të interesuar për pyetjen më të rëndësishme, natyrisht, në lidhje me mënyrën se si t'i sjellin projektet e tyre në vendet e para në rezultatet e kërkimit TOP.

Prandaj, le të shohim se si funksionon motori i kërkimit Yandex për të kuptuar se cilat gabime mund të shkelni dhe çfarë të prisni nga një motor kërkimi rus në përgjithësi.

Në artikullin e fundit që diskutuam. Tema doli të jetë mjaft interesante dhe e dobishme. Prandaj vendosa ta plotësoj, ta thelloj, si të thuash.

Pra, mendoj se jam rrëmbyer me pyetjen "Pse një motor kërkimi indekson dokumente"? Gjithçka që mbetet është të kuptojmë pyetjen "si".

Algoritmet e renditjes së faqeve në internet

Së pari, le të njihemi me disa algoritme që janë thelbësore për çdo motor kërkimi:

— Algoritmi i kërkimit të drejtpërdrejtë.

Çfarë është - ju kujtohet se keni lexuar një histori të mrekullueshme në një nga librat. Dhe ju filloni të shikoni një nga një. Morën një libër, e shikuan, nuk e gjetën, morën një tjetër... Parimi është i qartë, por kjo metodë është jashtëzakonisht e gjatë. Kjo është gjithashtu e kuptueshme.

— Algoritmi i kërkimit të kundërt.

Për këtë algoritëm, krijohet një skedar teksti nga çdo faqe e blogut tuaj. Ky skedar rendit sipas rendit alfabetik TË GJITHA fjalët që keni përdorur. Edhe pozicioni i kësaj fjale në tekst tregohet (koordinatat në tekst).

Kjo është një metodë mjaft e shpejtë, por kërkimi tashmë ndodh me disa gabime.

Gjëja kryesore për të kuptuar këtu është se ky algoritëm nuk kërkon në internet, jo duke kërkuar në një blog. Dhe në një skedar teksti të veçantë që u krijua shumë kohë më parë. Kur roboti erdhi tek ju. Dhe këta skedarë (indekset e kundërta) ruhen në serverët Yandex.

Pra, këto ishin algoritmet bazë të kërkimit. Ato. se si Yandex thjesht gjen dokumentet e nevojshme. Nuk duhet të duket se ka ndonjë problem me këtë.

Por Yandex njeh më shumë se një apo edhe 100 dokumente, por sipas të dhënave më të fundit nga burimet e mia, Yandex di rreth 11 miliardë dokumente (10,727,736,489 faqe).

Dhe midis gjithë kësaj sasie, ju duhet të zgjidhni dokumente që përputhen me kërkesën. Dhe më e rëndësishmja, ju duhet t'i renditni disi ato. Ato. rregulloni sipas shkallës së rëndësisë, ose më saktë sipas shkallës së dobisë për lexuesin.

Modelet e kërkimit matematik

Për të zgjidhur këtë çështje, modelet matematikore vijnë në shpëtim. Tani do të flasim për modelet më të thjeshta.

Modeli matematikor Boolean– Nëse një fjalë shfaqet në një dokument, dokumenti konsiderohet i gjetur. Thjesht një rastësi dhe asgjë e komplikuar.

Por këtu ka probleme. Për shembull, nëse ju, si përdorues, vendosni ndonjë fjalë të njohur, ose edhe më mirë, parafjalën "v", e cila është fjala më e zakonshme në gjuhën ruse dhe gjendet në ÇDO dokument, atëherë do t'ju jepen kaq shumë rezultate. që as nuk e kupton një numër të tillë, sa dokumente ke gjetur? Prandaj, u shfaq modeli i mëposhtëm i mat.

Modeli matematik vektorial– ky model përcakton “peshën” e dokumentit. Jo vetëm që ndodh rastësia, por fjala duhet të ndodhë disa herë. Për më tepër, sa më shumë të shfaqet një fjalë, aq më e lartë është relevanca (përputhshmëria).

Është modeli vektor që përdorin TË GJITHA motorët e kërkimit.

Modeli probabilist- më komplekse. Parimi është ky: motori i kërkimit gjeti vetë shabllonin e faqes. Për shembull, po kërkoni informacione rreth historisë së Yandex. Yandex ruan një lloj standardi, le të themi se ky do të jetë artikulli im i mëparshëm për Yandex.

Dhe ai do të krahasojë të gjitha dokumentet e tjera me këtë artikull. Dhe logjika këtu është kjo: sa më e ngjashme të jetë faqja juaj e blogut me artikullin tim, aq më e mundshme është fakti që faqja juaj e blogut do të jetë gjithashtu e dobishme për lexuesin dhe gjithashtu tregon për historinë e Yandex.

Për të zvogëluar numrin e dokumenteve që duhet t'i shfaqen përdoruesit, u prezantua koncepti i rëndësisë, d.m.th. pajtueshmërisë.

Sa e përshtatshme është faqja juaj e blogut me temën? Kjo është një temë e rëndësishme kur bëhet fjalë për cilësinë e kërkimit.

Vlerësuesit - kush janë ata dhe për çfarë janë përgjegjës?

Kjo rëndësi është gjithashtu e nevojshme për të vlerësuar cilësinë e algoritmeve.

Për këtë qëllim ekziston një shtab i forcave speciale - ata quhen Vlerësues. Këta janë njerëz të veçantë që shikojnë rezultatet e kërkimit me duart e tyre.

Ata kanë udhëzime se si të kontrollojnë faqet, si të vlerësojnë, etj. Dhe ata përcaktojnë manualisht nëse faqet tuaja janë të përshtatshme për pyetje kërkimi apo jo.

Dhe cilësia e algoritmeve të kërkimit varet nga mendimi i vlerësuesve. Nëse të gjithë vlerësuesit thonë se rezultatet e kërkimit nuk korrespondojnë me kërkesat, kjo do të thotë se algoritmi i renditjes është i pasaktë dhe Yandex është i vetmi fajtor.

Nëse vlerësuesit thonë se vetëm një faqe nuk e plotëson kërkesën, kjo do të thotë se faqja fluturon diku larg dhe është ulur në rezultatet e kërkimit. Më saktësisht, jo i gjithë faqja, por vetëm një artikull, por kjo nuk është "çështja".

Sigurisht, vlerësuesit nuk mund t'i shqyrtojnë dhe vlerësojnë TË GJITHË artikujt me duart dhe sytë e tyre. Kjo është e kuptueshme.

Dhe parametrat e tjerë me të cilët renditen faqet vijnë në shpëtim.

Ka shumë prej tyre, për shembull:

pesha e faqes (vIC, PageRank, gunga bebesh Në përgjithësi);
autoriteti i domenit;
rëndësia e tekstit me kërkesën;
rëndësia e teksteve të lidhjeve të jashtme me pyetjen;
si dhe shumë faktorë të tjerë të renditjes.

Vlerësuesit bëjnë komente, dhe njerëzit që janë përgjegjës për vendosjen e modelit të renditjes matematikore, nga ana tjetër, redaktojnë formulën, si rezultat i së cilës motori i kërkimit funksionon në mënyrë më efikase.

Kriteret kryesore për vlerësimin e performancës së formulës:

1. Saktësia e rezultateve të motorit të kërkimit- përqindja e dokumenteve që përputhen me kërkesën (përkatëse). Ato. Sa më pak faqe që nuk përputhen me kërkesën, aq më mirë.

2. Plotësia e rezultateve të motorit të kërkimit- ky është raporti i faqeve përkatëse të internetit për një pyetje të caktuar me numrin total të dokumenteve përkatëse në koleksion (tërësia e faqeve të gjetura në motorin e kërkimit).

Për shembull, nëse ka më shumë faqe përkatëse në të gjithë koleksionin sesa në rezultatet e kërkimit, kjo do të thotë se rezultatet janë të paplota. Kjo ndodhi sepse disa nga faqet përkatëse të internetit ishin filtruar.

3. Rëndësia e rezultateve të motorit të kërkimit- kjo është përputhshmëria e faqes së internetit me atë që shkruhet në fragment. Për shembull, një dokument mund të jetë shumë i ndryshëm ose të mos ekzistojë fare, por gjithsesi të jetë i pranishëm në rezultatet e kërkimit.

Rëndësia e rezultateve të kërkimit varet drejtpërdrejt nga sa shpesh roboti i kërkimit skanon dokumente nga koleksioni i tij.

Mbledhja e koleksionit (indeksimi i faqeve të faqes) kryhet nga një program i veçantë - një robot kërkimi.

Roboti i kërkimit merr një listë adresash për indeksim, i kopjon ato dhe më pas i dërgon përmbajtjet e faqeve të kopjuara të internetit për përpunim në një algoritëm që i konverton ato në indekse të kundërta.

Epo, "me pak fjalë", si të thuash, ne diskutuam parimet e motorit të kërkimit.

Le të përmbledhim:

Një robot kërkimi vjen në blogun tuaj.
Roboti i kërkimit ruan indeksin e kundërt të faqes për kërkimet e mëvonshme.
Duke përdorur një model matematikor, dokumenti përpunohet dhe shfaqet në rezultatet e kërkimit duke përdorur formula dhe duke marrë parasysh mendimin e vlerësuesit.

Kjo është shumë, shumë e thjeshtuar. Vetëm për të marrë një kuptim bazë se si funksionon motori i kërkimit Yandex.

Tani kam shkruar kaq shumë tekst, dhe ndoshta kaq shumë nuk është e qartë. Prandaj, ju sugjeroj t'i ktheheni këtij artikulli pak më vonë dhe të shikoni këtë video.

Ky është një udhëzues i shkëlqyeshëm, nga i cili kam mësuar edhe në një kohë.

Shpresoj se ky informacion do t'ju ndihmojë të kuptoni më mirë pse një nga faqet tuaja zë pozicionet e duhura në kërkime dhe të bëni gjithçka për t'i përmirësuar ato.

Me këtë ju them lamtumirë, nëse keni ndonjë pyetje, jam gjithmonë i lumtur t'u përgjigjem atyre në komente. Apo ndoshta dëshironi të shtoni në artikull?

Në çdo rast, shprehni mendimin tuaj. !

Yandex, sot, është motori më i popullarizuar i kërkimit në Rusi. Statistikat e shërbimit LiveInternet, tregon pjesën e Yandex në masën e audiencës gjithë-ruse - është 53.4%, nëse marrim parasysh vetëm Moskën dhe rajonin, atëherë është edhe më e lartë - 67.9% (Moska, sipas kërkesave, zë më shumë se 50% e gjithë Rusisë).

Faqja e internetit www.yandex.ru u krijua në 1997 për të mjaftonte vetëm një server, i cili qëndronte nën desktopin e njërit prej zhvilluesve të parë Yandex, Dmitry, mbiemri i të cilit ishte Teiblyum. Shumë shpejt pas hapjes, blemë një server të dytë dhe së shpejti, kur ishte e nevojshme të instalohej një tjetër, u bë e qartë se kishte hapësirë të mjaftueshme nën tryezë ose për tre serverë Yandex, ose […]

Zhvilluesit e motorëve të kërkimit përpiqen t'u ofrojnë përdoruesve përgjigjet më të mira për pyetjet e tyre. Ndonjëherë një përgjigje e tillë mund të jetë një numër (për shembull, moti në një qytet), një fotografi (për shembull, një adresë në një hartë), një përkthim i një fjale ose një katrain. Kur keni në dorë një grup të përshtatshëm informacioni, përgjigja mund të jepet menjëherë. Prandaj, Yandex plotëson rezultatet e kërkimit në internet me përgjigje nga […]

Përafërsisht çdo kërkesë e dhjetë për Yandex është "lundruese", domethënë përbëhet nga emri i një organizate ose uebsajti dhe përdoruesi dëshiron të shkojë në faqen e internetit të kësaj organizate. Në këtë rast, shiriti i kërkimit Yandex përdoret në vend të shiritit të adresave të shfletuesit dhe përdoruesi, si rregull, nuk është i interesuar për nëntë rezultatet e kërkimit të mbetur. Pa e shpërqendruar përdoruesin nga qëllimi kryesor, ne shtuam pas kryesore […]

Detyra kryesore e një motori kërkimi është t'i përgjigjet pyetjes së përdoruesit. Kur një përdorues bën një pyetje, motori i kërkimit nuk hyn në çdo faqe në internet, por kërkon përmes një baze të dhënash të faqeve të njohura për të - indeksi i kërkimit. Aty ajo gjen të gjitha faqet me fjalët nga pyetja. Përdoruesi shikon lidhjet me këto faqe në faqet e rezultateve të kërkimit.

Siç e shohim, Yandex nuk qëndron ende, dhe jam i sigurt se teknologjitë e kërkimit të këtij sistemi do të vazhdojnë të zhvillohen për të përmirësuar cilësinë e kërkimit, i cili vështirë se mund të quhet ende ideal.

Më 10 nëntor 2009, Yandex njoftoi një version të ri të algoritmit të kërkimit - Snezhinsk. Ndryshime thelbësore kanë ndodhur në algoritmin për llogaritjen e rëndësisë - përfaqësuesit e Yandex shkruan si më poshtë: "Ne arritëm të krijonim një model matematikor më të saktë dhe shumë më kompleks, i cili çoi në një rritje të konsiderueshme të cilësisë së kërkimit. Falë ridizajnimit të arkitekturës së renditjes së kërkimit, u bë e mundur të zbatohej llogaritja e disa mijëra [...]

Testimi i versionit të ri të algoritmit Yandex filloi më 9 korrik 2008. Sipas Yandex, "ndryshimet kryesore në program lidhen me një qasje të re për mësimin e makinerive dhe, si rezultat, ndryshimet në mënyrën se si faktorët e renditjes merren parasysh në formulë".

Më 14 Prill 2008, algoritmi i ri i kërkimit "Magadan" filloi të testohej në adresën buki.yandex.ru. Përveç dyfishimit të numrit të faktorëve të renditjes, u shtuan edhe risitë e mëposhtme:

Përpara se të futemi në xhunglën algoritmike, le të kujtojmë se si funksionon një motor kërkimi në përgjithësi. Struktura logjike e një sistemi kërkimi mund të përfaqësohet në formën e tre moduleve (shih diagramin) Roboti (zvarritës) është një program i veçantë që zvarritet faqet e internetit dhe shkarkon përmbajtjen e tyre. Roboti ka një orar të veçantë sipas të cilit ai kryen raundet e tij. Faqet e faqeve të ngarkuara nga një robot, një i veçantë [...]

66. Çfarë ka më shumë ndikim: një lidhje nga një platformë falas (blogspot, LJ, etj.) apo nga një sajt/blog offline? Platformat falas transferojnë më pak peshë sesa faqet e pavarura. Megjithatë, ndikimi mund të jetë më i madh. Kjo është për shkak të shumë faktorëve: lista aktuale e ankorimit, gjendja e vendeve që krahasohen, etj. Është e pamundur t'i japësh një përgjigje të qartë kësaj pyetjeje. 67. Pesha më e madhe transferohet ndërmjet […]

Turneu Vamana - udhëtime, bileta ajrore dhe viza nëpër botë dhe në Indi, Nepal, Sri Lanka, Maldive, Mauritius dhe shumë vende të tjera të planetit. Këshilla për udhëtarët dhe pelegrinët. Si të përfitoni sa më shumë nga udhëtimi juaj. Kronika të mahnitshme historike dhe histori të udhëtarëve me përvojë.

Cili është qëllimi i marrjes parasysh të lidhjeve të jashtme në një sajt Siç mund ta shihni nga pjesa e mëparshme, pothuajse të gjithë faktorët që ndikojnë në renditjen janë nën kontrollin e autorit të faqes? Kështu, bëhet e pamundur për një motor kërkimi të dallojë një dokument vërtet të cilësisë së lartë nga një faqe e krijuar posaçërisht për një frazë kërkimi të caktuar ose edhe një faqe e krijuar nga një robot që nuk përmban fare informacion të dobishëm. […]

Ata janë bërë prej kohësh një pjesë integrale e internetit rus. Motorët e kërkimit tani janë mekanizma të mëdhenj dhe kompleks që përfaqësojnë jo vetëm një mjet kërkimi informacioni, por edhe zona joshëse për biznesin.

Shumica e përdoruesve të motorëve të kërkimit nuk kanë menduar kurrë (ose kanë menduar për të, por nuk kanë gjetur një përgjigje) për parimin e funksionimit të motorëve të kërkimit, për skemën e përpunimit të kërkesave të përdoruesve, se nga përbëhen këto sisteme dhe si funksionojnë ato ...

Kjo klasë master është krijuar për t'iu përgjigjur pyetjes se si funksionojnë motorët e kërkimit. Megjithatë, këtu nuk do të gjeni faktorë që ndikojnë në renditjen e dokumenteve. Për më tepër, nuk duhet të mbështeteni në një shpjegim të hollësishëm të algoritmit Yandex. Ai, sipas Ilya Segalovich, drejtori i teknologjisë dhe zhvillimit të motorit të kërkimit Yandex, mund të njihet "nën torturë" vetëm nga vetë Ilya Segalovich ...

2. Koncepti dhe funksionet e një motori kërkimi

Një sistem kërkimi është një kompleks softuerësh dhe harduerësh i krijuar për të kërkuar në internet dhe për t'iu përgjigjur një kërkese të përdoruesit, të specifikuar në formën e një fraze teksti (pyetje kërkimi), duke prodhuar një listë lidhjesh me burimet e informacionit, sipas rëndësisë ( në përputhje me kërkesën). Motorët më të mëdhenj ndërkombëtarë të kërkimit: "Google", Yahoo, MSN. Në internetin rus këto janë Yandex, Rambler, Aport.

Le të hedhim një vështrim më të afërt në konceptin e një pyetje kërkimi duke përdorur motorin e kërkimit Yandex si shembull. Pyetja e kërkimit duhet të formulohet nga përdoruesi në përputhje me atë që ai dëshiron të gjejë, sa më shkurt dhe thjesht të jetë e mundur. Le të themi se duam të gjejmë informacion në Yandex se si të zgjedhim një makinë. Për ta bërë këtë, hapni faqen kryesore të Yandex dhe shkruani tekstin e pyetjes së kërkimit "si të zgjidhni një makinë". Më pas, detyra jonë zbret në hapjen e lidhjeve të dhëna me kërkesën tonë për burimet e informacionit në internet. Megjithatë, është shumë e mundur që ne të mos gjejmë informacionin që na nevojitet. Nëse kjo ndodh, atëherë ose ju duhet të riformuloni kërkesën tuaj, ose baza e të dhënave të motorit të kërkimit me të vërtetë nuk ka ndonjë informacion përkatës për kërkesën tonë (kjo mund të ndodhë kur bëni pyetje shumë "të ngushta", të tilla si, për shembull, "si të zgjidhni një makinë në Arkhangelsk")

Qëllimi kryesor i çdo motori kërkimi është t'u japë njerëzve saktësisht informacionin që ata kërkojnë. Dhe mësojini përdoruesit të bëjnë kërkesa "korrekte" në sistem, d.m.th. pyetjet që përputhen me parimet e funksionimit të motorëve të kërkimit janë të pamundura. Prandaj, zhvilluesit krijojnë algoritme dhe parime funksionimi për motorët e kërkimit që do t'i lejojnë përdoruesit të gjejnë informacionin që kërkojnë.

Kjo do të thotë që motori i kërkimit duhet të "mendojë" në të njëjtën mënyrë që përdoruesi mendon kur kërkon informacion. Kur një përdorues i bën një kërkesë një motori kërkimi, ai dëshiron të gjejë atë që i nevojitet sa më shpejt dhe me lehtësi. Duke marrë rezultatin, ai vlerëson performancën e sistemit, i udhëhequr nga disa parametra bazë. A e gjeti atë që kërkonte? Nëse nuk e gjente, sa herë i duhej të riformulonte pyetjen për të gjetur atë që kërkonte? Sa informacion të rëndësishëm mund të gjente ai? Sa shpejt e përpunoi motori i kërkimit kërkesën? Sa të përshtatshme janë paraqitur rezultatet e kërkimit? Rezultati që po kërkonit ishte i pari apo i qindti? Sa mbeturina të panevojshme u gjetën së bashku me informacione të dobishme? A do të gjendet informacioni i nevojshëm kur të hyni në një motor kërkimi, të themi, brenda një jave apo në një muaj?

Për të kënaqur të gjitha këto pyetje me përgjigje, zhvilluesit e motorëve të kërkimit po përmirësojnë vazhdimisht algoritmet dhe parimet e kërkimit, duke shtuar funksione dhe aftësi të reja dhe duke u përpjekur në çdo mënyrë të mundshme të përshpejtojnë funksionimin e sistemit.

3. Karakteristikat kryesore të motorit të kërkimit

Le të përshkruajmë karakteristikat kryesore të motorëve të kërkimit:

Plotësia
Plotësia është një nga karakteristikat kryesore të një sistemi kërkimi, i cili është raporti i numrit të dokumenteve të gjetura sipas kërkesës me numrin e përgjithshëm të dokumenteve në internet që plotësojnë kërkesën e dhënë. Për shembull, nëse ka 100 faqe në internet që përmbajnë shprehjen "si të zgjidhni një makinë", dhe vetëm 60 prej tyre u gjetën për pyetjen përkatëse, atëherë plotësia e kërkimit do të jetë 0.6. Natyrisht, sa më i plotë të jetë kërkimi, aq më pak ka gjasa që përdoruesi të mos gjejë dokumentin që i nevojitet, me kusht që ai të ekzistojë fare në internet.
Saktësia
Saktësia është një tjetër karakteristikë kryesore e një motori kërkimi, e cila përcaktohet nga shkalla në të cilën dokumentet e gjetura përputhen me pyetjen e përdoruesit. Për shembull, nëse pyetja "si të zgjidhni një makinë" përmban 100 dokumente, 50 prej tyre përmbajnë shprehjen "si të zgjidhni një makinë", dhe pjesa tjetër përmban thjesht këto fjalë ("si të zgjidhni radion e duhur dhe ta instaloni atë në një makinë”), atëherë saktësia e kërkimit konsiderohet e barabartë me 50/100 (=0,5). Sa më i saktë të jetë kërkimi, aq më shpejt përdoruesi do të gjejë dokumentet që i nevojiten, aq më pak lloje të ndryshme "plehrash" do të gjenden midis tyre, aq më rrallë dokumentet e gjetura nuk do të korrespondojnë me kërkesën.
Rëndësia
Relevanca është një komponent po aq i rëndësishëm i kërkimit, i cili karakterizohet nga koha që kalon nga momenti i publikimit të dokumenteve në internet derisa ato të futen në bazën e të dhënave të indeksit të motorit të kërkimit. Për shembull, një ditë pas shfaqjes së lajmeve interesante, një numër i madh përdoruesish iu drejtuan motorëve të kërkimit me pyetje përkatëse. Objektivisht, ka kaluar më pak se një ditë nga publikimi i informacionit të lajmeve për këtë temë, por dokumentet kryesore tashmë janë indeksuar dhe të disponueshme për kërkim, falë ekzistencës së të ashtuquajturës "bazë të dhënash të shpejtë" të motorëve të mëdhenj të kërkimit, e cila përditësohet disa herë në ditë.
Shpejtësia e kërkimit
Shpejtësia e kërkimit është e lidhur ngushtë me rezistencën e saj të ngarkesës. Për shembull, sipas Rambler Internet Holding LLC, sot, gjatë orarit të punës, motori i kërkimit Rambler merr rreth 60 kërkesa në sekondë. Një ngarkesë e tillë kërkon zvogëlimin e kohës së përpunimit të një kërkese individuale. Këtu interesat e përdoruesit dhe motorit të kërkimit përkojnë: vizitori dëshiron të marrë rezultate sa më shpejt që të jetë e mundur, dhe motori i kërkimit duhet të përpunojë kërkesën sa më shpejt që të jetë e mundur, në mënyrë që të mos ngadalësojë llogaritjen e pyetjeve të mëvonshme.
Dukshmëria

4. Histori e shkurtër e zhvillimit të motorëve të kërkimit

Në periudhën fillestare të zhvillimit të internetit, numri i përdoruesve të tij ishte i vogël dhe sasia e informacionit të disponueshëm ishte relativisht e vogël. Në pjesën më të madhe, vetëm personeli kërkimor kishte akses në internet. Në këtë kohë, detyra e kërkimit të informacionit në internet nuk ishte aq urgjente sa është tani.

Një nga mënyrat e para për të organizuar aksesin në burimet e informacionit të rrjetit ishte krijimi i drejtorive të hapura të faqeve, lidhjet me burimet në të cilat grupoheshin sipas temës. Projekti i parë i tillë ishte faqja e internetit Yahoo.com, e cila u hap në pranverën e vitit 1994. Pasi numri i vendeve në katalog u rrit ndjeshëm, u shtua aftësia për të kërkuar informacionin e nevojshëm në katalog. Në kuptimin e plotë, ai nuk ishte ende një motor kërkimi, pasi zona e kërkimit ishte e kufizuar vetëm në burimet e pranishme në katalog, dhe jo në të gjitha burimet e Internetit.

Drejtoritë e lidhjeve janë përdorur gjerësisht në të kaluarën, por pothuajse plotësisht e kanë humbur popullaritetin e tyre aktualisht. Meqenëse edhe katalogët modernë, me vëllim të madh, përmbajnë informacion vetëm për një pjesë të papërfillshme të internetit. Drejtoria më e madhe e rrjetit DMOZ (i quajtur edhe Projekti i Drejtorisë së Hapur) përmban informacione rreth 5 milion burime, ndërsa baza e të dhënave të motorit të kërkimit Google përbëhet nga më shumë se 8 miliardë dokumente.

Në 1995, u shfaqën motorët e kërkimit Lycos dhe AltaVista. Ky i fundit prej shumë vitesh është lider në fushën e kërkimit të informacionit në internet.

Në vitin 1997, Sergey Brin dhe Larry Page krijuan motorin e kërkimit Google si pjesë e një projekti kërkimor në Universitetin Stanford. Google është aktualisht motori më i popullarizuar i kërkimit në botë!

Në Shtator 1997, u njoftua zyrtarisht motori i kërkimit Yandex, i cili është më i popullarizuari në internetin në gjuhën ruse.

Aktualisht, ekzistojnë tre motorë kërkimi kryesorë (ndërkombëtarë) - Google, Yahoo dhe, të cilët kanë bazat e të dhënave dhe algoritmet e tyre të kërkimit. Shumica e motorëve të tjerë të kërkimit (nga të cilët ka një numër të madh) përdorin në një formë ose në një tjetër rezultatet e tre të listuara. Për shembull, kërkimi AOL (search.aol.com) përdor bazën e të dhënave të Google, ndërsa AltaVista, Lycos dhe AllTheWeb përdorin bazën e të dhënave Yahoo.

5. Përbërja dhe parimet e funksionimit të sistemit të kërkimit

Në Rusi, motori kryesor i kërkimit është Yandex, i ndjekur nga Rambler.ru, Google.ru, Aport.ru, Mail.ru. Për më tepër, për momentin, Mail.ru përdor motorin e kërkimit dhe bazën e të dhënave Yandex.

Pothuajse të gjithë motorët kryesorë të kërkimit kanë strukturën e tyre, të ndryshme nga të tjerët. Megjithatë, është e mundur të identifikohen komponentët kryesorë të përbashkët për të gjithë motorët e kërkimit. Dallimet në strukturë mund të jenë vetëm në formën e zbatimit të mekanizmave të ndërveprimit të këtyre komponentëve.

Moduli i indeksimit

Moduli i indeksimit përbëhet nga tre programe ndihmëse (robotët):

Spider është një program i krijuar për të shkarkuar faqe në internet. Merimanga shkarkon faqen dhe merr të gjitha lidhjet e brendshme nga ajo faqe. Kodi html i secilës faqe shkarkohet. Robotët përdorin protokollet HTTP për të shkarkuar faqet. Merimanga funksionon si më poshtë. Roboti dërgon kërkesën "get/path/document" dhe disa komanda të tjera të kërkesës HTTP në server. Si përgjigje, roboti merr një rrjedhë teksti që përmban informacionin e shërbimit dhe vetë dokumentin.

URL e faqes
datën e shkarkimit të faqes
Përgjigja e serverit http header
trupi i faqes (kodi html)

Crawler (merimanga "udhëtuese") është një program që ndjek automatikisht të gjitha lidhjet që gjenden në faqe. Zgjedh të gjitha lidhjet e pranishme në faqe. Detyra e tij është të përcaktojë se ku duhet të shkojë më pas merimanga, bazuar në lidhje ose bazuar në një listë të paracaktuar adresash. Crawler, duke ndjekur lidhjet e gjetura, kërkon dokumente të reja që janë ende të panjohura për motorin e kërkimit.

Indexer (robot indexer) është një program që analizon faqet e internetit të shkarkuara nga merimangat. Indeksuesi e analizon faqen në pjesët përbërëse të saj dhe i analizon ato duke përdorur algoritmet e veta leksikore dhe morfologjike. Analizohen elementë të ndryshëm të faqeve, si teksti, titujt, lidhjet, veçoritë strukturore dhe të stilit, etiketat HTML të shërbimit të veçantë, etj.

Kështu, moduli i indeksimit ju lejon të zvarritni një grup të caktuar burimesh duke përdorur lidhje, të shkarkoni faqet e hasura, të nxirrni lidhje në faqet e reja nga dokumentet e marra dhe të kryeni një analizë të plotë të këtyre dokumenteve.

Baza e të dhënave

Një bazë të dhënash, ose indeksi i motorit të kërkimit, është një sistem i ruajtjes së të dhënave, një grup informacioni në të cilin ruhen parametrat e konvertuar posaçërisht të të gjithë dokumenteve të shkarkuar dhe përpunuar nga moduli i indeksimit.

Kërko server

Serveri i kërkimit është elementi më i rëndësishëm i të gjithë sistemit, pasi cilësia dhe shpejtësia e kërkimit varen drejtpërdrejt nga algoritmet që qëndrojnë në themel të funksionimit të tij.

Serveri i kërkimit funksionon si më poshtë:

Kërkesa e marrë nga përdoruesi i nënshtrohet analizës morfologjike. Gjenerohet mjedisi i informacionit i secilit dokument të përfshirë në bazën e të dhënave (i cili më pas do të shfaqet në formën, domethënë informacionin e tekstit që korrespondon me kërkesën në faqen e rezultateve të kërkimit).
Të dhënat e marra kalohen si parametra hyrës në një modul të veçantë të renditjes. Të dhënat përpunohen për të gjitha dokumentet, si rezultat i të cilave secili dokument ka vlerësimin e vet që karakterizon rëndësinë e pyetjes së futur nga përdoruesi dhe përbërësit e ndryshëm të këtij dokumenti të ruajtur në indeksin e motorit të kërkimit.
Në varësi të zgjedhjes së përdoruesit, ky vlerësim mund të rregullohet nga kushte shtesë (për shembull, i ashtuquajturi "kërkim i avancuar").
Më pas, gjenerohet një fragment, domethënë për çdo dokument të gjetur, titulli, një abstrakt i shkurtër që përputhet më mirë me pyetjen dhe një lidhje me vetë dokumentin nxirren nga tabela e dokumentit dhe theksohen fjalët e gjetura.
Rezultatet e kërkimit që rezultojnë i transmetohen përdoruesit në formën e një SERP (Search Engine Result Page) - një faqe e rezultateve të kërkimit.

Siç mund ta shihni, të gjithë këta komponentë janë të lidhur ngushtë me njëri-tjetrin dhe punojnë në ndërveprim, duke formuar një mekanizëm të qartë, mjaft kompleks për funksionimin e sistemit të kërkimit, i cili kërkon sasi të mëdha burimesh.

6. Përfundim

Tani le të përmbledhim të gjitha sa më sipër.

Qëllimi kryesor i çdo motori kërkimi është t'u japë njerëzve saktësisht informacionin që ata kërkojnë.
Karakteristikat kryesore të motorëve të kërkimit:
1. Plotësia
2. Saktësia
3. Rëndësia
4. Shpejtësia e kërkimit
5. Dukshmëria
Motori i parë i plotë i kërkimit ishte projekti WebCrawler, i botuar në 1994.
Sistemi i kërkimit përfshin komponentët e mëposhtëm:
1. Moduli i indeksimit
2. Baza e të dhënave
3. Kërko server

Shpresojmë që klasa jonë master do t'ju lejojë të njiheni më shumë me konceptin e një motori kërkimi dhe të kuptoni më mirë funksionet kryesore, karakteristikat dhe parimet e funksionimit të motorëve të kërkimit.

1. Termat dhe përkufizimet Në këtë marrëveshje për përpunimin e të dhënave personale (më tej referuar si Marrëveshja), termat e mëposhtëm kanë përkufizimet e mëposhtme: Operatori - Sipërmarrësi Individual Oleg Aleksandrovich Dneprovsky. Pranimi i Marrëveshjes - pranimi i plotë dhe i pakushtëzuar i të gjitha kushteve të Marrëveshjes duke dërguar dhe përpunuar të dhënat personale. Të dhënat personale - informacione të futura nga Përdoruesi (subjekt i të dhënave personale) në sit dhe që lidhen drejtpërdrejt ose tërthorazi me këtë Përdorues. Përdorues - çdo person fizik ose juridik që ka përfunduar me sukses procedurën e plotësimit të fushave të hyrjes në sit. Plotësimi i fushave të hyrjes është procedura që Përdoruesi të dërgojë emrin, mbiemrin, numrin e telefonit, adresën e emailit personal (në tekstin e mëtejmë si të dhëna personale) në bazën e të dhënave të përdoruesve të regjistruar të faqes, e kryer me qëllim identifikimin perdoruesi. Si rezultat i plotësimit të fushave të hyrjes, të dhënat personale dërgohen në bazën e të dhënave të Operatorit. Plotësimi i fushave të hyrjes është vullnetar. faqe interneti - një faqe interneti e vendosur në internet dhe e përbërë nga një faqe. 2. Dispozitat e përgjithshme 2.1. Kjo Marrëveshje është hartuar në bazë të kërkesave të Ligjit Federal të 27 korrikut 2006 Nr. 152-FZ "Për të dhënat personale" dhe dispozitave të nenit 13.11 "Shkelja e legjislacionit të Federatës Ruse në fushën e të dhënat personale" të Kodit të Kundërvajtjeve Administrative të Federatës Ruse dhe është e vlefshme për të gjitha të dhënat personale që Operatori mund të marrë në lidhje me Përdoruesin gjatë përdorimit të sitit. 2.2. Plotësimi i fushave të hyrjes nga Përdoruesi në sit nënkupton marrëveshjen e pakushtëzuar të Përdoruesit me të gjitha kushtet e kësaj Marrëveshjeje (Pranimi i Marrëveshjes). Në rast mosmarrëveshjeje me këto kushte, Përdoruesi nuk plotëson fushat e hyrjes në sit. 2.3. Pëlqimi i Përdoruesit për dhënien e të dhënave personale Operatorit dhe përpunimin e tyre nga Operatori është i vlefshëm deri në përfundimin e aktiviteteve të Operatorit ose derisa Përdoruesi të tërheqë pëlqimin. Duke pranuar këtë Marrëveshje dhe duke kaluar nëpër procedurën e Regjistrimit, si dhe duke hyrë më pas në Faqe, Përdoruesi konfirmon se, duke vepruar me vullnetin e tij të lirë dhe në interesin e tij, ai transferon të dhënat e tij personale për përpunim te Operatori dhe pranon të përpunimin e tyre. Përdoruesi njoftohet se përpunimi i të dhënave të tij personale do të kryhet nga Operatori në bazë të Ligjit Federal të 27 korrikut 2006 Nr. 152-FZ "Për të dhënat personale". 3. Lista e të dhënave personale dhe informacioneve të tjera për përdoruesin që do t'i transferohen Operatorit 3. 1. Gjatë përdorimit të faqes së internetit të Operatorit, Përdoruesi jep të dhënat personale të mëposhtme: 3.1.1. Informacion personal i besueshëm që Përdoruesi siguron për veten e tij në mënyrë të pavarur kur plotëson fushat e hyrjes dhe/ose në procesin e përdorimit të shërbimeve të sitit, duke përfshirë mbiemrin, emrin, patronimin, numrin e telefonit (shtëpi ose celular), adresën personale të emailit. 3.1.2. Të dhënat që transferohen automatikisht në shërbimet e sitit gjatë përdorimit të tyre duke përdorur softuerin e instaluar në pajisjen e Përdoruesit, duke përfshirë adresën IP, informacionin nga Cookies, informacionin në lidhje me shfletuesin e Përdoruesit (ose program tjetër përmes të cilit aksesohen shërbimet). 3.2. Operatori nuk verifikon saktësinë e të dhënave personale të dhëna nga Përdoruesi. Në këtë rast, Operatori supozon se Përdoruesi ofron informacion personal të besueshëm dhe të mjaftueshëm për pyetjet e propozuara në Fushat e hyrjes. 4. Qëllimet, rregullat për mbledhjen dhe përdorimin e të dhënave personale 4.1. Operatori përpunon të dhënat personale që janë të nevojshme për të ofruar shërbime dhe për t'i ofruar shërbime Përdoruesit. 4.2. Të dhënat personale të Përdoruesit përdoren nga Operatori për qëllimet e mëposhtme: 4.2.1. Identifikimi i përdoruesit; 4.2.2. Ofrimi i Përdoruesit me shërbime të personalizuara (si dhe informimi për promovimet dhe shërbimet e reja të kompanisë duke dërguar letra); 4.2.3. Mbajtja e kontaktit me Përdoruesin nëse është e nevojshme, duke përfshirë dërgimin e njoftimeve, kërkesave dhe informacioneve në lidhje me përdorimin e shërbimeve, ofrimin e shërbimeve, si dhe përpunimin e kërkesave dhe aplikacioneve nga Përdoruesi; 4.3. Gjatë përpunimit të të dhënave personale do të kryhen këto veprime: grumbullimi, regjistrimi, sistemimi, grumbullimi, ruajtja, sqarimi (përditësimi, ndryshimi), nxjerrja, përdorimi, bllokimi, fshirja, asgjësimi. 4.4. Përdoruesi nuk kundërshton që informacioni i specifikuar prej tij në raste të caktuara mund t'u jepet organeve të autorizuara shtetërore të Federatës Ruse në përputhje me legjislacionin aktual të Federatës Ruse. 4.5. Të dhënat personale të Përdoruesit ruhen dhe përpunohen nga Operatori në mënyrën e parashikuar në këtë Marrëveshje për të gjithë periudhën e veprimtarisë nga Operatori. 4.6. Përpunimi i të dhënave personale kryhet nga Operatori duke mbajtur baza të të dhënave, metoda të automatizuara, mekanike dhe manuale. 4.7. Sajti përdor Cookies dhe teknologji të tjera për të gjurmuar përdorimin e shërbimeve të sitit. Këto të dhëna janë të nevojshme për të optimizuar funksionimin teknik të sitit dhe për të përmirësuar cilësinë e ofrimit të shërbimit. Sajti regjistron automatikisht informacionin (përfshirë URL-në, adresën IP, llojin e shfletuesit, gjuhën, datën dhe orën e kërkesës) për çdo vizitor të sajtit. Përdoruesi ka të drejtë të refuzojë të japë të dhëna personale kur viziton Faqen ose të çaktivizojë Cookies, por në këtë rast, jo të gjitha funksionet e Faqes mund të funksionojnë siç duhet. 4.8. Kushtet e konfidencialitetit të parashikuara në këtë Marrëveshje zbatohen për të gjitha informacionet që Operatori mund të marrë në lidhje me Përdoruesin gjatë qëndrimit të këtij të fundit në sit dhe përdorimit të sajtit. 4.9. Informacioni që zbulohet publikisht gjatë ekzekutimit të kësaj Marrëveshjeje, si dhe informacioni që mund të merret nga palët ose palët e treta nga burimet në të cilat çdo person ka akses të lirë, nuk janë konfidenciale. 4.10. Operatori merr të gjitha masat e nevojshme për të mbrojtur konfidencialitetin e të dhënave personale të Përdoruesit nga aksesi, modifikimi, zbulimi ose shkatërrimi i paautorizuar, duke përfshirë: sigurimin e verifikimit të brendshëm të vazhdueshëm të proceseve të mbledhjes, ruajtjes dhe përpunimit të të dhënave dhe sigurimin e sigurisë; siguron sigurinë fizike të të dhënave, duke parandaluar aksesin e paautorizuar në sistemet teknike që sigurojnë funksionimin e sitit, në të cilin Operatori ruan të dhënat personale; siguron akses në të dhënat personale vetëm për ata punonjës të Operatorit ose persona të autorizuar që kanë nevojë për këtë informacion për të kryer detyra që lidhen drejtpërdrejt me ofrimin e shërbimeve ndaj Përdoruesit, si dhe funksionimin, zhvillimin dhe përmirësimin e Faqes. 4.11. Të dhënat personale të Përdoruesit mbeten konfidenciale, me përjashtim të rasteve kur Përdoruesi jep vullnetarisht informacion për veten e tij për qasje të përgjithshme në një numër të pakufizuar personash. 4.12. Transferimi nga Operatori i të dhënave personale të Përdoruesit është i ligjshëm gjatë riorganizimit të Operatorit dhe transferimit të të drejtave te pasardhësi ligjor i Operatorit, ndërsa të gjitha detyrimet për të respektuar kushtet e kësaj Marrëveshjeje në lidhje me informacionin personal të marrë prej tij janë transferohen te pasardhësi ligjor. 4.13. Kjo deklaratë vlen vetëm për faqen e internetit të Operatorit. Kompania nuk kontrollon dhe nuk është përgjegjëse për faqet (shërbimet) e palëve të treta që përdoruesi mund t'i qaset nëpërmjet lidhjeve të disponueshme në faqen e internetit të Operatorit, duke përfshirë rezultatet e kërkimit. Në sajte (shërbime) të tilla mund të mblidhen ose kërkohen informacione të tjera personale nga përdoruesi dhe mund të kryhen veprime të tjera 5. Të drejtat e përdoruesit si subjekt i të dhënave personale, ndryshimi dhe fshirja e të dhënave personale nga përdoruesi 5.1. Përdoruesi ka të drejtë: 5.1.2. Kërkoni nga Operatori të sqarojë të dhënat e tij personale, t'i bllokojë ose shkatërrojë nëse të dhënat personale janë të paplota, të vjetruara, të pasakta, të marra në mënyrë të paligjshme ose jo të nevojshme për qëllimin e deklaruar të përpunimit, si dhe të marrë masat e parashikuara me ligj për të mbrojtur të drejtat e tij. 5.1.3. Merr informacion në lidhje me përpunimin e të dhënave të tij personale, duke përfshirë informacionin që përmban: 5.1.3.1. konfirmimin e faktit të përpunimit të të dhënave personale nga Operatori; 5.1.3.2. qëllimet dhe metodat e përpunimit të të dhënave personale të përdorura nga operatori; 5.1.3.3. emrin dhe vendndodhjen e operatorit; 5.1.3.4. të dhënat personale të përpunuara në lidhje me subjektin përkatës të të dhënave personale, burimin e marrjes së tyre, përveç nëse një procedurë e ndryshme për paraqitjen e të dhënave të tilla parashikohet me ligj federal; 5.1.3.5. kushtet e përpunimit të të dhënave personale, duke përfshirë periudhat e ruajtjes së tyre; 5.1.3.6. informacione të tjera të parashikuara nga legjislacioni aktual i Federatës Ruse. 5.2. Tërheqja e pëlqimit për përpunimin e të dhënave personale mund të kryhet nga Përdoruesi duke i dërguar Operatorit një njoftim të duhur me shkrim (të printuar në një medium të prekshëm dhe të nënshkruar nga Përdoruesi). 6. Përgjegjësitë e Operatorit. Qasja në të dhënat personale 6.1. Operatori merr përsipër të sigurojë parandalimin e aksesit të paautorizuar dhe jo të synuar në të dhënat personale të Përdoruesve të Faqes së internetit të Operatorit. Në këtë rast, aksesi i autorizuar dhe i synuar në të dhënat personale të përdoruesve të sitit do të konsiderohet akses në to nga të gjitha palët e interesuara, i zbatuar brenda kuadrit të objektivave dhe subjektit të Faqes së Operatorit. Në të njëjtën kohë, Operatori nuk është përgjegjës për keqpërdorimin e mundshëm të të dhënave personale të Përdoruesve që ndodh si rezultat i: problemeve teknike në softuer dhe në harduer dhe rrjete jashtë kontrollit të Operatorit; në lidhje me përdorimin e qëllimshëm ose të paqëllimshëm të faqeve të internetit të Operatorit, përveç qëllimit të tyre të synuar nga palët e treta; 6.2 Operatori merr masat e nevojshme dhe të mjaftueshme organizative dhe teknike për të mbrojtur informacionin personal të përdoruesit nga aksesi i paautorizuar ose aksidental, shkatërrimi, modifikimi, bllokimi, kopjimi, shpërndarja, si dhe nga veprime të tjera të paligjshme të palëve të treta. 7. Ndryshime në Politikën e Privatësisë. Legjislacioni në fuqi 7.1. Operatori ka të drejtë të bëjë ndryshime në këto rregullore pa ndonjë njoftim të veçantë për Përdoruesit. Kur bëhen ndryshime në edicionin aktual, tregohet data e përditësimit të fundit. Botimi i ri i Rregullores hyn në fuqi që nga momenti i publikimit, përveç rasteve kur parashikohet ndryshe nga botimi i ri i Rregullores. 7.2. Ligji i Federatës Ruse do të zbatohet për këtë rregullore dhe marrëdhëniet midis Përdoruesit dhe Operatorit që lindin në lidhje me zbatimin e Rregullores. pranoj nuk pranoj

Ne nuk jemi aq unikë sa mendojmë: miliona njerëz para nesh të hutuar dhe miliona pas nesh do të ngatërrojnë motorin e kërkimit me pyetje pothuajse identike. Nga ana tjetër, ne jemi shumë të paparashikueshëm: formulimi i kërkesës sonë ndikohet nga një numër i madh faktorësh për të cilët ne nuk jemi në dijeni. Dhe të paktën për këtë, kërkesa e secilit prej nesh, sado banale të jetë, kërkon një qasje individuale.

Në fakt, e gjithë puna e motorit të kërkimit Yandex zbret në dy gjëra të thjeshta: të kuptojë atë që një person dëshiron të dijë me të vërtetë dhe në pak sekonda të gjejë të përshtatshmet midis miliarda dokumenteve në internet.

Merrni shenjat e gishtërinjve

Sistemi operativ i motorit të kërkimit është disi i ngjashëm me Matricën, dhe roboti i kërkimit (programi kompleks, vendimmarrës në mënyrë të pavarur që krijoi) është i ngjashëm me Agjentin Smith.

Për të mos kërkuar në të gjithë internetin sa herë që dikush duhet të dijë diçka, motori i kërkimit kryen një pjesë të punës paraprakisht - kontrollon se çfarë është në ueb dhe ku është, duke përdorur mijëra robotë kërkimi. Ato vijnë në dy lloje: bazë dhe të shpejtë. Kryesorja zvarritet dhe përpunon internetin në tërësi, dhe e shpejta - dokumente që u shfaqën një minutë apo edhe disa sekonda më parë. Detyra e programeve robotike është të zgjedhin informacione të përshtatshme dhe të dobishme për përdoruesit, ta përpunojnë atë, duke hequr çdo gjë të vjetëruar dhe të panevojshme. Në një farë mënyre, kjo të kujton klasifikimin e mbeturinave: letër në një enë, xhami në një tjetër, plastikë në një të tretën, mbeturina ushqimore në një të katërt...

Informacioni i mbledhur nga robotët formon të ashtuquajturin cast në internet. Ai ruhet në mijëra serverë Yandex dhe përditësohet vazhdimisht. Një nugget është si një listë që ju tregon se ku të gjeni çfarë informacioni. Në këtë listë, çdo fjalë kyçe nuk ka një, por miliona "faqe". Për t'u siguruar që të gjitha përditësimet e nugget janë të disponueshme për përdoruesit, ato zhvendosen nga depoja në "kërkimi bazë". Të dhënat nga roboti kryesor transferohen çdo disa ditë, dhe nga roboti i shpejtë - në kohë reale.

Sillni në ujë të pastër

ILUSTRIMI: EVGENY TONKONOGY

Ndërsa kërkon përgjigjen e një pyetjeje të dhënë në një bazë të dhënash të përgatitur, makina përballet me dy vështirësi kryesore. Vështirësia e parë është gjuha. Përpara se të kërkoni një përgjigje për një pyetje, është e rëndësishme që makina të kuptojë në cilën gjuhë duhet ta bëjë këtë. Për shembull, për një person që flet rusisht, kërkimi për "Skuadrën e Princit Igor" do të gjejë dokumente me informacione për ushtrinë, dhe për një ukrainas, "Skuadra e Princit Igor" do të kthejë gjithashtu dokumente që përmendin Princeshën Olga, gruan e tij, pasi në gjuhën ukrainase "gruaja" është "skuadër". Dhe në gjuhën e pasur ruse, e njëjta fjalë ose derivatet e saj mund të nënkuptojnë gjëra të ndryshme. Për shembull, fjala "çelik" është një nga format e emrit "çelik" dhe folja "bëhem". Vështirësia e dytë është psikologjia njerëzore. Kur futim një kërkesë, presim një përgjigje të shpejtë dhe të saktë, pa u shqetësuar natyrshëm nëse formulimi i kërkesës korrespondon me parimet e analizës matematikore me të cilat funksionon truri i makinës. Për shembull, duke futur fjalën "Napoleon" në shiritin e kërkimit, çfarë dëshiron të marrë një person: një recetë torte ose një biografi të perandorit francez, të blejë konjak ose të gjejë adresën e një spitali psikiatrik?

Në situata të tilla, disa teknologji hyjnë në lojë. Ju mund t'ju jepni disa sugjerime nën shiritin e kërkimit që do të specifikojë kërkesën tuaj. Si, zgjidhni atë që ju nevojitet: recetat e Napoleonit ose Napoleoni - Bonaparte. Nëse përdoruesi nuk i përgjigjet kërkesës së makinës dhe nuk shton fjalë në "Napoleon", atëherë teknologjia "Spectrum" ndihmon çështjen: pa shpresuar për ndihmë, makina kërkon menjëherë informacione në disa kategori (rreth tortës, dhe për perandorin dhe për kalin ..). Për më tepër, mekanizmat e personalizimit ndihmojnë për të kuptuar përdoruesin - njohuritë e makinës për atë që ky përdorues kërkonte në kompjuterin e tij një ditë, dy, tre ose muaj më parë: nëse shpesh bëni pyetje Yandex rreth gatimit, atëherë makina do të tregojë fillimisht ju rezultate që thonë se Napoleoni është një tortë.

Kombinimet: klubet e interesit

Detyra e një motori kërkimi nuk është thjesht të zgjedhë dokumente që përmbajnë fjalë dhe fraza nga pyetësori i kërkimit. Makina duhet të kuptojë se cilat dokumente plotësojnë kërkesat tona kontradiktore dhe pse i plotësojnë ato. A duam të marrim informacione për tortën e Napoleonit, apo ndoshta kemi vizituar një klub fitnesi me një emër pretencioz për disa vjet, apo edhe jemi plotësisht të shqetësuar për komplekset e njerëzve të shkurtër. Në çdo rast, zgjidhja e problemit kërkon një qasje jo të parëndësishme.

Krijuesit e programit të kërkimit Yandex gjetën këtë qasje duke deleguar të drejtën e zgjedhjes në makinë. Nga njëra anë, një makinë pa shpirt, por shumë e shpejtë dhe e zgjuar nuk di dhe nuk dëshiron të dijë asgjë për ne si individë, dhe nga ana tjetër, përpiqet të zbulojë sa më shumë për të gjithë.

Përveç vendndodhjes gjeografike të përdoruesit dhe analizës gjuhësore të pyetjeve të tij, motori i kërkimit përdor disa mijëra kritere që nuk janë aspak të dukshme për njerëzit.

Truku është se makina zhvillon dhe përditëson këto kritere në mënyrë të pavarur.

Ai thjesht përdor të dhëna për preferencat dhe sjelljen e përdoruesve të miliona njerëzve dhe e lidh këtë "mesatare aritmetike" me historinë e pyetjeve tona. Parimet që drejtojnë Matricën brenda vetes, duke krahasuar mijëra kategori të interesave të përdoruesve që ajo ka zhvilluar, shpesh nuk përshtaten në idetë tradicionale njerëzore se cilat mund të jenë në parim "interesat". Janë me dhjetëra mijëra të tillë. Ata krijojnë kombinime të ndryshme, ndonjëherë edhe qesharake, me njëri-tjetrin. Për shembull, një nga këto kombinime mund të jetë që rezultatet e kërkimit të përputhen me interesat e një personi që edukon tritonat. Në të njëjtën kohë, një person nuk është vetëm i interesuar për tritonat, por tashmë po i rrit ato, por vetëm për vitin e parë.

Vlerësimet. Duart ndihmëse

Matrica, natyrisht, vendos vetë (me ndihmën e matematikës më të lartë) se çfarë dhe në çfarë sekuence duhet t'u tregohet përdoruesve bazuar në dhjetëra mijëra kritere. Por Matrix përdor gjithashtu njerëz të gjallë - 1000 punonjës të Yandex, të ashtuquajturit vlerësues, vlerësojnë rezultatet e kërkimit për një kërkesë të veçantë (natyrisht, jo çdo kërkesë vlerësohet dhe kjo nuk bëhet në kohë reale) për të përcaktuar nëse ata përmbushin pritjet e një përdoruesi të zakonshëm: jo aq racionale sa një makinë, jo aq precize në formulim, kontradiktore dhe emocionale.