Mga search engine sa Internet: Yandex, Google, Rambler, Yahoo. Komposisyon, pag-andar, prinsipyo ng pagpapatakbo. Ang pinakasimpleng paglalarawan ng prinsipyo ng pagpapatakbo ng Yandex search engine Combinations: interes club

Kumusta mahal na mga kaibigan! Sa artikulong ito ay patuloy naming titingnan ang search engine ng Yandex, at habang naaalala mo, sa mga nakaraang artikulo ay tinalakay namin ang kasaysayan ng paglikha ng mahusay na kumpanyang ito, na una sa mga kakumpitensya nito sa Russia at higit pa.

Ang lahat ng ito ay mabuti, ngunit ang mga nagsisimula at may karanasan na mga tagabuo ng site ay interesado sa pinakamahalagang tanong, siyempre, na may kaugnayan sa kung paano dalhin ang kanilang mga proyekto sa mga unang lugar sa TOP na mga resulta ng paghahanap.

Samakatuwid, tingnan natin kung paano gumagana ang search engine ng Yandex upang maunawaan kung anong mga pagkakamali ang maaari mong hakbang, at kung ano ang aasahan mula sa isang search engine ng Russia sa pangkalahatan.

Sa huling artikulo na ating tinalakay. Ang paksa ay naging medyo kawili-wili at kapaki-pakinabang. Samakatuwid, nagpasya akong dagdagan ito, palalimin ito, wika nga.

Kaya, marahil ay medyo nadala ako sa tanong na "Bakit nag-i-index ang isang search engine ng mga dokumento"? Ang natitira na lang ay upang malaman ang tanong na "paano".

Mga algorithm sa pagraranggo ng website

Una, kilalanin natin ang ilang mga algorithm na mahalaga sa anumang search engine:

— Direktang algorithm sa paghahanap.

Ano ito - naaalala mo ang pagbabasa ng isang kahanga-hangang kuwento sa isa sa mga libro. At nagsimula kang tumingin isa-isa. Kumuha sila ng isang libro, tiningnan ito, hindi nakita, kumuha ng isa pa... Ang prinsipyo ay malinaw, ngunit ang pamamaraang ito ay napakahaba. Ito ay naiintindihan din.

— Baliktarin ang algorithm ng paghahanap.

Para sa algorithm na ito, isang text file ang nilikha mula sa bawat pahina ng iyong blog. Inililista ng file na ito sa alphabetical order ang LAHAT ng mga salitang iyong ginamit. Kahit na ang posisyon ng salitang ito sa teksto ay ipinahiwatig (mga coordinate sa teksto).

Ito ay isang medyo mabilis na paraan, ngunit ang paghahanap ay nangyayari nang may ilang error.

Ang pangunahing bagay na dapat maunawaan dito ay ang algorithm na ito ay hindi naghahanap sa Internet, hindi sa pamamagitan ng paghahanap sa isang blog. At sa isang hiwalay na text file na nilikha ng matagal na ang nakalipas. Nang dumating sa iyo ang robot. At ang mga file na ito (reverse index) ay naka-imbak sa mga server ng Yandex.

Kaya, ito ang mga pangunahing algorithm sa paghahanap. Yung. kung paano lamang nahahanap ng Yandex ang mga kinakailangang dokumento. Mukhang walang problema dito.

Ngunit alam ng Yandex ang higit sa isa o kahit 100 mga dokumento, ngunit ayon sa pinakabagong data mula sa aking mga mapagkukunan, alam ng Yandex ang tungkol sa 11 bilyong mga dokumento (10,727,736,489 na mga pahina).

At sa lahat ng dami na ito, kailangan mong pumili ng mga dokumento na tumutugma sa kahilingan. At higit sa lahat, kailangan mong i-rank ang mga ito kahit papaano. Yung. ayusin ayon sa antas ng kahalagahan, o sa halip ayon sa antas ng pagiging kapaki-pakinabang para sa mambabasa.

Mga modelo ng paghahanap sa matematika

Upang malutas ang isyung ito, ang mga modelo ng matematika ay sumagip. Ngayon ay pag-uusapan natin ang tungkol sa pinakasimpleng mga modelo.

Boolean mathematical model– Kung ang isang salita ay lumitaw sa isang dokumento, ang dokumento ay itinuturing na natagpuan. Nagkataon lang at walang kumplikado.

Ngunit may mga problema dito. Halimbawa, kung ikaw, bilang isang gumagamit, ay nagpasok ng ilang tanyag na salita, o mas mabuti pa, ang pang-ukol na "v", na siyang pinakakaraniwang salita sa wikang Ruso at matatagpuan sa BAWAT dokumento, bibigyan ka ng napakaraming resulta. na hindi mo man lang namalayan ang ganoong numero, Ilang dokumento ang nakita mo? Samakatuwid, lumitaw ang sumusunod na modelo ng banig.

Vector mathematical model– tinutukoy ng modelong ito ang "bigat" ng dokumento. Hindi lamang nangyayari ang pagkakataon, ngunit ang salita ay dapat mangyari nang maraming beses. Bukod dito, kung mas lumalabas ang salita, mas mataas ang kaugnayan (pagsunod).

Ito ang modelo ng vector na ginagamit ng LAHAT ng mga search engine.

Probabilistikong modelo- mas kumplikado. Ang prinsipyo ay ito: natagpuan ng search engine ang template ng pahina mismo. Halimbawa, naghahanap ka ng impormasyon tungkol sa kasaysayan ng Yandex. Ang Yandex ay nag-iimbak ng ilang uri ng pamantayan, sabihin nating ito ang aking naunang artikulo tungkol sa Yandex.

At ihahambing niya ang lahat ng iba pang mga dokumento sa artikulong ito. At ang lohika dito ay ito: mas katulad ng iyong pahina ng blog sa aking artikulo, mas malamang na ang iyong pahina ng blog ay magiging kapaki-pakinabang din sa mambabasa at nagsasabi rin tungkol sa kasaysayan ng Yandex.

Upang bawasan ang bilang ng mga dokumento na kailangang ipakita sa gumagamit, ipinakilala ang konsepto ng kaugnayan, i.e. pagsunod.

Gaano kaugnay ang iyong pahina ng blog sa paksa? Ito ay isang mahalagang paksa pagdating sa kalidad ng paghahanap.

Mga Tagasuri - sino sila at ano ang kanilang pananagutan?

Ang kaugnayan na ito ay kailangan din upang masuri ang kalidad ng mga algorithm.

Para sa layuning ito mayroong isang punong-tanggapan ng mga espesyal na pwersa - sila ay tinatawag na Assessors. Ito ay mga espesyal na tao na tumitingin sa mga resulta ng paghahanap gamit ang kanilang mga kamay.

Mayroon silang mga tagubilin kung paano suriin ang mga site, kung paano suriin, atbp. At manu-mano nilang tinutukoy kung ang iyong mga pahina ay angkop para sa mga query sa paghahanap o hindi.

At ang kalidad ng mga algorithm sa paghahanap ay nakasalalay sa opinyon ng mga tagasuri. Kung sasabihin ng lahat ng mga tagasuri na ang mga resulta ng paghahanap ay hindi tumutugma sa mga query, nangangahulugan ito na ang algorithm ng pagraranggo ay hindi tama at ang Yandex lamang ang dapat sisihin.

Kung sasabihin ng mga tagasuri na isang site lamang ang hindi nakakatugon sa kahilingan, nangangahulugan ito na lumilipad ang site sa isang lugar na malayo at ibinaba sa mga resulta ng paghahanap. Mas tiyak, hindi ang buong site, ngunit isang artikulo lamang, ngunit ito ay "hindi ang punto."

Siyempre, hindi maaaring suriin at suriin ng mga tagasuri ang LAHAT ng mga artikulo gamit ang kanilang mga kamay at mata. Ito ay naiintindihan.

At iba pang mga parameter kung saan niraranggo ang mga pahina ay dumating sa pagsagip.

Mayroong marami sa kanila, halimbawa:

  • bigat ng pahina (vIC, PageRank, baby bumps Sa lahat lahat);
  • awtoridad ng domain;
  • kaugnayan ng teksto sa kahilingan;
  • kaugnayan ng mga text ng external na link sa kahilingan;
  • pati na rin ang maraming iba pang mga kadahilanan sa pagraranggo.

Ang mga tagasuri ay gumagawa ng mga komento, at ang mga taong responsable para sa pag-set up ng mathematical ranking model, sa turn, ay nag-e-edit ng formula, bilang resulta kung saan ang search engine ay gumagana nang mas mahusay.

Ang pangunahing pamantayan para sa pagsusuri ng pagganap ng formula:

1. Katumpakan ng mga resulta ng search engine- porsyento ng mga dokumento na tumutugma sa kahilingan (may kaugnayan). Yung. Ang mas kaunting mga pahina na hindi tumutugma sa kahilingan, mas mabuti.

2. Pagkumpleto ng mga resulta ng search engine ay ang ratio ng mga nauugnay na web page para sa isang naibigay na query sa kabuuang bilang ng mga nauugnay na dokumento sa koleksyon (ang kabuuan ng mga pahina na matatagpuan sa search engine).

Halimbawa, kung mayroong mas may-katuturang mga pahina sa buong koleksyon kaysa sa mga resulta ng paghahanap, nangangahulugan ito na ang mga resulta ay hindi kumpleto. Nangyari ito dahil na-filter ang ilan sa mga nauugnay na web page.

3. Kaugnayan ng mga resulta ng search engine- ito ay ang pagsunod ng web page sa kung ano ang nakasulat sa snippet. Halimbawa, ang isang dokumento ay maaaring ibang-iba o wala talaga, ngunit naroroon pa rin sa mga resulta ng paghahanap.

Ang kaugnayan ng mga resulta ng paghahanap ay direktang nakasalalay sa kung gaano kadalas ini-scan ng search robot ang mga dokumento mula sa koleksyon nito.

Ang koleksyon ng koleksyon (pag-index ng mga pahina ng site) ay isinasagawa ng isang espesyal na programa - isang robot sa paghahanap.

Ang search robot ay tumatanggap ng isang listahan ng mga address para sa pag-index, kinokopya ang mga ito, at pagkatapos ay ipinapadala ang mga nilalaman ng mga kinopyang web page para sa pagproseso sa isang algorithm na nagko-convert sa kanila sa mga reverse index.

Buweno, "sa maikling salita," upang magsalita, tinalakay namin ang mga prinsipyo ng search engine.

Ibuod natin:

  1. Dumating ang isang search robot sa iyong blog.
  2. Iniimbak ng search robot ang reverse index ng page para sa mga susunod na paghahanap.
  3. Gamit ang isang mathematical model, ang dokumento ay pinoproseso at ipinapakita sa mga resulta ng paghahanap gamit ang mga formula at isinasaalang-alang ang opinyon ng assessor.

Ito ay napaka, napakasimple. Para lamang makakuha ng pangunahing pag-unawa sa kung paano gumagana ang Yandex search engine.

Marami na akong naisulat na teksto, at marahil napakaraming hindi malinaw. Samakatuwid, iminumungkahi kong bumalik ka sa artikulong ito sa ibang pagkakataon at panoorin ang video na ito.

Ito ay isang mahusay na gabay, na natutunan ko rin mula sa isang pagkakataon.

Umaasa ako na ang impormasyong ito ay makakatulong sa iyo na mas maunawaan kung bakit ang isa sa iyong mga site ay sumasakop sa mga naaangkop na posisyon sa mga paghahanap at gawin ang lahat upang mapabuti ang mga ito.

Sa pamamagitan nito, paalam ko sa iyo, kung mayroon kang anumang mga katanungan, lagi akong masaya na sagutin ang mga ito sa mga komento. O baka gusto mong idagdag sa artikulo?

Sa anumang kaso, ipahayag ang iyong opinyon. !

Ang Yandex, ngayon, ay ang pinakasikat na search engine sa Russia. Mga istatistika ng serbisyo LiveInternet, ay nagpapakita ng bahagi ng Yandex sa masa ng all-Russian audience - ito ay 53.4%, kung isasaalang-alang lamang natin ang Moscow at ang rehiyon, kung gayon ito ay mas mataas pa - 67.9% (Moscow, ayon sa mga kahilingan, ay sumasakop ng higit sa 50% ng lahat ng Russia).

Ang website na www.yandex.ru ay nilikha noong 1997, isang server lamang ang sapat para dito, na nakatayo sa ilalim ng desktop ng isa sa grupo ng mga unang developer ng Yandex, si Dmitry, na ang apelyido ay Teiblyum. Napakabilis pagkatapos magbukas, bumili kami ng pangalawang server, at sa lalong madaling panahon, kapag kinakailangan na mag-install ng isa pa, naging malinaw na mayroong sapat na espasyo sa ilalim ng talahanayan para sa alinman sa tatlong server ng Yandex, o […]

Nagsusumikap ang mga developer ng search engine na magbigay sa mga user ng pinakamahusay na sagot sa kanilang mga query. Minsan ang gayong sagot ay maaaring isang numero (halimbawa, ang panahon sa isang lungsod), isang larawan (halimbawa, isang address sa isang mapa), isang pagsasalin ng isang salita o isang quatrain. Kapag mayroon kang isang angkop na hanay ng impormasyon sa kamay, ang sagot ay maibibigay kaagad. Samakatuwid, dinadagdagan ng Yandex ang mga resulta ng paghahanap sa Internet na may mga sagot mula sa […]

Tinatayang bawat ikasampung kahilingan sa Yandex ay "navigational", iyon ay, binubuo ito ng pangalan ng isang organisasyon o website at nais ng user na pumunta sa website ng organisasyong ito. Sa kasong ito, ang Yandex search bar ay ginagamit sa halip na ang browser address bar at ang user, bilang panuntunan, ay hindi interesado sa natitirang siyam na resulta ng paghahanap. Nang hindi nakakagambala sa gumagamit mula sa pangunahing layunin, idinagdag namin pagkatapos ng pangunahing [...]

Ang pangunahing gawain ng isang search engine ay upang sagutin ang tanong ng gumagamit. Kapag nagtanong ang isang user ng query, hindi ina-access ng search engine ang bawat site sa Internet, ngunit naghahanap sa database ng mga page na kilala nito - ang search index. Doon niya nahahanap ang lahat ng mga pahina na may mga salita mula sa query. Nakikita ng user ang mga link sa mga page na ito sa mga page ng resulta ng paghahanap.

Tulad ng nakikita natin, ang Yandex ay hindi tumayo, at sigurado ako na ang mga teknolohiya sa paghahanap ng system na ito ay patuloy na bubuo upang mapabuti ang kalidad ng paghahanap, na halos hindi pa matatawag na perpekto.

Noong Nobyembre 10, 2009, inihayag ng Yandex ang isang bagong bersyon ng algorithm ng paghahanap - Snezhinsk. Ang mga pangunahing pagbabago ay naganap sa algorithm para sa pagkalkula ng kaugnayan - isinulat ng mga kinatawan ng Yandex ang sumusunod: "Nagawa naming lumikha ng isang mas tumpak at mas kumplikadong modelo ng matematika, na humantong sa isang makabuluhang pagtaas sa kalidad ng paghahanap. Salamat sa muling pagdidisenyo ng arkitektura ng pagraranggo sa paghahanap, posible na ipatupad ang accounting ng ilang libong [...]

Ang pagsubok sa bagong bersyon ng Yandex algorithm ay nagsimula noong Hulyo 9, 2008. Ayon sa Yandex, "ang mga pangunahing pagbabago sa programa ay nauugnay sa isang bagong diskarte sa machine learning at, bilang isang resulta, ang mga pagkakaiba sa paraan ng pagraranggo sa mga kadahilanan ay isinasaalang-alang sa formula."

Noong Abril 14, 2008, nagsimulang subukan ang bagong algorithm ng paghahanap na "Magadan" sa buki.yandex.ru. Bilang karagdagan sa pagdodoble ng bilang ng mga kadahilanan sa pagraranggo, ang mga sumusunod na inobasyon ay idinagdag din:

Bago makipagsapalaran sa algorithmic jungle, tandaan natin kung paano gumagana ang isang search engine sa pangkalahatan. Ang lohikal na istraktura ng isang sistema ng paghahanap ay maaaring katawanin sa anyo ng tatlong mga module (tingnan ang diagram) Ang Robot (crawler) ay isang espesyal na programa na gumagapang sa mga site sa Internet at nagda-download ng kanilang nilalaman. Ang robot ay may espesyal na iskedyul ayon sa kung saan ito nagsasagawa ng mga pag-ikot nito. Mga pahina ng site na ni-load ng isang robot, isang espesyal na [...]

66. Ano ang higit na nakakaimpluwensya: isang link mula sa isang libreng platform (blogspot, LJ, atbp.) o mula sa isang offline na site/blog? Ang mga libreng platform ay naglilipat ng mas kaunting timbang kaysa sa mga standalone na site. Gayunpaman, ang epekto ay maaaring mas malaki. Ito ay dahil sa maraming mga kadahilanan: ang kasalukuyang listahan ng anchor, ang estado ng mga site na inihambing, atbp. Imposibleng magbigay ng isang hindi malabo na sagot sa tanong na ito. 67. Ang pinakamalaking timbang ay inililipat sa pagitan ng […]

Vamana Tour - paglalakbay, air ticket at visa sa buong mundo at sa India, Nepal, Sri Lanka, Maldives, Mauritius at marami pang ibang lugar sa planeta. Payo para sa mga manlalakbay at mga peregrino. Paano masulit ang iyong paglalakbay. Kamangha-manghang mga makasaysayang salaysay at kwento ng mga karanasang manlalakbay.

Ano ang layunin ng pagsasaalang-alang sa mga panlabas na link sa isang site Gaya ng nakikita mo mula sa nakaraang seksyon, halos lahat ng mga salik na nakakaimpluwensya sa pagraranggo ay nasa ilalim ng kontrol ng may-akda ng pahina. Kaya, nagiging imposible para sa isang search engine na makilala ang isang tunay na de-kalidad na dokumento mula sa isang pahina na partikular na nilikha para sa isang partikular na parirala sa paghahanap o kahit isang pahina na nabuo ng isang robot at kung saan ay hindi naglalaman ng lahat ng kapaki-pakinabang na impormasyon. […]

Matagal na silang naging mahalagang bahagi ng Russian Internet. Ang mga search engine ngayon ay napakalaki at kumplikadong mga mekanismo na kumakatawan hindi lamang isang tool sa paghahanap ng impormasyon, kundi pati na rin sa mga nakakatuksong lugar para sa negosyo.

Karamihan sa mga gumagamit ng search engine ay hindi kailanman naisip (o naisip tungkol dito, ngunit hindi nakahanap ng sagot) tungkol sa prinsipyo ng pagpapatakbo ng mga search engine, tungkol sa pamamaraan para sa pagproseso ng mga kahilingan ng gumagamit, tungkol sa kung ano ang binubuo ng mga system na ito at kung paano gumagana ang mga ito...

Ang master class na ito ay idinisenyo upang sagutin ang tanong kung paano gumagana ang mga search engine. Gayunpaman, hindi mo mahahanap dito ang mga salik na nakakaimpluwensya sa pagraranggo ng mga dokumento. Bukod dito, hindi ka dapat umasa sa isang detalyadong paliwanag ng algorithm ng Yandex. Siya, ayon kay Ilya Segalovich, ang direktor ng teknolohiya at pag-unlad ng search engine ng Yandex, ay makikilala lamang "sa ilalim ng pagpapahirap" ni Ilya Segalovich mismo...

2. Konsepto at mga function ng isang search engine

Ang isang sistema ng paghahanap ay isang software at hardware complex na idinisenyo upang maghanap sa Internet at tumugon sa isang kahilingan ng gumagamit, na tinukoy sa anyo ng isang tekstong parirala (query sa paghahanap), sa pamamagitan ng paggawa ng isang listahan ng mga link sa mga mapagkukunan ng impormasyon, sa pagkakasunud-sunod ng kaugnayan ( alinsunod sa kahilingan). Ang pinakamalaking internasyonal na mga search engine: "Google", Yahoo , MSN . Sa Russian Internet ito ay Yandex, Rambler, Aport.

Tingnan natin ang konsepto ng isang query sa paghahanap gamit ang Yandex search engine bilang isang halimbawa. Ang query sa paghahanap ay dapat buuin ng user alinsunod sa kung ano ang gusto niyang hanapin, nang maikli at simple hangga't maaari. Sabihin nating gusto naming maghanap ng impormasyon sa Yandex kung paano pumili ng kotse. Upang gawin ito, buksan ang pangunahing pahina ng Yandex at ipasok ang teksto ng query sa paghahanap "kung paano pumili ng kotse." Susunod, ang aming gawain ay ang pagbubukas ng mga link na ibinigay sa aming kahilingan sa mga mapagkukunan ng impormasyon sa Internet. Gayunpaman, medyo posible na hindi namin mahanap ang impormasyong kailangan namin. Kung mangyari ito, kailangan mong i-rephrase ang iyong kahilingan, o ang database ng search engine ay talagang walang anumang nauugnay na impormasyon sa aming kahilingan (maaaring mangyari ito kapag nagtatanong ng napaka "makitid" na mga query, tulad ng, halimbawa, "paano pumili isang kotse sa Arkhangelsk")

Ang pangunahing layunin ng anumang search engine ay upang maihatid sa mga tao ang eksaktong impormasyon na kanilang hinahanap. At turuan ang mga user na gumawa ng "tama" na mga kahilingan sa system, i.e. ang mga query na sumusunod sa mga prinsipyo ng pagpapatakbo ng mga search engine ay imposible. Samakatuwid, ang mga developer ay gumagawa ng mga algorithm at mga prinsipyo sa pagpapatakbo para sa mga search engine na magpapahintulot sa mga user na mahanap ang impormasyong hinahanap nila.

Nangangahulugan ito na ang search engine ay dapat "mag-isip" sa parehong paraan na iniisip ng gumagamit kapag naghahanap ng impormasyon. Kapag humiling ang isang user sa isang search engine, gusto niyang mahanap ang kailangan niya nang mabilis at madali hangga't maaari. Sa pagtanggap ng resulta, sinusuri niya ang pagganap ng system, na ginagabayan ng ilang pangunahing mga parameter. Nahanap na ba niya ang hinahanap niya? Kung hindi niya ito nahanap, ilang beses niya kailangang i-rephrase ang query para mahanap ang hinahanap niya? Gaano karaming may-katuturang impormasyon ang maaari niyang mahanap? Gaano kabilis naproseso ng search engine ang query? Gaano kaginhawa ang ipinakita ng mga resulta ng paghahanap? Ang resulta ba na hinahanap mo ay ang una o ang ikadaan? Gaano karaming hindi kinakailangang basura ang natagpuan kasama ng kapaki-pakinabang na impormasyon? Mahahanap ba ang kinakailangang impormasyon kapag nag-access sa isang search engine, halimbawa, sa isang linggo, o sa isang buwan?

Upang matugunan ang lahat ng mga tanong na ito ng mga sagot, patuloy na pinapabuti ng mga developer ng search engine ang mga algorithm at prinsipyo ng paghahanap, nagdaragdag ng mga bagong function at kakayahan, at sinusubukan sa lahat ng posibleng paraan upang mapabilis ang pagpapatakbo ng system.

3. Pangunahing katangian ng search engine

Ilarawan natin ang mga pangunahing katangian ng mga search engine:

  • pagkakumpleto

    Ang pagiging kumpleto ay isa sa mga pangunahing katangian ng isang sistema ng paghahanap, na ang ratio ng bilang ng mga dokumento na natagpuan sa pamamagitan ng kahilingan sa kabuuang bilang ng mga dokumento sa Internet na nakakatugon sa ibinigay na kahilingan. Halimbawa, kung mayroong 100 mga pahina sa Internet na naglalaman ng pariralang "kung paano pumili ng kotse," at 60 lamang sa kanila ang natagpuan para sa kaukulang query, kung gayon ang pagkakumpleto ng paghahanap ay magiging 0.6. Malinaw, kung mas kumpleto ang paghahanap, mas malamang na hindi mahahanap ng user ang dokumentong kailangan niya, sa kondisyon na ito ay umiiral sa Internet.

  • Katumpakan

    Ang katumpakan ay isa pang pangunahing katangian ng isang search engine, na tinutukoy ng antas kung saan ang mga nahanap na dokumento ay tumutugma sa query ng user. Halimbawa, kung ang query na "paano pumili ng kotse" ay naglalaman ng 100 mga dokumento, 50 sa mga ito ay naglalaman ng pariralang "paano pumili ng kotse", at ang iba ay naglalaman lamang ng mga salitang ito ("paano pumili ng tamang radyo at i-install ito sa isang kotse"), kung gayon ang katumpakan ng paghahanap ay itinuturing na katumbas ng 50/100 (=0.5). Ang mas tumpak na paghahanap, mas mabilis na mahahanap ng gumagamit ang mga dokumento na kailangan niya, mas kaunting iba't ibang uri ng "basura" ang makikita sa kanila, mas madalas ang mga nahanap na dokumento ay hindi tumutugma sa kahilingan.

  • Kaugnayan

    Ang kaugnayan ay isang pantay na mahalagang bahagi ng paghahanap, na nailalarawan sa pamamagitan ng oras na lumilipas mula sa sandaling ang mga dokumento ay nai-publish sa Internet hanggang sa maipasok ang mga ito sa database ng index ng search engine. Halimbawa, sa araw pagkatapos lumitaw ang mga kawili-wiling balita, maraming user ang bumaling sa mga search engine na may mga kaugnay na query. Sa layunin, wala pang isang araw ang lumipas mula nang mailathala ang impormasyon ng balita sa paksang ito, ngunit ang mga pangunahing dokumento ay na-index na at magagamit para sa paghahanap, salamat sa pagkakaroon ng tinatawag na "mabilis na database" ng malalaking search engine, na ay ina-update ng ilang beses sa isang araw.

  • Bilis ng paghahanap

    Ang bilis ng paghahanap ay malapit na nauugnay sa paglaban nito sa pagkarga. Halimbawa, ayon sa Rambler Internet Holding LLC, ngayon, sa mga oras ng negosyo, ang Rambler search engine ay tumatanggap ng humigit-kumulang 60 na kahilingan kada segundo. Ang nasabing workload ay nangangailangan ng pagbawas sa oras ng pagproseso ng isang indibidwal na kahilingan. Dito, ang mga interes ng gumagamit at ng search engine ay nag-tutugma: nais ng bisita na makakuha ng mga resulta nang mabilis hangga't maaari, at dapat iproseso ng search engine ang kahilingan nang mabilis hangga't maaari, upang hindi mapabagal ang pagkalkula ng mga kasunod na query.

  • Visibility

4. Maikling kasaysayan ng pag-unlad ng mga search engine

Sa unang panahon ng pag-unlad ng Internet, ang bilang ng mga gumagamit nito ay maliit, at ang dami ng magagamit na impormasyon ay medyo maliit. Para sa karamihan, ang mga kawani ng pananaliksik lamang ang may access sa Internet. Sa oras na ito, ang gawain ng paghahanap ng impormasyon sa Internet ay hindi kasing-apura ng ngayon.

Ang isa sa mga unang paraan upang maisaayos ang pag-access sa mga mapagkukunan ng impormasyon sa network ay ang paglikha ng mga bukas na direktoryo ng mga site, mga link sa mga mapagkukunan kung saan naka-grupo ayon sa paksa. Ang unang naturang proyekto ay ang website ng Yahoo.com, na binuksan noong tagsibol ng 1994. Matapos ang bilang ng mga site sa catalog ay tumaas nang malaki, ang kakayahang maghanap para sa kinakailangang impormasyon sa catalog ay idinagdag. Sa buong kahulugan, hindi pa ito isang search engine, dahil ang lugar ng paghahanap ay limitado lamang sa mga mapagkukunang nasa catalog, at hindi sa lahat ng mapagkukunan ng Internet.

Ang mga direktoryo ng link ay malawakang ginagamit sa nakaraan, ngunit halos ganap na nawala ang kanilang katanyagan sa kasalukuyan. Dahil kahit na ang mga modernong katalogo, na malaki ang volume, ay naglalaman lamang ng impormasyon tungkol sa isang hindi gaanong bahagi ng Internet. Ang pinakamalaking direktoryo ng DMOZ network (tinatawag ding Open Directory Project) ay naglalaman ng impormasyon tungkol sa 5 milyong mapagkukunan, habang ang database ng search engine ng Google ay binubuo ng higit sa 8 bilyong dokumento.

Noong 1995, lumitaw ang mga search engine na Lycos at AltaVista. Ang huli ay naging pinuno sa larangan ng paghahanap ng impormasyon sa Internet sa loob ng maraming taon.

Noong 1997, nilikha nina Sergey Brin at Larry Page ang Google search engine bilang bahagi ng isang proyekto sa pananaliksik sa Stanford University. Ang Google ay kasalukuyang pinakasikat na search engine sa mundo!

Noong Setyembre 1997, ang Yandex search engine, na kung saan ay ang pinakasikat sa Russian-language Internet, ay opisyal na inihayag.

Sa kasalukuyan, mayroong tatlong pangunahing search engine (internasyonal) - Google, Yahoo at, na may sariling mga database at mga algorithm sa paghahanap. Karamihan sa iba pang mga search engine (kung saan mayroong isang malaking bilang) ay gumagamit sa isang anyo o iba pang mga resulta ng tatlong nakalista. Halimbawa, ginagamit ng paghahanap sa AOL (search.aol.com) ang database ng Google, habang ginagamit ng AltaVista, Lycos at AllTheWeb ang database ng Yahoo.

5. Komposisyon at mga prinsipyo ng pagpapatakbo ng sistema ng paghahanap

Sa Russia, ang pangunahing search engine ay Yandex, na sinusundan ng Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bukod dito, sa ngayon, ginagamit ng Mail.ru ang Yandex search engine at database.

Halos lahat ng mga pangunahing search engine ay may sariling istraktura, naiiba sa iba. Gayunpaman, posibleng matukoy ang mga pangunahing bahagi na karaniwan sa lahat ng mga search engine. Ang mga pagkakaiba sa istraktura ay maaari lamang sa anyo ng pagpapatupad ng mga mekanismo ng pakikipag-ugnayan ng mga sangkap na ito.

Module ng pag-index

Ang indexing module ay binubuo ng tatlong auxiliary programs (mga robot):

Ang spider ay isang program na idinisenyo upang mag-download ng mga web page. Dina-download ng gagamba ang pahina at kinukuha ang lahat ng panloob na link mula sa pahinang iyon. Ang html code ng bawat pahina ay nai-download. Gumagamit ang mga robot ng HTTP protocol para mag-download ng mga page. Ang gagamba ay gumagana tulad ng sumusunod. Ipinapadala ng robot ang kahilingang "get/path/document" at ilang iba pang HTTP request commands sa server. Bilang tugon, ang robot ay tumatanggap ng isang text stream na naglalaman ng impormasyon ng serbisyo at ang mismong dokumento.

  • URL ng pahina
  • petsa kung kailan na-download ang page
  • http header ng tugon ng server
  • katawan ng pahina (html code)

Ang crawler ("naglalakbay" spider) ay isang programa na awtomatikong sumusunod sa lahat ng mga link na makikita sa pahina. Pinipili ang lahat ng mga link na naroroon sa pahina. Ang trabaho nito ay upang matukoy kung saan dapat pumunta ang gagamba, batay sa mga link o isang paunang natukoy na listahan ng mga address. Ang crawler, kasunod ng mga link na natagpuan, ay naghahanap ng mga bagong dokumento na hindi pa rin alam ng search engine.

Ang Indexer (robot indexer) ay isang program na sinusuri ang mga web page na na-download ng mga spider. Ibina-parse ng indexer ang pahina sa mga bahaging bahagi nito at sinusuri ang mga ito gamit ang sarili nitong lexical at morphological algorithm. Sinusuri ang iba't ibang elemento ng pahina, tulad ng teksto, mga heading, link, mga tampok sa istruktura at istilo, mga espesyal na tag ng HTML ng serbisyo, atbp.

Kaya, binibigyang-daan ka ng indexing module na i-crawl ang isang naibigay na hanay ng mga mapagkukunan gamit ang mga link, i-download ang mga nakatagpo na pahina, i-extract ang mga link sa mga bagong pahina mula sa mga natanggap na dokumento, at magsagawa ng kumpletong pagsusuri ng mga dokumentong ito.

Database

Ang database, o index ng search engine, ay isang sistema ng pag-iimbak ng data, isang hanay ng impormasyon kung saan iniimbak ang mga espesyal na na-convert na parameter ng lahat ng mga dokumentong na-download at naproseso ng module ng pag-index.

Search server

Ang search server ay ang pinakamahalagang elemento ng buong system, dahil ang kalidad at bilis ng paghahanap ay direktang nakasalalay sa mga algorithm na sumasailalim sa paggana nito.

Ang search server ay gumagana tulad ng sumusunod:

  • Ang kahilingang natanggap mula sa user ay sumasailalim sa morphological analysis. Ang kapaligiran ng impormasyon ng bawat dokumento na nakapaloob sa database ay nabuo (na pagkatapos ay ipapakita sa form, iyon ay, impormasyon ng teksto na naaayon sa kahilingan sa pahina ng mga resulta ng paghahanap).
  • Ang natanggap na data ay ipinapasa bilang mga parameter ng pag-input sa isang espesyal na module ng pagraranggo. Pinoproseso ang data para sa lahat ng mga dokumento, bilang isang resulta kung saan ang bawat dokumento ay may sariling rating na nagpapakilala sa kaugnayan ng query na ipinasok ng user at ang iba't ibang bahagi ng dokumentong ito na nakaimbak sa index ng search engine.
  • Depende sa pinili ng user, ang rating na ito ay maaaring isaayos ng mga karagdagang kundisyon (halimbawa, ang tinatawag na "advanced na paghahanap").
  • Susunod, bubuo ang isang snippet, iyon ay, para sa bawat dokumentong natagpuan, ang pamagat, isang maikling abstract na pinakamahusay na tumutugma sa query, at isang link sa mismong dokumento ay kinukuha mula sa talahanayan ng dokumento, at ang mga salitang natagpuan ay naka-highlight.
  • Ang mga resultang resulta ng paghahanap ay ipinadala sa user sa anyo ng isang SERP (Search Engine Result Page) – isang pahina ng mga resulta ng paghahanap.

Tulad ng nakikita mo, ang lahat ng mga sangkap na ito ay malapit na nauugnay sa bawat isa at gumagana sa pakikipag-ugnayan, na bumubuo ng isang malinaw, medyo kumplikadong mekanismo para sa pagpapatakbo ng sistema ng paghahanap, na nangangailangan ng malaking halaga ng mga mapagkukunan.

6. Konklusyon

Ngayon ay ibubuod natin ang lahat ng nasa itaas.

  • Ang pangunahing layunin ng anumang search engine ay upang maihatid sa mga tao ang eksaktong impormasyon na kanilang hinahanap.
  • Mga pangunahing katangian ng mga search engine:
    1. pagkakumpleto
    2. Katumpakan
    3. Kaugnayan
    4. Bilis ng paghahanap
    5. Visibility
  • Ang unang ganap na search engine ay ang proyekto ng WebCrawler, na inilathala noong 1994.
  • Kasama sa sistema ng paghahanap ang mga sumusunod na bahagi:
    1. Module ng pag-index
    2. Database
    3. Search server

Umaasa kami na ang aming master class ay magbibigay-daan sa iyo na maging mas pamilyar sa konsepto ng isang search engine at mas maunawaan ang mga pangunahing pag-andar, katangian at mga prinsipyo ng pagpapatakbo ng mga search engine.

1. Mga tuntunin at kahulugan Sa kasunduang ito sa pagproseso ng personal na data (mula rito ay tinutukoy bilang ang Kasunduan), ang mga tuntunin sa ibaba ay may mga sumusunod na kahulugan: Operator - Indibidwal na Entrepreneur Oleg Aleksandrovich Dneprovsky. Pagtanggap sa Kasunduan - buo at walang kondisyong pagtanggap sa lahat ng mga tuntunin ng Kasunduan sa pamamagitan ng pagpapadala at pagproseso ng personal na data. Personal na data - impormasyong ipinasok ng User (paksa ng personal na data) sa site at direkta o hindi direktang nauugnay sa User na ito. User - sinumang indibidwal o legal na entity na matagumpay na nakumpleto ang pamamaraan ng pagpuno sa mga input field sa site. Ang pagpuno sa mga patlang ng input ay ang pamamaraan para sa Gumagamit upang ipadala ang kanilang pangalan, apelyido, numero ng telepono, personal na email address (mula dito ay tinutukoy bilang Personal na Data) sa database ng mga rehistradong gumagamit ng site, na isinasagawa para sa layunin ng pagkilala ang Gumagamit. Bilang resulta ng pagpuno sa mga field ng input, ipinapadala ang personal na data sa database ng Operator. Ang pagpuno sa mga input field ay boluntaryo. website - isang website na matatagpuan sa Internet at binubuo ng isang pahina. 2. Pangkalahatang mga probisyon 2.1. Ang Kasunduang ito ay iginuhit batay sa mga kinakailangan ng Pederal na Batas ng Hulyo 27, 2006 No. 152-FZ "Sa Personal na Data" at ang mga probisyon ng Artikulo 13.11 sa "Paglabag sa batas ng Russian Federation sa larangan ng personal na data” ng Code of Administrative Offenses ng Russian Federation at wasto para sa lahat ng personal na data na makukuha ng Operator tungkol sa User habang ginagamit ang Site. 2.2. Ang pagpuno sa mga input field ng User sa Site ay nangangahulugan ng walang kondisyong kasunduan ng User sa lahat ng mga tuntunin ng Kasunduang ito (Pagtanggap sa Kasunduan). Sa kaso ng hindi pagkakasundo sa mga kundisyong ito, hindi pinupunan ng User ang mga input field sa Site. 2.3. Ang pahintulot ng Gumagamit sa pagbibigay ng personal na data sa Operator at ang kanilang pagproseso ng Operator ay may bisa hanggang sa pagwawakas ng mga aktibidad ng Operator o hanggang sa bawiin ng User ang pahintulot. Sa pamamagitan ng pagtanggap sa Kasunduang ito at pagdaan sa pamamaraan ng Pagpaparehistro, pati na rin sa pamamagitan ng pag-access sa Site, kinumpirma ng Gumagamit na, sa pagkilos ng kanyang sariling malayang kalooban at sa kanyang sariling interes, inililipat niya ang kanyang personal na data para sa pagproseso sa Operator at sumasang-ayon na kanilang pagproseso. Inaabisuhan ang Gumagamit na ang pagproseso ng kanyang personal na data ay isasagawa ng Operator batay sa Pederal na Batas ng Hulyo 27, 2006 No. 152-FZ "Sa Personal na Data". 3. Listahan ng personal na data at iba pang impormasyon tungkol sa user na ililipat sa Operator 3. 1. Kapag ginagamit ang Website ng Operator, ibinibigay ng User ang sumusunod na personal na data: 3.1.1. Maaasahang personal na impormasyon na ibinibigay ng User tungkol sa kanyang sarili nang nakapag-iisa kapag Pinupunan ang mga input field at/o sa proseso ng paggamit ng mga serbisyo ng Site, kabilang ang apelyido, pangalan, patronymic, numero ng telepono (bahay o mobile), personal na email address. 3.1.2. Ang data na awtomatikong inililipat sa mga serbisyo ng Site sa panahon ng kanilang paggamit gamit ang software na naka-install sa device ng User, kabilang ang IP address, impormasyon mula sa Cookies, impormasyon tungkol sa browser ng User (o iba pang program kung saan ina-access ang mga serbisyo). 3.2. Hindi bini-verify ng Operator ang katumpakan ng personal na data na ibinigay ng User. Sa kasong ito, ipinapalagay ng Operator na ang Gumagamit ay nagbibigay ng maaasahan at sapat na personal na impormasyon sa mga tanong na iminungkahi sa Mga Patlang ng Input. 4. Mga layunin, panuntunan para sa pangongolekta at paggamit ng personal na data 4.1. Pinoproseso ng Operator ang personal na data na kinakailangan upang magbigay ng mga serbisyo at magbigay ng mga serbisyo sa User. 4.2. Ang personal na data ng User ay ginagamit ng Operator para sa mga sumusunod na layunin: 4.2.1. Pagkakakilanlan ng gumagamit; 4.2.2. Ang pagbibigay sa Gumagamit ng mga personalized na serbisyo (pati na rin ang pagpapaalam tungkol sa mga bagong promosyon at serbisyo ng kumpanya sa pamamagitan ng pagpapadala ng mga liham); 4.2.3. Pagpapanatili ng komunikasyon sa User kung kinakailangan, kabilang ang pagpapadala ng mga abiso, kahilingan at impormasyon na may kaugnayan sa paggamit ng mga serbisyo, pagbibigay ng mga serbisyo, pati na rin ang pagproseso ng mga kahilingan at aplikasyon mula sa User; 4.3. Sa panahon ng pagproseso ng personal na data, ang mga sumusunod na aksyon ay isasagawa: pangongolekta, pagtatala, systematization, akumulasyon, imbakan, paglilinaw (pag-update, pagbabago), pagkuha, paggamit, pagharang, pagtanggal, pagkasira. 4.4. Ang gumagamit ay hindi tumututol na ang impormasyong tinukoy niya sa ilang mga kaso ay maaaring ibigay sa mga awtorisadong katawan ng estado ng Russian Federation alinsunod sa kasalukuyang batas ng Russian Federation. 4.5. Ang personal na data ng User ay iniimbak at pinoproseso ng Operator sa paraang ibinigay sa Kasunduang ito para sa buong panahon ng aktibidad ng Operator. 4.6. Ang pagproseso ng personal na data ay isinasagawa ng Operator sa pamamagitan ng pagpapanatili ng mga database, awtomatiko, mekanikal, at manu-manong pamamaraan. 4.7. Gumagamit ang Site ng Cookies at iba pang mga teknolohiya upang subaybayan ang paggamit ng mga serbisyo ng Site. Ang data na ito ay kinakailangan upang ma-optimize ang teknikal na operasyon ng Site at mapabuti ang kalidad ng pagbibigay ng serbisyo. Ang Site ay awtomatikong nagtatala ng impormasyon (kabilang ang URL, IP address, uri ng browser, wika, petsa at oras ng kahilingan) tungkol sa bawat bisita sa Site. Ang gumagamit ay may karapatang tumanggi na magbigay ng personal na data kapag bumibisita sa Site o huwag paganahin ang Cookies, ngunit sa kasong ito, hindi lahat ng mga function ng Site ay maaaring gumana nang tama. 4.8. Ang mga kundisyon ng pagiging kumpidensyal na ibinigay para sa Kasunduang ito ay nalalapat sa lahat ng impormasyon na maaaring makuha ng Operator tungkol sa User sa panahon ng pananatili ng huli sa Site at paggamit ng Site. 4.9. Ang impormasyon na ibinunyag sa publiko sa panahon ng pagpapatupad ng Kasunduang ito, pati na rin ang impormasyong maaaring makuha ng mga partido o mga ikatlong partido mula sa mga mapagkukunan kung saan ang sinumang tao ay may libreng pag-access, ay hindi kumpidensyal. 4.10. Ginagawa ng Operator ang lahat ng kinakailangang hakbang upang maprotektahan ang pagiging kumpidensyal ng personal na data ng User mula sa hindi awtorisadong pag-access, pagbabago, pagsisiwalat o pagkasira, kabilang ang: pagtiyak ng patuloy na panloob na pag-verify ng mga proseso ng pagkolekta, pag-iimbak at pagproseso ng data at pagtiyak ng seguridad; tinitiyak ang pisikal na seguridad ng data, na pumipigil sa hindi awtorisadong pag-access sa mga teknikal na sistema na nagsisiguro sa pagpapatakbo ng Site, kung saan ang Operator ay nag-iimbak ng personal na data; nagbibigay ng access sa personal na data lamang sa mga empleyado ng Operator o mga awtorisadong tao na nangangailangan ng impormasyong ito upang maisagawa ang mga tungkuling direktang nauugnay sa pagbibigay ng mga serbisyo sa User, pati na rin ang pagpapatakbo, pag-unlad at pagpapabuti ng Site. 4.11. Ang personal na data ng User ay nananatiling kumpidensyal, maliban sa mga kaso kung saan ang User ay boluntaryong nagbibigay ng impormasyon tungkol sa kanyang sarili para sa pangkalahatang pag-access sa isang walang limitasyong bilang ng mga tao. 4.12. Ang paglipat ng Operator ng personal na data ng Gumagamit ay ligal sa panahon ng muling pag-aayos ng Operator at ang paglilipat ng mga karapatan sa legal na kahalili ng Operator, habang ang lahat ng mga obligasyon na sumunod sa mga tuntunin ng Kasunduang ito na may kaugnayan sa personal na impormasyong natanggap niya ay inilipat sa legal na kahalili. 4.13. Ang Pahayag na ito ay nalalapat lamang sa Website ng Operator. Ang Kumpanya ay hindi kinokontrol at hindi mananagot para sa mga third party na site (mga serbisyo) na maa-access ng user sa pamamagitan ng mga link na available sa Website ng Operator, kasama ang mga resulta ng paghahanap. Sa mga nasabing Site (mga serbisyo), maaaring mangolekta o humiling ng ibang personal na impormasyon mula sa user, at maaaring magsagawa ng iba pang mga aksyon 5. Mga karapatan ng user bilang paksa ng personal na data, pagbabago at pagtanggal ng personal na data ng user 5.1. Ang gumagamit ay may karapatan: 5.1.2. Atasan ang Operator na linawin ang kanyang personal na data, i-block ito o sirain ito kung ang personal na data ay hindi kumpleto, lipas na sa panahon, hindi tumpak, iligal na nakuha o hindi kinakailangan para sa nakasaad na layunin ng pagproseso, at gumawa din ng mga hakbang na ibinigay ng batas upang maprotektahan ang kanyang mga karapatan. 5.1.3. Tumanggap ng impormasyon tungkol sa pagproseso ng kanyang personal na data, kabilang ang impormasyong naglalaman ng: 5.1.3.1. kumpirmasyon ng katotohanan ng pagproseso ng personal na data ng Operator; 5.1.3.2. ang mga layunin at pamamaraan ng pagproseso ng personal na data na ginagamit ng operator; 5.1.3.3. pangalan at lokasyon ng Operator; 5.1.3.4. naprosesong personal na data na nauugnay sa may-katuturang paksa ng personal na data, ang pinagmulan ng kanilang resibo, maliban kung ang ibang pamamaraan para sa pagtatanghal ng naturang data ay ibinigay ng pederal na batas; 5.1.3.5. mga tuntunin ng pagproseso ng personal na data, kabilang ang mga panahon ng kanilang imbakan; 5.1.3.6. iba pang impormasyon na ibinigay ng kasalukuyang batas ng Russian Federation. 5.2. Ang pag-withdraw ng pahintulot sa pagproseso ng personal na data ay maaaring isagawa ng User sa pamamagitan ng pagpapadala sa Operator ng naaangkop na nakasulat (naka-print sa isang tangible medium at nilagdaan ng User) na abiso. 6. Mga Responsibilidad ng Operator. Access sa personal na data 6.1. Ang Operator ay nangangako upang matiyak ang pag-iwas sa hindi awtorisado at hindi naka-target na pag-access sa personal na data ng Mga Gumagamit ng Website ng Operator. Sa kasong ito, ang awtorisado at naka-target na pag-access sa personal na data ng Mga User ng Site ay ituturing na access sa kanila ng lahat ng mga interesadong partido, na ipinatupad sa loob ng balangkas ng mga layunin at paksa ng Site ng Operator. Kasabay nito, ang Operator ay hindi mananagot para sa posibleng maling paggamit ng personal na data ng Mga Gumagamit na nangyayari bilang resulta ng: mga teknikal na problema sa software at sa hardware at mga network na lampas sa kontrol ng Operator; kaugnay ng sinadya o hindi sinasadyang paggamit ng mga Website ng Operator maliban sa layunin ng mga ikatlong partido; 6.2 Ang Operator ay nagsasagawa ng kinakailangan at sapat na pang-organisasyon at teknikal na mga hakbang upang maprotektahan ang personal na impormasyon ng gumagamit mula sa hindi awtorisado o hindi sinasadyang pag-access, pagkasira, pagbabago, pagharang, pagkopya, pamamahagi, gayundin mula sa iba pang labag sa batas na pagkilos ng mga ikatlong partido. 7. Mga Pagbabago sa Patakaran sa Privacy. Naaangkop na batas 7.1. Ang Operator ay may karapatang gumawa ng mga pagbabago sa Mga Regulasyon na ito nang walang anumang espesyal na abiso sa Mga Gumagamit. Kapag ginawa ang mga pagbabago sa kasalukuyang edisyon, ipinapahiwatig ang petsa ng huling pag-update. Ang bagong edisyon ng Mga Regulasyon ay magkakabisa mula sa sandali ng paglalathala nito, maliban kung iba ang ibinigay ng bagong edisyon ng Mga Regulasyon. 7.2. Ang batas ng Russian Federation ay dapat ilapat sa Regulasyon na ito at ang ugnayan sa pagitan ng Gumagamit at Operator na nagmumula na may kaugnayan sa aplikasyon ng Regulasyon. Tanggap ko hindi ko tinatanggap

Hindi kami kakaiba gaya ng iniisip namin: milyon-milyong tao ang nauna sa amin ang naguguluhan at milyun-milyong kasunod namin ang magpapagulo sa search engine na may halos magkaparehong mga tanong. Sa kabilang banda, kami ay masyadong hindi mahuhulaan: ang pagbabalangkas ng aming kahilingan ay naiimpluwensyahan ng isang malaking bilang ng mga kadahilanan na hindi namin alam. At least para sa kadahilanang ito, ang kahilingan ng bawat isa sa atin, gaano man ito kababawal, ay nangangailangan ng isang indibidwal na diskarte.

Sa katunayan, ang buong gawain ng search engine ng Yandex ay bumaba sa dalawang simpleng bagay: upang maunawaan kung ano ang talagang gustong malaman ng isang tao, at sa ilang segundo upang makahanap ng mga angkop sa mga bilyun-bilyong dokumento sa Internet.

Kumuha ng mga fingerprint

Ang operating system ng search engine ay medyo katulad sa Matrix, at ang search robot (ang kumplikado, nakapag-iisa na programa sa paggawa ng desisyon) ay katulad ng Agent Smith.

Upang hindi maghanap sa buong Internet sa tuwing may kailangang malaman, ang search engine ay gumagawa ng bahagi ng trabaho nang maaga - sinusuri nito kung ano ang nasa Web at kung nasaan ito, gamit ang libu-libong mga robot sa paghahanap. Dumating sila sa dalawang uri: basic at mabilis. Ang pangunahing isa ay gumagapang at nagpoproseso sa Internet sa kabuuan, at ang mabilis - mga dokumento na lumitaw isang minuto o kahit ilang segundo na ang nakalipas. Ang gawain ng mga programa ng robot ay pumili ng angkop at kapaki-pakinabang na impormasyon para sa mga gumagamit, iproseso ito, alisin ang lahat ng hindi napapanahon at hindi kailangan. Sa ilang mga paraan, ito ay nakapagpapaalaala sa pag-uuri ng basura: papel sa isang lalagyan, baso sa isa pa, plastik sa isang pangatlo, basura ng pagkain sa isang ikaapat...

Ang impormasyong nakolekta ng mga robot ay bumubuo sa tinatawag na Internet cast. Ito ay naka-imbak sa libu-libong mga server ng Yandex at patuloy na ina-update. Ang isang nugget ay tulad ng isang listahan na nagsasabi sa iyo kung saan mahahanap kung anong impormasyon. Sa listahang ito, ang bawat keyword ay walang isa, ngunit milyon-milyong "mga pahina". Upang matiyak na ang lahat ng mga update ng nugget ay magagamit sa mga user, inilipat ang mga ito mula sa repositoryo patungo sa "base search". Ang data mula sa pangunahing robot ay inililipat bawat ilang araw, at mula sa mabilis na robot - sa real time.

Dalhin sa malinis na tubig



ILUSTRATION: EVGENY TONKONOGY

Habang naghahanap ng sagot sa isang naibigay na tanong sa isang inihandang database, ang makina ay nahaharap sa dalawang pangunahing paghihirap. Ang unang kahirapan ay ang wika. Bago maghanap ng sagot sa isang tanong, mahalagang maunawaan ng makina kung anong wika ang dapat nitong gawin. Halimbawa, para sa isang taong nagsasalita ng Ruso, ang paghahanap para sa "squad ni Prince Igor" ay makakahanap ng mga dokumento na may impormasyon tungkol sa hukbo, at para sa isang Ukrainian, ang "squad ni Prince Igor" ay magbabalik din ng mga dokumento na nagbabanggit kay Princess Olga, ang kanyang asawa, dahil sa Ukrainian "asawa" ay "squad". At sa mayamang wikang Ruso, ang parehong salita o mga derivatives nito ay maaaring mangahulugan ng iba't ibang bagay. Halimbawa, ang salitang "bakal" ay isa sa mga anyo ng pangngalang "bakal" at ang pandiwang "maging". Ang pangalawang kahirapan ay ang sikolohiya ng tao. Kapag naglalagay ng kahilingan, inaasahan namin ang isang mabilis at tumpak na sagot, nang hindi natural na nag-aalala tungkol sa kung ang mga salita ng kahilingan ay tumutugma sa mga prinsipyo ng mathematical analysis kung saan gumagana ang utak ng makina. Halimbawa, sa pamamagitan ng pagpasok ng salitang "Napoleon" sa search bar, ano ang gustong makuha ng isang tao: isang recipe ng cake o isang talambuhay ng emperador ng Pransya, bumili ng cognac o hanapin ang address ng isang psychiatric hospital?


Sa ganitong mga sitwasyon, maraming mga teknolohiya ang pumapasok. Maaari kang magbigay sa iyo ng ilang mga pahiwatig sa ilalim ng search bar na tutukuyin ang iyong kahilingan. Tulad ng, piliin kung ano ang kailangan mo: Napoleon recipe o Napoleon - Bonaparte. Kung ang gumagamit ay hindi tumugon sa kahilingan ng makina at hindi nagdagdag ng mga salita sa "Napoleon", kung gayon ang teknolohiyang "Spectrum" ay tumutulong sa bagay na ito: nang hindi umaasa sa tulong, ang makina ay agad na naghahanap ng impormasyon sa ilang mga kategorya (tungkol sa cake, at tungkol sa emperador, at tungkol sa kabayo ..). Bilang karagdagan, ang mga mekanismo ng pag-personalize ay nakakatulong upang maunawaan ang user - ang kaalaman ng makina sa kung ano ang hinahanap ng user na ito sa kanyang computer isang araw, dalawa, tatlo, o buwan na ang nakalipas: kung madalas kang magtanong sa Yandex tungkol sa pagluluto, ang makina ay unang magpapakita resulta mo na nagsasabing si Napoleon ay isang cake.

Mga kumbinasyon: interes club

Ang gawain ng isang search engine ay hindi lamang pumili ng mga dokumento na naglalaman ng mga salita at parirala mula sa query sa paghahanap. Dapat na maunawaan ng makina kung aling mga dokumento ang nakakatugon sa aming magkasalungat na mga kinakailangan at kung bakit natutugunan ng mga ito ang mga ito. Nais ba naming makakuha ng impormasyon tungkol sa Napoleon the cake, o marahil ay bumisita kami sa isang fitness club na may mapagpanggap na pangalan sa loob ng ilang taon, o kahit na ganap na nag-aalala tungkol sa mga kumplikado ng mga maikling tao. Sa anumang kaso, ang paglutas ng problema ay nangangailangan ng isang di-maliit na diskarte.


Natagpuan ng mga tagalikha ng programa sa paghahanap ng Yandex ang diskarte na ito sa pamamagitan ng pag-delegate ng karapatan sa pagpili sa makina. Sa isang banda, ang isang walang kaluluwa, ngunit napakabilis at matalinong makina ay hindi alam at ayaw malaman ang anumang bagay tungkol sa amin bilang mga indibidwal, at sa kabilang banda, sinusubukan nitong alamin hangga't maaari ang tungkol sa lahat.

Bilang karagdagan sa heyograpikong lokasyon ng user at linguistic analysis ng kanyang mga query, ang search engine ay gumagamit ng ilang libong pamantayan na hindi talaga halata sa mga tao.

Ang lansihin ay ang makina ay bubuo at nag-a-update ng mga pamantayang ito nang nakapag-iisa.

Gumagamit lang ito ng data sa mga kagustuhan at gawi ng gumagamit ng milyun-milyong tao at iniuugnay ang "aritmetika average" na ito sa kasaysayan ng aming mga query. Ang mga prinsipyong gumagabay sa Matrix sa loob mismo, na naghahambing sa libu-libong kategorya ng mga interes ng user na binuo nito, ay kadalasang hindi umaangkop sa mga tradisyonal na ideya ng tao tungkol sa kung ano ang maaaring maging "mga interes" sa prinsipyo. Mayroong sampu-sampung libo sa kanila. Lumilikha sila ng iba't ibang, minsan nakakatawa, mga kumbinasyon sa bawat isa. Halimbawa, ang isa sa mga kumbinasyong ito ay maaaring ang mga resulta ng paghahanap ay tumutugma sa mga interes ng isang taong nag-aanak ng mga bagong panganak. Kasabay nito, ang isang tao ay hindi lamang interesado sa mga newts, ngunit pinalaki na sila, ngunit para lamang sa unang taon.

Mga rating. Pagtulong kamay


Ang matrix, siyempre, ay nagpapasya mismo (sa tulong ng mas mataas na matematika) kung ano at sa anong pagkakasunud-sunod ang kailangang ipakita sa mga gumagamit batay sa sampu-sampung libong pamantayan. Ngunit ang Matrix ay gumagamit din ng mga buhay na tao - 1000 empleyado ng Yandex, ang tinatawag na mga tagasuri, sinusuri ang mga resulta ng paghahanap para sa isang partikular na kahilingan (siyempre, hindi lahat ng kahilingan ay sinusuri, at hindi ito ginagawa sa totoong oras) upang matukoy kung natutugunan nila ang mga inaasahan ng isang ordinaryong gumagamit : hindi kasing katwiran ng isang makina, hindi kasing tumpak sa pagbabalangkas, kontradiksyon at emosyonal.