Internet-Suchmaschinen: Yandex, Google, Rambler, Yahoo. Zusammensetzung, Funktionen, Funktionsprinzip. Die einfachste Beschreibung des Funktionsprinzips der Yandex-Suchmaschinenkombinationen: Interessenclubs

Hallo liebe Freunde! In diesem Artikel werden wir uns weiterhin mit der Suchmaschine Yandex befassen, und wie Sie sich erinnern, haben wir in früheren Artikeln die Entstehungsgeschichte dieses großartigen Unternehmens besprochen, das unter seinen Konkurrenten in Russland und darüber hinaus an erster Stelle steht.

Das ist alles gut, aber Anfänger und erfahrene Site-Builder interessieren sich natürlich für die wichtigste Frage, nämlich wie sie ihre Projekte auf die ersten Plätze der TOP-Suchergebnisse bringen können.

Schauen wir uns daher an, wie die Yandex-Suchmaschine funktioniert, um zu verstehen, welche Fehler Sie machen können und was Sie von einer russischen Suchmaschine im Allgemeinen erwarten können.

Im letzten Artikel haben wir darüber gesprochen. Das Thema erwies sich als sehr interessant und nützlich. Deshalb habe ich beschlossen, es zu ergänzen, sozusagen zu vertiefen.

Daher habe ich mich wahrscheinlich ein wenig mit der Frage „Warum indiziert eine Suchmaschine Dokumente?“ beschäftigt. Das ist eine Selbstverständlichkeit. Es bleibt nur noch die Frage nach dem „Wie“ zu klären.

Algorithmen für das Website-Ranking

Machen wir uns zunächst mit einigen Algorithmen vertraut, die für jede Suchmaschine von grundlegender Bedeutung sind:

— Direktsuchalgorithmus.

Was ist das? Sie erinnern sich daran, in einem der Bücher eine wunderbare Geschichte gelesen zu haben. Und man fängt an, nacheinander zu suchen. Sie haben ein Buch genommen, es durchgesehen, es nicht gefunden, ein anderes genommen ... Das Prinzip ist klar, aber diese Methode ist extrem langwierig. Das ist auch verständlich.

— Rückwärtssuchalgorithmus.

Bei diesem Algorithmus wird aus jeder Seite Ihres Blogs eine Textdatei erstellt. In dieser Datei werden ALLE von Ihnen verwendeten Wörter in alphabetischer Reihenfolge aufgelistet. Sogar die Position dieses Wortes im Text ist angegeben (Koordinaten im Text).

Dies ist eine recht schnelle Methode, die Suche erfolgt jedoch bereits mit einigen Fehlern.

Hier ist vor allem zu verstehen, dass dieser Algorithmus nicht im Internet sucht, nicht bei der Suche in einem Blog. Und zwar in einer separaten Textdatei, die vor langer Zeit erstellt wurde. Als der Roboter zu dir kam. Und diese Dateien (Reverse-Indizes) werden auf Yandex-Servern gespeichert.

Das waren also die grundlegenden Suchalgorithmen. Diese. wie Yandex einfach die notwendigen Dokumente findet. Damit dürfte es keine Probleme geben.

Aber Yandex kennt mehr als ein oder sogar 100 Dokumente, aber nach den neuesten Daten aus meinen Quellen kennt Yandex etwa 11 Milliarden Dokumente (10.727.736.489 Seiten).

Und aus all dieser Menge müssen Sie Dokumente auswählen, die der Anfrage entsprechen. Und was noch wichtiger ist: Sie müssen sie irgendwie einordnen. Diese. Ordnen Sie sie nach dem Grad der Wichtigkeit bzw. nach dem Grad des Nutzens für den Leser.

Mathematische Suchmodelle

Um dieses Problem zu lösen, helfen mathematische Modelle. Jetzt werden wir über die einfachsten Modelle sprechen.

Boolesches mathematisches Modell– Wenn ein Wort in einem Dokument vorkommt, gilt das Dokument als gefunden. Nur ein Zufall und nichts Kompliziertes.

Aber hier gibt es Probleme. Wenn Sie als Benutzer beispielsweise ein beliebtes Wort oder noch besser die Präposition „v“ eingeben, die das häufigste Wort in der russischen Sprache ist und in JEDEM Dokument vorkommt, werden Ihnen so viele Ergebnisse angezeigt dass Ihnen eine solche Zahl gar nicht bewusst ist. Wie viele Dokumente haben Sie gefunden? Daher erschien das folgende Mattenmodell.

Vektormathematisches Modell– Dieses Modell bestimmt das „Gewicht“ des Dokuments. Es kommt nicht nur zu einem Zufall, sondern das Wort muss auch mehrmals vorkommen. Darüber hinaus ist die Relevanz (Compliance) umso höher, je häufiger ein Wort vorkommt.

Es ist das Vektormodell, das ALLE Suchmaschinen verwenden.

Wahrscheinlichkeitsmodell- komplexer. Das Prinzip ist folgendes: Die Suchmaschine hat die Seitenvorlage selbst gefunden. Sie suchen beispielsweise nach Informationen über die Geschichte von Yandex. Yandex speichert eine Art Standard. Nehmen wir an, dies wird mein vorheriger Artikel über Yandex sein.

Und er wird alle anderen Dokumente mit diesem Artikel vergleichen. Und die Logik hier ist folgende: Je ähnlicher Ihre Blog-Seite meinem Artikel ist, desto wahrscheinlicher ist die Tatsache, dass Ihre Blog-Seite auch für den Leser nützlich ist und auch über die Geschichte von Yandex erzählt.

Um die Anzahl der Dokumente zu reduzieren, die dem Benutzer angezeigt werden müssen, wurde das Konzept der Relevanz eingeführt, d. h. Einhaltung.

Wie relevant ist Ihre Blogseite für das Thema? Dies ist ein wichtiges Thema, wenn es um die Suchqualität geht.

Gutachter – wer sind sie und wofür sind sie zuständig?

Diese Relevanz wird auch zur Beurteilung der Qualität der Algorithmen benötigt.

Zu diesem Zweck gibt es ein Spezialeinheitshauptquartier – sie werden Assessoren genannt. Das sind besondere Menschen, die Suchergebnisse mit ihren Händen durchsehen.

Sie verfügen über Anweisungen zum Überprüfen von Websites, zum Bewerten usw. Und sie ermitteln manuell, ob Ihre Seiten für Suchanfragen geeignet sind oder nicht.

Und die Qualität von Suchalgorithmen hängt von der Meinung der Gutachter ab. Wenn alle Gutachter sagen, dass die Suchergebnisse nicht den Anforderungen entsprechen, bedeutet dies, dass der Ranking-Algorithmus falsch ist und Yandex der einzige Schuldige ist.

Wenn die Gutachter sagen, dass nur eine Site die Anforderung nicht erfüllt, bedeutet dies, dass die Site irgendwo weit weg fliegt und in den Suchergebnissen abgesenkt wird. Genauer gesagt, nicht die gesamte Website, sondern nur ein Artikel, aber das sei „nicht der Punkt“.

Natürlich können Gutachter nicht ALLE Artikel mit Händen und Augen prüfen und bewerten. Das ist verständlich.

Und andere Parameter, nach denen die Seiten eingestuft werden, helfen hier.

Davon gibt es viele, zum Beispiel:

  • Seitengewicht (vIC, PageRank, Babybauch im Allgemeinen);
  • Domänenautorität;
  • Relevanz des Textes für die Anfrage;
  • Relevanz externer Linktexte für die Anfrage;
  • sowie viele weitere Ranking-Faktoren.

Gutachter geben Kommentare ab und die Personen, die für die Erstellung des mathematischen Ranking-Modells verantwortlich sind, bearbeiten wiederum die Formel, wodurch die Suchmaschine effizienter arbeitet.

Die Hauptkriterien zur Bewertung der Leistung der Formel:

1. Genauigkeit der Suchmaschinenergebnisse- Prozentsatz der Dokumente, die der Anfrage entsprechen (relevant). Diese. Je weniger Seiten nicht der Anfrage entsprechen, desto besser.

2. Vollständigkeit der Suchmaschinenergebnisse– Dies ist das Verhältnis relevanter Webseiten für eine bestimmte Suchanfrage zur Gesamtzahl relevanter Dokumente in der Sammlung (die Gesamtheit der in der Suchmaschine gefundenen Seiten).

Wenn beispielsweise in der gesamten Sammlung relevantere Seiten vorhanden sind als in den Suchergebnissen, bedeutet dies, dass die Ergebnisse unvollständig sind. Dies geschah, weil einige der relevanten Webseiten gefiltert wurden.

3. Relevanz der Suchmaschinenergebnisse- Dies ist die Übereinstimmung der Webseite mit dem, was im Snippet geschrieben steht. Beispielsweise kann ein Dokument sehr unterschiedlich sein oder gar nicht existieren, aber dennoch in den Suchergebnissen vorhanden sein.

Die Relevanz der Suchergebnisse hängt direkt davon ab, wie oft der Suchroboter Dokumente aus seiner Sammlung scannt.

Die Sammlung (Indizierung der Seiten der Website) erfolgt durch ein spezielles Programm – einen Suchroboter.

Der Suchroboter empfängt eine Liste von Adressen zur Indexierung, kopiert sie und sendet dann die Inhalte der kopierten Webseiten zur Verarbeitung an einen Algorithmus, der sie in Reverse-Indizes umwandelt.

Nun, sozusagen „kurz gesagt“ haben wir die Prinzipien der Suchmaschine besprochen.

Fassen wir zusammen:

  1. Ein Suchroboter kommt zu Ihrem Blog.
  2. Der Suchroboter speichert den umgekehrten Index der Seite für spätere Suchvorgänge.
  3. Mithilfe eines mathematischen Modells wird das Dokument mithilfe von Formeln und unter Berücksichtigung der Meinung des Gutachters aufbereitet und in den Suchergebnissen angezeigt.

Das ist sehr, sehr vereinfacht. Nur um ein grundlegendes Verständnis dafür zu bekommen, wie die Yandex-Suchmaschine funktioniert.

Ich habe mittlerweile so viel Text geschrieben, und vielleicht ist so vieles nicht klar. Daher empfehle ich Ihnen, etwas später auf diesen Artikel zurückzukommen und sich dieses Video anzusehen.

Dies ist ein ausgezeichneter Leitfaden, aus dem ich auch einmal gelernt habe.

Ich hoffe, dass diese Informationen Ihnen helfen werden, besser zu verstehen, warum eine Ihrer Websites bei Suchanfragen die richtigen Positionen einnimmt, und alles zu tun, um diese zu verbessern.

Damit verabschiede ich mich von euch, bei Fragen beantworte ich diese jederzeit gerne in den Kommentaren. Oder möchten Sie den Artikel ergänzen?

Äußern Sie auf jeden Fall Ihre Meinung. !

Yandex ist heute die beliebteste Suchmaschine in Russland. Servicestatistiken LiveInternet, zeigt den Anteil von Yandex an der Masse des gesamtrussischen Publikums – er beträgt 53,4 %, wenn wir nur Moskau und die Region berücksichtigen, dann ist er sogar noch höher – 67,9 % (Moskau nimmt laut Anfragen mehr als ein 50 % von ganz Russland).

Die Website www.yandex.ru wurde 1997 erstellt; dafür reichte nur ein Server, der unter dem Desktop eines der ersten Yandex-Entwickler, Dmitry, stand, dessen Nachname Teablyum war. Sehr schnell nach der Eröffnung kauften wir einen zweiten Server, und bald, als es notwendig wurde, einen weiteren zu installieren, wurde klar, dass unter dem Tisch genug Platz für entweder drei Yandex-Server oder […] war.

Suchmaschinenentwickler sind bestrebt, den Nutzern die besten Antworten auf ihre Fragen zu bieten. Manchmal kann eine solche Antwort eine Zahl (zum Beispiel das Wetter in einer Stadt), ein Bild (zum Beispiel eine Adresse auf einer Karte), eine Übersetzung eines Wortes oder ein Vierzeiler sein. Wenn Sie über die passenden Informationen verfügen, kann die Antwort sofort gegeben werden. Daher ergänzt Yandex Internet-Suchergebnisse mit Antworten aus seinem […]

Ungefähr jede zehnte Anfrage an Yandex ist „navigativ“, das heißt, sie besteht aus dem Namen einer Organisation oder Website und der Benutzer möchte auf die Website dieser Organisation gehen. In diesem Fall wird die Yandex-Suchleiste anstelle der Browser-Adressleiste verwendet und der Benutzer ist in der Regel nicht an den verbleibenden neun Suchergebnissen interessiert. Ohne den Benutzer vom Hauptziel abzulenken, haben wir nach dem Hauptziel hinzugefügt […]

Die Hauptaufgabe einer Suchmaschine besteht darin, die Frage des Benutzers zu beantworten. Wenn ein Benutzer eine Anfrage stellt, greift die Suchmaschine nicht auf jede Seite im Internet zu, sondern durchsucht eine Datenbank mit ihr bekannten Seiten – den Suchindex. Dort findet sie alle Seiten mit den Wörtern aus der Suchanfrage. Der Benutzer sieht auf den Suchergebnisseiten Links zu diesen Seiten.

Wie wir sehen, steht Yandex nicht still und ich bin sicher, dass sich die Suchtechnologien dieses Systems weiterentwickeln werden, um die Suchqualität zu verbessern, die noch kaum als ideal bezeichnet werden kann.

Am 10. November 2009 kündigte Yandex eine neue Version des Suchalgorithmus an – Snezhinsk. Im Algorithmus zur Berechnung der Relevanz haben sich grundlegende Änderungen ergeben – Vertreter von Yandex schrieben Folgendes: „Es ist uns gelungen, ein genaueres und viel komplexeres mathematisches Modell zu erstellen, was zu einer deutlichen Steigerung der Suchqualität führte.“ Dank der Neugestaltung der Suchranking-Architektur konnte die Abrechnung von mehreren Tausend Besuchern umgesetzt werden.

Der Test der neuen Version des Yandex-Algorithmus begann am 9. Juli 2008. Laut Yandex „hängen die wichtigsten Änderungen im Programm mit einem neuen Ansatz für maschinelles Lernen und damit verbundenen Unterschieden in der Art und Weise zusammen, wie Ranking-Faktoren in der Formel berücksichtigt werden.“

Am 14. April 2008 begann der Test des neuen Suchalgorithmus „Magadan“ auf buki.yandex.ru. Neben der Verdoppelung der Anzahl der Rankingfaktoren kamen auch folgende Neuerungen hinzu:

Bevor wir uns in den Dschungel der Algorithmen wagen, erinnern wir uns daran, wie eine Suchmaschine im Allgemeinen funktioniert. Der logische Aufbau eines Suchsystems lässt sich in Form von drei Modulen darstellen (siehe Diagramm) Robot (Crawler) ist ein spezielles Programm, das Internetseiten crawlt und deren Inhalte herunterlädt. Der Roboter hat einen speziellen Zeitplan, nach dem er seine Runden durchführt. Von einem Roboter geladene Website-Seiten, ein spezielles [...]

66. Was hat mehr Einfluss: ein Link von einer kostenlosen Plattform (Blogspot, LJ usw.) oder von einer Offline-Site/einem Offline-Blog? Kostenlose Plattformen übertragen weniger Gewicht als eigenständige Websites. Die Auswirkungen könnten jedoch größer sein. Dies ist auf viele Faktoren zurückzuführen: die aktuelle Ankerliste, den Zustand der verglichenen Websites usw. Eine eindeutige Antwort auf diese Frage ist nicht möglich. 67. Das größte Gewicht wird zwischen […] verlagert.

Vamana Tour – Reisen, Flugtickets und Visa rund um die Welt und nach Indien, Nepal, Sri Lanka, auf die Malediven, Mauritius und viele andere Orte auf dem Planeten. Ratschläge für Reisende und Pilger. So holen Sie das Beste aus Ihrer Reise heraus. Erstaunliche historische Chroniken und Geschichten erfahrener Reisender.

Was ist der Zweck der Berücksichtigung externer Links zu einer Website? Wie Sie im vorherigen Abschnitt sehen können, unterliegen fast alle Faktoren, die das Ranking beeinflussen, der Kontrolle des Seitenautors. Dadurch wird es für eine Suchmaschine unmöglich, ein wirklich hochwertiges Dokument von einer Seite zu unterscheiden, die speziell für eine bestimmte Suchphrase erstellt wurde oder sogar von einer Seite, die von einem Roboter generiert wurde und überhaupt keine nützlichen Informationen enthält. […]

Sie sind längst zu einem festen Bestandteil des russischen Internets geworden. Suchmaschinen sind heutzutage riesige und komplexe Mechanismen, die nicht nur ein Informationssuchwerkzeug, sondern auch verlockende Geschäftsfelder darstellen.

Die meisten Suchmaschinenbenutzer haben noch nie über das Funktionsprinzip von Suchmaschinen nachgedacht (oder darüber nachgedacht, aber keine Antwort gefunden), über das Schema zur Verarbeitung von Benutzeranfragen, darüber, woraus diese Systeme bestehen und wie sie funktionieren ...

Dieser Meisterkurs soll die Frage beantworten, wie Suchmaschinen funktionieren. Allerdings werden Sie hier keine Faktoren finden, die das Ranking von Dokumenten beeinflussen. Darüber hinaus sollten Sie nicht mit einer detaillierten Erklärung des Yandex-Algorithmus rechnen. Laut Ilya Segalovich, dem Direktor für Technologie und Entwicklung der Yandex-Suchmaschine, kann er nur „unter Folter“ von Ilya Segalovich selbst erkannt werden ...

2. Konzept und Funktionen einer Suchmaschine

Ein Suchsystem ist ein Software- und Hardwarekomplex, der dazu dient, das Internet zu durchsuchen und auf eine Benutzeranfrage zu reagieren, die in Form einer Textphrase (Suchanfrage) angegeben wird, indem eine Liste von Links zu Informationsquellen in der Reihenfolge ihrer Relevanz erstellt wird ( entsprechend der Anfrage). Die größten internationalen Suchmaschinen: "Google", Yahoo, MSN. Im russischen Internet sind dies Yandex, Rambler, Aport.

Schauen wir uns das Konzept einer Suchanfrage am Beispiel der Suchmaschine Yandex genauer an. Die Suchanfrage sollte vom Nutzer passend zu dem, was er finden möchte, so kurz und einfach wie möglich formuliert werden. Nehmen wir an, wir möchten in Yandex Informationen zur Auswahl eines Autos finden. Öffnen Sie dazu die Yandex-Hauptseite und geben Sie den Text der Suchanfrage „Wie wählt man ein Auto aus“ ein. Als nächstes besteht unsere Aufgabe darin, die auf unsere Anfrage hin bereitgestellten Links zu Informationsquellen im Internet zu öffnen. Es ist jedoch durchaus möglich, dass wir die benötigten Informationen nicht finden. Wenn dies geschieht, müssen Sie entweder Ihre Anfrage umformulieren, oder die Datenbank der Suchmaschine verfügt tatsächlich über keine relevanten Informationen zu unserer Anfrage (dies kann passieren, wenn sehr „enge“ Suchanfragen gestellt werden, wie zum Beispiel „Wie wählt man aus?“) ein Auto in Archangelsk“)

Das Hauptziel jeder Suchmaschine besteht darin, den Menschen genau die Informationen zu liefern, die sie suchen. Und bringen Sie den Benutzern bei, „richtige“ Anfragen an das System zu stellen, d. h. Suchanfragen, die den Funktionsprinzipien von Suchmaschinen entsprechen, sind nicht möglich. Daher erstellen Entwickler Algorithmen und Funktionsprinzipien für Suchmaschinen, die es Benutzern ermöglichen, die gesuchten Informationen zu finden.

Das bedeutet, dass die Suchmaschine genauso „denken“ muss wie der Benutzer, wenn er nach Informationen sucht. Wenn ein Nutzer eine Anfrage an eine Suchmaschine stellt, möchte er möglichst schnell und einfach finden, was er braucht. Nachdem er das Ergebnis erhalten hat, bewertet er die Leistung des Systems anhand mehrerer grundlegender Parameter. Hat er gefunden, wonach er gesucht hat? Wenn er es nicht gefunden hat, wie oft musste er die Abfrage umformulieren, um das Gesuchte zu finden? Wie viele relevante Informationen konnte er finden? Wie schnell hat die Suchmaschine die Anfrage verarbeitet? Wie komfortabel wurden die Suchergebnisse präsentiert? War das von Ihnen gesuchte Ergebnis das erste oder das hundertste? Wie viel unnötiger Müll wurde zusammen mit nützlichen Informationen gefunden? Werden die benötigten Informationen beim Zugriff auf eine Suchmaschine beispielsweise in einer Woche oder in einem Monat gefunden?

Um all diese Fragen mit Antworten zu beantworten, verbessern Suchmaschinenentwickler ständig Suchalgorithmen und -prinzipien, fügen neue Funktionen und Fähigkeiten hinzu und versuchen auf jede erdenkliche Weise, den Betrieb des Systems zu beschleunigen.

3. Hauptmerkmale einer Suchmaschine

Lassen Sie uns die Hauptmerkmale von Suchmaschinen beschreiben:

  • Vollständigkeit

    Vollständigkeit ist eines der Hauptmerkmale eines Suchsystems. Dabei handelt es sich um das Verhältnis der Anzahl der bei einer Anfrage gefundenen Dokumente zur Gesamtzahl der Dokumente im Internet, die der jeweiligen Anfrage entsprechen. Wenn es im Internet beispielsweise 100 Seiten mit dem Satz „Wie wählt man ein Auto aus“ gibt und nur 60 davon für die entsprechende Suchanfrage gefunden wurden, beträgt die Vollständigkeit der Suche 0,6. Je vollständiger die Suche ist, desto geringer ist natürlich die Wahrscheinlichkeit, dass der Benutzer das gesuchte Dokument nicht findet, sofern es überhaupt im Internet vorhanden ist.

  • Genauigkeit

    Ein weiteres Hauptmerkmal einer Suchmaschine ist die Genauigkeit, die davon abhängt, inwieweit die gefundenen Dokumente mit der Suchanfrage des Benutzers übereinstimmen. Wenn beispielsweise die Abfrage „Wie wählt man ein Auto aus“ 100 Dokumente enthält, enthalten 50 davon den Satz „Wie wählt man ein Auto“ und der Rest enthält einfach diese Wörter („Wie wählt man das richtige Radio aus und baut es ein“) ein Auto“), dann wird die Suchgenauigkeit mit 50/100 (=0,5) angenommen. Je genauer die Suche ist, desto schneller findet der Benutzer die von ihm benötigten Dokumente, desto weniger „Müll“ aller Art findet sich darunter und desto seltener entsprechen die gefundenen Dokumente nicht der Anfrage.

  • Relevanz

    Ein ebenso wichtiger Bestandteil der Suche ist die Relevanz, die durch die Zeit charakterisiert wird, die von der Veröffentlichung von Dokumenten im Internet bis zu ihrer Eingabe in die Indexdatenbank der Suchmaschine vergeht. Beispielsweise wandten sich am Tag nach dem Erscheinen interessanter Nachrichten zahlreiche Nutzer mit relevanten Suchanfragen an Suchmaschinen. Objektiv gesehen ist seit der Veröffentlichung der Nachrichteninformationen zu diesem Thema weniger als ein Tag vergangen, aber die wichtigsten Dokumente sind dank der sogenannten „Schnelldatenbank“ großer Suchmaschinen bereits indiziert und für die Suche verfügbar wird mehrmals täglich aktualisiert.

  • Suchgeschwindigkeit

    Die Suchgeschwindigkeit hängt eng mit dem Lastwiderstand zusammen. Beispielsweise erhält die Rambler-Suchmaschine laut Rambler Internet Holding LLC heute während der Geschäftszeiten etwa 60 Anfragen pro Sekunde. Eine solche Arbeitsbelastung erfordert eine Verkürzung der Bearbeitungszeit einer einzelnen Anfrage. Hier stimmen die Interessen des Nutzers und der Suchmaschine überein: Der Besucher möchte möglichst schnell Ergebnisse erhalten und die Suchmaschine muss die Anfrage möglichst schnell bearbeiten, um die Berechnung nachfolgender Suchanfragen nicht zu verlangsamen.

  • Sichtweite

4. Kurze Geschichte der Entwicklung von Suchmaschinen

In der Anfangsphase der Entwicklung des Internets war die Zahl seiner Nutzer gering und die Menge der verfügbaren Informationen relativ gering. Größtenteils hatten nur Forschungsmitarbeiter Zugang zum Internet. Zu diesem Zeitpunkt war die Suche nach Informationen im Internet noch nicht so dringend wie heute.

Eine der ersten Möglichkeiten, den Zugriff auf Netzwerkinformationsressourcen zu organisieren, war die Erstellung offener Verzeichnisse von Websites, in denen Links zu Ressourcen nach Themen gruppiert waren. Das erste Projekt dieser Art war die Website Yahoo.com, die im Frühjahr 1994 eröffnet wurde. Nachdem die Anzahl der Websites im Katalog erheblich zugenommen hatte, wurde die Möglichkeit hinzugefügt, im Katalog nach den erforderlichen Informationen zu suchen. Im eigentlichen Sinne handelte es sich noch nicht um eine Suchmaschine, da der Suchbereich nur auf die im Katalog vorhandenen Ressourcen und nicht auf alle Internetressourcen beschränkt war.

Linkverzeichnisse waren in der Vergangenheit weit verbreitet, haben heute jedoch fast vollständig an Popularität verloren. Denn selbst moderne Kataloge mit riesigem Umfang enthalten nur Informationen über einen vernachlässigbaren Teil des Internets. Das größte Verzeichnis des DMOZ-Netzwerks (auch Open Directory Project genannt) enthält Informationen über 5 Millionen Ressourcen, während die Google-Suchmaschinendatenbank aus mehr als 8 Milliarden Dokumenten besteht.

1995 erschienen die Suchmaschinen Lycos und AltaVista. Letzterer ist seit vielen Jahren führend auf dem Gebiet der Informationssuche im Internet.

Im Jahr 1997 entwickelten Sergey Brin und Larry Page im Rahmen eines Forschungsprojekts an der Stanford University die Google-Suchmaschine. Google ist derzeit die beliebteste Suchmaschine der Welt!

Im September 1997 wurde die Suchmaschine Yandex, die beliebteste im russischsprachigen Internet, offiziell angekündigt.

Derzeit gibt es drei Hauptsuchmaschinen (international) – Google, Yahoo und, die über eigene Datenbanken und Suchalgorithmen verfügen. Die meisten anderen Suchmaschinen (von denen es eine große Anzahl gibt) verwenden in der einen oder anderen Form die Ergebnisse der drei aufgeführten. Beispielsweise verwendet die AOL-Suche (search.aol.com) die Google-Datenbank, während AltaVista, Lycos und AllTheWeb die Yahoo-Datenbank verwenden.

5. Zusammensetzung und Funktionsprinzipien des Suchsystems

In Russland ist Yandex die wichtigste Suchmaschine, gefolgt von Rambler.ru, Google.ru, Aport.ru und Mail.ru. Darüber hinaus nutzt Mail.ru derzeit die Suchmaschine und Datenbank Yandex.

Fast alle großen Suchmaschinen haben ihre eigene Struktur, die sich von anderen unterscheidet. Es ist jedoch möglich, die Hauptkomponenten zu identifizieren, die allen Suchmaschinen gemeinsam sind. Unterschiede in der Struktur können nur in der Umsetzung der Interaktionsmechanismen dieser Komponenten bestehen.

Indexierungsmodul

Das Indexierungsmodul besteht aus drei Hilfsprogrammen (Robotern):

Spider ist ein Programm zum Herunterladen von Webseiten. Der Spider lädt die Seite herunter und ruft alle internen Links von dieser Seite ab. Der HTML-Code jeder Seite wird heruntergeladen. Roboter verwenden HTTP-Protokolle, um Seiten herunterzuladen. Die Spinne funktioniert wie folgt. Der Roboter sendet die Anfrage „get/path/document“ und einige andere HTTP-Anfragebefehle an den Server. Als Antwort erhält der Roboter einen Textstrom mit Serviceinformationen und dem Dokument selbst.

  • Seiten-URL
  • Datum, an dem die Seite heruntergeladen wurde
  • HTTP-Header der Serverantwort
  • Seitentext (HTML-Code)

Crawler („reisende“ Spinne) ist ein Programm, das automatisch allen auf der Seite gefundenen Links folgt. Wählt alle auf der Seite vorhandenen Links aus. Seine Aufgabe besteht darin, anhand von Links oder einer vorgegebenen Liste von Adressen zu bestimmen, wohin der Spider als nächstes gehen soll. Der Crawler sucht anhand der gefundenen Links nach neuen Dokumenten, die der Suchmaschine noch unbekannt sind.

Indexer (Roboter-Indexer) ist ein Programm, das von Spidern heruntergeladene Webseiten analysiert. Der Indexer zerlegt die Seite in ihre Bestandteile und analysiert sie mithilfe seiner eigenen lexikalischen und morphologischen Algorithmen. Es werden verschiedene Seitenelemente analysiert, wie z. B. Texte, Überschriften, Links, Struktur- und Stilmerkmale, spezielle Service-HTML-Tags usw.

Somit ermöglicht Ihnen das Indexierungsmodul, einen bestimmten Satz von Ressourcen mithilfe von Links zu crawlen, gefundene Seiten herunterzuladen, Links zu neuen Seiten aus empfangenen Dokumenten zu extrahieren und eine vollständige Analyse dieser Dokumente durchzuführen.

Datenbank

Eine Datenbank oder ein Suchmaschinenindex ist ein Datenspeichersystem, ein Informationsarray, in dem speziell konvertierte Parameter aller heruntergeladenen und vom Indexierungsmodul verarbeiteten Dokumente gespeichert werden.

Suchserver

Der Suchserver ist das wichtigste Element des gesamten Systems, da Qualität und Geschwindigkeit der Suche direkt von den Algorithmen abhängen, die seiner Funktionsweise zugrunde liegen.

Der Suchserver funktioniert wie folgt:

  • Die vom Benutzer erhaltene Anfrage wird einer morphologischen Analyse unterzogen. Die Informationsumgebung jedes in der Datenbank enthaltenen Dokuments wird generiert (die anschließend in Form von Textinformationen angezeigt wird, die der Anfrage auf der Suchergebnisseite entsprechen).
  • Die empfangenen Daten werden als Eingabeparameter an ein spezielles Ranking-Modul übergeben. Für alle Dokumente werden Daten verarbeitet, wodurch jedes Dokument eine eigene Bewertung erhält, die die Relevanz der vom Benutzer eingegebenen Suchanfrage und die verschiedenen im Suchmaschinenindex gespeicherten Komponenten dieses Dokuments charakterisiert.
  • Je nach Wahl des Nutzers kann diese Bewertung durch zusätzliche Bedingungen angepasst werden (z. B. die sogenannte „erweiterte Suche“).
  • Als nächstes wird ein Snippet generiert, d. h. für jedes gefundene Dokument werden der Titel, eine kurze Zusammenfassung, die am besten zur Suchanfrage passt, und ein Link zum Dokument selbst aus der Dokumententabelle extrahiert und die gefundenen Wörter hervorgehoben.
  • Die resultierenden Suchergebnisse werden dem Nutzer in Form einer SERP (Search Engine Result Page) – einer Suchergebnisseite – übermittelt.

Wie Sie sehen, sind alle diese Komponenten eng miteinander verbunden und arbeiten zusammen und bilden einen klaren, recht komplexen Mechanismus für den Betrieb des Suchsystems, der enorme Ressourcen erfordert.

6. Fazit

Fassen wir nun alle oben genannten Punkte zusammen.

  • Das Hauptziel jeder Suchmaschine besteht darin, den Menschen genau die Informationen zu liefern, die sie suchen.
  • Hauptmerkmale von Suchmaschinen:
    1. Vollständigkeit
    2. Genauigkeit
    3. Relevanz
    4. Suchgeschwindigkeit
    5. Sichtweite
  • Die erste vollwertige Suchmaschine war das 1994 veröffentlichte WebCrawler-Projekt.
  • Das Suchsystem umfasst die folgenden Komponenten:
    1. Indexierungsmodul
    2. Datenbank
    3. Suchserver

Wir hoffen, dass Sie mit unserem Meisterkurs das Konzept einer Suchmaschine besser kennenlernen und die Hauptfunktionen, Eigenschaften und Funktionsprinzipien von Suchmaschinen besser verstehen können.

1. Begriffe und Definitionen In dieser Vereinbarung über die Verarbeitung personenbezogener Daten (im Folgenden als Vereinbarung bezeichnet) haben die folgenden Begriffe die folgenden Definitionen: Betreiber – Einzelunternehmer Oleg Aleksandrovich Dneprovsky. Annahme der Vereinbarung – vollständige und bedingungslose Annahme aller Bedingungen der Vereinbarung durch Übermittlung und Verarbeitung personenbezogener Daten. Persönliche Daten – vom Benutzer auf der Website eingegebene Informationen (Gegenstand personenbezogener Daten), die sich direkt oder indirekt auf diesen Benutzer beziehen. Benutzer – jede natürliche oder juristische Person, die das Verfahren zum Ausfüllen der Eingabefelder auf der Website erfolgreich abgeschlossen hat. Durch das Ausfüllen von Eingabefeldern sendet der Benutzer seinen Vornamen, Nachnamen, seine Telefonnummer und seine persönliche E-Mail-Adresse (im Folgenden als „personenbezogene Daten“ bezeichnet) an die Datenbank der registrierten Benutzer der Website und dient der Identifizierung der Benutzer. Durch das Ausfüllen der Eingabefelder werden personenbezogene Daten an die Datenbank des Betreibers übermittelt. Das Ausfüllen der Eingabefelder ist freiwillig. Website – eine Website im Internet, die aus einer Seite besteht. 2. Allgemeine Bestimmungen 2.1. Diese Vereinbarung wird auf der Grundlage der Anforderungen des Bundesgesetzes vom 27. Juli 2006 Nr. 152-FZ „Über personenbezogene Daten“ und der Bestimmungen von Artikel 13.11 über „Verstöße gegen die Gesetzgebung der Russischen Föderation im Bereich“ erstellt „Personenbezogene Daten“ des Gesetzes über Ordnungswidrigkeiten der Russischen Föderation und gilt für alle personenbezogenen Daten, die der Betreiber über den Benutzer bei der Nutzung der Website erhalten kann. 2.2. Das Ausfüllen der Eingabefelder durch den Benutzer auf der Website bedeutet die bedingungslose Zustimmung des Benutzers zu allen Bedingungen dieser Vereinbarung (Annahme der Vereinbarung). Im Falle einer Nichtübereinstimmung mit diesen Bedingungen füllt der Benutzer die Eingabefelder auf der Website nicht aus. 2.3. Die Einwilligung des Nutzers zur Bereitstellung personenbezogener Daten an den Betreiber und deren Verarbeitung durch den Betreiber gilt bis zur Beendigung der Tätigkeit des Betreibers oder bis zum Widerruf der Einwilligung durch den Nutzer. Durch die Annahme dieser Vereinbarung und die Durchführung des Registrierungsverfahrens sowie durch den anschließenden Zugriff auf die Website bestätigt der Nutzer, dass er aus freien Stücken und in seinem eigenen Interesse seine personenbezogenen Daten zur Verarbeitung an den Betreiber übermittelt und damit einverstanden ist deren Verarbeitung. Der Benutzer wird darüber informiert, dass die Verarbeitung seiner personenbezogenen Daten durch den Betreiber auf der Grundlage des Bundesgesetzes Nr. 152-FZ vom 27. Juli 2006 „Über personenbezogene Daten“ erfolgt. 3. Liste der an den Betreiber zu übermittelnden personenbezogenen Daten und sonstigen Informationen über den Nutzer 3. 1. Bei der Nutzung der Website des Betreibers stellt der Nutzer folgende personenbezogene Daten bereit: 3.1.1. Zuverlässige persönliche Informationen, die der Benutzer beim Ausfüllen von Eingabefeldern und/oder bei der Nutzung der Website-Dienste unabhängig über sich selbst bereitstellt, einschließlich Nachname, Vorname, Vatersname, Telefonnummer (privat oder mobil), persönliche E-Mail-Adresse. 3.1.2. Daten, die während ihrer Nutzung mithilfe der auf dem Gerät des Benutzers installierten Software automatisch an die Dienste der Website übertragen werden, einschließlich IP-Adresse, Informationen aus Cookies, Informationen über den Browser des Benutzers (oder ein anderes Programm, über das auf die Dienste zugegriffen wird). 3.2. Der Betreiber überprüft nicht die Richtigkeit der vom Nutzer bereitgestellten personenbezogenen Daten. In diesem Fall geht der Betreiber davon aus, dass der Nutzer verlässliche und ausreichende persönliche Angaben zu den in den Eingabefeldern vorgeschlagenen Fragen macht. 4. Zwecke, Regeln für die Erhebung und Nutzung personenbezogener Daten 4.1. Der Betreiber verarbeitet personenbezogene Daten, die zur Erbringung von Dienstleistungen und zur Erbringung von Dienstleistungen für den Nutzer erforderlich sind. 4.2. Die personenbezogenen Daten des Nutzers werden vom Betreiber für folgende Zwecke verwendet: 4.2.1. Benutzeridentifikation; 4.2.2. Bereitstellung personalisierter Dienste für den Benutzer (sowie Information über neue Werbeaktionen und Dienste des Unternehmens durch Versenden von Briefen); 4.2.3. Aufrechterhaltung des Kontakts mit dem Benutzer bei Bedarf, einschließlich des Versendens von Benachrichtigungen, Anfragen und Informationen im Zusammenhang mit der Nutzung von Diensten, der Bereitstellung von Diensten sowie der Bearbeitung von Anfragen und Anträgen des Benutzers; 4.3. Bei der Verarbeitung personenbezogener Daten werden folgende Aktionen durchgeführt: Erhebung, Aufzeichnung, Systematisierung, Akkumulation, Speicherung, Klärung (Aktualisierung, Änderung), Extraktion, Nutzung, Sperrung, Löschung, Vernichtung. 4.4. Der Nutzer erhebt keine Einwände dagegen, dass die von ihm angegebenen Informationen in bestimmten Fällen gemäß der geltenden Gesetzgebung der Russischen Föderation an autorisierte staatliche Stellen der Russischen Föderation weitergegeben werden dürfen. 4.5. Die personenbezogenen Daten des Nutzers werden vom Betreiber in der in dieser Vereinbarung vorgesehenen Weise für die gesamte Dauer der Tätigkeit des Betreibers gespeichert und verarbeitet. 4.6. Die Verarbeitung personenbezogener Daten erfolgt durch den Betreiber durch die Pflege von Datenbanken, automatisierten, maschinellen und manuellen Methoden. 4.7. Die Website verwendet Cookies und andere Technologien, um die Nutzung der Website-Dienste zu verfolgen. Diese Daten sind erforderlich, um den technischen Betrieb der Website zu optimieren und die Qualität der Servicebereitstellung zu verbessern. Die Website zeichnet automatisch Informationen (einschließlich URL, IP-Adresse, Browsertyp, Sprache, Datum und Uhrzeit der Anfrage) über jeden Besucher der Website auf. Der Benutzer hat das Recht, die Bereitstellung personenbezogener Daten beim Besuch der Website zu verweigern oder Cookies zu deaktivieren. In diesem Fall funktionieren jedoch möglicherweise nicht alle Funktionen der Website ordnungsgemäß. 4.8. Die in dieser Vereinbarung vorgesehenen Vertraulichkeitsbedingungen gelten für alle Informationen, die der Betreiber über den Benutzer während seines Aufenthalts auf der Website und seiner Nutzung der Website erhalten kann. 4.9. Informationen, die während der Durchführung dieser Vereinbarung öffentlich bekannt gegeben werden, sowie Informationen, die von den Parteien oder Dritten aus Quellen erhalten werden können, zu denen jede Person freien Zugang hat, sind nicht vertraulich. 4.10. Der Betreiber ergreift alle erforderlichen Maßnahmen, um die Vertraulichkeit der personenbezogenen Daten des Benutzers vor unbefugtem Zugriff, Änderung, Offenlegung oder Zerstörung zu schützen, einschließlich: Gewährleistung einer ständigen internen Überprüfung der Prozesse zur Erhebung, Speicherung und Verarbeitung von Daten und Gewährleistung der Sicherheit; gewährleistet die physische Sicherheit der Daten und verhindert den unbefugten Zugriff auf technische Systeme, die den Betrieb der Website gewährleisten, in der der Betreiber personenbezogene Daten speichert; gewährt Zugriff auf personenbezogene Daten nur solchen Mitarbeitern des Betreibers oder autorisierten Personen, die diese Informationen benötigen, um Aufgaben zu erfüllen, die in direktem Zusammenhang mit der Bereitstellung von Dienstleistungen für den Benutzer sowie dem Betrieb, der Entwicklung und der Verbesserung der Website stehen. 4.11. Die personenbezogenen Daten des Nutzers bleiben vertraulich, außer in den Fällen, in denen der Nutzer freiwillig Angaben zu seiner Person macht, um sie einer unbegrenzten Anzahl von Personen allgemein zugänglich zu machen. 4.12. Die Übermittlung der personenbezogenen Daten des Nutzers durch den Betreiber ist während der Umstrukturierung des Betreibers und der Übertragung von Rechten an den Rechtsnachfolger des Betreibers rechtmäßig, während alle Verpflichtungen zur Einhaltung der Bedingungen dieser Vereinbarung in Bezug auf die von ihm erhaltenen personenbezogenen Daten bestehen auf den Rechtsnachfolger übertragen. 4.13. Diese Erklärung gilt nur für die Website des Betreibers. Das Unternehmen hat keine Kontrolle und ist nicht verantwortlich für die Websites (Dienste) Dritter, auf die der Benutzer über die auf der Website des Betreibers verfügbaren Links, einschließlich der Suchergebnisse, zugreifen kann. Auf solchen Websites (Diensten) können andere persönliche Informationen gesammelt oder vom Benutzer angefordert werden und andere Aktionen können durchgeführt werden 5. Rechte des Nutzers als Betroffener personenbezogener Daten, Änderung und Löschung personenbezogener Daten durch den Nutzer 5.1. Der Benutzer hat das Recht: 5.1.2. Den Betreiber auffordern, seine personenbezogenen Daten zu klären, zu sperren oder zu vernichten, wenn die personenbezogenen Daten unvollständig, veraltet, unrichtig, illegal erlangt oder für den angegebenen Zweck der Verarbeitung nicht erforderlich sind, und außerdem gesetzlich vorgesehene Maßnahmen zum Schutz seiner Rechte zu ergreifen. 5.1.3. Erhalten Sie Informationen über die Verarbeitung seiner personenbezogenen Daten, einschließlich Informationen, die Folgendes enthalten: 5.1.3.1. Bestätigung der Tatsache der Verarbeitung personenbezogener Daten durch den Betreiber; 5.1.3.2. die vom Betreiber verwendeten Zwecke und Methoden der Verarbeitung personenbezogener Daten; 5.1.3.3. Name und Standort des Betreibers; 5.1.3.4. verarbeitete personenbezogene Daten, die sich auf den betreffenden personenbezogenen Datengegenstand beziehen, die Quelle ihres Erhalts, es sei denn, das Bundesgesetz sieht ein anderes Verfahren für die Darstellung dieser Daten vor; 5.1.3.5. Bedingungen für die Verarbeitung personenbezogener Daten, einschließlich der Aufbewahrungsfristen; 5.1.3.6. sonstige in der geltenden Gesetzgebung der Russischen Föderation vorgesehene Informationen. 5.2. Der Nutzer kann die Einwilligung zur Verarbeitung personenbezogener Daten widerrufen, indem er dem Betreiber eine entsprechende schriftliche (auf einem materiellen Datenträger ausgedruckte und vom Nutzer unterzeichnete) Mitteilung zusendet. 6. Pflichten des Betreibers. Zugriff auf personenbezogene Daten 6.1. Der Betreiber verpflichtet sich, dafür zu sorgen, dass ein unbefugter und nicht gezielter Zugriff auf personenbezogene Daten der Nutzer der Website des Betreibers verhindert wird. In diesem Fall gilt der autorisierte und gezielte Zugriff auf die personenbezogenen Daten der Website-Benutzer als Zugriff aller interessierten Parteien auf diese, der im Rahmen der Ziele und des Gegenstands der Website des Betreibers erfolgt. Gleichzeitig ist der Betreiber nicht verantwortlich für einen möglichen Missbrauch der personenbezogenen Daten der Benutzer, der aus folgenden Gründen auftritt: technische Probleme in der Software sowie in Hardware und Netzwerken, die außerhalb der Kontrolle des Betreibers liegen; im Zusammenhang mit der absichtlichen oder unabsichtlichen Nutzung der Websites des Betreibers für nicht bestimmungsgemäße Zwecke durch Dritte; 6.2 Der Betreiber ergreift notwendige und ausreichende organisatorische und technische Maßnahmen, um die personenbezogenen Daten des Nutzers vor unbefugtem oder versehentlichem Zugriff, Zerstörung, Veränderung, Sperrung, Vervielfältigung, Verbreitung sowie vor sonstigen rechtswidrigen Handlungen Dritter zu schützen. 7. Änderungen der Datenschutzrichtlinie. Anwendbare Gesetzgebung 7.1. Der Betreiber hat das Recht, Änderungen an diesen Bestimmungen ohne besondere Mitteilung an die Benutzer vorzunehmen. Bei Änderungen an der aktuellen Ausgabe wird das Datum der letzten Aktualisierung angezeigt. Die neue Ausgabe der Geschäftsordnung tritt mit ihrer Veröffentlichung in Kraft, sofern die neue Ausgabe der Geschäftsordnung nichts anderes vorsieht. 7.2. Für diese Verordnung und die Beziehung zwischen dem Nutzer und dem Betreiber, die sich im Zusammenhang mit der Anwendung der Verordnung ergibt, gilt das Recht der Russischen Föderation. Ich akzeptiere, ich akzeptiere nicht

Wir sind nicht so einzigartig, wie wir denken: Millionen von Menschen vor uns haben die Suchmaschine mit fast identischen Fragen verwirrt und Millionen nach uns werden sie durch die Suchmaschine rätseln. Andererseits sind wir zu unberechenbar: Die Formulierung unseres Anliegens wird von einer Vielzahl von Faktoren beeinflusst, die uns nicht bewusst sind. Und zumindest aus diesem Grund erfordert das Anliegen eines jeden von uns, so banal es auch sein mag, eine individuelle Herangehensweise.

Tatsächlich besteht die gesamte Arbeit der Yandex-Suchmaschine aus zwei einfachen Dingen: zu verstehen, was eine Person wirklich wissen möchte, und in wenigen Sekunden unter Milliarden von Dokumenten im Internet die passenden zu finden.

Nehmen Sie Fingerabdrücke

Das Betriebssystem der Suchmaschine ähnelt in gewisser Weise dem von Matrix, und der Suchroboter (das von ihm erstellte komplexe Programm zur unabhängigen Entscheidungsfindung) ähnelt Agent Smith.

Um nicht jedes Mal, wenn jemand etwas wissen muss, das gesamte Internet zu durchsuchen, erledigt die Suchmaschine einen Teil der Arbeit im Voraus: Sie prüft, was sich im Web befindet und wo es sich befindet, und zwar mithilfe von Tausenden von Suchrobotern. Es gibt sie in zwei Ausführungen: einfach und schnell. Der wichtigste durchsucht und verarbeitet das Internet als Ganzes und der schnelle – Dokumente, die vor einer Minute oder sogar ein paar Sekunden erschienen sind. Die Aufgabe von Roboterprogrammen besteht darin, geeignete und nützliche Informationen für Benutzer auszuwählen, sie zu verarbeiten und alles Veraltete und Unnötige auszusortieren. In mancher Hinsicht ähnelt das dem Sortieren von Müll: Papier in einem Behälter, Glas in einem anderen, Plastik in einem dritten, Lebensmittelabfälle in einem vierten ...

Die von Robotern gesammelten Informationen bilden den sogenannten Internet-Cast. Es wird auf Tausenden von Yandex-Servern gespeichert und ständig aktualisiert. Ein Nugget ist wie eine Liste, die Ihnen sagt, wo Sie welche Informationen finden. In dieser Liste hat jedes Schlüsselwort nicht eine, sondern Millionen von „Seiten“. Um sicherzustellen, dass alle Nugget-Updates den Benutzern zur Verfügung stehen, werden sie aus dem Repository in die „Basissuche“ verschoben. Die Daten werden vom Hauptroboter alle paar Tage und vom schnellen Roboter in Echtzeit übertragen.

In sauberes Wasser bringen



ILLUSTRATION: EVGENY TONKONOGY

Bei der Suche nach der Antwort auf eine bestimmte Frage in einer vorbereiteten Datenbank stößt die Maschine auf zwei Hauptschwierigkeiten. Die erste Schwierigkeit ist die Sprache. Bevor die Maschine nach einer Antwort auf eine Frage sucht, ist es wichtig zu verstehen, in welcher Sprache sie diese beantworten soll. Beispielsweise werden bei einer russischsprachigen Person bei der Suche nach „Truppe von Prinz Igor“ Dokumente mit Informationen über die Armee gefunden, und bei einem Ukrainer werden bei der Suche nach „Truppe von Prinz Igor“ auch Dokumente gefunden, in denen Prinzessin Olga, seine Frau, erwähnt wird Auf Ukrainisch bedeutet „Frau“ „Trupp“. Und in der reichen russischen Sprache können dasselbe Wort oder seine Ableitungen unterschiedliche Bedeutungen haben. Beispielsweise ist das Wort „steel“ eine der Formen des Substantivs „steel“ und des Verbs „become“. Die zweite Schwierigkeit ist die menschliche Psychologie. Bei der Eingabe einer Anfrage erwarten wir eine schnelle und genaue Antwort, ohne uns natürlich Gedanken darüber zu machen, ob der Wortlaut der Anfrage den Prinzipien der mathematischen Analyse entspricht, nach denen das Gehirn der Maschine arbeitet. Was möchte eine Person beispielsweise erhalten, wenn sie das Wort „Napoleon“ in die Suchleiste eingibt: ein Kuchenrezept oder eine Biografie des französischen Kaisers, Cognac kaufen oder die Adresse einer psychiatrischen Klinik finden?


In solchen Situationen kommen mehrere Technologien ins Spiel. Unter der Suchleiste können Sie mehrere Hinweise geben, die Ihr Anliegen präzisieren. Wählen Sie zum Beispiel, was Sie brauchen: Napoleon-Rezepte oder Napoleon - Bonaparte. Wenn der Benutzer nicht auf die Anfrage der Maschine reagiert und dem „Napoleon“ keine Worte hinzufügt, hilft die „Spectrum“-Technologie: Ohne auf Hilfe zu hoffen, sucht die Maschine sofort nach Informationen in mehreren Kategorien (über den Kuchen, und über den Kaiser und über das Pferd ..). Darüber hinaus helfen Personalisierungsmechanismen, den Benutzer zu verstehen – das Wissen der Maschine darüber, wonach dieser Benutzer vor einem Tag, zwei, drei oder Monaten auf seinem Computer gesucht hat: Wenn Sie Yandex oft Fragen zum Thema Kochen gestellt haben, zeigt die Maschine zuerst an Sie Ergebnisse, die besagen, dass Napoleon ein Kuchen ist.

Kombinationen: Interessenclubs

Die Aufgabe einer Suchmaschine besteht nicht einfach darin, Dokumente auszuwählen, die Wörter und Phrasen aus der Suchanfrage enthalten. Die Maschine muss verstehen, welche Dokumente unsere widersprüchlichen Anforderungen erfüllen und warum sie diese erfüllen. Wollen wir uns über Napoleon, den Kuchen, informieren, haben wir vielleicht ein paar Jahre lang einen Fitnessclub mit einem prätentiösen Namen besucht oder sind wir sogar völlig besorgt über die Komplexe kleiner Menschen? In jedem Fall erfordert die Lösung des Problems einen nicht trivialen Ansatz.


Die Entwickler des Yandex-Suchprogramms fanden diesen Ansatz, indem sie das Wahlrecht an die Maschine delegierten. Einerseits weiß und will eine seelenlose, aber sehr schnelle und intelligente Maschine nichts über uns als Individuen wissen, andererseits versucht sie, so viel wie möglich über jeden herauszufinden.

Neben dem geografischen Standort des Nutzers und der sprachlichen Analyse seiner Suchanfragen nutzt die Suchmaschine mehrere tausend Kriterien, die für den Menschen überhaupt nicht offensichtlich sind.

Der Trick besteht darin, dass die Maschine diese Kriterien selbstständig entwickelt und aktualisiert.

Es nutzt einfach Daten über die Vorlieben und das Nutzerverhalten von Millionen von Menschen und setzt diesen „arithmetischen Durchschnitt“ mit dem Verlauf unserer Suchanfragen in Beziehung. Die Prinzipien, die die Matrix in sich leiten und die Tausenden von Kategorien von Benutzerinteressen vergleichen, die sie entwickelt hat, passen oft nicht in die traditionellen menschlichen Vorstellungen darüber, was „Interessen“ im Prinzip sein können. Es gibt Zehntausende davon. Sie bilden unterschiedliche, manchmal lustige Kombinationen miteinander. Eine dieser Kombinationen könnte beispielsweise darin bestehen, dass die Suchergebnisse den Interessen einer Person entsprechen, die Molche züchtet. Gleichzeitig interessiert sich ein Mensch nicht nur für Molche, sondern züchtet sie bereits, allerdings nur im ersten Jahr.

Bewertungen. Helfende Hände


Die Matrix entscheidet natürlich selbst (mit Hilfe höherer Mathematik), was und in welcher Reihenfolge den Benutzern anhand von Zehntausenden von Kriterien angezeigt werden muss. Die Matrix nutzt aber auch lebende Menschen – 1000 Yandex-Mitarbeiter, die sogenannten Assessoren, werten Suchergebnisse für eine bestimmte Anfrage aus (natürlich wird nicht jede Anfrage ausgewertet, und dies geschieht auch nicht in Echtzeit), um festzustellen, ob sie den Anforderungen entsprechen Erwartungen eines normalen Benutzers: nicht so rational wie eine Maschine, nicht so präzise in der Formulierung, widersprüchlich und emotional.