Eine Suchmaschine ist eine Webanwendung, die es einem Benutzer ermöglicht, eine Online-Suche (oder Internetsuche) durchzuführen , d. h. Ressourcen aus einer aus Begriffen bestehenden Abfrage zu finden. Die Ressourcen insbesondere sein können Web - Seiten , die Elemente von Foren Usenet , die Bilder , die Videos , die Dateien , Bücher, Bildungs - Sites, Anwendungen , von Open - Source - Software .
Im Prinzip funktionieren sie in der Regel:
Einige Websites bieten als Hauptfunktionalität eine Suchmaschine an; die Site selbst wird dann „Suchmaschine“ genannt. Sie sind Recherchetools im Web ohne menschliches Eingreifen, was sie von Verzeichnissen unterscheidet . Sie basieren auf „ Robots “, auch „ Bots “, „ Spider “, „ Crawler “ oder „Agenten“ genannt, die in regelmäßigen Abständen automatisch die Seiten durchsuchen , um neue Adressen ( URLs ) zu entdecken . Sie folgen nacheinander den Hyperlinks , die die Seiten miteinander verbinden. Jede identifizierte Seite wird dann in einer Datenbank indiziert , auf die dann Internetnutzer mit Stichworten zugreifen können .
Aufgrund des Missbrauchs der Sprache nennen wir auch "Suchmaschinen"-Websites, die Website-Verzeichnisse anbieten: In diesem Fall handelt es sich um Recherchetools, die von Leuten entwickelt wurden, die als interessant erachtete Websites auflisten und klassifizieren, nicht Webcrawler.
Suchmaschinen gelten nicht nur für das Internet: Einige Suchmaschinen sind Software, die auf einem PC installiert wird . Dies sind sogenannte „Desktop-Engines“, die die Suche in Dateien, die auf dem PC gespeichert sind, und die Suche in Websites kombinieren – zum Beispiel Copernic Desktop Search, Windex Server usw.
Es gibt auch Metasuchmaschinen , d. h. Websites, bei denen dieselbe Suche gleichzeitig auf mehreren Suchmaschinen gestartet wird und die Ergebnisse dann zusammengeführt werden, um dem Internetnutzer präsentiert zu werden .
Internetsuchmaschinen sind älter als die Anfänge des Webs Ende 1990:
Suchmaschinen sind inspiriert von dokumentarischen Retrieval- Tools ( invertierte Datei- basiert , auch bekannt als Indexdateien ), die seit den 1970er Jahren auf Großrechnern verwendet werden , wie beispielsweise die STAIRS-Software von IBM . Die Methode zum Befüllen ihrer Datenbanken ist jedoch anders, da sie netzwerkorientiert ist . Zudem existiert die Unterscheidung zwischen formatierten Daten („Feldern“) und Freitext nicht mehr, obwohl sie sich seit 2010 wieder über das Semantic Web einführt .
Historische Engines waren Lycos (1994), Altavista (1995, die erste 64-Bit-Engine) und Backrub (1997), Vorfahre von Google .
Die Funktionsweise einer Suchmaschine kann wie jedes Recherchetool in drei Hauptprozesse unterteilt werden:
Ergänzende Module werden oft in Verbindung mit den drei Grundbausteinen der Suchmaschine verwendet. Die bekanntesten sind die folgenden:
Die Rechtschreibprüfung: | Der Lemmatisierer: | Das Anti-Wörterbuch: |
---|---|---|
Es ermöglicht die Korrektur der eingeführten Fehler
in den Worten der Anfrage, stellen Sie sicher, dass ihre Relevanz unter Berücksichtigung ihrer kanonische Form. |
Es gibt die Möglichkeit der Reduzierung
Suchbegriffe zu ihrem Lemma für erweitern damit ihren Forschungsumfang.
|
Es wird verwendet, um alle zu entfernen
„leere“ Wörter (wie „von“, „der“, „der“) die nicht diskriminierend sind und die die Suchergebnis durch Einfügen von Rauschen . Das Löschen erfolgt im Index und in die Anfragen. |
Um Suchmaschinen zu optimieren, fügen Webmaster Meta-Elemente (Metatags) in Webseiten ein , im HTML-Header (head). Diese Informationen ermöglichen es, die Suche nach Informationen auf Websites zu optimieren .
Sites, die in erster Linie der Forschung dienen, werden durch den Verkauf von Technologie und Werbung finanziert.
Die Werbefinanzierung besteht darin, Anzeigen zu präsentieren, die den vom Besucher gesuchten Wörtern entsprechen. Der Werbetreibende kauft Keywords: Beispielsweise kann ein Reisebüro Keywords wie "Urlaub", "Hotel" und "Strand" oder "Cannes", "Antibes" und "Nizza" kaufen, wenn es auf diese Region spezialisiert ist. Dieser Kauf ermöglicht es, eine Referenzierung namens "bezahlte Referenzierung" zu erhalten, die von einer Referenzierung namens "natürliche Referenzierung" unterschieden wird.
Die Suchmaschine kann die Anzeige auf zwei Arten anzeigen: als separate Beilage oder als Teil der Suchergebnisse. Für den Besucher sieht die separate Beilage wie eine klassische Anzeige aus. Die Integration in die Ergebnisse geht hingegen zu Lasten der Relevanz der Ergebnisse und kann negative Auswirkungen auf die wahrgenommene Qualität des Motors haben. Aus diesem Grund verkaufen nicht alle Motoren eine Investition in Ergebnisse.
Suchmaschinen sind ein wirtschaftliches Thema. Der Börsenwert der Alphabet- Holding im Besitz von Google , der Hauptsuchmaschine, lag im April 2020 bei 831 Milliarden US-Dollar.
Die Bedeutung der wirtschaftlichen Interessen führte zu Techniken der unehrlichen Umleitung der Suchmaschinen, um eine "natürliche" Referenzierung zu erhalten, das Spamdexing (missbräuchliche Referenzierung auf Französisch).
Die beliebtesten Spamdexing- Techniken sind:
Die missbräuchlichen Referenzierungstechniken werden von den Herausgebern von Suchmaschinen gejagt, die vorläufige oder endgültige schwarze Listen darstellen.
Wir unterscheiden Spamdexing , unehrliche Umleitung, von "SEO", Suchmaschinenoptimierung ( Optimierung für Suchmaschinen auf Französisch). SEO-Techniken werden von spezialisierten Unternehmen vermarktet.
Große Organisationen (Firmen, Verwaltungen) verfügen in der Regel über eine Vielzahl von IT-Ressourcen in einem großen Intranet . Da ihre Ressourcen nicht über das Internet zugänglich sind , werden sie nicht von Websuchmaschinen erfasst. Sie müssen daher ihre eigene Engine installieren, wenn sie ihre Ressourcen durchsuchen möchten. Sie bilden daher einen Markt für Suchmaschinenentwickler. Dies wird als Unternehmenssuchmaschine bezeichnet (siehe unten).
Es kommt auch vor, dass öffentliche Websites die Dienste einer Suchmaschine nutzen, um ihr Angebot zu erweitern. Dies wird als „SiteSearch“ bezeichnet. Diese Software ermöglicht die Suche nach Inhalten in einer oder mehreren Gruppen von Sites. Diese Technologien werden insbesondere auf Inhaltsseiten und Online-Verkaufsseiten verwendet. Die Besonderheit dieser Tools liegt oft in der Komplexität der Implementierung und den erforderlichen technischen Ressourcen.
Auch große Portale können Suchmaschinentechnologie nutzen. Also Yahoo! , ein Spezialist für Webverzeichnisse , nutzte einige Jahre lang die Google- Technologie für die Suche, bis er 2004 seine eigene Suchmaschine Yahoo Search Technology auf den Markt brachte, deren Grundlagen von Altavista, Inktomi und Overture, den Gründern von Suchmaschinen und von Yahoo! .
Immer mehr Content-Produzenten, den W3C- Empfehlungen zum Semantic Web folgend , indizieren ihre Datenbanken mit Metadaten oder Taxonomien ( Ontologien ), um Suchmaschinen die Anpassung an semantische Analysen zu ermöglichen .
Diese Formen der Recherche und Analyse von Informationskorpus durch Computer sind noch immer nur Möglichkeiten.
Im Vergleich zur Volltextsuche soll die Suche im Semantic Web benutzerfreundlicher sein:
Streng genommen gibt es noch keine semantische Suchmaschine , die es ermöglicht, eine Frage in natürlicher Sprache zu verstehen und eine Antwort entsprechend den gefundenen Ergebnissen anzupassen.
Es gibt jedoch einige Versuche, eine Zwischenantwort auf diese Sinnproblematik bei der Informationssuche zu finden:
Der allmähliche Verzicht auf gedruckte Verzeichnisse führt dazu, dass Nutzer im Internet nach "Beruf + Ort" die gleichen Recherchen durchführen. Google hat daher im Jahr 2010 eine Datei mit Unternehmen (für Frankreich und eine bestimmte Anzahl von Ländern) erworben, um eine Mischung aus Web- und Verzeichnisdaten durchzuführen, wenn die Anfragen einer lokalisierten Aktivität entsprechen. Dieser neue Trend wird von den wichtigsten Suchmaschinen bestätigt und es entstehen neue „gemischte Tools“. Yandex und Baidu müssen dieses Mischmodell noch übernehmen.
Laut einer Studie von McKinsey & Co hatten 2013 nur 65 % der französischen KMU eine Internetpräsenz. Einer anderen Studie zufolge beträgt dieser Anteil 72 % für die freien Berufe (Rechtsanwälte, Zahnärzte, Ärzte, Notare, Gerichtsvollzieher, Krankenschwestern usw.).
Suchmaschinen, die per Definition nur Daten aus dem Internet erheben, waren daher verpflichtet, diese Adressbuchadressen zusätzlich zur Adresssuche der Internetnutzer zu erwerben und anzubieten. Google hat diese Adressen „Google-Adressen“ getauft, dann automatisch auf „Google+“ umgestellt, aktuell „ Google My Business “. Bing- und Google- Suchmaschinen geben den Ursprung dieser integrierten Unternehmensdateien nicht bekannt, mit Ausnahme von Yahoo! die in Partnerschaft mit Pages Jaunes ist .
Frankreich | Deutschland | Kanada | Vereinigte Staaten | Mexiko | Brasilien | Marokko | |
---|---|---|---|---|---|---|---|
94,21% | 94,54% | 92,38% | 84,8% | 94,9% | 97,35% | 97,31 % | |
Bing | 2,95% | 2,89% | 4,31 % | 5,59% | 3,36% | 1,32% | 1,79 % |
Yahoo | 1,53% | 0,84% | 2,33 % | 8,35% | 1,51% | 1,18% | 0,71% |
Qwant | 0,7% | ||||||
EnteEnteGo | 0,25% | 0,67% | 0,73% | 1,01% | 0,09 % | 0,01% | 0,08% |
Frau | 0,1% | 0,08% | 0,1% | 0,02% | |||
Yandex | 0,03% |
Die Metasuchmaschinen sind Suchwerkzeuge, die mehrere Suchmaschinen gleichzeitig abfragen und dem Benutzer eine relevante Synthese anzeigen.
Beispiele: Startseite , Searx , Sucht und Lilo , Framabee .
Der Begriff „ Multi-Engine (en) “ (oder seltener „Super-Engine“) bezeichnet eine Webseite, die ein oder mehrere Formulare anbietet , die es ermöglichen, mehrere Engines abzufragen. Es kann auch (aber seltener) eine Software, eine Funktion oder ein Webbrowser- Plugin oder eine Symbolleiste sein ...
Die Auswahl einer der Engines kann über Schaltfläche , Optionsfeld , Registerkarte , Dropdown-Liste oder andere erfolgen.
Die ersten Seiten dieses Typs kopierten den Formcode mehrerer Engines. Mit dem Aufkommen von JavaScript wurde es möglich, nur ein Formular zu haben.
Wir können zum Beispiel Creative Commons Search , Ecosia , Disconnect , die Suchmaschine von Maxthon , HooSeek (geschlossen im Jahr 2012) nennen.
Der Begriff „Solidaritätssuchmaschine“ bezeichnet eine Suchmaschine, die einen Teil ihrer Einnahmen für ökologische, soziale oder humanitäre Zwecke spendet. Diese Suchmaschinen wurden aus der Beobachtung geboren, dass die jährlichen Einnahmen aus der Werbung in Suchmaschinen ziemlich hoch sind (ca. 45 USD pro Nutzer für Google). Solidaritätssuchmaschinen zeichnen sich insbesondere durch die Verteilung der erwirtschafteten Einnahmen aus. Einige Engines wie Ecosia spenden dann einen Teil der Einnahmen für einen einzigen Zweck, während Engines wie Lilo Internetnutzern die Wahl lassen, welche Projekte sie finanzieren möchten.
Siehe die Liste der Solidaritätssuchmaschinen.
Der Begriff „Vertical Engines“ bezeichnet eine Webseite oder einen multimedialen Dienst, der spezialisierte Recherchen in einem Berufsfeld anbietet oder besonders zielgerichtet ist. Dieses Research-Tool ist auf einen bestimmten Sektor spezialisiert, wie Telekommunikation, Recht, Biotechnologie, Finanzen (Versicherungen) oder sogar Immobilien. Sein allgemeiner Betrieb basiert auf einer Datenbank, die aus den Datenbanken aller spezialisierten Sites der Zielaktivität besteht.
Diese Art von Motor wird von Fachleuten verwendet und richtet sich an den Verbraucher, meistens mit einem wirtschaftlichen Zweck, der sich aus der Geolokalisierung ergibt.
Es gibt also Verzeichnisse und Vergleicher für die Allgemeinheit. Sie stehen jetzt für alle Aktivitäten zur Verfügung: Immobilien, Tourismus, Jobsuche, Rekrutierung, Automobil, Freizeit, Spiele.
Die explosionsartige Zunahme an Inhalten unterschiedlicher Formate (Daten, unstrukturierte Informationen, Bilder, Videos etc.) in Unternehmen zwingt diese dazu, sich mit einer internen Suchmaschine auszustatten.
Laut einer Studie von MARKESS International in Februar 2008, verwenden 49 % der Unternehmen bereits eine Unternehmenssuchmaschine, und 18 % planen, sie bis 2010 einzusetzen. Diese Suchmaschinen sind meist in Workstations oder elektronische Dokumentenverwaltungstools integriert , aber in immer mehr Unternehmen sind sie in der Lage, sowohl interne und externen Unternehmensinhalten oder integriert in Content-Management-Tools oder Business-Intelligence-Lösungen.
Zu den Anbietern von Unternehmenssuchmaschinen zählen Google , Exalead , PolySpot oder OpenSearchServer .
Sprachanalysetechnologien wie Lemmatisierung, Extraktion benannter Entitäten, Klassifizierung und Clustering können die Funktionsweise von Suchmaschinen erheblich verbessern. Diese Technologien ermöglichen es, sowohl die Relevanz der Ergebnisse zu verbessern als auch den Internetnutzer in einen effizienteren Suchprozess einzubinden, wie dies bei der Facettensuche der Fall ist .
Laut der ADEME-Studie "Internet, E-Mails, Auswirkungen reduzieren" veröffentlicht inFebruar 2014Gehen Sie direkt zur Adresse einer Site oder geben Sie ihre Adresse in den Browser ein, indem Sie sie entweder als "Favorit" registrieren lassen (anstatt die Site über eine Suchmaschine zu durchsuchen), dividiert durch 4 die Treibhausgasemissionen .