Lucene

Apache Lucene

Information
Entwickelt von Apache Foundation
Letzte Version 8.7.0 (3. November 2020)
Anzahlung github.com/apache/lucene
Geschrieben in Java
Betriebssystem Multiplattform
Umgebung Multiplattform
Art Suchmaschine
Lizenz Apache-Lizenz
Webseite lucene.apache.org

Lucene ist eine in Java geschriebene Open Source- Bibliothek , die das Indizieren und Suchen nach Text ermöglicht. Es wird in einigen Suchmaschinen verwendet .

Es ist ein Projekt der Apache Foundation , das unter der Apache-Lizenz zur Verfügung gestellt wird . Es ist auch für die Sprachen Ruby , Perl , C ++ , PHP , C # und Python verfügbar .

Historisch

Lucene wird zuerst von Doug Cutting auf der SourceForge.net- Website in hochgeladenMärz 2000. Es wird dann unter der GNU Lesser General Public License veröffentlicht . Sein Transfer zu Apache Jakarta wird in angekündigtOktober 2001.

Das Lucene-Projekt stammt aus dem im Dezember 2004 veröffentlichten Buch Lucene in Action (Lucene in Action) . Es wird gemeinsam von Erik Hatcher, einem der Leiter der Open-Source-Projekte Ant , Lucene und Tapestry , und von Otis Gospodnetic, einem aktiven Mitglied des Apache Jakarta-Projekts, geschrieben.

Das 14. Februar 2005Lucene migriert zum Apache Jakarta- Projekt . Die Quellcodebasis wird in den SVN-Versionscontroller konvertiert .

Montag 12. Dezember 2005Grant Ingersol präsentiert auf der ApacheCon US eine Fallstudie in Java zur fortgeschrittenen Verwendung von Lucene-Komponenten, einschließlich technischer Details zur Verarbeitung natürlicher Sprache .

Heute wird Lucene für die Suchmaschine einer sehr großen Anzahl von Produkten und Websites auf der ganzen Welt verwendet.

Wie Lucene arbeitet

Indexierung

Bis zur Explosion des Internets war Deweys Dezimalklassifizierung sehr effektiv bei der Kategorisierung von Objekten in einer Bibliothek. Im Web ist die Masse der verfügbaren Daten jedoch so gigantisch geworden, dass jetzt alternative und dynamischere Mittel zum Auffinden von Informationen verwendet werden müssen.

Das Herzstück aller Suchmaschinen ist ein automatischer Indizierungsmechanismus  : Die einmalige Verarbeitung von Rohdaten und die Bereitstellung mehrerer hocheffizienter Links beschleunigen den Suchvorgang. Das Konzept ähnelt dem Terminologieindex, der normalerweise am Ende eines Buches zu finden ist. Auf diese Weise können Sie schnell Seiten finden, die sich mit einem bestimmten Thema befassen.

Wenn Sie ein großes Dateifeld abdecken oder eine bestimmte Zeichenfolge in einer einzelnen Datei finden müssen, sollten Sie nicht jede Datei nacheinander nach der angegebenen Phrase durchsuchen. Denn je größer die Anzahl der Dateien ist, desto länger dauert die Suche nach Informationen . Es ist besser, einen Textindex in einem Format zu erstellen, das eine schnelle Suche ermöglicht, wodurch die sequentielle Methode vermieden wird. Dieser Vorgang wird als Indizierung bezeichnet .

Forschung

Die Forschung besteht darin, Wörter in einem Index nachzuschlagen, um Verweise auf Dokumente zu finden , wenn diese erscheinen. Die Qualität einer Suche wird anhand der Positionierung und Relevanz der Ergebnisse bewertet . Es gibt jedoch andere Faktoren, die bei einer Suche eine Rolle spielen. Geschwindigkeit ist ein entscheidender Faktor bei der Verarbeitung einer großen Menge an Informationen. Ebenso wichtig zu sein, einfache oder komplexe Abfragen zu unterstützen, Sätze, Zeichen abzufragen, Ergebnisse zu positionieren und zu sortieren, ist ebenso wichtig wie eine leicht zu erlernende Syntax für die Eingabe dieser Abfragen.

Klassen

Die folgenden Abschnitte enthalten eine kurze Einführung in die Hauptklassen , die zum Erstellen dieser Suchmaschine verwendet werden.

Indizierungsklassen

Forschungsunterricht

Ressourcen

Werkzeuge

Ähnliche Projekte

Alle diese Projekte sind oder waren Unterprojekte von Apache Lucene und ermöglichen die Implementierung einer Suchmaschine.

Komponenten einer Suchmaschine

Anmerkungen und Referenzen

  1. LuceneTM Core News  " (abgerufen am 3. Dezember 2020 )
  2. Die Lucene-Seite auf SourceForge
  3. Die auf der ApacheCon präsentierte Sitzung
  4. (in) Liste der Anwendungen mit Lucene

Anhänge

Literaturverzeichnis

  • " Einführung in Apache Lucene: Aufbau von Java Open Source-Volltext- Abrufsystemen" von Koshi Sekiguti; Gijutsu-Hyohron Co, Ltd; ( ISBN  4774127809 )
  • " Lucene In Action " von Erik Hatcher und Otis Gospodnetić; Manning-Veröffentlichungen;Dezember 2004;; ( ISBN  1932394281 ) (en) [1]
  • Manfred Hardt, Dr. Fabian Theis: " Suchmaschinen entwickelt mit Apache Lucene "; Software & Support Verlag, Frankfurt am Main;September 2004;; ( ISBN  3935042450 )

Zum Thema passende Artikel

Externe Links