Die Extraktion von Wissen ist der Prozess der Wissensgenerierung aus strukturierten Daten ( relationale Datenbanken , XML ) und unstrukturierten (Text, Dokumente, Bilder). Die Ausgabe muss in einem Format vorliegen, das von Computern gelesen werden kann.
Die W3C-Gruppe RDB2RDF ist dabei, eine Sprache zur Wissensextraktion im RDF- Format aus Datenbanken zu standardisieren .
Auf Französisch sprechen wir von "Wissensextraktion aus Daten" (ECD).
Die Wissensextraktion erfolgt in mehreren Schritten vor dem " Data Mining " ( Data Mining ).
Die Vorverarbeitung besteht darin, bestimmte Datenkorpora zu erstellen und die Daten entsprechend ihrem Typ (Texte, Bilder, Töne usw.) zu formatieren. Es folgt eine Phase der Datenbereinigung und -verarbeitung fehlender Daten.