Entwickelt von | Apache Software Foundation |
---|---|
Erste Version | 21. September 2014 |
Letzte Version | 1.4.7 (Dezember 2017) |
Anzahlung | https://gitbox.apache.org/repos/asf?p=sqoop.git |
Geschrieben in | Java |
Umgebung | Java virtuelle Maschine |
Lizenz | Apache-Lizenz Version 2.0 |
Webseite | https://sqoop.apache.org/ |
Sqoop ist eine Anwendungsbefehlszeilenschnittstelle zum Übertragen von Daten zwischen relationalen Datenbanken und Hadoop . Es unterstützt das differenzielle Laden einer einzelnen Tabelle oder SQL- Abfrage sowie gespeicherte Aufgaben, die mehrmals ausgeführt werden können, um Aktualisierungen zu importieren, die seit dem letzten Import an einer Datenbank vorgenommen wurden. Importe können auch zum Auffüllen von Tabellen in Hive oder HBase verwendet werden . Exporte können verwendet werden, um Daten aus Hadoop in eine relationale Datenbank zu stellen. Der Name Sqoop ist ein Portmanteau- Wort bestehend aus sql und hadoop. März 2012 Sqoop ist zu einem hochrangigen Apache-Projekt geworden .
Informatica bietet einen Connector für Sqoop ab Version 10.1. Informatica unterstützt sowohl Import- als auch Exportaktionen, die häufig für die Datenintegration in Hadoop verwendet werden.
Pentaho hat in seiner ETL seit Version 4.5 der Software auch Open-Source- Konnektoren bereitgestellt, die auf Sqoop ( Sqoop Importat und Sqoop à Export ) basieren . Microsoft verwendet einen Sqoop-basierten Connector, um Daten von Microsoft SQL Server in Hadoop-Datenbanken zu übertragen. Couchbase, Inc. bietet über Sqoop auch einen Couchbase Server-Hadoop-Connector an.
Im Jahr 2015 beschrieb Ralph Kimball Sqoop unter dem Titel The Future of ETL wie folgt : „ In der ETL-Umgebung müssen mehrere große Änderungen stattfinden. Erstens müssen die Datenfeeds aus Originalquellen große Bandbreiten unterstützen, mindestens Gigabyte pro Sekunde. Erfahren Sie mehr über das Laden von Daten durch Sqoop in Hadoop. Wenn Ihnen diese Wörter nichts bedeuten, müssen Sie etwas lesen! Beginnen Sie mit Wikipedia. " ( " In der ETL-Umgebung müssen mehrere wichtige Änderungen vorgenommen werden. Erstens muss der Datenfluss aus Originalquellen eine große Bandbreite von mindestens mehreren Gigabyte pro Sekunde unterstützen. Fragen Sie nach den Ladedaten von Sqoop in Hadoop. Wenn diese Wörter nicht zutreffen klingeln Sie, Sie haben etwas zu lesen! Beginnen Sie mit Wikipedia. ” ).