Apache ORC

Information

Entwickelt von	Apache Software Foundation
Erste Version	12. Mai 2015
Letzte Version	1.6.7 (22. Januar 2021)
Anzahlung	gitbox.apache.org/repos/asf/orc.git
Geschrieben in	Java und C ++
Art	Dateiformat ( en ) Datenserialisierungsformat ( d ) Apache Foundation-Projekt ( d )
Lizenz	Apache-Lizenz Version 2.0
Webseite	orc.apache.org

Apache ORC (Optimized Row Columnar) ist ein kostenloses, spaltenorientiertes Open-Source - Datenspeicherformat aus dem Apache Hadoop- Ökosystem . Es ähnelt anderen im Hadoop- Ökosystem verfügbaren Formatdateien für Spaltenspeicher, z. B. RCFile und Parkett . Es ist mit den meisten Datenverarbeitungsinfrastrukturen der Hadoop- Umgebung kompatibel .

Im Februar 2013, Hortonworks kündigte die Optimized Row Columnare (ORC) Dateiformat in Zusammenarbeit mit Facebook . Einen Monat später wurde das von Cloudera und Twitter entwickelte Apache-Parkett- Format angekündigt .

Vergleich

Apache ORC ist vergleichbar mit Dateiformaten wie RCFile und Parquet - alle drei fallen unter die Kategorie der spaltenweisen Datenspeicherung im Hadoop- Ökosystem . Sie alle verfügen über eine bessere Komprimierung und Codierung mit verbesserter Leseleistung auf Kosten langsamerer Schreibvorgänge.

Anmerkungen und Referenzen

(fr) Dieser Artikel ist teilweise oder vollständig aus dem Wikipedia - Artikel in genommen englischen Titeln „ Apache ORC “ ( siehe die Liste der Autoren ) .

" https://projects.apache.org/json/projects/orc.json " (Zugriff am 8. April 2020 )
(in) " ORC 1.6.7 veröffentlicht " ,22. Januar 2021(abgerufen am 30. Januar 2021 )
Justin Kestelyn, " Einführung in Parkett: Säuleneffizienter Speicher für Apache Hadoop " , Cloudera-Blog ,13. März 2013(abgerufen am 4. Mai 2017 )

Apache ORC

Vergleich

Anmerkungen und Referenzen

Siehe auch