Apache ORC

Apache ORC

Information
Entwickelt von Apache Software Foundation
Erste Version 12. Mai 2015
Letzte Version 1.6.7 (22. Januar 2021)
Anzahlung gitbox.apache.org/repos/asf/orc.git
Geschrieben in Java und C ++
Art Dateiformat ( en )
Datenserialisierungsformat ( d )
Apache Foundation-Projekt ( d )
Lizenz Apache-Lizenz Version 2.0
Webseite orc.apache.org

Apache ORC (Optimized Row Columnar) ist ein kostenloses, spaltenorientiertes Open-Source - Datenspeicherformat aus dem Apache Hadoop- Ökosystem . Es ähnelt anderen im Hadoop- Ökosystem verfügbaren Formatdateien für Spaltenspeicher, z. B. RCFile und Parkett . Es ist mit den meisten Datenverarbeitungsinfrastrukturen der Hadoop- Umgebung kompatibel .

Im Februar 2013, Hortonworks kündigte die Optimized Row Columnare (ORC) Dateiformat in Zusammenarbeit mit Facebook . Einen Monat später wurde das von Cloudera und Twitter entwickelte Apache-Parkett- Format angekündigt .

Vergleich

Apache ORC ist vergleichbar mit Dateiformaten wie RCFile und Parquet - alle drei fallen unter die Kategorie der spaltenweisen Datenspeicherung im Hadoop- Ökosystem . Sie alle verfügen über eine bessere Komprimierung und Codierung mit verbesserter Leseleistung auf Kosten langsamerer Schreibvorgänge.

Anmerkungen und Referenzen

  1. "  https://projects.apache.org/json/projects/orc.json  " (Zugriff am 8. April 2020 )
  2. (in) ORC 1.6.7 veröffentlicht  " ,22. Januar 2021(abgerufen am 30. Januar 2021 )
  3. Justin Kestelyn, "  Einführung in Parkett: Säuleneffizienter Speicher für Apache Hadoop  " , Cloudera-Blog ,13. März 2013(abgerufen am 4. Mai 2017 )

Siehe auch