Entwickelt von | Apache Software Foundation |
---|---|
Erste Version | 12. Mai 2015 |
Letzte Version | 1.6.7 (22. Januar 2021) |
Anzahlung | gitbox.apache.org/repos/asf/orc.git |
Geschrieben in | Java und C ++ |
Art |
Dateiformat ( en ) Datenserialisierungsformat ( d ) Apache Foundation-Projekt ( d ) |
Lizenz | Apache-Lizenz Version 2.0 |
Webseite | orc.apache.org |
Apache ORC (Optimized Row Columnar) ist ein kostenloses, spaltenorientiertes Open-Source - Datenspeicherformat aus dem Apache Hadoop- Ökosystem . Es ähnelt anderen im Hadoop- Ökosystem verfügbaren Formatdateien für Spaltenspeicher, z. B. RCFile und Parkett . Es ist mit den meisten Datenverarbeitungsinfrastrukturen der Hadoop- Umgebung kompatibel .
Im Februar 2013, Hortonworks kündigte die Optimized Row Columnare (ORC) Dateiformat in Zusammenarbeit mit Facebook . Einen Monat später wurde das von Cloudera und Twitter entwickelte Apache-Parkett- Format angekündigt .
Apache ORC ist vergleichbar mit Dateiformaten wie RCFile und Parquet - alle drei fallen unter die Kategorie der spaltenweisen Datenspeicherung im Hadoop- Ökosystem . Sie alle verfügen über eine bessere Komprimierung und Codierung mit verbesserter Leseleistung auf Kosten langsamerer Schreibvorgänge.