Techno - C’est quoi Apache ORC ?

Techno - C’est quoi Apache ORC ?

Date de sortie
November 7, 2024
Auteur
Bertrand Fabre

Aujourd’hui je vous présente Apache ORC

Définition rapide

ORC signifie Optimized Row Columnar et derrière ces mots se cache un format de fichier pour le stockage des données en colonnes, adapté à l’analyse massive des données.

Stockage en colonnes

Ce type de stockage de données qui commence à être connu permet d’optimiser la compression des données ainsi que les agrégations sur ces dernières.

Type de données

ORC supporte les types classiques de données comme les integers, les dates, mais aussi des types plus complexes comme des listes, les maps, les structs.

Compression

Apache ORC possède des algorithme de compression qui prend en compte chaque type de données pour choisir l’encodage le plus approprié

Indexation

Lors de la phase d’écriture du fichier, il y a également un index interne qui est construit ce qui permet d’avoir des recherches et des traitements plus rapides.

ACID

Lorsqu’Apache ORC est utilisé avec Apache Hive il peut prendre en charge les transactions ACID même sans être fait pour de l’OLTP.

Utilisation

Le format ORC peut être utilisé dans de nombreux outils et framework comme Spark, Hive, Flink, Hadoop, Trino, et plusieurs autres.

Merci de votre lecture !