Aujourd’hui je vous présente Apache ORC
Définition rapide
ORC signifie Optimized Row Columnar et derrière ces mots se cache un format de fichier pour le stockage des données en colonnes, adapté à l’analyse massive des données.
Stockage en colonnes
Ce type de stockage de données qui commence à être connu permet d’optimiser la compression des données ainsi que les agrégations sur ces dernières.
Type de données
ORC supporte les types classiques de données comme les integers, les dates, mais aussi des types plus complexes comme des listes, les maps, les structs.
Compression
Apache ORC possède des algorithme de compression qui prend en compte chaque type de données pour choisir l’encodage le plus approprié
Indexation
Lors de la phase d’écriture du fichier, il y a également un index interne qui est construit ce qui permet d’avoir des recherches et des traitements plus rapides.
ACID
Lorsqu’Apache ORC est utilisé avec Apache Hive il peut prendre en charge les transactions ACID même sans être fait pour de l’OLTP.
Utilisation
Le format ORC peut être utilisé dans de nombreux outils et framework comme Spark, Hive, Flink, Hadoop, Trino, et plusieurs autres.
Merci de votre lecture !