Définition rapide

C’est une plateforme de Data Lakehouse qui permet donc de combiner les avantages des architectures Data Lake et Data Warehouse.

Rappels Data Lakehouse

Il est possible d’y stocker des données brutes et non structurées (Data Lake) mais aussi d’exploiter des données structurées dans un système optimisé pour des requêtes analytiques (Data Warehouse).

Stockage unifié

Un autre avantage de Apache Paimon est qu’il prend en charge aussi bien du stockage en colonne pour des requêtes analytiques que du stockage en ligne pour la gestion des transactions.

Le stockage en fichier est par défaut en Parquet.

Gestion ACID

La prise en charge des propriétés ACID, dont je vous invite à lire les détails dans l’article en lien, permet de garantir l’intégrité des données même en cas de pannes ou de défaillance du système.

Compatibilité

Apache Paimon prend en charge plusieurs outils comme Apache Flink pour les traitements en streaming, Apache Spark pour des traitements en batch mais aussi Apache Hive, Apache Presto et Apache Trino.