Aujourd’hui je vous présente Apache Paimon
Définition rapide
C’est une plateforme de Data Lakehouse qui permet donc de combiner les avantages des architectures Data Lake et Data Warehouse.
Rappels Data Lakehouse
Il est possible d’y stocker des données brutes et non structurées (Data Lake) mais aussi d’exploiter des données structurées dans un système optimisé pour des requêtes analytiques (Data Warehouse).
Stockage unifié
Un autre avantage de Apache Paimon est qu’il prend en charge aussi bien du stockage en colonne pour des requêtes analytiques que du stockage en ligne pour la gestion des transactions.
Le stockage en fichier est par défaut en Parquet.
Gestion ACID
La prise en charge des propriétés ACID, dont je vous invite à lire les détails dans l’article en lien, permet de garantir l’intégrité des données même en cas de pannes ou de défaillance du système.
Compatibilité
Apache Paimon prend en charge plusieurs outils comme Apache Flink pour les traitements en streaming, Apache Spark pour des traitements en batch mais aussi Apache Hive, Apache Presto et Apache Trino.
Versionning des données
Le système garde les différentes versions de la donnée et permet ainsi de garder un historique des modifications.
Evolution des schémas
Il est également possible de faire évoluer la structure du schéma sans altérer les processus en cours ce qui apporte plus de flexibilité.
Merci de votre lecture !