📚 Aujourd’hui nous voyons ce qu’est un Data Lakehouse.
Définition rapide
Un Data Lakehouse est une architecture de gestion de données qui combine les capacités d'un Data Lake et d'un Data Warehouse en une seule plateforme.
Stockage unifié
Le Data Lakehouse stocke toutes les données (structurées, semi-structurées et non structurées) dans un même système de fichiers comme Amazon S3, Azure Data Lake, ou Google Cloud Storage.
Format de données ouvert
Les fichiers souvent utilisés sont des formats de fichiers ouverts et standardisés comme Parquet, ORC ou Avro.
Cela permet une compatibilité élargie avec des outils de traitement et d’analyse de données.
ACID
Un Data Lake classique gère rarement les transactions alors qu’un Data Lakehouse supporte justement les transactions ACID afin d’assurer l’intégrité des données et de permettre des mise à jour fiables et des suppressions sécurisées.
Moteur de traitement unifié
Il n’y a plus deux moteurs de traitement distinct pour le transactionnel et l’analytique mais un seul, ce qui évite de déplacer les données entre différents systèmes.
Optimisation des performances
Un Data Lakehouse utilise l’indexation, la compression des données et l’optimisation de requêtes.
Cela permet d’obtenir des performances similaire à celles d’un Data Warehouse.
Apache Hudi
Apache Hudi est un système open source qui permet de mettre en place un Data Lakehouse par-dessus les plateformes S3, BigQuery, GCS, etc.
Merci de votre lecture !