Concept - C’est quoi un Data Lakehouse ?

Concept - C’est quoi un Data Lakehouse ?

Date de sortie
August 14, 2024
Auteur
Bertrand Fabre

📚 Aujourd’hui nous voyons ce qu’est un Data Lakehouse.

Définition rapide

Un Data Lakehouse est une architecture de gestion de données qui combine les capacités d'un Data Lake et d'un Data Warehouse en une seule plateforme.

Stockage unifié

Le Data Lakehouse stocke toutes les données (structurées, semi-structurées et non structurées) dans un même système de fichiers comme Amazon S3, Azure Data Lake, ou Google Cloud Storage.

Format de données ouvert

Les fichiers souvent utilisés sont des formats de fichiers ouverts et standardisés comme Parquet, ORC ou Avro.

Cela permet une compatibilité élargie avec des outils de traitement et d’analyse de données.

ACID

Un Data Lake classique gère rarement les transactions alors qu’un Data Lakehouse supporte justement les transactions ACID afin d’assurer l’intégrité des données et de permettre des mise à jour fiables et des suppressions sécurisées.

Moteur de traitement unifié

Il n’y a plus deux moteurs de traitement distinct pour le transactionnel et l’analytique mais un seul, ce qui évite de déplacer les données entre différents systèmes.

Optimisation des performances

Un Data Lakehouse utilise l’indexation, la compression des données et l’optimisation de requêtes.

Cela permet d’obtenir des performances similaire à celles d’un Data Warehouse.

Apache Hudi

Apache Hudi est un système open source qui permet de mettre en place un Data Lakehouse par-dessus les plateformes S3, BigQuery, GCS, etc.

Merci de votre lecture !