Définition rapide

Un Data Lakehouse est une architecture de gestion de données qui combine les capacités d'un Data Lake et d'un Data Warehouse en une seule plateforme.

Stockage unifié

Le Data Lakehouse stocke toutes les données (structurées, semi-structurées et non structurées) dans un même système de fichiers comme Amazon S3, Azure Data Lake, ou Google Cloud Storage.

Format de données ouvert

Les fichiers souvent utilisés sont des formats de fichiers ouverts et standardisés comme Parquet, ORC ou Avro.

Cela permet une compatibilité élargie avec des outils de traitement et d’analyse de données.

ACID

Un Data Lake classique gère rarement les transactions alors qu’un Data Lakehouse supporte justement les transactions ACID afin d’assurer l’intégrité des données et de permettre des mise à jour fiables et des suppressions sécurisées.

Moteur de traitement unifié

Il n’y a plus deux moteurs de traitement distinct pour le transactionnel et l’analytique mais un seul, ce qui évite de déplacer les données entre différents systèmes.