Concept - C’est quoi un Data Lake ?

Concept - C’est quoi un Data Lake ?

Date de sortie
August 7, 2024
Auteur
Bertrand Fabre

Aujourd’hui nous voyons ce qu’est un Data Lake.

Définition rapide

Un Data Lake est un environnement de stockage de données brutes capable de recevoir divers types de données avec une volumétrie importante.

Types de fichiers

Il est possible de déposer des fichiers de toutes sortes et produit par l’entreprise : CSV, JSON, images, vidéos, textes, logs, etc.

Ces fichiers pourront être utilisés pour des services, traitements et/ou analyses ultérieures.

Types de données

Dans le Data Lake il n’y a pas besoin de schéma ou modèle de données prédéfini.

De même, il est possible d’y stocker plusieurs types de données :

  • Structurée : des tables, des fichiers Excel ;
  • Semi-structuré : des logs, des avis clients ;
  • Non-structuré : des vidéos, des images.

Types de sources

La diversité continue également dans les sources desquelles peuvent provenir les données comme des bases de données, des réseaux sociaux, des capteurs, de flux temps réel, autres.

Des exemples d’outils

Voici quelques outils connus qu’il est possible d’utiliser dans le cadre d’un Data Lake :

Points d’attention

Il peut être compliqué de garder un Data Lake propre et organisé.

Dans certains cas le Data Lake peut se transformer en marécage de données ou Data Swamp.

Les coûts économisés avec le Data Lake pourrait être réduit à néant avec les coûts de maintenance, de traitements excessifs, etc.

Merci de votre lecture !