Aujourd’hui nous voyons ce qu’est un Data Lake.
Définition rapide
Un Data Lake est un environnement de stockage de données brutes capable de recevoir divers types de données avec une volumétrie importante.
Types de fichiers
Il est possible de déposer des fichiers de toutes sortes et produit par l’entreprise : CSV, JSON, images, vidéos, textes, logs, etc.
Ces fichiers pourront être utilisés pour des services, traitements et/ou analyses ultérieures.
Types de données
Dans le Data Lake il n’y a pas besoin de schéma ou modèle de données prédéfini.
De même, il est possible d’y stocker plusieurs types de données :
- Structurée : des tables, des fichiers Excel ;
- Semi-structuré : des logs, des avis clients ;
- Non-structuré : des vidéos, des images.
Types de sources
La diversité continue également dans les sources desquelles peuvent provenir les données comme des bases de données, des réseaux sociaux, des capteurs, de flux temps réel, autres.
Des exemples d’outils
Voici quelques outils connus qu’il est possible d’utiliser dans le cadre d’un Data Lake :
Points d’attention
Il peut être compliqué de garder un Data Lake propre et organisé.
Dans certains cas le Data Lake peut se transformer en marécage de données ou Data Swamp.
Les coûts économisés avec le Data Lake pourrait être réduit à néant avec les coûts de maintenance, de traitements excessifs, etc.
Merci de votre lecture !