Aujourd’hui nous voyons ce qu’est un Data Warehouse.
Définition rapide
Un Data Warehouse est un type de base de données spécialisé dans l’analyse et le reporting (voir mon article sur les bases OLAP)?
Ce qu’il n’est pas
De base, un Data Warehouse n’est pas fait pour gérer les transactions des systèmes applicatifs qui utilisent des modèles de transactions (voir mon article sur les bases OLTP).
Son utilisation
Dans un fonctionnement plutôt classique, il sert à centraliser les données provenant de différents systèmes source.
Il est souvent utilisé lors de pipelines ELT où l’on stocke les données brutes dans le Data Warehouse puis on applique aux données des traitements spécifiques afin d’augmenter leur valeur (qualité, enrichissement, déduplication, agrégation, etc.).
Bien sûr, il peut y avoir une première couche de données brutes dans un autre système pour faire de l’ETL.
Evidemment, les Data Warehouses sont optimisées pour les requête d’analyse complexes et utilise un mode de stockage en colonne.
Son architecture
La donnée y est historisée selon les règles de gestion du cycle de vie des données de l’entreprise.
Les données y sont régulièrement normalisées via, par exemple, un schéma en étoile.
Quelques outils
Voici des exemples d’outils de Data Warehousing :
- Snowflake ;
- Amazon Redshift ;
- Google BigQuery ;
- Microsoft Azure Synapse Analytics.
Data Marts
Le Data Warehouse peut aussi regrouper ses données sous forme de Data Mart (voir mon article sur les Data Marts)
Merci de votre lecture !