📚 Le concept data : c’est quoi des données normalisées (base de données) ?
Définition rapide
La normalisation des données est un processus d’organisation et de structuration des données.
Ce processus permet de garantir une cohérence, une intégrité et une facilité d’utilisation des données.
Les schémas en étoile et en flocon de neige
Pour mettre en place une normalisation des données on pourrait utiliser les schémas en étoile dont le concept est d’avoir des tables de faits et surtout des tables de dimensions.
Ce sont les tables de dimensions qui apportent un contexte aux données de faits avec des identifiants uniques auxquels la table de faits fait appel.
On peut aussi les appeler table de référentielle.
Le schéma en flocon de neige est une extension de l’étoile mais continue sur le même principe.
J’évoque ces schémas car ils permettent de garantir une cohérence et une intégrité des données. En effet, il n’y a plus de problème de synchronisation entre toutes les tables qui utilisent le même type de données (ex : produit) et dans lesquelles il aurait fallu maintenir des contexte équivalent.
Comment maintenir un label de produit identique dans toutes les tables ?
Il est possible de normaliser ces données dans une table de dimension.
On évite la redondance
Cela permet aussi de ne plus stocker la totalité du contexte de certaines données, comme le produit, et avoir donc des données redondantes.
Faut-il toujours stocker le libellé du produit partout et sur chaque ligne ou juste à un seul endroit et aller le chercher seulement si le besoin s’en fait sentir ?
La sur-normalisation
Je ne l’ai pas évoquer mais le schéma en flocon de neige incite à partir sur une tendance de sur-normalisation des données et faisant de nombreuses tables de dimensions.
De plus, cela engendre une augmentation significative de rapprochements à faire dans les données (comme des jointures) pour récupérer toutes les informations dont nous pourrions avoir besoin.
Le stockage est allégé mais c’est le calcul qui prend le relais et sur des environnements cloud c’est la partie qui coûte le plus cher.
Il faut identifier à partir de quand la normalisation perd de son efficacité.
Merci de votre lecture !