📚 Le concept data : c’est quoi un Data Dictionary ?
Définition rapide
C’est un référentiel qui centralise de manière détaillée toutes les metadata liées au système d’information, aux bases de données.
Les éléments du Data Dictionary
- Le nom des champs/colonnes : chaque colonne d’une table possède un nom unique ;
- Les types de données associées aux champs : si le champ est un INTEGER, ou DATE, ou STRING, etc. ;
- Les descriptions : très important pour expliquer plus en détail ce que représente un champ ;
- Les contraintes et règles de validation : clé primaire/étrangères, longueur du texte, etc. ;
- Origine et fréquence de mise à jour : on peut citer la source ou l’émetteur de la donnée, son horaire d’alimentation, etc. ;
- Eventuellement, des exemples de données.
Pourquoi est-il important ?
Il permet à tous d’avoir une vision ou un langage commun sur les données de l’entreprise. Cela permet de réduire les erreurs potentielles, ce qui facilite l’intégration et donc le time-to-market.
Bien sûr, avoir une cartographie exhaustive de son système permet d’avoir une vision macro, ce qui est une avantage non négligeable lors de prise de décisions technique comme une migration.
Comme en avoir un ?
Par exemple, dbt permet la création automatique d’un dictionnaire de données accompagné d’un Data Lineage. A condition d’avoir toutes ces pipelines sur dbt 😅.
Sinon, certaines entreprises restent manuelles avec l’utilisation de tableur comme Excel ou Google Sheets. Notion (lien parrainé|non parrainé) pourrait être un peu plus sexy.
Ou alors, pour sortir la grosse artillerie, on peut utiliser des outils dédiés comme Collibra ou Apache Atlas. Ces derniers peuvent faire bien plus ^^.
Merci de votre lecture !