📚 Le concept data : c’est quoi un Data Catalog?
Définition rapide
C’est un outil qui centralise toutes les informations liées aux données de l’entreprise. Il permet également de les organiser et de les gérer pour faciliter leur accès et leur gouvernance.
Référencement des données
Le but est de répertorier toutes les sources de données existantes. Que ce soit des données internes du Data Lake/Warehouse/Lakehouse, structurées ou non, des APIs ou même des données pouvant provenir de partenaires externes.
Metadata
Les metadata servent à décrire les données en fournissant des informations telles que le format, la provenance, la structure, l’usage, etc.
Cela donne une vue complète et détaillée de ce qui est stocké.
Recherche et découverte
Bien sûr, pour exploiter toutes les informations contenues dans le Data Catalog il est possible d’effectuer des recherches. Cela permet de trouver des informations liées aux données même dans plusieurs systèmes différents.
Qualité
Il est aussi important de garantir aux consommateurs des données fiables. Le Data Catalog peut donc permettre de fournir des informations sur la qualité des données comme la fraîcheur, l’unicité, la cohérence et etc.
Collaboration et gouvernance
Il n’y a pas que des informations techniques mais aussi pouvant servir aux métiers.
Il est possible de connaître clairement le responsable d’une donnée, de définir les rôles et accès pour la sécurité, de créer des liens entre les sources et surtout de facilement documenter les données.
Merci de votre lecture !