📚 Le concept data : c’est quoi des données structurées ?
Définition rapide
Ce sont des informations organisées et formatées en lignes et en colonnes, comme un tableau avec un schéma fixe.
Schéma préétabli
Le schéma de ces données est clairement défini et est fixe. Il peut bien sûr subir des évolutions, mais ce sera donc une mise à jour de la structure.
On sait donc quels sont les champs présents et leur type.
Les fichiers
Les CSV (ou txt) sont un exemple de données structurées : les données ont un nombre fixe de colonnes séparées par un délimiteur.
Il y a bien sûr d’autres formats de fichiers qui pourraient répondre à des besoins de données structurées comme :
- XML Schema Definition (XSD) : il permet de décrire la structure d’un document XML ;
- JSON Schema : de la même manière, il décrit également la structure d’un document JSON.
☝️ Bien sûr, le fait qu’une donnée soit considérée comme structurée ne dépend pas forcément d’un format de fichier, mais aussi de la manière dont l’entreprise gouverne ses données.
Même des logs peuvent devenir des données structurées.
Les bases de données
Les tables des bases de données représentent parfaitement cette notion de données structurées.
En effet, chaque ligne représente un enregistrement et chaque colonne définit cet enregistrement avec un type propre (texte, numéro, montant, etc.).
Avoir cette organisation fixe permet d’utiliser le langage phare de la manipulation de données : SQL.
Lisibilité
Les données structurées sont donc lisibles pour nous et surtout pour les machines.
Les modèles de machine learning apprécient les données structurées et formatées qui permettent un entraînement efficace.
L’automatisation est aussi simplifiée si la structure est connue à l’avance.
Merci de votre lecture !