📚 Le concept data : c’est quoi des données non-structurées ?
Définition rapide
Les données non-structurées sont des données qui n’ont pas de schéma ou ne suivent pas de modèle stricte. Ce sont des données qui sont un peu plus “libres”, ce qui les rend plus difficiles à organiser, à analyser et à exploiter.
Quelques exemples
- Du texte libre : les e-mails, des articles de blogs, des messages sur les réseaux sociaux ;
- Des contenus multimédias : des photos, des vidéos, des fichiers audio ;
- Des documents : des pdf, des slides, des documents comme Word.
Bien sûr, ce n’est pas une liste exhaustive mais cela représente une grande variété de formats.
Volume important
La majeure partie du contenu généré par les entreprises (ou pour les entreprises 😉) est de type non-structuré.
Leur exploitation demande des techniques d’analyse plus complexes comme avec le NLP.
Il faut aussi penser que pour stocker et traiter ce volume de données il faut des ressources conséquentes, ce qui peut nécessiter des investissements importants.
Labélisation
Pour tirer partie de ces données et leur redonner un peu plus de structure, il peut y avoir de grande partie de labélisation afin de pouvoir les classer.
Par exemple, cela peut être utile dans l’exploitation des contenus multimédias.
Large Language Models
La labélisation, mais pas que, peut aussi aider lors des entraînements des IA génératives que l’on appelle communément les LLM pour Large Language Models comme GPT ou Gemini. En effet, ces outils ont besoins de beaucoup de données non-structurées pour proposer des services en langage naturel.
Bases de données vectorielles
J’entends de plus en plus parler de base de données vectorielles pour stocker des données non-structurées ou plus précisément, leur représentation sous forme de vecteur.
Cela permet par la suite d’exploiter ces données pour faire des opérations de recherche par similarité et donc aussi “d’identifier” un contexte.
Selon une question, quels vecteurs sont les plus similaires et donc à même de correspondre à une réponse cohérente ?
Quelques applications
- L’analyse de sentiments : pour comprendre ce que les consommateurs pensent d’une marque ou d’un produit par exemple ;
- La reconnaissance vocale : les enceintes connectées interprètent les commandes vocales sous forme de données non-structurées et les convertissent en actions ;
- L’analyse de vidéos : l’intelligence artificielle peut analyser des enregistrements de vidéosurveillance afin de détecter des comportements suspects ou des incidents.
La qualité
Ce type de données peut contenir des erreurs, des informations redondantes voire inutiles.
Cela rend encore plus difficile leur traitement afin d’en extraire de la valeur.
La sécurité et la confidentialité
Bien sûr, toutes les données comportes des défis en terme de confidentialité et de sécurité, mais le schéma défini des données structurées permet d’ajouter plus facilement des couches de confidentialité sur des données identifiées comme sensibles.
Qu’en est-il des données non-structurées ? Comment contrôler ce qui est écrit et ne pas utiliser des données sensibles de ce type de données dans les entraînements des LLM et risquer une fuite massive ?
Merci de votre lecture !