
Qu'est-ce que le profilage des données ?
La qualité des données est cruciale dans toute entreprise. Compte tenu du fait que les systèmes analytiques et décisionnels des entreprises sont fondés sur leurs systèmes transactionnels, la fiabilité des indicateurs de performance clés et des prédictions d'exploration de données dépend entièrement de la validité des données sur lesquelles ils sont basés. Parallèlement à l'importance croissante des données valides dans la prise de décision en entreprise, le processus de validation de ces données est de plus en plus complexe. Les données affluent constamment dans l'entreprise, en provenance de systèmes et de sources variés et d'un grand nombre d'utilisateurs.
Les mesures de la qualité des données peuvent être difficiles à mettre en place car elles sont spécifiques au domaine ou à l'application. Une approche commune à la définition de la qualité des données est le profilage des données.
Un profil de données est une collection de statistiques agrégées sur les données qui peut regrouper, par exemple :
-
le nombre de lignes dans la table Customer ;
-
le nombre de valeurs distinctes dans la colonne State ;
-
le nombre de valeurs Null ou manquantes dans la colonne Zip ;
-
la distribution des valeurs dans la colonne City ;
-
la puissance de la dépendance fonctionnelle de la colonne State sur la colonne Zip (en d'autres termes, un État américain doit toujours être le même pour une valeur de code postal donnée).
Les statistiques fournies par un profil de données vous donnent les informations nécessaires pour minimiser de manière efficace les problèmes de qualité qui peuvent résulter de l'utilisation des données sources.