Le Data Cleaning: une étape clé à tout projet

samedi, 23.05.2020

Xavier Bays *

Xavier Bays

«Un data scientist passe 80% de son temps à faire du data cleaning et 20% de son temps à se plaindre de devoir faire du data cleaning.» Cette célèbre citation de Kirk Borne relève avec humour l’importance d’une étape clé à tout projet qui s’appuie sur des données: le data cleaning. Ce terme, parfois appelé «nettoyage des données» en français et trop souvent oublié, fera l’objet de la chronique du jour.

On pense généralement que le data cleaning se résume à deux tâches: compléter les valeurs manquantes et gérer les observations aberrantes. Il serait réducteur de s’arrêter à ces deux actions, certes essentielles. Pour mieux comprendre ce que cache cette notion, il faut aborder les éléments qui catégorisent la qualité d’un jeu de données. Ceux-ci se classent selon cinq critères principaux: l’intégrité, la précision, la cohérence, l’exhaustivité et la fraîcheur.

L’intégrité regroupe les problèmes d’erreurs et anomalies de type syntaxique. Cela reviendrait à parler de fautes d’orthographe ou de grammaire. On place un chiffre dans un espace réservé à du texte, on essaie de diviser par zéro ou on change le format des dates en cours de route… Ces erreurs sont des éléments bloquants car elles ne permettent pas d’utiliser la base de données. Si elles n’autorisent pas au programme informatique d’aboutir, elles ont cependant l’avantage d’être visibles. En effet, il n’est pas possible de poursuivre le travail sans les régler.

La deuxième catégorie, la précision, est en quelque sorte plus sournoise. Elle reviendrait à commettre des erreurs sémantiques: employer un mauvais mot en français, ou placer une phrase qui n’a pas de sens au milieu d’un long texte. Concrètement, ce critère vérifie si les données reflètent la réalité. Le nom des colonnes est-il correct? Le capteur est-il fiable? Peut-on faire confiance à la source de données? Cette fois, l’exécution du programme informatique aboutira, mais la réponse affichée ne sera pas celle escomptée, ou pire, l’imprécision sera invisible au premier coup d’œil. Il est ainsi plus compliqué de repérer et de corriger ce type d’erreur. Il n’existe d’ailleurs aucun outil automatique permettant de s’en protéger. L’unique manière d’y palier est d’investiguer la base de données en profondeur et de confronter les observations statistiques aux connaissances des experts métiers.

Les trois catégories suivantes se rapportent quant à elles à l’organisation de la base de données.

La cohérence compare des informations similaires stockées dans des bases différentes et recherche s’il existe des contradictions entre ces éléments. Bien qu’elle puisse paraître basique, cette notion de cohérence est souvent un casse-tête pour les entreprises. L’exhaustivité vérifie que toutes les données nécessaires sont disponibles. Elle s’intéresse également à la présence de valeurs manquantes. Finalement, la fraîcheur s’interroge si les données sont suffisamment actuelles et accessibles en tout temps.

Contrôler et corriger ces cinq critères est l’objectif du data cleaning. Cela garantit l’utilisation d’un jeu de données cohérent, complet et décrivant un historique bien réel: une nécessité si l’on souhaite prendre des décisions éclairées. Souvenez-vous de ces cinq points et promis, les data scientists arrêteront de se plaindre.

*Data Scientist & Co-founder Swiss-SDI






 
 

AGEFI



...