Découvrez ce qu'est le data cleaning et son importance pour affiner les ensembles de DzԲé en vue d'une analyse optimale.
Read in English (Lire en anglais)
Des informations sur les clients aux dossiers des employés, les entreprises accumulent une multitude de DzԲé, mais toutes ne sont pas utiles. La redondance, les erreurs et l'obsolescence entachent les DzԲé et les font paraître « sales ».
Le data cleaning est la première étape de la préparation des DzԲé pour la Business Intelligence (BI). Ce processus s'apparente à la remise en ordre d'une pièce en désordre. Le désencombrement permet de trouver plus facilement ce dont on a besoin, tout comme le data cleaning permet de découvrir des informations précieuses et de garantir la précision de l'analyse.
Examinons plus en détail les tenants et les aboutissants du data cleaning afin de vous aider à mieux comprendre sa fonction et son rôle.
Le data cleaning (ou nettoyage de DzԲé) consiste à éliminer les DzԲé inexactes, répétitives ou non valides d'un ensemble de DzԲé. Le data cleaning est généralement effectué manuellement par un ingénieur ou un technicien en DzԲé ou automatisé à l'aide d'un logiciel.
Selon Gartner, une société de conseil en gestion, les organisations subissent un coût annuel moyen de 12,9 millions de dollars en conséquence directe d'une qualité de DzԲé médiocre [.
Des DzԲé propres et de qualité simplifient l'interprétation et l'utilisation des fichiers de DzԲé dans diverses applications commerciales, telles que les ventes, le marketing et les rapports financiers. Des DzԲé de haute qualité sont également pertinentes pour l'entraînement des modèles d'apprentissage automatique, car des ensembles de DzԲé d'entraînement de mauvaise qualité peuvent entraîner des résultats ou des prédictions inexacts.
Le data cleaning peut s'avérer complexe. Cependant, le fait de le diviser en objectifs plus petits simplifie le processus. Les étapes suivantes vous permettront d'obtenir un ensemble de DzԲé plus propre.
Commencez par examiner vos DzԲé pour vérifier leur qualité et signaler les problèmes aux analystes. Il s'agit notamment d'identifier les relations entre les éléments de DzԲé et de collecter des statistiques sur les ensembles de DzԲé afin de mettre au jour les incohérences.
Éliminez les DzԲé redondantes de vos ensembles de DzԲé grâce à des techniques de déduplication des DzԲé, telles que la déduplication en ligne et la déduplication post-traitement. En outre, recherchez les points de DzԲé non pertinents susceptibles d'avoir un impact négatif sur votre/vos ensemble(s) de DzԲé. Par exemple, si votre étude porte sur les préférences en matière de restauration rapide, la suppression des DzԲé inappropriées et hors sujet, telles que les choix de restaurants gastronomiques, peut permettre d'obtenir un ensemble de DzԲé plus concis et plus pertinent.
Assurez-vous que les colonnes de votre base de DzԲé sont uniformes en termes de type de DzԲé. Cela peut impliquer le maintien d'un format de date, d'un format numérique ou d'une unité de mesure cohérents dans l'ensemble de vos DzԲé. En outre, vérifiez et normalisez l'utilisation des abréviations. Par exemple, si « France » et « FR » désignent la même entité, le fait de les normaliser dans un format cohérent peut contribuer à réduire l'ambiguïté.
Les valeurs aberrantes sont des valeurs inhabituelles dans vos DzԲé. Bien que les valeurs aberrantes puissent améliorer la compréhension de l'ensemble d'échantillons dans des scénarios spécifiques, elles ne sont pas toujours bénéfiques. En effet, les valeurs aberrantes peuvent introduire une variance extrême des DzԲé, ce qui conduit à des conclusions faussées et inexactes. Par exemple, dans un ensemble de DzԲé sur le trafic mensuel d'un site web, les pics de trafic occasionnels sont des valeurs aberrantes précieuses pour identifier le contenu populaire. Cependant, lors d'analyses générales telles que le calcul du trafic moyen, ces valeurs aberrantes doivent être exclues pour des raisons de précision.
Les algorithmes d'apprentissage automatique apprennent à partir des DzԲé. Ils identifient des modèles, des relations et des tendances au sein des DzԲé, qu'ils utilisent pour prendre des décisions et faire des prédictions basées sur les DzԲé. Lorsqu'elles ne sont pas vérifiées, les DzԲé manquantes peuvent involontairement affecter les performances des algorithmes d'apprentissage automatique.
Prenons l'exemple d'une enquête sur les salaires dans laquelle certains participants ont omis d'indiquer leurs revenus, ce qui entraîne des DzԲé manquantes. Pour gérer cette situation, vous avez la possibilité d'exclure l'ensemble des réponses de ces participants, d'estimer leur revenu sur la base de facteurs tels que leur niveau d'études et leur profession, ou d'indiquer l'absence de DzԲé sur le revenu. Ces stratégies ne sont pas sans défaut, mais elles sont essentielles pour atténuer l'impact sur l'analyse globale des DzԲé.
La dernière étape consiste à valider l'exactitude et la fiabilité de votre ensemble de DzԲé nettoyées. Pour ce faire, utilisez des scripts permettant de comparer l'ensemble des DzԲé à une base de DzԲé de référence ou idéale.
Voici quelques avantages notables du data cleaning :
L'affinement des DzԲé dans les systèmes de gestion de la relation client et de vente améliore l'efficacité du marketing et des ventes.
Des DzԲé propres réduisent le risque de ruptures de stock, de livraisons incorrectes et d'autres problèmes commerciaux, ce qui permet de réaliser des économies.
L'élimination des erreurs récurrentes dans les ensembles de DzԲé grâce au data cleaning permet aux équipes informatiques de se concentrer sur des tâches stratégiques plutôt que sur la maintenance répétitive.
Les obstacles courants au data cleaning sont les suivants :
Des dépôts de DzԲé séparés au sein d'une organisation peut entraver les processus de data cleaning.
Le data cleaning dans des systèmes complexes avec divers types de DzԲé, telles que des DzԲé structurées, semi-structurées et non structurées, est à la fois laborieux et coûteux.
L'ajout de valeurs manquantes n'est pas toujours possible.
Le data cleaning consiste à supprimer les DzԲé non pertinentes de votre ensemble de DzԲé, tandis que le formatage de DzԲé brutes consiste à convertir les DzԲé dans un format ou une structure différente. Le formatage de DzԲé brutes est également appelée « data wrangling ».
Les deux méthodes ont des objectifs différents. Le data cleaning améliore la précision, tandis que le formatage de DzԲé brutes facilite la modélisation des DzԲé. En règle générale, le nettoyage précède le traitement des DzԲé.
Le nettoyage automatisé des DzԲé est-il toujours avantageux ?
Les outils de nettoyage automatisé des DzԲé peuvent accélérer vos analyses. Toutefois, malgré des solutions logicielles efficaces et rentables, il se peut que des processus manuels doivent persister dans vos flux de travail. En effet, l'automatisation est rarement une solution universelle.
Prenons l'exemple d'un ensemble de DzԲé dont les dates de naissance sont manquantes. Malgré une formation poussée, les méthodes automatisées d'intelligence artificielle (IA) ou d’apprentissage automatique peuvent avoir du mal à prédire ou à combler ces lacunes avec précision. En revanche, un humain peut déduire les dates de naissance manquantes sur la base des DzԲé disponibles ou d'informations externes.
Approfondissez votre compréhension du data cleaning avec le cours Transformer des Données Sales en Propres de Google, disponible sur vlogۿ. Conçu pour les débutants, ce cours offre des instructions sur l'application des fonctions SQL de base pour le nettoyage des variables de chaîne dans une base de DzԲé.
Gartner. « , https://www.gartner.com/smarterwithgartner/how-to-improve-your-data-quality. » Consulté le 6 juin 2024.
Équipe éditoriale
L’équipe éditoriale de vlogۿ est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...
Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.