Nettoyage de données
Le nettoyage de données regroupe les opérations qui corrigent et standardisent un jeu de données brut : suppression des doublons, correction des formats, gestion des espaces et des valeurs manquantes. Excel propose des outils dédiés comme SUPPRESPACE(), CNUM() ou Remplissage instantané pour automatiser ces tâches.
À quoi sert un nettoyage de données dans Excel ?
Le nettoyage de données désigne l'ensemble des opérations qui transforment des données brutes, souvent imparfaites, en données exploitables : supprimer les doublons, corriger les formats, éliminer les espaces parasites, gérer les valeurs manquantes, standardiser les casses et les séparateurs. C'est une étape incontournable avant de pouvoir faire des calculs fiables, des TCD ou des recherches avec RECHERCHEV. Des données sales cassent toutes les formules en aval, souvent de façon silencieuse.
Tu vas en avoir besoin chaque fois que tu travailles avec des exports de logiciels tiers (ERP, CRM, logiciels RH), des fichiers envoyés par des partenaires ou des données saisies manuellement par plusieurs personnes. Ces sources produisent presque systématiquement des incohérences que tu dois corriger avant de les utiliser. Excel propose des outils dédiés (SUPPRESPACE, CNUM, Supprimer les doublons, Remplissage instantané), et Power Query pour les volumes importants.
Nettoyage de données : exemples concrets
Exemple 1 : Gestionnaire de stock : corriger un export fournisseur avant de l'importer
Tu es gestionnaire de stock dans une centrale d'achats. Chaque semaine, ton fournisseur principal t'envoie un fichier Excel avec les disponibilités et les prix. Le problème : les références produits ont des espaces en trop, les prix sont stockés comme du texte (avec une virgule à la place du point décimal), et certaines lignes sont en doublon.
Tu commences par la fonction SUPPRESPACE() pour nettoyer les espaces parasites dans les références : =SUPPRESPACE(A2) sur une colonne temporaire, puis collage des valeurs à la place des données d'origine. Ensuite, CNUM(SUBSTITUE(B2;",";"."))) convertit les prix texte en nombres vrais. Enfin, tu utilises Données > Supprimer les doublons pour éliminer les lignes identiques.
Ces trois opérations prenaient 2 heures à la main. Avec les outils Excel, tu en as pour 15 minutes. Et maintenant, tes formules de calcul du stock et tes RECHERCHEV fonctionnent parfaitement parce que les données sont propres.
Exemple 2 : Data analyst : standardiser des données de saisie manuelle avant analyse
Tu es data analyst dans une entreprise de services. Tu analyses les résultats d'une enquête de satisfaction renseignée à la main par les équipes commerciales dans un tableur partagé. Le champ "Secteur d'activité" contient 47 variantes pour ce qui devrait être 8 catégories max : "industrie", "Industrie", "INDUSTRIE", "Ind.", "industriel", etc.
Tu utilises d'abord MAJUSCULE() pour tout mettre en majuscule et réduire les variantes, puis SUPPRESPACE() pour éliminer les espaces, puis tu construis une table de correspondance avec RECHERCHEV pour regrouper les synonymes sous la catégorie officielle. Pour les 200 lignes de données, tout ça prend 20 minutes au lieu d'une demi-journée de corrections manuelles.
Pour les prochaines fois, tu mets en place une liste déroulante sur ce champ dans le fichier partagé. Les données arrivent déjà propres et tu n'as plus ce travail de nettoyage à chaque analyse.
- #1 SUPPRESPACE(texte) élimine tous les espaces superflus au début, à la fin et entre les mots (réduit à un seul espace). C'est la première fonction à appliquer sur des données importées d'un autre système.
- #2 CNUM(texte) convertit un nombre stocké comme texte en vrai nombre. Utile quand Excel refuse d'additionner des valeurs parce qu'elles sont au format texte (tu le vois à l'alignement à gauche au lieu de droite).
- #3 Données > Supprimer les doublons supprime les lignes identiques en une seule opération. Coche uniquement les colonnes qui doivent être identiques pour constituer un doublon, pas forcément toutes les colonnes.
- #4 Pour des nettoyages plus complexes ou des volumes importants, Power Query (Données > Obtenir des données) offre une interface visuelle et des transformations que tu peux rejouer automatiquement à chaque import.
Les erreurs courantes avec le nettoyage de données
✕ Modifier les données source directement au lieu de créer des colonnes de travail
Le réflexe naturel est de corriger les données directement dans les cellules d'origine. Mais si tu te trompes dans une transformation, tu perds les données initiales et tu ne peux pas revenir en arrière facilement (Ctrl+Z a ses limites sur 500 lignes).
Par exemple, si tu appliques une formule MAJUSCULE() directement dans la colonne A, tu remplaces le texte original. Si tu t'aperçois plus tard que tu aurais dû garder la casse d'origine pour une autre raison, les données sont perdues.
Solution : Travaille toujours sur des colonnes de travail temporaires à côté des données d'origine. Applique tes transformations dans ces colonnes, vérifie le résultat, puis fais un collage-valeurs dans la colonne finale. Supprime les colonnes de travail une fois satisfait du résultat.
✕ Oublier les espaces insécables et les caractères invisibles
SUPPRESPACE() élimine les espaces ordinaires (code ASCII 32), mais pas les espaces insécables (code 160) souvent générés par les exports web ou certains logiciels. Ces espaces sont invisibles à l'oeil mais empêchent les RECHERCHEV et les comparaisons de fonctionner.
Tu peux avoir deux cellules qui semblent identiques visuellement mais qui ne correspondent pas dans une formule, à cause d'un caractère invisible que tu ne vois pas.
Solution : Utilise EPURAGE(SUBSTITUE(A2;CAR(160);" ")) pour éliminer les espaces insécables en plus des espaces ordinaires. Si tu suspectes d'autres caractères parasites, la fonction NBCAR() te permet de compter les caractères et de détecter des anomalies (une référence de 8 caractères qui en affiche 9).
Questions fréquentes sur le nettoyage de données
Sélectionne ta plage de données (ou clique n'importe où dans ton tableau), puis va dans Données > Supprimer les doublons. Une boîte s'ouvre avec la liste de tes colonnes. Coche uniquement les colonnes qui doivent être identiques pour qualifier une ligne de doublon. Excel supprime les doublons et te dit combien de lignes ont été supprimées. Attention, cette opération est irréversible au-delà de Ctrl+Z.
La cause la plus fréquente est une différence invisible entre la valeur cherchée et les valeurs de la table : espaces parasites, espaces insécables, différence de casse, nombres stockés comme texte. Commence par appliquer SUPPRESPACE() sur les deux colonnes et CNUM() si tu cherches des nombres. Si ça ne suffit pas, compare NBCAR() des deux valeurs pour voir si le nombre de caractères diffère.
Avec des formules Excel (SUPPRESPACE, CNUM, SUBSTITUE...), tu nettoies les données une fois et tu colles les valeurs. C'est rapide pour un traitement ponctuel. Power Query, lui, crée un pipeline de transformation que tu peux rejouer automatiquement à chaque import de nouvelles données. Si tu reçois le même fichier chaque semaine avec les mêmes problèmes, Power Query te fait gagner du temps à long terme. Pour un nettoyage ponctuel sur un fichier, les formules suffisent.
Termes liés
Envie d'aller plus loin ?
Explore les 293 termes de notre lexique ou découvre nos formules Excel.