Qualité de données : définitions et enjeux

Depuis quelque temps, j’entends souvent dans des réunions ou dans des ateliers métiers dire : « nous avons une bonne qualité de données, nous les corrigeons tous les x mois ». A d’autres moments, je tombe sur des articles où sont mentionnés pêle-mêle, données de qualités, qualité de la donnée, management de la qualité de données… Assez vite je me suis rendu compte qu’il était facile d’avoir une vision floue sur le sujet. Pour autant, il semble clair que dans le cadre des systèmes d’informations, gros consommateurs de données, la « qualité de la donnée » a un rôle important à jouer. Par exemple, comme nous l’avons vu dans un précédent article,

« … Donner du sens à une donnée aboutit à de l’information, donner du sens à une information aboutit à une connaissance, donner du sens à une/des connaissance(s) aboutit à une compétence…».

Une base de données, un entrepôt de données et plus généralement un système d’information récolte, intègre et échange des données. Que ce soit pour acquérir une compétence ou pour aider à la prise de décision (comme dans les systèmes décisionnels), la donnée qui sera manipulée doit répondre à un certain nombre d’exigences de qualité. Si on se réfère au schéma de l’article sus-cité, on peut penser que la qualité de la donnée aura un impact direct sur la qualité de l’information, de la connaissance, de la décision voire de la compétence. Meilleure sera la qualité de la donnée, plus pertinente sera la décision prise ou plus complète sera la compétence acquise.

Mais qu’entend-t-on exactement par la qualité de la donnée ? Est-ce la même chose que la qualité de données ? L’objet de cet article est de présenter les principes et définitions de base sur la qualité de donnée et son management.

Définition des concepts

1- Une donnée

En enrichissant la définition de l’article sus-cité nous obtenons la définition suivante. Une donnée est le couple formé par une définition et une mesure. La mesure étant caractérisée par le type de la donnée :

Quantitative (poids, montant, âge…)
Qualitative (nom, ville, date…)
Technique (code, identifiant…)

Une donnée décrit un état élémentaire du « sujet », « concept » qu’elle renseigne.

2- Donnée de qualité

On dit qu’une donnée est de (bonne) qualité si elle répond aux trois conditions suivantes :

Unique : une question amène une seule réponse.
Intelligible : la réponse est cohérente avec définition qu’elle renseigne.
Correcte : la réponse correspond à l’état de la donnée dans le contexte de la question.

Les deux points suivants sont importants :

La définition de la donnée est spécifique au système d’information qui la traite. Selon les cas, une durée sera exprimée en secondes, en minutes, en jours, en mois…
Une même question peut entrainer deux réponses différentes à deux instants différents. Le sujet renseigné par la donnée évolue (une personne vieillit, change d’adresse…) : une donnée devient obsolète.

3- La qualité de données

Faire de la qualité de données, c’est veiller à ce que la donnée soit et reste de qualité. Cela nécessite de mettre en place des « process » qui prendront en compte l’inévitable obsolescence de la donnée entrainant la dégradation de l’information.

Un exemple fréquemment évoqué est celui des adresses ; une personne peut très bien changer d’adresse. Interroger un système d’information sur l’adresse de la personne peut renvoyer une réponse fausse si la nouvelle adresse n’est pas renseignée.

Suivant les besoins, la mise à jour de cette adresse sera un enjeu important qui relèvera alors du management de la qualité de données.

Si « faire » de la qualité de données implique d’avoir des données de qualité, la réciproque n’est pas vraie. Nous pouvons tout à fait avoir des données de qualité sans faire de qualité de donnée.
Pour bien comprendre ceci il nous faut évoquer le coût de la non-qualité des données.

4- Coût de la non-qualité de donnée

Le coût de la non-qualité de donnée correspond à l’ensemble des coûts directs ou indirects induits par une mauvaise qualité de la donnée. Etre capable de quantifier ce coût est un enjeu majeur lorsque l’on fait de la qualité de données. En effet, si les coûts directs sont faciles à mesurer (comme le coût de correction de la donnée), les coûts cachés peuvent avoir un impact dévastateur sur l’image d’une entreprise.

L’enjeu des NPAI chez un FAI

Pour illustrer cela, prenons l’exemple d’un Fournisseur d’Accès Internet (opérateur réseau). Sa richesse repose, entre autres, sur son parc de clients et sa capacité à les identifier et les cibler. Lors d’un envoi de courrier (ciblage marketing, modification CGU…) la problématique sera de pouvoir localiser ses clients afin de minimiser les NPAI(*) de la base des abonnés :

En effet, un client peut avoir jusqu’à trois adresses différentes (contact / facturation / raccordement)
Une étude de l’American Community Suvey estime à 50% le taux de déclaration de changement d’adresse.

Imaginons la séquence suivante :

L’opérateur notifie, par courrier, ses clients d’un changement tarifaire (via la modification des CGV(**))
Les clients identifiés en NPAI ne reçoivent pas ledit courrier. Ils ne sont donc pas informés d’une augmentation tarifaire et ne constatent celle-ci que lorsque le prélèvement est effectif sur la facture.
Si dans la plupart des cas, le client ne réagira peut-être pas, dans certains cas il pourrait y avoir contestation de la facture entrainant un geste commercial opérateur, voire résiliation d’abonnement de la part de clients excédés (on parle alors d’aliénation client)
Nous pouvons ainsi identifier les différents postes coûts engendrés par les NPAI.

Postes coûts opérationnels des NPAI dans les bases marketing

Dans cet exemple, mettre en place un process visant à minimiser le nombre de NPAI de la base client, avant le lancement de la campagne courrier, est une réponse que doit apporter le management de la qualité de données.

Décès & Facturation

Si les coûts directs sont plus facilement quantifiables, les coûts cachés peuvent rapidement exploser. Ce fut le cas par exemple pour la chaine de télé Virgin Media. Ayant relancé avec pénalités la facture d’une personne décédée, elle a subi les effets d’un mauvais buzz sur internet. Ce buzz viral, via le relai de la publication de la facture de relance, a entrainé non seulement un remboursement de la facture, des coûts de communication pour calmer le buzz dans les médias ainsi qu’une donation à un hospice, mais aussi une dégradation de l’image de Virgin Media (difficilement quantifiable).

Le client décédé reçoit une facture de relance avec majoration

L’analyse des flux de paiement bancaires ne prenait visiblement pas tous les cas en compte. Un flux ‘D.D Denied-Payer deceased’ devrait être utilisé pour lancer un process spécifique de mise à jour des données client (et accessoirement de recouvrement de la facture sans pénalité).

Un audit des process de US Postal Services a permis de mesurer que le coût de l’imprécision des données dans les différents entrepôts de données représentait 14,9 millions de dollars (sur 1 milliard de dollars de dépensés à ce jour). Le total est important même si ce montant ne correspond finalement qu’à 1,49% de perte.

Ainsi le coût de la non-qualité de données est une composante primordiale du management de la qualité de données. Il est le garde-fou pour les arbitrages des process d’amélioration de la qualité de données.

5- Les process d’amélioration

Qu’il y ait 3% d’erreurs dans une base de données n’est pas un problème en soi. Après tout, les études statistiques tolèrent une marge d’erreur de 5%. Alors pourquoi ne pas avoir cette même tolérance vis-à-vis des données d’un système d’information ?
Si ces 3% représentent un cout de 9,3 millions d’euros en perte de vente et 3,4 million d’euros en compensation de client déçus, cela devient alors un problème.
Cela devient encore plus problématique si après correction les mêmes erreurs se répètent.

Une entreprise doit donc manager la qualité de donnée. Une simple correction à posteriori d’une donnée dégradée n’est pas un process pérenne de qualité de données. En effet, il ne s’agit là que d’une action ponctuelle et chronophage.

Le traitement des NPAI, après retour des courriers non acheminés, implique :

qu’une quantité des fonds de campagne ait été dépensés inutilement
et que des coûts de recherche des clients NPAI seront encore à mettre en œuvre.

Faire de la qualité de données consiste à maintenir le référentiel client le plus propre possible avant le lancement de la campagne dans le but de minimiser les NPAI et les coûts de la campagne marketing.

Si un process de dégradation ou de non-qualité est identifié comme étant coûteux il doit faire l’objet d’un arbitrage et d’un projet d’amélioration du système d’information. La mise en place d’une telle surveillance/arbitrage/projet est ce que l’on appelle l’amélioration de la qualité de données.

En conclusion

« faire de la qualité de données » :

… ce n’est pas juste corriger la donnée dégradée une fois rentrée dans le SI,
… mais c’est veiller à ce qu’elle n’y entre pas, qu’elle soit détectée et corrigée avant
… et s’assurer qu’elle ne reviendra plus.

Le management de la qualité de données vise à maximiser la qualité des données en minimisant les coûts de non qualité de données. Je détaillerai dans un prochain article les différents process à mettre en œuvre dans ce cadre.

* NPAI = N’habite Pas à l’Adresse Indiquée

** CGV = Condition Générale de Vente.