La donnée c’est le « sang vital » des sociétés de l’information, « l’or noir » de l’entreprise. Mais Internet et les nouvelles technologies contribuent à une augmentation toujours plus rapide des volumes de données. Le big data est désormais une réalité. Les données brutes sont disponibles en plus grand nombre et porteuses d’un énorme potentiel de valeur. Reste aux entreprises à maîtriser ce flot continu d’informations. C’est l’enjeu principal du Data Management pour les années à venir…
Dans un précédent article (« La donnée : un actif stratégique à part » ), nous avons évoqué l’engouement des organisations pour toutes les démarches qui contribuent à protéger et à valoriser leurs données, et fait une revue des principales caractéristiques qui distinguent la donnée des autres actifs que possède et gère une entreprise. Dans ce nouveau billet, nous nous arrêtons sur ce que nous considérons être les 3 défis du moment en matière de Data Management.
Un invariant : protéger ses données
Une piqûre de rappel pour commencer. Protéger ses données est une nécessité et c’est également devenu une obligation. Certes, les entreprises n’ont pas attendu que le Data Management et la Gouvernance des données deviennent des sujets d’actualité pour définir et déployer des stratégies visant à sécuriser leur patrimoine informationnel. Mais à l’ère du « tout digital », les enjeux sont plus élevés. L’augmentation du nombre de consommateurs de données (qu’ils soient internes ou externes) ainsi que les opportunités liées aux technologies Big Data (cf. défis N°1) augmentent sensiblement les risques de vol, de corruption, ou d’un usage inapproprié des données. Par ailleurs, les clients des organisations prennent conscience de la manière dont leurs données pourraient être utilisées et monnayées. Le rôle prépondérant que tient l’information dans la recherche de compétitivité des entreprises a donc conduit les gouvernements à renforcer leur arsenal législatif et réglementaire afin de lutter contre les abus potentiels. A l’instar du nouveau règlement général sur la protection des données (RGPD), applicable depuis le 25 mai 2018, les principes d’utilisation de la donnée sont beaucoup plus stricts et les sanctions financières peuvent être importantes (voir notre article à ce sujet : « Quels sont les risques de la GDPR ? »). Et pourtant, malgré les efforts consentis par les entreprises et les instances de régulation, la sécurité et la protection des données reste un enjeu majeur de la gestion des données (le site le « lebigdata.fr » fait état des cas sérieux de fuites de données les plus sévères survenus durant l’année 2019).
Défis N° 1 : intégrer les technologies du Big Data
Le Big Data n’est pas une mode mais un ensemble de potentialités/cas d’usage qui résultent de l’accélération du rythme de production des données par les entreprises et les particuliers. En 2001, l’analyste du cabinet Meta Group (devenu Gartner) Doug Laney définit, comme conséquence de cette accélération constante, les principales caractéristiques du big data selon la formule des « trois V » :
- Le Volume en référence aux énormes quantités de données générées chaque seconde. Facebook produit selon les sources 10 à 14 milliards de messages par jour, WhatApp c’est deux fois plus. Wikipedia nous indique que « le volume des données stockées est en pleine expansion : il serait passé de 1,2 zettaoctet par an en 2010, à 1,8 zettaoctet en 2011, puis à 2,8 zettaoctets en 2012, et s’élèvera à 40 zettaoctets en 2020 ».
- La Variété en référence aux formes plus ou moins structurées des données que nous pouvons utiliser (données transactionnelles, textes, logs applicatifs, images, voix, données biométriques, vidéos…).
- La Vélocité, quant à elle, renvoie à la fréquence à laquelle les données sont à la fois générées, capturées, mises à jour, partagées et analysées (la Vélocité étant par ailleurs à l’origine de l’augmentation des volumes stockés).
A ces potentialités correspondent des défis d’ordre technologique.
Le volume et la variété nécessitent de passer outre les limites intrinsèques des moteurs de bases de données relationnelles, en ayant notamment recours aux Datalakes NoSQL (Not only SQL) et aux plates-formes de virtualisation ; ces dernières offrant des mécanismes d’intégration qui permettent d’éviter les mouvements massifs de données. Et pour répondre aux exigences des processus chrono-sensibles (analyse des tendances boursières, prévention des fraudes, marketing prédictif sur un site de commerce en ligne…), on va chercher à développer des capacités d’analyse et de prédiction qui exploitent la donnée en temps réel. Dans ce cas, la pile technologique devra être complétée par des composants spécifiques comme les architectures Lamda/Kapa et les moteurs d’intelligence artificielle.
A l’heure actuelle, ces défis technologiques sont bien réels au regard des difficultés que rencontrent les sociétés qui ont lancé des initiatives big data. En 2017, le Gartner faisait état d’un taux d’échec concernant les projets big data avoisinant les 85%. Début 2019, un rapport édité par le cabinet NewVantage indique que 77% des entreprises reportent le lancement des investissements liés aux big data et à l’IA.
Défis N° 2 : répondre aux exigences de Qualité
Veiller à ce que l’information produite soit de qualité doit être un objectif central du data management. L’exploitation de données de faible qualité (inexactes, incomplètes ou obsolètes) constitue un réel problème pour les utilisateurs (même s’ils n’en pas toujours conscience) car elle conduit à des évaluations incorrectes et à des décisions inappropriées. Si le niveau de qualité n’est pas suffisant pour installer la confiance alors la donnée n’est pas utilisée (une autre donnée dans un tableau Excel lui sera peut-être préférée) et les efforts entrepris pour la collecter, la stocker, la sécuriser et la publier seront sans effet bénéfique. Pour garantir que les données répondent aux besoins de l’entreprise, il est nécessaire des déployer des pratiques visant à définir, contractualiser, et piloter les exigences de qualité entre les acteurs métiers/systèmes qui produisent la donnée et les acteurs métiers/systèmes qui la consomment.
La qualité des données est une problématique qui est généralement bien identifiée et bien traitée sur des systèmes en production. Aujourd’hui, il existe un nombre important d’outils grâce auxquels les métiers, avec l’appui des équipes IT, peuvent faire du profiling, de l’audit et, si nécessaire, déployer des plans de remédiation sur des applications existantes. C’est bien, mais ça ne suffit pas car la qualité des données reste le parent pauvre des grands projets de refonte du SI. Regardez comment ça se passe autour de vous… Au moment de leur planification, combien de ces projets prennent réellement la mesure du chantier de migration des données ? Combien de mises en production sont retardées parce que les équipes sont dans l’impossibilité de migrer des données qui n’ont pas été suffisamment préparées pour être intégrées dans le nouveau système ?
La gestion de la qualité des données est le corollaire de la gestion de la donnée. Gérer correctement les données c’est avant tout gérer leur qualité. Rappelons que la non-qualité des données à un coût. Les estimations diffèrent. Toutefois, les experts pensent que les organisations dépensent entre 10 et 30% de leurs revenus pour traiter les problèmes de qualité des données. IBM a évalué le coût de la non-qualité des données aux États-Unis en 2016 à 3,1 milliards de dollars.
Défis N° 3 : associer une valeur économique à la donnée
Investir dans la qualité des données c’est bien, encore faut-il savoir où agir et pour quelles raisons. Les organisations doivent éviter de tomber dans le piège qui consiste à faire de la qualité sur toutes les données et tout le temps. La non-qualité des données a un coût mais la qualité également. S’évertuer à corriger un attribut dans une table simplement parce qu’il est trop souvent manquant ou mal renseigné n’a pas de sens si l’attribut en question n’est pas directement utilisé dans une règle de gestion qui elle-même participe à la réalisation d’un objectif métier. Plus généralement, on admet que la gestion des données doit être gouvernée de façon proportionnée, i.e. de la manière la plus économique possible pour autant que les risques métiers soient sous contrôle. Bien gouverner c’est gouverner aussi peu que possible. Et pour y arriver il faut hiérarchiser les données en fonction de la valeur qu’elles présentent pour l’entreprise.
Toutefois, attribuer une valeur économique à ses données est un exercice nouveau et difficile, d’autant que la valeur d’une donnée est contextuelle (ce qui est utile à une organisation peut ne pas l’être à une autre) et souvent fluctuante dans le temps (ce qui avait de la valeur hier peut ne plus en avoir aujourd’hui). Cela dit, certains types de données sont susceptibles d’avoir une valeur relativement constante. L’exemple le plus trivial concerne les informations sur les clients. Si ces informations sont fiables elles vont conserver tout leur potentiel. Elles vont même gagner en valeur au fur et à mesure que les clients génèrent davantage d’activité commerciale.
Une bonne gestion des données met en œuvre des moyens d’associer une valeur économique aux données afin de concentrer ses efforts sur les données critiques. La valorisation des données devient ainsi la base de la valorisation des activités de data management.
Dans un prochain article nous reviendrons sur le thème de la valorisation économique de la donnée…
Redsen Consulting aide les organisations à évaluer leur niveau de maturité dans le domaine du Data Management ! Remplissez le formulaire en ligne Audit Quick Start Data Management et bénéficiez d’un diagnostic gratuit réalisé par nos experts.