L’adoption d’un catalogue de données est une étape essentielle pour toute organisation cherchant à valoriser son patrimoine informationnel. Mais, le succès d’un tel déploiement ne repose pas uniquement sur la technologie choisie. Comme pour tout projet de transformation qui va affecter l’ensemble des acteurs métier, il est important de voir grand, mais il est tout aussi important de commencer petit et d’opter pour un déploiement progressif. C’est l’un des facteurs clés de réussite de ce type d’initiative.
Les Facteurs clés de succès du déploiement d’un catalogue de donnes
Pour déployer efficacement un catalogue de données, il est essentiel de prendre en compte plusieurs facteurs clés afin de maximiser son adoption. Voici les points à considérer pour une mise en place réussie.
Le choix de l’outil est certes important. La solution retenue devra proposer un socle de fonctionnalités consistant et compatible avec les standards technologique de l’entreprise. Elle devra également être suffisamment évolutive et ouverte pour s’adapter aux besoins croissants et pour s’intégrer sans difficulté dans l’infrastructure de gestion des données existante.
Mais, disposer de l’offre technologique la plus aboutie ne suffira pas.
Avant tout, il est essentiel de définir de manière explicite les objectifs du projet en développant une compréhension approfondie des difficultés et des ambitions de l’organisation en matière de gestion des données. Identifier les principaux cas d’usage et les défis spécifiques liés à la gestion des données permet de garantir un déploiement pertinent dans la mesure où il s’inscrira dans une stratégie globale (voir à ce propos : Documenter sa stratégie en Data Management – Redsen).
L’engagement des parties prenantes est un autre élément crucial. Rien de nouveau à l’horizon ! Il faudra veiller à impliquer activement les parties prenantes dans le processus de prise de décision et de développement du catalogue de données pour s’assurer que leurs besoins et préoccupations sont correctement adressés.
Enfin, on ne pourra pas échapper à une planification minutieuse de la phase d’implémentation suivie d’un déploiement progressif du catalogue. Contrairement à un projet classique, dans lequel l’intégration d’un nouveau système ou d’une nouvelle solution est relativement isolée, la mise en place d’un catalogue finira par intégrer une grande partie des actifs informationnels de l’organisation. C’est avant tout un processus de transformation culturelle et opérationnelle qui, à un moment ou à une autre, concernera la plupart des métiers de l’organisation.
La nécessité d’une approche progressive par palier et par domaines de données
Pour réussir, le déploiement d’un catalogue de données doit être progressif, c’est-à-dire réalisé par paliers d’objectifs et de fonctionnalités. Dans l’une des publications que j’ai lues à ce sujet, un éditeur compare à juste titre ce déploiement à l’apprentissage de la marche par un enfant : d’abord l’exploration à quatre pattes, ensuite la marche et pour finir la course. Je pense que l’analogie est juste. On ne peut pas brûler les étapes, et ces étapes doivent être correctement identifiées et documentées dans la feuille de route du catalogue de données. Dans le détail, cette feuille de route doit se fonder sur des objectifs réalistes et réalisables, en tenant compter des compétences et de l’expérience de l’organisation en matière de gestion des données.
Au sein de chaque palier, il est recommandé de procéder de manière itérative plutôt que d’opter pour une mise en œuvre massive sur l’ensemble du périmètre de données. Le développement du catalogue doit se faire de manière incrémentale, en ajoutant progressivement de nouveaux ensembles de données et en s’efforçant de cibler en priorité les domaines à fort enjeu en termes de compréhension ou de qualité des données. C’est cet effort de priorisation qui permet de maximiser l’impact initial et de démontrer rapidement la valeur du catalogue.
L’introduction de paliers et d’itérations donne la possibilité d’ajuster la trajectoire de déploiement en fonction des difficultés et des retours des utilisateurs. Elle aplanit la complexité technique et organisationnelle du projet. L’adoption graduelle du catalogue par les utilisateurs se fait à un rythme maîtrisable, en prenant soin de résoudre les problèmes potentiels avant d’intégrer un plus grand nombre de sources de données et d’utilisateurs.
L’objectif est d’assurer que le catalogue continue de croître en fonction des besoins de l’organisation, tout favorisant le développement d’une culture de la donnée au sein de l’organisation.
Proposition de trajectoire en 3 paliers
Palier 1 : Évaluation des sources de données
Sur ce premier palier, l’accent est mis sur l’évaluation des différentes sources de données à travers une curation effectuée par des utilisateurs avancés. Ces utilisateurs sont généralement ceux qui ont des besoins en données pour développer des applications d’analyse avancée ou pour produire des rapports opérationnels et de contrôle sophistiqués.
Le catalogue de données joue ici un rôle central dans un cadre peu structuré. Il offre un environnement peu contraignant dans lequel les utilisateurs peuvent activement collaborer pour qualifier, annoter et documenter les sources de données. L’aspect collaboratif est au cœur de ce processus : les utilisateurs enrichissent les métadonnées par des actions de crowdsourcing comme le tagging et l’évaluation des jeux de données. Cette interaction entre utilisateurs permet d’améliorer la connaissance des données tout en renforçant leur contextualisation. Elle favorise la résolution de problèmes et l’amélioration continue des jeux de données.
Ce palier de déploiement constitue également un tremplin pour acculturer les utilisateurs aux enjeux et pratiques de gestion des données. Participer à la curation des données leur permet de mieux comprendre les concepts liés à la gestion des métadonnées et à la qualité des données. On crée une base solide qui va faciliter l’instauration d’une gouvernance des données.
Palier 2 : Gouvernance des données
Le second palier introduit la gouvernance des données en s’appuyant sur les fonctionnalités disponibles dans l’outil. Le catalogue participe à l’instauration d’une gouvernance centralisée avec comme objectif de garantir la qualité, la conformité et la traçabilité des données, tout en facilitant une gestion décentralisée au sein des équipes.
Les métadonnées enrichies jouent un rôle clé ici, avec un effort accru pour améliorer la documentation et la compréhension des données à travers l’organisation. Le catalogue permet de concevoir et d’automatiser les flux de travail qui vont garantir que les activités de gestion des métadonnées suivent des standards reproductibles. Cela inclut notamment la gestion du cycle de vie des données, leur classification (assistée via l’IA), et la traçabilité des actions menées sur le catalogue.
Les contributeurs sont activement impliqués grâce à des mécanismes d’automatisation et de notification intégrés au catalogue. Cette faculté de délégation allège la charge de travail des équipes responsables de la gouvernance tout en garantissant la conformité des données aux diverses réglementations. C’est également sur ce second palier que l’on met en place les métadonnées relatives à la lignée des données, afin de comprendre comment ces dernières évoluent à travers différents systèmes et processus.
Palier 3 : Data as a Product
Le dernier palier introduit le concept de produit de données (Data Product). Il incite l’organisation à considérer les données comme de véritables produits. Les Data Products font l’objet d’un contrat d’utilisation et sont documentés via des SLAs (Service Level Agreement) qui définissent les niveaux de service attendus en termes de qualité et de disponibilité des données. Ils sont accessibles via des API et peuvent ainsi être facilement réutilisés et insérés dans les pipelines de données. Ces produits de données sont améliorés en continu. Les métadonnées et les flux de travail nécessaires à la gestion du cycle de vie de ces nouveaux actifs informationnels sont gérés au moyen du catalogue.
Les fonctionnalités mises en œuvre sur ce palier participent à l’établissement d’un cadre normatif tout en laissant le soin aux équipes de gérer leurs propres données de manière autonome grâce à une gouvernance décentralisée. L’implémentation de ce dernier palier coïncide avec l’adoption d’une architecture de données décentralisée (lire notre article Data Mesh, définition d’une data révolution – Redsen). Ce cadre architectural organise la gestion des données par domaines d’activité spécifiques. Il apporte la flexibilité attendue par les acteurs métier et IT tout en maintenant une cohérence globale.
C’est également durant cette phase du projet que la démocratisation de la donnée (qui consiste à exposer et à rendre accessibles les données au plus grand nombre de personnes au sein de l’entreprise) devient une réalité. Les utilisateurs, quel que soit leur niveau de compétence technique, peuvent désormais accéder aux données via un portail unifié et intégré au catalogue. Ce portail centralise les processus de découverte et d’accès aux Data Products, et permet aux équipes de collaborer en répondant aux objectifs de qualité et de conformité.