L'Open Data, enjeux et potentialités

Qu’est ce que l’Open Data ?

L’Open Data est un mouvement visant à rendre publique les données que possède un organisme, bien souvent une institution publique. Les données libérées sont des données publiques (finance publique), complètement anonymes (sans possibilité d’identifier indirectement la personne) ou sous forme d’agrégats, ce ne sont jamais des données personnelles ou privées.

Ce mouvement est d’ores et déjà à l’oeuvre chez certaines institutions comme la mairie de San Francisco, Rennes et tout dernièrement Paris qui est monté dans le train avec la délibération du 14 décembre 2010 sur la mise à disposition des données de la ville. C’est une démarche d’actualité, en témoigne le hackathon sur ce sujet le 4 décembre 2010 et les « lâchers de données » qui auront lieu à Paris en janvier 2011.

Pourquoi l’Open Data ?

Ces données sont issues de l’activité d’organismes publics donc elles sont un bien collectif
Ces publications permettent de décider ou d’orienter des actions publiques
Je considère que le principal bénéfice est de libérer l’intelligence collective par la libre disposition de ces données et favoriser l’émergence d’un écosystème d’acteurs et de fonctions « non prévus ». La liste des applications créées par des développeurs indépendants à San Francisco illustre ce foisonnement.

L’utilisation et l’utilité des données est inconnu à priori. Dans tous les cas, notamment dans le cadre d’interprétations statistiques elles peuvent mettre en lumière certains faits et ainsi orienter l’action publique. Elles fournissent également une nouvelle grille d’interprétation de la réalité grâce à la géolocalisation et aux techniques de visualisations de données . Les données sont produites par des organismes qui gardent ces données en interne mais l’objectif est bien d’augmenter l’utilité de ces données en les améliorant ou en les analysant. Je fait un parallèle avec le mouvement du life logging (voir cet article « data-driven-life« ) où les données sont générées par les utilisateurs et leur permettent des mesures et une analyse de leurs activités, c’est de l’Open Data au niveau individuel.

L’Open Data : quel intérêt pour le secteur privé ?

A l’heure actuelle, l’Open Data est fortement connoté « institutions publiques », mais pourquoi l’Open Data devrait il rester cantonné aux seules institutions publiques ?

Je considère que l’Open Data est la première étape d’un processus plus large d’ouverture des systèmes d’informations vers l’extérieur. Les bénéfices citées pour les institutions publiques sont les mêmes pour les entreprises privées, l’ouverture du système d’information permet d’accroitre les échanges et la valeur ajoutée du coeur de métier. La tendance des systèmes d’information est de s’ouvrir de plus en plus aux acteurs extérieurs : fournisseurs avec l’EDI des années 80 et 90, clients dans les années 2000 (avec par exemple les sites de banque en ligne ou les comptes en lignes chez EDF, les assureurs, etc.). Les années 2010 voient venir une communication accrue entre différents acteurs : les réseaux sociaux, les comparateurs de prix, etc.

Les applications iPhone « officiel » sont désormais incontournables, par exemple dans la banque avec l’application iPhone de ING Direct, dans la distribution avec Castorama. Mais imaginez si ces entreprises fournissaient, à la place d’une application, une API permettant de naviguer dans leurs données ? Ne pensez vous pas que des développeurs auraient tôt fait de construire les applications qui leur conviennent , générant d’autant plus de chiffres d’affaires que le développement et la maintenance de ces applications seraient externalisés?

Je trouve très important de noter que l’ouverture doit se faire sur les données du coeur de métier et non sur les fonctions supports. Par exemple, la valeur ajoutée d’une banque tient à sa gestion des mouvements sur un compte (cf. mint.com qui gère vos données bancaires individuelles et publie des statistiques agrégées), un distributeur à la richesse de ses références et de son réseau de distribution, une raffinerie à la qualité et la gestion de stock de son pétrole, le secteur du tourisme dans ses produits. Dans ces exemples peu importe les données supports (compta, RH), les données du coeur de métier sont celles qui ont le plus de valeur.

L’Open Data est une excellente occasion de mettre en lumière l’intérêt d’une ouverture du système d’information vers l’extérieur : la construction d’une plateforme permettant le développement d’un écosystème…

De l’Open Data à l’Open Function : la plateforme !

Les données sont un premier pas vers l’ouverture mais cette ouverture est à sens unique : du producteur de la donnée vers le consommateur qui ne peut que lire et consommer la donnée. Mais pourquoi pas dans l’autre sens ? il est tout aussi générateur de valeur ! L’Open Data est la première marche vers la création d’un véritable écosystème lorsque l’entreprise ou l’institution ouvre ses fonctions et non uniquement ses données.

Nous avons sous les yeux des exemples concrets d’entreprises qui se bâtissent sur l’ouverture de leurs plateformes ! c’était d’ailleurs le fil rouge de la conférence leweb10 :

Twitter et ses applications web, mobile ou desktop de publications (echofon, tweetie, twitterific), d’analyse de flux, ses plugins d’intégration dans les blogs, etc.
Facebook et sa myriade d’applications et de jeux (pour rappel Zynga a un chiffre d’affaires de presque 500 M€ avec ses jeux en ligne)
Le Parrot ARDrone et son open platform
Le monde réel offre également des exemples, il suffit de regarder :
- Les effets de l’ouverture de l’API du service Vélo star à Rennes pour les utilisateurs, résultats : 13 applications pour des plateformes variés, iPhone, Androïd, Windows et même Nokia !
- Le Velib à Paris : 1 seule application « officielle » sur iPhone et des applications « pirates » sur Androïd qui ont rétro-ingénierié l’API…logique d’ouverture vs logique de fermeture, où l’utilisateur est- il gagnant ? A croire que le climat breton favorise l’ouverture 🙂

Qu’est ce qu’une plateforme ?

Une plateforme se développe sur la base d’un service ou d’un produit qui peut être enrichi. Le produit est bien souvent un mix de matériel et de logiciel. Je trouve le mot « plateforme« très vague, donc je vous propose ma définition : une plateforme est « un ensemble de dispositifs techniques, de connaissances et humains permettant d’interagir de manière automatique avec un produit afin de l’étendre ». Il y a bien sûr des aspects techniques à mettre en oeuvre (API de programmation local ou distante, documentation, FAQ, exemples et démos) mais également sociaux (forums de discussions et supports à animer, communication sur la roadmap et les releases).

Les plateformes sont actuellement en train de considérablement s’enrichir avec l’effet du cloud computing, comme SalesForces (avec un bel exemple d’API très bien documenté) ou encore la plateforme dédiée au contenu de presse avec l’OpenPlatform du Guardian. Les progiciels traditionnels devraient grandement s’inspirer de ces pratiques pour rester dans la course.

On voit donc que les acteurs du web sont très loin devant les acteurs traditionnels et je pense qu’il y a énormément à apprendre pour ces derniers.

En pratique cela se passe comment ?

Le W3C a publié un working draft sur son expérience de la publication de données gouvernementales, c’est un bref guide qui met bien sûr l’accent sur les formats ouverts. L’expérience de Paris montre néanmoins que les aspects juridiques sont primordiaux. Dans tous les cas l’ouverture des données implique une dimension technique importante qu’il est important de considérer.

Différentes caractéristiques de la solution seront à étudier :

Fréquence de mise à jour de la donnée : cette caractéristique décrit si les données sont mises à jour en quasi temps-réel (par exemple les bornes vélib) ou si un export mensuel ou annuel est mis à disposition. Un attribut peut exprimer la latence dans la mise à jour des données.
Degré d’ouverture du Système d’Information : est-ce que les données sont accessibles en lecture seule ou également en écriture ? quelle proportion des données totales est proposée ?
Sécurité : comment sont anonymisés les données ? comment est assurée l’identification et l’authentification ?
Format de représentation des données : le format des données est -il décrit par un modèle ? (XML Schema, description du fichier, etc.) ce format est- il facilement exploitable ? (le XML est toujours préférable au CSV)
Protocole de communication : le protocole est- il ouvert ? (http ou flux Atom)
Documentation : la documentation est- elle suffisante pour permettre une exploitation correcte des données ?

L’Open Data fera émerger des formats de données dont les modèles les plus populaires deviendront des références (référentiel de tiers, catalogue produit) afin de favoriser l’interopérabilité entre les systèmes. C’est d’ailleurs dans ce cadre que le Domain Driven Design et la notion de Context prendront toute leur puissance.

Je conclue cette partie technique par l’impressionnant Google refine qui sera un outil de choix pour les travaux sur la qualité des données et sur un excellent exemple de données liées réalisé par David Larlet.

Les enjeux

Qui utilisera ces données ? Quels seront les usages ?

Ce rapport est extrêmement instructif : en résumé, l’infrastructure technique importe autant que l’infrastructure sociale : au final, c’est la collaboration entre les utilisateurs de données qui est importante pour leur compréhension, leur utilisation et même pour apporter les idées quant à l’utilisation possible. Libérer la donnée n’est qu’une première étape : c’est un moyen pour mieux organiser le processus de conservation, de mise à jour et de gestion de ces données. L’objectif final étant surtout l’augmentation (déduire de nouveaux faits par analyse de ces données) et l’amélioration (format, présentation) des données publiées.

La sécurité

Pour certains usages, une identification et authentification des utilisateurs seront souhaitées notamment dans les usages d’entreprises commerciales où l’accès à un compte utilisateur est proposé. D’un point de vue confidentialité, notamment concernant les données publiques, les traitements d’anonymisation sont indispensables (et pas uniquement le nom et prénom mais également toute données permettant d’identifier de manière indirecte les personnes) pour les données non agrégées. Des DMZ classiques sont évidemment à mettre en place, et les traitements sont effectués en amont dans la zone protégée du système d’informations.

Les aspects juridiques

Le cadre juridique, notamment pour une institution publique, est extrêmement important. Il vise notamment à éviter les dérives dans l’utilisation des données publiées. La licence ODbL a été choisie par Paris afin de protéger l’utilisation qui sera faite de ces données. Elle promeut la citation des sources et le partage des conditions initiales à l’identique. Le choix de la licence ODbL, de type coproductif, assure le libre accès aux données par tous, ainsi que la réutilisation, y compris pour des usages commerciaux, dans le cadre redistributif de la licence. Cela permettra à n’importe quel projet innovant de pouvoir se développer sans contrainte financière et juridique, tout en laissant la possibilité à la ville de signer des accords payants pour la réutilisation de ses données avec les entreprises qui ne souhaiteraient pas redistribuer les données modifiés. Tout le monde est ainsi gagnant !

Une fois la donnée libérée, à quoi je m’engage ?

Bien sûr, si un service est bâti sur certaines données, le consommateur qui passe du temps pour construire une solution peut s’attendre à ce qu’un certain niveau de service soit fourni (pas d’interruption dans la fourniture des données, temps de réponse décent, rétro-compatibilité minimum, roadmap, etc.). D’où l’importance de bien mesurer et suivre les usages. Alors oui, cela peut coûter de l’argent, même beaucoup. D’un point de vue juridique, c’est d’ailleurs pour cela que les licences choisies autorisent l’utilisation commerciale avec éventuellement reversement des revenus générés comme cela est envisagé à Paris.

Comment favoriser l’interopérabilité des données ?

Vaste sujet, mais, concernant l’interopérabilité sémantique, je pense que le temps et la concurrence sélectionneront certains formats (comme pour les microformats), la nécessité de définir des méta-modèles sur lequel tout le monde s’accorde se fera de plus en plus pressante. L’utilisation en interne des technologies d’intégration issus du web (comme REST, Atom) peut favoriser l’interopérabilité technique et syntaxique et surtout diminuer les coûts de mise en oeuvre d’une telle solution.

Et le futur ? Après l’Open Data…

Ouvrir les données, les fonctions, si possible en mode REST, et ensuite ? L’évolution naturelle sera de lier et de donner du sens à toutes ces données libérées : Linked Data et Web Sémantique sont sur les rails depuis un moment et les initiatives concrètes comme celle de Google avec le Rich Snippet font avancer les choses. Bref, l’Open Data n’est que le début d’un vaste mouvement…

Conclusion

Au final, les enjeux de la libération des données peuvent se résumer à celui de l’intelligence collective : laisser assez de liberté et de créativité aux différents acteurs, tout en définissant et en pilotant l’avancée vers des objectifs communs.

Cet article se veut une exposition générale de l’open data, ses enjeux et ses potentialités. J’ai voulu montrer que l’ouverture des données puis du système d’information offre des potentiels très importants de création de valeurs.

Pour conclure, je suis certain d’une chose : une donnée enfermée et non partagée ne vaut rien. Plus la donnée est diffusée, utilisée, augmentée plus elle prend de la valeur…

L’Open Data, enjeux et potentialités