linkedin twitter

Le Big Data est un phénomène qui a débuté en 2012 et qui continue en 2013 : 28 Md$ d’investissements dans le monde en 2012, un total qui doit atteindre 34 Md$ en 2013 selon le cabinet Gartner. Le postulat du Big Data est simple : la donnée, sous toutes ses formes, est considérée comme une matière première, comme un capital dont l’entreprise regorge mais qu’il faut savoir exploiter pour pouvoir la valoriser.

 

Je vous propose de découvrir dans cet article ce qu’est le Big Data et quelles sont les limites des Systèmes d’Informations actuels qui ont amené à l’émergence de cette approche.

 

Le Big Data, définition

La définition de Wikipédia pour le Big Data est la suivante :

« Big data, littéralement les Grosses données, est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données.

Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données doivent être redéfinis. »

Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de procédures permettant à une organisation de très rapidement capter, traiter et analyser de larges quantités et contenus hétérogènes et changeants, et d’en extraire les informations pertinentes à un coût accessible.

 

 Le Big Data, les 3 V

Le Big Data couvre 3 dimensions importantes : Volume, Variété, Vitesse

 

  • Des volumes de données dans les Systèmes d’Informations qui augmentent sans cesse

 

En effet, le monde crée de plus en plus de données chaque jour et ces données sont conservées sur des profondeurs d’historique beaucoup plus importantes. Leur niveau de granularité est de plus en plus fin et de nombreux supports sont dématérialisés.

Voici quelques chiffres pour illustrer ce phénomène :

  • 90% des données actuelles ont été créées dans les deux dernières années seulement (Plus de précisions sur ces chiffres),
  • Le cabinet Gartner prévoit une croissance de 800% des données à traiter d’ici 5 ans,
  • Twitter génère 7 To de données chaque jour, Facebook 500 To en 2012

 

Partant de ce constat, les outils actuels de gestion de bases de données et de traitement des données ne peuvent supporter une telle explosion de volume. Ils ne peuvent répondre aux nouveaux besoins dans des délais raisonnables et à des coûts raisonnables.

Les outils de Datamining actuels permettent par exemple d’analyser de nombreuses données, mais sur un échantillon considéré comme représentatif ; le Big Data permet de traiter l’intégralité des données.

Les volumes de données à traiter et à stocker de plus en plus importants dans les SI peuvent rapidement devenir un handicap pour les entreprises (coûts exponentiels, incapacité d’analyser et d’accéder à toutes ces données dans un délai raisonnable, retard par rapport aux entreprises concurrentes). Ils peuvent à contrario devenir une force par la mise en place des solutions capables de gérer et de valoriser ces volumes de données.

 

  • Des nouveaux formats de données, plus variés, à intégrer et à analyser

 

La tendance était jusqu’à présent de structurer le plus possible les données à intégrer dans les Systèmes d’Information pour en faciliter le stockage et le traitement. Des outils tels que les ETL (Extract Transform and Load) permettent de normaliser, de structurer les données avant de les intégrer dans les Systèmes d’Informations. Or de nouveaux formats de données toquent à la porte des entreprises, bien décidés à prouver leur importance dans la stratégie de l’entreprise et dans la prise de décisions.

Ces nouvelles données dites non-structurées sont variées :

  • des photos,
  • des mails (avec l’analyse sémantique de leur contenu),
  • les données issues des réseaux sociaux (commentaires et avis des internautes sur Facebook ou Twitter par exemple)
  • ou encore des données issues de capteurs GPS, de capteurs météorologiques.

Ces nouvelles données veulent trouver leur place dans la stratégie de l’entreprise et représenteraient 80% des données dont dispose l’entreprise.

 

Les Systèmes d’Informations actuels ne sont pas capables d’accueillir et d’analyser ces nouveaux formats de données. Le Big Data permet d’intégrer et d’analyser ces données non-structurées,  collectées depuis des sources diverses.

 

  • Des données à collecter et à analyser en temps réel

 

Ces nouvelles données sont produites en flux continu (données produites sur les réseaux sociaux, données produites par des capteurs), et doivent donc être traitées quasiment en temps réel car elles s’intègrent pour certaines dans des processus sensibles au temps : analyse des données météorologiques en temps réel pour anticiper des catastrophes naturelles, gestion des fraudes par exemple. D’une manière générale, les décideurs ne se contentent plus d’avoir des données à J+1.

Les processus de collecte et de traitement des données doivent donc s’adapter à ces nouveaux enjeux pour :

○      Collecter des données « au fil de l’eau » : flux de données sur les réseaux sociaux par exemple

○      Traiter et analyser ces données quasiment en temps réel pour pouvoir réagir rapidement à une situation.

Quelques domaines d’utilisation du Big Data

Avant de conclure, citons rapidement quelques domaines d’utilisation du Big Data. Le Big Data trouve sa place dans de nombreux domaines :

 

  • Le  Marketing, le Big Data permet d’améliorer la connaissance du client : analyse du comportement client, micro segmentation, analyse multicanale, …
  • Les Sciences, le Big Data permet de traiter et d’analyser des volumes de données importants pour la recherche médicale (la recherche génétique génère 1To  de données par expérimentation), pour l’analyse des données météorologiques issues des capteurs,  …
  • La Finance, le Big Data permet d’améliorer les temps de traitement et donc les temps de réaction dans des processus chrono-sensibles comme la gestion des risques ou la gestion des fraudes.

Mise à jour : Vous trouverez dorénavant un article complet sur les cas d’utilisations du Big Data.

Conclusion 

Cet article présente ce qu’est le Big Data, dans un prochain article, nous nous intéresserons de façon plus concrète aux étapes d’une démarche de Big Data et à ses facteurs clés de succès.

Commentaires

  1. Merci pour cet article !
    « Twitter génère 7 To de données chaque jour, Facebook 10 To » : cette remarque est un brin effrayante.

  2. Vous avez oublié de mentionner que Big data dans sa gestion est très chronophage certaines entreprises n’hésitant pas à créer à des postes uniquement dédiés à l’organisation et à la structuration de leur data en interne, Une fonction qui était autrefois (et encore aujourd’hui dans de petites structures avec moins de data) plus accordée au responsable du système d’information.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Voir plus
scroll to top