dimanche 16 mars 2014

Trois idées reçues sur le big data

Opinions
Sébastien Verger, EMC France  |   -  1007  mots
C'est la taille des données qui importe, les outils d'hier suffisent à les gérer, et le big data ne traite que des données de qualité parfaite: trois idées reçues à démonter. par Sébastien Verger, directeur technique, EMC France
Du fait de l'engouement croissant de l'industrie pour le Big Data, les interventions publiques de spécialistes à ce sujet se sont multipliées durant ces derniers mois. Une chose est tout de même assez marquante: ce sont les mêmes questions, commentaires et préjugés erronés qui reviennent sur la table à chaque fois. J'ai donc décidé de rétablir la vérité sur trois malentendus concernant le Big Data.

1  Ce qui importe le plus avec le Big Data, c'est la taille des données
Il est certain que les quantités de données à traiter sont plus importantes que par le passé (ce que l'on appelle les « 3 V » : Volume, Variété et Vitesse), mais si l'on examine la question du Big Data seulement en termes de giga-octets, téra-octets et péta-octets, alors elle se résume à des problèmes de stockage et de technologie. Si le volume est effectivement important, ce sont surtout les 2V restants, la Variété et la Vitesse qui comptent. La vitesse concerne la lecture en streaming et la rapidité des échanges de données, avec des temps de latence très faibles afin que l'on puisse prendre des décisions toujours plus rapides (voire automatisées). Le streaming de données est donc un point important, le plus intéressant des 3V reste l'aspect de la variété.
 Non seulement le Big Data est en train de changer, mais c'est la définition même de ce qu'on désigne par data (les données) qui change. Les gens continuent de penser les données sous la forme de lignes et de colonnes de chiffres, de feuilles de calcul Excel, de systèmes de gestion de bases de données relationnelles (RDBMS), d'entrepôts stockant des téraoctets de données structurées, etc. Certes, ils ont raison, mais le Big Data se compose en majorité de données semi-structurées ou non structurées.

Capteurs de géolocalisation, images, fichiers vidéo: tout ce à quoi on ne pense pas

Le Big Data englobe tout ce à quoi les gens ne pensent pas, en général, quand on les interroge sur les données : les puces RFID, les capteurs de géolocalisation dans les smartphones, les images, les fichiers vidéo, les clics d'un parcours de navigation, les données de reconnaissance vocale et les métadonnées de toutes ces données. Nous allons certainement devoir trouver de meilleures solutions de stockage de ces volumes de données croissants, mais lorsque l'on s'intéresse aux données sous les angles de leur variété et de la vitesse, des idées d'utilisation plus originales et innovantes ont tendance à surgir.

2ème idée reçue: les outils d'hier suffisent à analyser les données d'aujourd'hui

 La réalité est qu'une fois qu'on a compris le point un ci-avant, on réalise rapidement qu'il nous faut de nouveaux outils pour interpréter, stocker et analyser les différents types de données (images, séquences de clics, vidéo, empreintes vocales, métadonnées, XML….) et les traiter de façon parallèle. C'est la raison pour laquelle les outils qui convenaient pour les besoins analytiques locaux in-memory (SPSS, R, WEKA, etc.) cèdent sous le poids et la diversité des sources de données du Big Data et ce pourquoi nous allons avoir besoin de nouvelles technologies capables de gérer ces sources de données disparates et de les traiter de façon parallèle.

 3 Si la qualité des données est imparfaite, l'analyse du Big Data est vaine

Le Big Data peut être source de confusion, or la qualité des données conditionne la justesse de n'importe quelle analyse. Dans tous les cas, il ne faut pas oublier que les données sont bruyantes par nature : multiples distractions, anomalies diverses et incohérences. Ne perdons pas de vue le volume et la variété des données, qu'il va falloir réduire, filtrer avant de procéder à une analyse pertinente. Autrement dit, il s'agit de détecter le signal au milieu de tout ce bruit. Dans certains cas, on voudra analyser des sources de données qui auront été nettoyées au préalable, dans d'autres cas, c'est moins important.
Prenons l'exemple de Google Trends. Cet outil permet d'explorer les statistiques des recherches effectuées sur Google ; pour connaître le classement des sujets qui ont majoritairement intéressé les internautes en 2013, par exemple. Il faut pouvoir mobiliser d'énormes ressources de calcul et de stockage et de puissantes techniques analytiques pour passer au crible toutes ces recherches et les classer. Mais voilà un exemple d'utilisation du Big Data où le principe GIGO ('Garbage In - Garbage Out') importe peu.

 Le Big data, une "chose" à stocker ou à gérer?

Certains diront « D'accord, et alors ? ». Au final, tout dépend si l'on considère le Big Data comme un substantif ou comme un verbe. Si l'on réfléchit au Big Data en tant que substantif, on se dit que ce n'est rien qu'une chose de plus qu'il va falloir gérer et stocker. Si l'on appréhende le Big Data en tant que verbe, cela suppose une action, et les défenseurs de ce point de vue y voient une force, un moteur de changement, une incitation à reconsidérer leur mode de fonctionnement. Il s'agit d'envisager le Big Data comme le moyen de tester des possibilités d'une façon originale et d'aborder des problèmes métier sous un angle analytique comme avec la technique de marketing du test A/B : tester sur Google 50 nuances de bleu et voir celle qui enregistre le plus de clics des utilisateurs de Gmail, plutôt que de s'en remettre à l'intuition des directeurs marketing.
 Il s'agit donc d'explorer des pistes différemment, en s'aidant des données pour obtenir des réponses à des questions hypothétiques. Ce sont les entreprises qui aborderont la question du Big Data sous l'angle du verbe et de l'action qui s'en tireront le mieux.

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.