Cercle de Vie: La data ne peut pas tout

samedi 2 novembre 2013

La data ne peut pas tout

L'utilisation massive des statistiques ne peut pas remplacer l'intelligence humaine en matière d'innovation.

A

vec l’avènement des données, on nous fait croire que les analyses statistiques nous permettront de tout prédire: le résultat des élections, les nouvelles tendances technologiques, le sport et même les scénarios d’Hollywood, qui passent dorénavant sous les fourches caudines de l’analyse statistique...
Mais sommes-nous réellement en train d'entrer dans un monde où tout sera prédit grâce à la data?

La data est partout et va tout expliquer

Depuis de nombreuses années, les entreprises utilisent des analyses statistiques pour déterminer leur stratégie. Il s’agit d’analyser les comportements, d’anticiper les tendances et de déterminer quels seront les marchés ou les activités qui seront le plus rentables.
Ce genre d’analyse statistique permet par exemple aux grandes surfaces d’optimiser la répartition de leurs produits en magasins en exploitant des informations, comme le fait bien connu que les jeunes pères, qui disposent souvent de la voiture la plus spacieuse au sein du ménage, lorsqu’ils font leurs courses, sont à la recherche à la fois de bières et de couches pour bébé…
Plus récemment, les exemples se sont multipliés d’utilisation des statistiques en dehors de la sphère commerciale: dans le sport, la politique et même à Hollywood, qui prétend dorénavant analyser les résultats de ses films et compte se fier à des corrélations pour déterminer la manière dont un film devrait être produit…
Avec l’arrivée récente sur la place médiatique du «Big Data», il semblerait donc que la donnée soit l’alpha et l’oméga de toute analyse qui se veut rigoureuse et, en fin de compte, de toute décision…

Que peuvent vraiment les statistiques?

Penchons nous d’abord sur ce que sont vraiment les statistiques.
L’objectif est de mesurer des moyennes, des variances, bref, des distributions. Par exemple, mesurer, à un moment donné, quel est l’âge moyen d’une population atteint d’une certaine maladie, si celle-ci est étendue, et, par la suite, estimer quels sont les facteurs qui sont corrélés avec la présence de cette maladie… Ce genre d’analyses peut en général être produit d’une manière fiable et offre de nombreuses applications pratiques pour mieux comprendre le monde qui nous entoure.
Dans le temps, les statistiques permettent aussi de mesurer des évolutions. Par exemple, lors des élections de 2002, une analyse des tendances permettait de voir d’une manière assez claire que, depuis plusieurs semaines avant le premier tour, Lionel Jospin chutait fortement dans les sondages alors que Jean-Marie Le Pen gagnait lui du terrain…
Or, là où la description d’un phénomène est le b.a.-ba de la statistique, l’extrapolation de ce phénomène à l’analyse de ses causes ou à une prédiction est beaucoup plus compliqué. Les statisticiens savent très bien qu’une corrélation n’indique pas toujours une causalité, et prédire ce qui se passera dans le futur est un exercice toujours très risqué.

On ne se baigne pas toujours dans la même rivière

Héraclite prétendait qu’on ne se baigne jamais deux fois dans le même fleuve: celui-ci est changeant et on ne peut pas prétendre que le cours d’eau sera deux fois exactement le même…
Ce n’est pas tout à fait vrai. C’est d’ailleurs ce qui fait la force de l’expérience. Bien souvent, même si la situation n’est jamais EXACTEMENT la même, lorsque l’on compare le présent au passé, on ne peut que constater des similarités, des configurations identiques ou des tendances.
Et c’est bien la force des statistiques. Elles permettent d’identifier, en étudiant le passé, quels ont été les facteurs de succès d’une entreprise, quelles sont les conditions de la victoire d’une équipe, ce qu’un politicien doit éviter de dire à tout prix…
Mais la force de la data s’arrête là. Tout statisticien sait qu’à la fin de son équation, il existe un terme d’erreur. Un epsilon qui mesure ce qui est «inexpliqué par les données» et qui détermine en fait la précision de son modèle sur les données passées. Ce terme d’erreur synthétise la fiabilité d’une analyse et, si l’erreur est grande, les résultats seront en général considérés comme non fiables.
Se fier à un modèle revient donc à faire l’hypothèse que ce terme d’erreur est petit. Or, pour avoir une idée de sa valeur, on va utiliser des données observables, donc d’événements qui ont eu lieu dans le passé. Ce qu’on mesurera sera donc, dans le meilleur des cas, «tout ce qui a déjà eu lieu».

L’innovation est une affaire de rupture

Et c’est bien en cela que les statistiques portent en elles leur propre limitation. Puisque l’innovation, c’est ce qui est nouveau, ce qui «casse les règles». La statistique ne pourra jamais être utilisée directement pour produire quelque chose d’innovant ou pour remettre en cause une norme artistique ou créatrice.
Dans le meilleur des cas, une analyse quantitative permettra par exemple d’identifier les facteurs qui «jusqu’à présent» étaient corrélés avec la production d’une œuvre majeure. Mais les statistiques ne permettront jamais de créer au sens strict du terme…
C’est d’ailleurs en cela que les statistiques sont un outil bien pauvre quand il s’agit de prédire le futur sur le long terme. Avec le temps, les systèmes changent, les structures évoluent.
Dans ces conditions, les prédictions effectuées ne sont plus pertinentes, puisqu’elles ont été fondées sur un monde qui n’existe plus. Penser qu’il est possible de prédire dans le temps long des comportements complexes qui dépendent de facteurs humains (prenons l’exemple —au hasard— de la Bourse) est une chimère dans un monde où l’être humain s’adapte et change ses comportements aussi vite que son environnement évolue …

Quand l’intelligence artificielle sera vraiment intelligente

Il ne faut cependant pas tomber dans l'excès inverse: la data ne peut pas tout, mais elle peut beaucoup! Les statistiques restent un outil puissant de description du monde et d’anticipation à court terme de phénomènes stables. Le problème survient quand l’analyste cherche à effectuer des prédictions dans le temps long, ou à utiliser cet outil pour une ambition irréaliste: extrapoler au-delà des bases sur lequel ces analyses sont fondées et chercher à innover ou à créer par des moyens quantitatifs.
Pour cela, l’intelligence humaine reste, jusqu’à présent, un outil inégalé. C’est justement en faisant des connections qui n’avaient jamais été effectuée par le passé, en articulant des concepts, des ingrédients ou des sons qui n’avaient jamais été combinés jusqu’ici, que la création peut avoir lieu. En fait, c’est grâce à cette part de hasard, grâce à cet epsilon, qui —paradoxalement— est inapprochable par les statistiques classiques, que la magie créatrice peut avoir lieu.
Cela ne veut pas pour autant dire que l’innovation sera toujours l’apanage de l’humanité. La technologie récente permet à un ordinateur d’être meilleur conducteur que les humains, à des robots de s’auto-assembler, aux algorithmes de s’optimiser eux-mêmes… Les nouvelles techniques d’intelligence artificielle voient émerger des «systèmes» auto-apprenants et donc vraiment intelligents.
Dans la mesure où ces systèmes ont justement pour vocation de dépasser ce qui a servi à leur création, il est permis de penser que le jour où un ordinateur sera capable de créer une œuvre originale n’est plus très loin…
Nicolas Glady

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.