Corrélation et causalité (Big Data)

De iconomie
Aller à : navigation, rechercher

Avertissement

Du contenu de cet article provient au moins pour partie d'une discussion tenue dans la liste de diffusion par courriel de l'Institut de l'iconomie. Il a été édité. L'auteur d'une modification dans ce wiki n'est pas nécessairement celui du texte versé.

Big Data

Modes d'applications

Contribué par Joseph.Leddet, Frederic.Lefebvre-Nare

Le métier de "data scientist" (traitement des big data) nouvellement enseigné à l'ENSAE englobe trois compétences "perpendiculaires":

  1. Sélectionner les données de base utiles au problème traité, et les "formater" sous une forme lisible par les algorithmes de traitement
  2. Effectuer des analyses automatiques de ces données, mettant en évidence des corrélations "pré-explicatives"
  3. Utiliser les compétences de terrain, informelles, historiques, microéconomiques, intuitives... pour tenter d'expliquer la réalité à partir de ces constatations automatisées (sachant que l'on peut imaginer un processus itératif pour valider certaines hypothèses, y compris avec la prise en compte de données de base complémentaires).

Si l'analyse de grands volumes de données n'est pas nouvelle, l'une des spécificités du Big Data (ensemble des façons d'analyser de grands volumes de données dits big data) est de pouvoir effectuer seul, sans l'étape 3, des analyses déterminant les arbitrages d'un automate.

S'agissant de l'aide à la décision humaine, passant par l'étape 3 « d'explication », il y a certes des cas intéressants voire médiatiques d'utilisation du Big Data (cf. une revue de Maurice Ronai sur GlobalPulse). Toutefois le considérer en tant que simple « aide à la décision humaine » c'est en négliger la spécificité.

Certes, des vendeurs de « Big Data » de bonne volonté se trouvent face à des clients ayant besoin de segmentation, de BI, etc., et leur fournissent bel et bien des logiciels effectuant de la statistique et de l'analyse de données. Se contenter de ce constat conduit logiquement à penser que tout a déjà été inventé, de la statistique aux méthodes maintenant classiques d'analyse de données mises au point dans les années 60-70.

Or une caractéristique propre à des algorithmes aujourd'hui employés en Big Data, et relevant par exemple de l'apprentissage automatique, est qu'ils tiennent compte sans intervention humaine de l'évolution des données présidant à leurs choix (aux décisions qu'ils prennent).

En résumé les applications nouvelles permises par le Big Data relèvent de la décision automatique.

Elles concernent surtout certains fonctionnements courants de sites de masse (Google, Facebook, Twitter etc.) où des algorithmes arbitrent à mesure et seuls, sans décision humaine. Ils déterminent par exemple à la volée quel produit ou publicité sera présenté au visiteur et comment, ou le résultat de sa recherche sur le Web.

La finance de marché, notamment le trading hyperfréquence, est aussi concernée car, sur le moment, elle implique très peu de décision humaine (ou très peu de marge de jugement humain au-delà de ce que produit l'automate).

D'autres secteurs concernés pourraient être la santé (prescription automatisée), la distribution (réapprovisionnement automatisé)…

Cette capacité à « décider automatiquement » ne signifie nullement que l'ordinateur fonctionne sans programmeur humain, ni contrôleur qualité humain. Cela signifie seulement que la programmation humaine, le contrôle qualité humain, le jugement du statisticien, sont à faire une couche d'abstraction plus haut que ce n'était le cas quand nous examinions (ou examinons) les résultats d'une analyse statistique unitaire. Les « robots décisionnels » sont redevables de la même approche que celle appliquée aux « robots d'assemblage », dont l'industriel règle, valide et contrôle le travail sans démonter ou détruire tous les produits en bout de chaîne, mais seulement sur échantillon.

Les effets sont difficiles à mesurer aujourd'hui. Sur le plan de la société humaine même si les métiers de la décision automatique (en affichage de publicités, en réapprovisionnement de linéaires, en trading etc.) représentaient aujourd'hui quelques dizaines de milliers d'emplois (?), cela serait très peu par rapport aux milliards d'humains qui ont à prendre des décisions humaines :-)

Big Data / analyse de données

Contribué par Frederic.Lefebvre-Nare

Ce qui distingue le Big Data des plus traditionnels moyens d'analyse de données sera peut-être plus clair en considérant deux stratégies de maintenance préventive de machines industrielles :

  1. avoir un modèle du fonctionnement de la machine ; définir les variables sensibles / les meilleurs indicateurs du risque de défaillance ; les mesurer ; caler à l'aide de ces indicateurs les paramètres du modèle et les regarder évoluer (un filtre, par exemple) pour détecter une sortie des zones autorisées a priori.
  2. mettre beaucoup de capteurs coûtant peu ; enregistrer les séries temporelles correspondantes ; trouver dans ces séries temporelles des séquences / enchaînements déjà observées sur des machines tombées en panne ensuite (les mêmes machines ou des machines différentes) ; donner l'alerte si c'est le cas et étudier ce qui se passe.

La stratégie 2 permet à des équipes Big Data de déployer des stratégies de maintenance multi-machines, en particulier sur des machines d'entreprises concurrentes, dont l'équipe n'a pas le modèle de fonctionnement.

La stratégie 2 n'est pas sans modèle, sans a priori ; elle n'utilise pas (ou peu…) de modèle physique, « métier » comme on dit en informatique ; elle utilise une modélisation des données, de la façon dont des données peuvent révéler des problèmes. Elle n'implique pas de pouvoir au préalable bien rendre compte de tout ce qui peut avoir de l'influence sur la maintenance préventive.

Voilà un des sens concrets (à mon avis c'est à peu près le seul, mais il se décline de diverses façons), de l'expression rebattue « la corrélation permet de se passer de la causalité ». C'est vrai pour beaucoup d'applications, dans beaucoup de conditions… mais ça ne veut pas dire que « le Big Data sonne la fin de la théorie ».

Philosophie de la connaissance

Contribué par Dominique.Cuppens

J'ai assisté ces deux dernières semaines à deux conférences : une sur le Big Data organisée par X-Sursaut et l'autre sur DevOps organisé par IDC. Toutes deux très intéressantes.

Un point commun des deux conférences : le Système d'Information (SI) n'est plus maîtrisable dans le détail de sa configuration et en cause-effet. Il est administré par des systèmes complexes au niveau des données et des usages qui permettent de détecter rapidement des dérives ou dysfonctionnements et d'y pallier. À titre d'illustration : La Poste mentionne une innovation récente d'un membre de ses équipes qui pour la première fois dans le monde a permis de localiser un virus par analyse de masse du trafic sur le réseau local créée pour l'occasion.

Sur ces SI maîtrisés par d'autres SI, et non plus par une collection de cerveaux humains en ayant une connaissance intime via leurs bases de données, se bâtissent des SI « Big Data » qui font des analyses sur des milliers d'axes et qui créent de la connaissance qui doit motiver une action, sans qu'il soit possible d'en appréhender véritablement le modèle et la logique de cause-effet. Un chercheur qui intervenait notait que cela soulevait un sujet de recherche philosophique profond sur la nature même de la connaissance.

Ce qui a été cité par Stéphane Mallat lors de la conférence X-Sursaut, est que dans certains cas des corrélations, sur un grand espace de données avec des milliers d'axes d'analyse, permettent de faire ressortir des informations autorisant des actions à effet positif qui en l'état actuel des connaissances, et malgré toutes les traces accessibles et produites par l'ordinateur, sont hors de portée de compréhension d'un esprit humain. Et que de son point de vue, la question philosophique de ce qu'est une connaissance est interpellée voire ébranlée.

Je ne peux manquer de faire une analogie avec les preuves informatiques en mathématiques. Mais dans ce cas un gros travail est fait pour vérifier que l'ordinateur est dans les conditions de produire une démonstration résultant d'un système bien construit par la communauté des mathématiciens et robuste. Discipline en progrès permanent, de façon récursive assistée par l'ordinateur qui permet de multiplier les vérifications. L'ordinateur sert aussi à simplifier les démonstrations humaines et à les rendre plus accessibles à l'esprit humain ; et assez souvent à détecter et aider à la correction d'erreurs.

Dans les cas évoqués par Stéphane Mallat (qu'il n'a pas eu vraiment le temps de développer), il semble hors de portée de remonter à la source. Et pourtant cela reste utile. Pour le moins, cela semblait le perturber, et donc la question méritait la plus grande attention.

Prédire sans comprendre

Contribué par Dominique.Cuppens

Ces analyses tendent à avoir un effet de plus en plus prédictif. Il ne s'agit plus de voir ce qui est et de réagir, mais de percevoir les tendances et d'agir avant que l'effet se produise. todo icon.png Cf. l'article dans Pour la science que je vous ai poussé récemment. L'humanité non seulement doit apprendre à agir en ayant une appréhension instantanée de ce qui se passe dans le monde, mais également de ce qui très probablement doit advenir. Un peu comme une collections de joueurs de Go et/ou d'échecs voyant 20 coups à l'avance sur des millions de parties simultanées et en résonance plus ou moins profonde les unes avec les autres. (question : faire des dictées tous les jours pourquoi pas, mais autres ressources sont à donner à nos jeunes pour appréhender le monde d'aujourd'hui et de demain).

Cela commence à dépasser la simple notion de co-processeur de la communauté humaine.

Mais il y a un risque réel de faire dire n'importe quoi aux données, sachant que l'on fait dire déjà n'importe quoi à des résultats parfaitement scientifiques simplement en les sortant de leur contexte.

On est encore loin de l'ordinateur positronique d'Asimov dont une version régente l'ensemble de l'humanité bien mieux que ne peuvent le faire nos politiques (hélas ?!).

Chassez la théorie, elle revient au galop

Contribué par Michel.Volle

Il serait stupide de nier l'apport du Big Data : c'est le même que celui de l'IRM en médecine. Mais alors que l'on décrit cet apport, souvent présenté de façon incomplète, on délaisse une réflexion tout aussi importante : comment l'on crée des concepts, comment on les articule en théories, quels sont les apports et les limite de la pensée théorique, quelles sont ses relations avec l'observation d'une part, avec les intentions et projets d'action d'autre part, etc.

On retrouve, à propos du Big Data, une tentation analogue à celle qui se manifeste à propos de la conduite des voitures : celle de supprimer l'action du cerveau humain pour miser exclusivement sur la programmation - ou, pour être plus précis car les programmes sont eux aussi une manifestation d'un cerveau humain - pour miser exclusivement sur l'intelligence à effet différé incluse dans un programme, en supprimant l'intervention de l'intelligence à effet immédiat de l'humain qui interprète les données, conduit la voiture, agit sur le terrain enfin avec son intuition, son discernement et son raisonnement.

Il est frappant de voir que dans les récits qui relatent les succès de l'analyse des corrélations (ou des chi2, qui sont la corrélation des variables qualitatives) on omet de dire, d'écrire ou de lire ce qui a été nécessaire pour interpréter les résultats de l'analyse des données (et que l'article qui a été cité mentionne pourtant : recours au témoignage des experts, etc.). Or ces compléments sont nécessaires pour agir en connaissance de cause.

Il est vrai que dans certains cas on peut se contenter d'une décision automatique au seul vu des corrélations : pour la publicité, par exemple. Il est vrai aussi que certaines disciplines sont depuis toujours bâties sur l'examen des corrélations : c'est le cas de la médecine, science descriptive plus que théorique et dont le diagnostic s'appuie sur la corrélation entre symptômes et pathologie, et la prescription sur la corrélation entre traitement et guérison - d'où la double incertitude qui frappe toute ordonnance et dont nous n'avons guère conscience.

Le Big Data va permettre à la médecine de faire de grands progrès en améliorant la qualité du diagnostic et de la prescription, la prise en compte des effets de la multiprescription, etc. Mais on ne pourra pour autant pas se passer du médecin pour le constat des symptômes, pour la compréhension des cas particuliers, pour l'aspect psycho-relationnel du traitement.

Dans tous les domaines, le succès de l'informatisation repose sur l'efficacité du couple que forment le cerveau humain qui agit dans l'immédiat et l'automate qui exécute un programme, l'intelligence à effet différé et l'intelligence à effet immédiat, forme nouvelle que prend la complémentarité du stock et du flux, du capital et du travail.

Ceux qui misent tout sur l'analyse automatique des corrélations veulent ignorer ce couple, ne plus voir que le programme de l'automate, le capital d'intelligence stockée. Ils veulent éliminer le flux d'intelligence qui intervient à chaud, sur le terrain, au contact immédiat des faits et des personnes.

Toute révolution industrielle a provoqué ce type de réaction. On a cru naguère que la mécanique pouvait suffire à tout, que l'être humain devait se soumettre à la machine et imiter son comportement, devenu exemplaire (que l'on pense à "l'homme nouveau" des bolcheviques et des nazis). La même option philosophique est présente dans la façon dont on parle du Big Data. Il en résulte des dangers comme ceux que fait courir le trading de haute fréquence.

Je le répète : il n'est pas question de nier l'apport de techniques qui ouvrent à l'examen des données et au constat des faits des possibilités nouvelles et immenses. Mais il faut être conscient des options qui se cachent derrière l'exaltation exclusive de ces techniques et derrière le dénigrement de la théorie, qui est en fait un dénigrement de l'intelligence en action.

Interpréter sans théorie

Contribué par Michel.Volle

On ne peut rien attendre de bon de ceux qui prétendent remplacer la réflexion par la précipitation. Agir sans connaître ni comprendre, c'est agir au hasard : cela peut avoir des effets positifs, des effets négatifs ou encore aucun effet.

Lorsque je faisais de l'analyse des données à l'INSEE, j'ai cru d'abord pouvoir me passer de la théorie (démographique, économique ou autre) pour interpréter des corrélations. J'ai commis ainsi des erreurs grossières que les partisans du "Big Data sans théorie" vont inévitablement commettre eux aussi. L'interprétation aveugle de corrélations peut provoquer, provoque et provoquera des catastrophes.

Savoir cela n'interdit cependant pas les explorations qu'accomplit la pensée pré-conceptuelle, source intarissable de nos théories et de nos actions.

Les plus belles fleurs peuvent parfois naître du "garbage", du n'importe quoi. Il n'est pas illicite d'aller de l'avant par tâtonnement en observant un peu n'importe quelle corrélation. Il reste que le problème réside dans l'interprétation de ce que l'on a ainsi déniché.

Comme le prône Taleb dans le cygne noir, il faut laisser une place, pour moi importante, à la sérendipité et donc à l'établissement de corrélation aléatoires et saugrenues. Il est toujours temps ensuite de faire le tri et de réintroduire le processus analytique que tu décrit ci bien.

L'un des apports les plus intéressants d'une analyse des données, c'est la contradiction qu'elle peut apporter à une théorie que l'on croyait fermement établie. Mais pour apercevoir une telle contradiction, il faut connaître la théorie...

Nota Bene : certaines théories sont déterministes, d'autres non : le déterminisme n'est donc pas un attribut nécessaire de la théorie.

D'autre part le rapport de la pensée et de l'action décrit ici est celui de notre système de pensée, disons, occidental. Il en existe d'autres. Dans son livre consacré à la pensée chinoise, que personne ne soupçonnera d'être rudimentaire, Marcel Granet explique comment celle-ci se passe de théorie et de concepts. Il faut lire aussi ce livre pour son chapitre sur l'arithmétique, qui par certains passages évoque irrésistiblement la démarche informatique.

Théorie et déterminisme

Contribué par Claude.Rochet

Je n'ai de cesse de dénoncer le lyrisme totalitaire de ceux qui prétendent que le Big Data sonne la fin de la théorie.

Mais je ne vois pas que la reconnaissance du rôle de la théorie a à voir avec le déterminisme! La modélisation des systèmes complexes est issue de la théorie des systèmes complexes qui est l'antonyme du déterminisme. Je vous renvoie à l'indispensable ouvrage de John Saul intitulé « Les bâtards de Voltaire ».

Les partisans du déterminisme ont réussi à mettre sous le boisseau l'oeuvre de Karl Popper dont l'apport en épistémologie a mis à bas les fondements du déterminisme, qui s'assimile au pouvoir des « intellectuels » et autres « experts ». On l'a tour à tour qualifié de soutien de Margaret Thatcher et autres âneries, et nul doute que s'il était encore vivant Laurent Joffrin le dénoncerait comme « faisant le jeu du FN »!

Le déterminisme peut fonctionner dans les systèmes clos dont toutes les variables et les valeurs qu'elles peuvent prendre sont dénombrables, soit les système dit ergodiques dont on peut prévoir l'état futur à partir d'un état présent. Dès lors qu'un système est ouvert et qu'il peut avoir un comportement prévisible, il est non-ergodique. On peut rendre un système non-ergodique prédictible, ce qui est bien différent de prévisible. C'est notamment le rôle des institutions dans les systèmes humains de cadrer les comportements pour rendre le système global moins turbulent. Pour cela il faut beaucoup de théorie qui consiste en la connaissance des systèmes humains et de l'économie sous toutes ses formes qui n'est aucunement une science exacte mais une science sociale.

C'est justement le progrès de la théorie qui permet de nous libérer du déterminisme: « Rien n'est plus concret qu'une bonne théorie » aimait à dire mon ami et inspirateur le professeur Roger Miller.

Si nous voulons échapper à la tyrannie de ceux qui veulent faire des algorithmes un nouveau déterminisme, il nous faut beaucoup de théorie, beaucoup de culture générale, beaucoup de sciences sociales, beaucoup de ce que les réformes de l'enseignement veulent supprimer pour nous laisser désarmés face à ceux qui veulent faire de la technique un nouveau déterminisme dont le pouvoir veut se combiner avec un relativisme des valeurs et un relativisme cognitif radical. Sans tomber dans la pensée régressive de Jacques Elul, il est sain de rétablir le rôle de la théorie et de la connaissance humaine dans sa capacité à maîtriser la technique et à la mettre au service de finalités librement décidées. Voir à ce propos le travail d'Evgueny Morozov.

La prétendue tyrannie des algorithmes ne fait pas l'unanimité, Babinet ou Verdier et Colin ne disent jamais que nous devons abandonner notre libre arbitre pour le confier aux dits algorithmes.

Remplacer le spécialiste humain

Contribué par Dominique.Cuppens, Michel.Volle

Une présentation du responsable IBM France de Watson a montré leur façon de travailler avec les experts, pour en 2 ans environ créer une aide fort utile dans des domaines nouveaux pour l'ordinateur au départ. Avec un discours beaucoup plus modeste que ce qui peut être relayé par tout le reste d'IBM, qui en ce moment vend du Watson à tout va. Une grande banque française va ainsi « mettre en place un système d'interaction automatisé pour guider ses clients lors de certaines demandes ». Impact direct : la suppression de conseillers bancaires à court ou moyen terme.

Les assurances et des entreprises comme Cofinoga, Sofinco etc. emploient depuis des années des experts en analyse des données pour faire du "scoring" et limiter ainsi le risque de contrepartie.

De tels outils peuvent aider les conseillers bancaires à diagnostiquer les besoins de leurs clients et à leur faire des propositions pertinentes.

Je ne crois pas, par contre, qu'il puisse être judicieux de "supprimer les conseillers" : le face-à-face "les yeux dans les yeux" est la forme potentiellement la plus féconde de la relation entre une banque et son client.

Je comprends cette tentation : un dirigeant peut croire facile la mise au point de l'interface qui permettra au client d'interpréter des indications fournies par un automate. Elle pose en fait des problèmes que je crois insurmontables.

Illustration

Illustrons à la fois le potentiel d'approche exceptionnel de la réalité par les logiciels d'analyse des Big Data, et en même temps leurs véritables limites pour comprendre cette même réalité.

Flowers

Contribué par Lionel.Ploquin, Michel.Volle

Voici un exemple intéressant que vous connaissez sans doute déjà, de ce que le chief data officer de New York Michael Flowers a pu obtenir comme résultats concrets avec une utilisation intelligente (versus mécanique du Big Data).

L'exemple présenté dans cet article est représentatif de la pratique de l'analyse des données.

Il faut savoir interpréter la phrase "la réussite du programme est due au fait qu'il s'appuyait sur des corrélations et non sur une causalité".

La technique qu'a utilisée Flowers est celle de l'analyse discriminante, qui évalue la corrélation entre un ensemble de données symptômes et un diagnostic (ici, existence ou non d'un risque d'incendie).

Le travail n'a pas consisté à traiter des données brutes piochées sans raisonnement préalable dans diverses bases de données : les données ont été choisies, redressées, corrigées, le tout conforté par des visites sur le terrain et par des conversations avec les inspecteurs. Un tel travail préparatoire implique nécessairement des hypothèses et un raisonnement sur la causalité. Flowers se trompe donc lorsqu'il dit que "the most important reason for the program's success was that it dispensed with a reliance on causation in favor of correlation".

L'analyse des données ne donne des résultats significatifs que lorsqu'on sait de quoi l'on parle et lorsque les données ont fait l'objet d'une sélection fondée sur un raisonnement et donc sur une théorie (ce mot ne désigne pas les seules théories savantes). Elle donne n'importe quoi lorsqu'on lui soumet n'importe comment n'importe quelles données.

Il ne s'agit pas ici d'opposer technique du "constat de corrélations" versus "analyse de la causalité avec des données retraitées et des hypothèses appuyées sur l'expérience humaine", mais à citer un exemple au cas particulier probant d'utilisation intelligente des données.

Flowers est loin d'être parti à l'aveuglette.

Oiseaux et condensation

Contribué par Frederic.Lefebvre-Nare

Ça fait plus de 20 ans que j'analyse les enquêtes sociologiques multi-questionnaires par tri systématique de toutes les corrélations (donc parmi ~106 corrélations) et je n'ai évidemment pas 106 théories sociologiques sous-jacentes pour justifier ces recherches. Les seuls éléments de « théorie » que j'utilise portent sur la mesure elle-même (le « gain artefactuel de corrélation » apporté par le fait de poser 2 questions successivement est de l'ordre de tant si elles sont la même formulation, tant sinon, etc.).

Bien sûr, s'agissant d'analyses sociologiques ou marketing, les résultats passent ensuite au prisme du bon sens humain et de l'expérience, qui incorpore beaucoup de « théorie » implicite : ce n'est pas « aveugle ».

Vers 1992, sous la direction d'un médecin épidémiologue, nous étudiions les liens entre caractéristiques du bâtiment, comportement des habitants, confort et santé. Nos régressions logistiques montraient que la présence d'un oiseau domestique est fortement corrélée toutes choses égales par ailleurs (p<.001) à la présence de condensation dans le logement. Ni moi, ni le médecin, ni les experts du bâtiment présents au comité de pilotage, ne pouvaient imaginer qu'un canari embue considérablement les vitres. Cependant tous ont été d'accord pour laisser le modèle en l'état, estimant que supprimer cette variable « explicative » du modèle pourrait biaiser l'estimation des autres coefficients, c'est-à-dire des « effets » des autres variables. Par exemple, les modèles ne démontraient pas une supériorité de la ventilation mécanique contrôlée (VMC) sur les ventilations à l'ancienne pièce par pièce — mais je ne me souviens plus ce qu'il en était en « retirant l'oiseau ». C'est une dizaine d'années après que je me suis rendu compte que les oiseaux s'enrhument, et que la présence du canari pouvait conduire les habitants à moins ventiler, même à réponses identiques aux questions portant sur ce sujet de la ventilation.

Donc, pour publier des rapports, il y a un jugement humain ; en revanche, la même démarche appliquée en temps réel, par exemple au ciblage de publicités (ou à l'impression du ticket de promotion que vous fournit Carrefour à la caisse) est nécessairement aveugle, aucun œil humain ne relit. L'œil humain ne peut avoir relu que l'algorithme. Permettez-moi de re-conseiller le billet de Hubert Guillaud « Surveiller les algorithmes ».

Il tourne sur l'idée de rétro-ingénierie expérimentale (simple) des « moteurs prédictifs » qui interviennent dans notre vie. Cette idée qui fait resurgir le même débat « correlation vs. causation » , cette fois en aval des algorithmes : si l'on observe qu'un algorithme se comporte différemment dans telles circonstances, cela n'implique pas que ces circonstances soient celles prises en compte par l'algorithme, etc.

Par ailleurs je rêve d'une théorie de l'interprétation abstraite des données, par analogie avec la théorie de l'interprétation abstraite des programmes (de Radhia Cousot) — mais celle-ci me dépasse, j'ignore donc si l'analogie est fondée, ou si au contraire l'interprétation abstraite des données est un sous-ensemble, déjà traité, de l'interprétation abstraite des programmes.

Marcoule

Contribué par Michel.Volle

J'étais à l'INSEE de Montpellier en 1970. L'analyse des données était alors peu connue. J'ai fait une analyse factorielle et une classification automatique sur les pyramides des âges des cantons de la région Languedoc-Roussillon. J'en ai tiré une carte où chaque canton était coloré selon la classe à laquelle il appartenait.

Cette classification a fait apparaître deux cantons étranges : Bagnols-sur-Cèze et Saint-Gilles. L'analyse factorielle permettait d'interpréter les autres, de façon moins surprenante, selon la prédominance des classes d'âge jeunes, âgées ou médianes (et donc potentiellement actives).

Je suis allé à l'université montrer ma carte à M. Dugrand, géographe dont la connaissance de la région faisait autorité. Un thésard qui se trouvait là vit la carte et s'exclama "c'est ma carte !". Il était tout pâle. Son état ne s'est pas amélioré lorsque j'ai dit que la confection de cette carte m'avait demandé deux jours : la sienne était l'aboutissement d'un travail de plusieurs années.

Nous nous sommes expliqués. Sa carte n'était pas le seul résultat de son travail : l'étude patiente des nombres l'avait conduit à se poser des questions et à leur trouver des réponses. Il savait, par exemple, que le CEA avait embauché des milliers d'ingénieurs et techniciens lors de la création de Marcoule en 1956 : la classe d'âge correspondante était en surnombre à Bagnols-sur-Cèze où elle vieillissait et grimpait la pyramide des âges année après année. L'étrangeté de Saint-Gilles s'expliquait, elle, par la présence d'une base de l'armée de l'air. Le thésard avait bien d'autres explications à donner sur la structure démographique de la région.

Les techniques de l'analyse des données que j'avais utilisées s'appuyaient sur la théorie de l'information de Shannon. La classification automatique avait classé les cantons selon leur similitude. L'analyse factorielle avait fourni des images à deux dimensions d'un nuage de points à 32 dimensions, qui permettaient de voir à travers l'opacité des tableaux de nombres tout comme une radiographie permet de voir à travers celle du corps humain.

J'étais ainsi parvenu d'un bond à la carte que le thésard n'avait obtenu qu'à la fin d'un long travail, mais il me restait à interpréter et expliquer mon constat radiographique.

Aujourd'hui les géographes savent utiliser l'analyse des données pour étudier les tableaux de nombres. Il reste que l'interprétation, la compréhension des résultats nécessitent des recherches auxquelles le Big Data ne peut pas suffire. Il faut aller chercher les réponses où elles se trouvent : dans le témoignage des acteurs, dans les archives de l'histoire, dans la multitude des faits qui ont déterminé la structure des données.

Un radiologue a été formé à l'art de la lecture des radiographies et des IRM, il a une connaissance experte de l'anatomie et des pathologies : l'interprétation des images et classifications que procure l'analyse des données exige des compétences analogues. Tout comme l'IRM, l'ordinateur ne produit aucune connaissance mais il offre un instrument d'observation puissant, qui permet à l'expert compétent d'aller plus vite et plus sûrement vers le diagnostic exact et la prescription judicieuse.

Nature de la connaissance

Contribué par Marc.Desreumaux

Pourquoi la question philosophique de ce qu'est une connaissance est interpellée voire ébranlée par certains usages du Big Data?

Il ne faut pas éluder la question, nous sommes bien là dans le questionnement de ce qu'est “ l'alliage de l'humain et de l'automate” (ce serait bien de trouver un nom à ce concept d'alliage particulier ?).

D'abord je pense qu'il n'y a pas de doute sur le fait que les connaissances d'un individu sont les représentations qu'il se fait du monde qui l'entoure et de lui-même dans ce monde. Il “connait” son corps par l'intermédiaire des représentations de son corps dans son cerveau (dont des “homoncules” qu'on peut mettre en évidence par imagerie du cerveau), il “connait” le monde par un grand nombre d'autres représentations mentales, mémorisées et éminemment évolutives. Les événements qui provoquent des évolutions de ces représentations sont des informations (Pour être moins grossier :une information est une classe d'équivalence des événements qui provoquent la même évolution des représentations mémorisées). Informer, c'est modifier une représentation.

Jusqu'à maintenant (c'est à dire tant qu'il n'y avait pas de système automatique prétendant créer de la connaissance), nos connaissances provenaient (en gros) de :

  • nos propres apprentissages issues de l'observation de “la nature”. Les informations structurent inductivement les connaissances.
  • l'assimilation de connaissances structurées antérieurement construites par d'autres humains et partagées à l'aide de langages essentiellement. Ce mode d'assimilation est circonstanciel, il implique confiance, argumentations, raisonnements, mais aussi affectivité, positionnement social, etc. Les mécanismes sont hautement transitifs (X a dit que Y a dit que Z a vu ...), avec des logiques parfois fort complexes, éventuellement contradictoires, et avec un caractère social fort (par ex : on est enclin à tenir plus facilement pour vrai ce que la majorité prétend / ce que les gens autorisés disent / ce que les gens que nous apprécions disent, etc.). Les informations structurent les connaissances de manière inférentielle.
  • “mélanges” de ces deux modes d'acquisition / structuration.

Ce qui semble nous déranger, nous humains, c'est lorsque des connaissances sont construites par des automates. Ainsi la démonstration automatique a été tenue comme irrecevable par certains mathématiciens, la classification automatique par réseaux de neurones considérée comme suspecte, etc. Ce qui est nommé intelligence artificielle fait peur, même lorsqu'elle ne relève en fait que de calculs combinatoires bovins – mais rapides.

L'usage de l'ordinateur dans les processus de création / structuration de connaissances impose d'expliciter ces processus, tout comme lorsque nous informatisons un processus de gestion nous devons l'expliciter – dans ce dernier cas c'est évidemment bien plus facile. Je ne connais pas les méthodes d'analyse de données en sciences humaines, mais j'ai eu à connaître des problèmes analogues dans des domaines techniques. Par exemple pour la rétro-conception de gros systèmes informatisés, ou encore pour la structuration a posteriori de milliers de “gammes opératoires” dans des centrales nucléaires (ce n'est pas exactement du Big Data, le mot n'existait pas à l'époque, mais le problème je crois était un peu analogue, la quantité de données en moins). Psychologiquement, on n'accorde pas –mais pas du tout- la même confiance à des structurations proposées par l'ordinateur qu'à celles proposée par des humains, supposés de surcroît experts dans leur domaine. Concernant le nucléaire cette méfiance est heureuse même si en l'occurrence il n'y avait pas d'impact sur la sûreté.

Que s'est-il passé ? Cette méfiance envers le travail des ordinateurs a conduit à s'interroger sur la validité des méthodes employées ... et a conduit à transformer celles employées par les humains. C'est la même boucle de rétro-action que nous avions déjà constaté dans l'utilisation de certains systèmes-experts basés sur des connaissances superficielles qui étaient parfaitement admises lorsqu'elles étaient utilisées par des experts humains. Il est exclu qu'un logiciel les utilise sans explicitation, d'où une recherche de théories sous-jacentes qui expliquaient en profondeur ces connaissances (et parfois amenaient à les corriger), et une fois ces théories connues il n'y avait plus besoin de système expert logiciel.

L'ordinateur n'est pas venu remplacer ex abrupto l'homme dans certaines de ses tâches, il l'a d'abord obligé à expliciter, objectiver, donc restructurer ses connaissances et repenser son travail. Ensuite il a pu fournir des outils qui accomplissent certains travaux, mais pas forcément ceux qu'on imaginait automatiser de prime abord, dans des circonstances pour lesquelles la question de confiance se pose différemment. L'alliage humain-automate ne se fait pas une fois pour toute, il évolue !

Je ne connais pas vraiment le monde du Big Data. J'imagine qu'il y a une grande différence entre ce qu'écrivent gourous et journaleux et ce qui se pratique réellement. Mais je suis prêt à parier que leur usage oblige à expliciter davantage notre manière de créer de la connaissance (l'interrogation de S. Mallat en est un exemple) et aura des répercussions là où on ne l'attend pas forcément. Entre autres, à chaque fois que l'on se pose des questions d'aide à la gestion de connaissances on est confronté plus ou moins à des questions éthiques, dans le cas du Big Data ces problèmes doivent absolument être explicités.

Corrélation et causalité

Contribué par Bernard.Ourghanlian

Si vous êtes intéressés par l'approfondissement (théorique) de la question des relations entre corrélation et causalité, je vous invite la lecture des travaux de Judea Pearl (le père de Daniel, le journaliste du Wall-Street Journal qui a été enlevé et assassiné au Pakistan) qui a reçu le Turing Award en 2011. Son livre « Causality : Models, Reasonning and Inference » est certainement le livre de référence du sujet. Vous pourrez aussi trouver son intervention en vidéo quand il est venu à Paris participer à un séminaire sur le Machine Learning organisé par Microsoft Research ainsi qu'une introduction sur ce sujet. Pour faire bref, le modèle causal structural développé par Pearl (SCM : Structural Causal Model) intègre les modèles graphiques du raisonnement probabiliste et de l'analyse causale, les modèles d'équations structurelles et la théorie des résultats potentiels de Neyman-Rubin-Holland. L'approche repose sur un langage mathématique qui clarifie la distinction entre modèles causaux et modèles purement statistiques. Elle offre une méthodologie de l'inférence causale contrefactuelle permettant de tester les prédictions logiques d'assertions causales explicites en s'appuyant sur la représentation graphique du processus de génération des données. Dans ce cadre, les graphes causaux offrent un outil conceptuel novateur et puissant pour l'inférence causale. L'apport de cette formalisation tient dans la clarté de la formulation de la notion de causalité et dans les principes méthodologiques dégagés pour représenter les suppositions causales, expliciter leurs implications logiques et estimer les effets causaux éventuellement identifiés. Sans rentrer ici dans les détails, une idée fondamentale de cette théorie est que « X est une cause de Y s'il est possible de changer Y en manipulant X ».

Pour autant, l'existence d'une telle approche et l'importance de souligner que « corrélation ne signifie pas nécessairement l'existence d'un lien de causalité », ne doivent pas, à mon sens, nous conduire à « jeter le bébé avec l'eau du bain »… et à rejeter entièrement la notion même de corrélation. Une telle approche relèverait à tout le moins du sophisme consistant à rejeter systématiquement la corrélation pour mettre en échec une conclusion scientifique ; tels les industriels du tabac qui ont longtemps utilisé cette approche pour rejeter un lien entre la consommation de tabac et le cancer du poumon… La corrélation constitue un outil scientifique intéressant sous réserve de la vérifier attentivement (c'est la raison pour laquelle la plupart des approches de Machine Learning reposent sur une division aléatoire préalable de l'échantillon de données en 2 parties, la première servant à enseigner aux algorithmes, la seconde à les tester). En final, notamment dans des domaines très divers tels que la médecine, la sociologie, la psychologie,… où la connaissance précise des causes est très difficile, voire même inatteignable, la corrélation est souvent utilisée pour mettre en évidence une relation entre un traitement donné et ses bénéfices potentiels, entre un acteur de risque et une maladie,… Mais il est exact que la corrélation constitue également l'un des types de preuve dont on abuse le plus (les statistiques constituent d'ailleurs souvent des défis à l'intuition – voir, par exemple, le paradoxe de Simpson) car il est très facile (et donc très tentant…) de tirer des conclusions prématurées de l'apparence préliminaire d'une corrélation.

Métamorphose de la statistique

Contribué par Frederic.Lefebvre-Nare

En ce qui concerne la « corrélation comme bon ou mauvais moyen de faire de l'inférence » ; disons en particulier, comme bon ou mauvais moyen de prédire la relation Y d'un individu soumis à un stimulus X.

Pour l'utilisateur de la « machine à prédire », il peut très bien suffire que p.ex. ¼ des corrélations observées permettent une inférence valide (par exemple dans un cas où ½ seraient fallacieuses et ¼ indiquerait une inférence possible seulement dans l'autre sens, notamment en termes de décalage temporel entre les événements X et Y).

La machine à « prédire » basée sur cet ensemble de corrélations, aux ¾ vaines, sera bien plus efficiente que celle qui ne les utiliserait pas, dès lors que le coût d'une mauvaise décision est nul, ce qui arrive souvent (par exemple, le coût peut être proche de 0 quand un annonceur affiche une publicité web de façon « ciblée » alors que la règle de ciblage n'est pas réellement prédictive de l'achat futur).

Ce n'est pas une règle générale : il peut être très coûteux de s'appuyer sur un ensemble de corrélations pour prendre un ensemble de décisions, dans le cas où la quasi-totalité de ces corrélations sont fallacieuses. Cf. l'exemple des « gènes de la dépression » — où selon des méta-analyses, 0, 1 ou 4 variations génétiques pourraient prédire la dépression, parmi les nombreuses variations identifiées comme telles dans la littérature scientifique. Ceci dit, l'utilisation d'un échantillon de validation aurait suffit à éliminer la plupart des variations prétendument identifiées comme statistiquement associées à la dépression.

Dans le cas où X est une variable « actionnable », pour reprendre le cadre de Pearl cité, il est en principe possible de vérifier si X prédit Y, en observant Y ex post, après un changement programmé de X (A/B Testing, cette enfance de l'art statistique qui fait couler beaucoup d'encre dans ce genre et à juste titre d'un point de vue practico-pratique).

Mais en-dehors des comportements « nativement numériques », il me semble rare que soient directement mesurables les effets sur Y d'un changement volontaire de X (avec des variantes simultanées dans le temps, et randomisées dans l'espace, de X, c'est-à-dire du test A/B). Les capteurs qui alimentent les stocks de big data (data lakes) enregistrent pour la plupart des actions ou transactions instantanées ; retracer les parcours par individu, en arrangeant les données provenant de différents capteurs pour relier statistiquement X et Y décalés dans le temps, est souvent très consommateur de temps et comprend de nombreuses occasions de biais. Exemple simple : entre différentes tactiques pour contrôler la situation des demandeurs d'emploi (SMS à telle heure vs. telle heure,…), lesquelles sont les plus efficaces pour l'emploi à l'échelle nationale ?

Je trouve fascinant que dans « l'après-révolution numérique », beaucoup de concepts (comme la causalité) et outils (comme le Chi2 dans un tableau 2x2), simples et basiques, acquièrent une puissance nouvelle, posent aussi des questions pratiques et théoriques nouvelles ; métamorphose de la statistique, ou des théories de la décision, dans l'ère du Big Data.

Rapport de la pensée et de l'action

Contribué par Michel.Volle

L'article de Judea Pearl est passionnant. Il explicite et formalise, selon la démarche exigeante de la philosophie analytique, les hypothèses qu'implique un raisonnement causal et que l'examen des corrélations ne procure pas à lui seul.

La question sous-jacente est bien sûr celle du rapport de la pensée et de l'action. La pensée s'équipe, pour alimenter l'action, de concepts (= idée + définition) et de théories (= concepts + inférence et causalité). L'action intervient dans un monde que les théories schématisent mais qui leur reste extérieur (l'intuition, qui seule saisit le monde en entier, alimente la pensée pré-conceptuelle).

Nota Bene : le refus de la théorie est encore une théorie : ceux qui ne veulent connaître que la corrélation lui attribuent, en fait, le rôle d'une inférence.

La conception d'un système d'information pose d'autres questions qui méritent elles aussi une explicitation formelle. Leur étude rigoureuse prolongerait utilement cet article :

  1. pertinence du schéma théorique en regard des exigences de l'action,
  2. justesse de l'action en regard des valeurs qu'elle entend promouvoir,
  3. cohérence et, peut-on dire, loyauté des valeurs elles-mêmes.

Ces questions-là restant aujourd'hui implicites c'est, dans le meilleur des cas, le seul bon sens qui leur répond. Étant lui-même implicite il rencontre inévitablement des incompréhensions, confusions et conflits qui feront obstacle à une solution raisonnable.

Expliciter ces questions permettra de partager les réponses, du moins avec les personnes de bonne foi.

Prédicteur de phénomène rare

Contribué par Jean-Marc.Beguin

Ces débats et particulièrement la "corrélation comme moyen pour faire de l'inférence" me font penser aux travaux d'un chercheur (de météo-France ?) qui intervenait régulièrement dans les années 70-80 dans les congrès d'analyse de données que Michel Volle a dû connaître : G. Der Mégréditchian.

Dans un domaine par excellence scientifique (où en tout cas les modèles à base d'équations différentielles rendent assez bien compte des phénomènes, mais où joue l'effet papillon), si ma mémoire est bonne, il cherchait à "observer" ou "trouver" des "prédicteurs" de phénomènes rares (tels que des orages violents ou des avalanches meurtrières que les modèles "physiques peinent à prédire correctement) dans de très vastes ensembles de relevés météo. Il me semble que sa démarche relevait à l'époque de ce qu'on appellerait aujourd'hui le Big Data (bien que je n'en sois pas du tout connaisseur). L'originalité de ses propositions tenait je crois à sa capacité à traiter de très grands ensembles de données à une époque où les capacités informatiques ne permettaient pas comme aujourd'hui leur maniement. L'idée était bien entendu de recourir à de tels prédicteurs en l'absence de tout lien connu de causalité (et je crois même pas avec l'idée de sérendipité de découvrir des faits scientifiques nouveaux mais simplement de ne pas se priver d'indicateurs d'alerte).

Toujours autant qu'il m'en souvienne, ses travaux déclenchaient le même type de débat sur le lien causalité vs corrélation, même si ensuite personne ne remettait en cause le processus de sélection des prédicteurs qu'il retenait (et qui étaient certainement plus "complexes" que de simples coefficients de corrélation puisque sur des événements rares on est plutôt dans de la statistique non paramétrique).

Je crois malheureusement qu'il est décédé dans les années 90 et je ne sais pas si (mais je ne crois pas que) ses travaux ont été ensuite poursuivis.

Voir aussi