Discussion:Corrélation et causalité (Big Data)

De iconomie
Aller à : navigation, rechercher

Architecture sync / async

Des architectures synchrones bâties sur les réseaux et puissances, qui doivent cohabiter avec des informatiques que j’appelle mécanographiques et asynchrones (batch, flux).. Il me semble que des impératifs d'ordre technique tels que la nécessité de reprendre avec aussi peu de perte que possible après une avarie, de déboguer, de profiler voire de facturer font que la plupart sinon toutes les grandes architectures synchrones pérennes sont implantées, en coulisses, sur un socle propre à l'asynchrone (des files d'attente). Les faibles latences (max comme en ce qui concerne les moyennes) mesurées, par lesquelles on parle de comportement synchrone/interactif/temps réel (en un bel amalgame d'approximations) y doivent tout à l'optimisation et à la puissance croissante des équipements utilisés (un effet de leur coût sans cesse plus faible, loi de Moore...). Natmaka (discussion) 5 octobre 2015 à 12:26 (CEST)

Propension au mimétisme / quête de l'algorithme divin

On retrouve, à propos du Big Data, une tentation analogue à celle qui se manifeste à propos de la conduite des voitures : celle de supprimer l'action du cerveau humain pour miser exclusivement sur la programmation : peu après chaque découverte l'enthousiasme laisse penser que son parachèvement en fera un égal de l'humain. La propension au mimétisme (logiciel se comportement comme un humain) est une forme de quête d'absolu (logiciel capable de répondre à toutes les questions). À propos de l'IA forte Dijkstra disait The question of whether Machines Can Think... is about as relevant as the question of whether submarines can swim.. Natmaka (discussion) 5 octobre 2015 à 13:12 (CEST)

À intégrer

Maîtrise du SI

Pour maîtriser le SI : le design, le découpage en fonctions maîtrisables, les architectures orientées objets (SOA-REST), virtualisation-Cloud (container, données),… à compléter également. Vraiment difficile de faire ce re-engineering planétaire, alors que le court terme et le financier l'emportent encore très largement, pollué par des fonctionnements sociaux dépassés et archaïques (déclaration Macron, condamnation SNCF parmi les exemples récents,… Daesh … ). Cf. Jacques Attali hier sur « Le Petit Journal » particulièrement pessimiste sur notre capacité à réformer la société ; C'est d'après lui simple, mais la capacité à mobiliser le politique de gauche et de droite de façon cohérente et sur une durée suffisamment longue n'a selon lui aucune chance de se concrétiser => guerre mondiale en 2035 ! (option négative de la prospective à 100 ans de Thierry Gaudin)

Il semble qu'en 2015 environ 1/3 seulement des entreprises aurait une stratégie d'investissement bien identifiable sur Devops et Big Data en France. Les 2/3 n'en ayant pas aujourd'hui la capacité. Rôle important des Chief Digital Officer pour stimuler tout cela, avec un risque bien identifié d'épuisement de la mouche du coche qu'ils sont, et de l'attelage.

A pu s'exprimer :

  • Que les informaticiens sont en avance sur les scientifiques sur les nouvelles approches, et leur signification
  • Un monde à 2 vitesses doit être appréhendé au niveau de l'informatique. Des architectures synchrones bâties sur les réseaux et puissances, qui doivent cohabiter avec des informatiques que j'appelle mécanographiques et asynchrones (batch, flux). La société Automic en fait son créneau sur la capacité à administrer cette informatique hybride
  • Des comportements de plus en plus altruistes sur le partage de données (si l'usage qui en est fait n'est pas en relation avec le business de l'entreprise). Ex. Orange.

En fait selon moi, rien de vraiment nouveau sous le soleil par rapport à ce qui a pu être identifié dans le courant des années 90 : orientation client, transversalité, confiance, transparence, un SI = des usages et des données, produire des nouvelles fonctions plus vite, exploiter son corpus de données, réseaux connectés,…. « Simplement » la taille (« la multitude ») est là, avec sa puissance, sa vitesse de changement, sa connectivité, et une complexité croissante. Seule une action de gouvernance au niveau du système peut produire des influences positives tirée par les résultats à atteindre. Et non plus un détail de formalisations qui doit mécaniquement conduire au résultat.


Pour être parfaitement franc, je suis complètement estomaqué, voire atterré, de ce qu'il révèle d' "à peu près" et d'approximatif sur les technologies informatiques !!!

Je donne quelques point pour justifier ce constat, et proposer un remède.

Parler de "dictature des algorithmes" est limite faux sens, voire même contresens
Car les algorithmes ne poussent pas comme des champignons que l'on ramasse. Ce sont des artefacts créés par l'intelligence humaine. On peut par contre parler de dictature des programmeurs, ou de ceux qui les dirigent, comme dans la finance où il a été établi que les directeurs de banques ne comprenaient rien à ce que faisaient leurs programmeurs traders, ni à cet oxymore des "mathématiques financières".
Sans théorie, l'informatique et les ordinateurs n'existeraient pas
Cela a été établi de façon définitive par von Neumann lui-même ; la théorie, en particulier la théorie des automates, est congénitale à l'ordinateur et sans elle, pas de compilateurs, pas de protocoles de télécom, pas de méthodes formelles, etc. ... etc. Sans la théorie des codes correcteurs d'erreurs aucun ordinateur ne fonctionnerait plus de quelques minutes.
Le déterminisme est une propriété absolue que tout ingénieur programmeur doit/devrait cultiver constamment, de jour, de nuit, et même le week-end
Un programme non déterministe n'est tout simplement pas vérifiable, ni a fortiori validable. Un programmeur qui ne programme pas de façon déterministe est à virer immédiatement, mais encore faut-il que son patron et la DRH sachent de quoi il s'agit.
Ignorer la dimension "système" ou plus exactement systémique, c'est ne rien comprendre à la programmation, et a fortiori à la pédagogie de la chose
C'est un débat qui a déjà eu lieu à l'occasion du rapport de l'académie des sciences qui a suscité une controverse que certains d'entre vous connaissent. Mieux vaut regarder du côté de Joseph Sifakis, l'un des inventeurs de la technologie dite du "Model Checking" qui lui a valu la reconnaissance internationale avec un premier Turing Award pour la France ; malheureusement, il n'a pas eu droit à un poste bien mérité au Collège de France ... il enseigne à l'EPFL, je vous laisse apprécier le ridicule de la situation !!!

La "théorie" dont nous avons débattu n'est pas celle de l'informatique mais celle du domaine observé (selon le cas : économie, démographie, sociologie etc.). Ceux qui croient qu'il suffit d'observer des corrélations pour inférer des résultats significatifs croient inutile de la connaître. Je soutiens au contraire que c'est nécessaire.

Tout programme est ou doit être déterministe. Notre débat ne portait pas sur ce point, mais sur celui-ci : ceux qui croient que l'examen des corrélations suffit à tout reprochent à la "théorie", telle qu'ils la perçoivent, d'être "déterministe" et d'ignorer l'incertitude du futur. Je leur réponds que les théories économiques, démographiques etc. tiennent compte de cette incertitude.

La dimension systémique de l'informatisation et de la programmation ont une grande importance.

L'illettrisme technique

Je ne suis pas sûr que tout le monde comprenne parfaitement de quoi le déterminisme est le nom, vu les échanges ?! Bâtir une Iconomie sans bien comprendre les enjeux techniques sous-jacents, c'est comme vouloir revoir l'industrie automobile ou la fabrication des avions en ignorant la mécanique et l'hydro/aéro-dynamique des fluides ; idem pour les "smart grids".

Je constate que l'informatique reste encore une profession où n'importe qui peut s'arroger le droit de dire à peu près n'importe quoi, sans faire rire ; c'est la cause principale de la déroute française sur ce secteur clé. C'est du pur amateurisme ...

Je ne suis pas sûr du tout que la dimension systémique soit une évidence pour tous. Ma fréquentation de quelques grands ministères et de plusieurs grandes sociétés du CAC40, et de milieux professionnels connus, me démontre plutôt que c'est exactement l'inverse qui se passe, c'est là qu'est le vrai problème.

Lorsque grâce à Claude Rochet on a pu proposer une formation conséquente à l'IGPDE, on s'était basé sur un rapport de Lorimy, accablant bien que rédigé de façon diplomatique quand on le lisait entre les lignes. Depuis rien n'a changé et la systémique n'est enseignée nulle part ... or c'est une théorie méthodologique rigoureuse, plutôt contre-intuitive, qui ne s'invente pas. La tentative de l'enseigner à l'X, via la chaire Ingénierie des systèmes complexes, est pour le moment un échec.

Ce n'est pas en invoquant la complexité à tout propos qu'on résoudra quoi que ce soit ; par exemple à propos des Big Data, où comme le dit for bien Y. Caseau, "la complexité sous-jacente est largement sous-estimée", dans un rapport de l'académie des technologies. L'incompétence, ou pour utiliser le vocabulaire diplomatique des consultants du Standish Group l'"illettrisme technique", nous a coûté, et continue à nous coûter, des centaines de millions d'€, pour ne pas dire des milliards. C'est cela qu'il faut corriger d'urgence ... et le reste nous sera donné par surcroît [peut-être ?].

Réfutabilité en sciences sociales non expérimentales

Je voudrais citer au passage Frédéric de Coninck, chercheur au LATTS/ENPC, dont j'avais utilisé dans les années 90/00 d'excellents papiers sur un sujet voisin : comment établir une « réfutabilité » (au sens de Popper) en sciences sociales non expérimentales (par exemple en Histoire). J'avais utilisé ce cadre pour « démontrer » de façon aussi solide que possible que l'enseignement supérieur français crée d'autant plus de cursus qu'il y a moins de perspectives d'emploi dans le secteur/métier auquel ces cursus forment, et inversement. Malheureusement ces papiers ne me semblent pas trouvables en ligne et je les lui ai demandés en vain :-(

Correlation, Causation, and Confusion

Un (autre) statisticien traite du sujet Natmaka (discussion) 24 octobre 2015 à 01:17 (CEST)

Remplacer le spécialiste humain (finance)

Would You Let A Robot Manage Your Retirement Savings?. Natmaka (discussion) 24 octobre 2015 à 10:12 (CEST)

Superforecasting

Can We Improve Predictions? Q&A with Philip "Superforecasting" Tetlock Natmaka (discussion) 5 novembre 2015 à 15:09 (CET)

TeraLab et La Poste

https://blogrecherche.wp.mines-telecom.fr/2016/07/05/teralab-poste-fraude-colis/ Natmaka (discussion) 6 juillet 2016 à 14:39 (CEST)

How statistics lost their power – and why we should fear what comes next -- William Davies, The Guardian

https://www.theguardian.com/politics/2017/jan/19/crisis-of-statistics-big-data-democracy (soumis par Jean-Marc Beguin). Natmaka (discussion) 6 février 2017 à 15:05 (CET)

How a Pioneer of Machine Learning Became One of Its Sharpest Critics

How a Pioneer of Machine Learning Became One of Its Sharpest Critics (the Atlantic). Natmaka (discussion) 20 mai 2018 à 08:34 (CEST)

ML beyond Curve Fitting: An Intro to Causal Inference and do-Calculus Natmaka (discussion) 7 juin 2018 à 07:05 (CEST)

The Slippery Math of Causation

The Slippery Math of Causation -- Pradeep Mutalik (Quanta magazine). Natmaka (discussion) 6 juillet 2018 à 07:43 (CEST)

P-hacking

Corrélation ou causalité ? Brillez en société avec notre générateur aléatoire de comparaisons absurdes -- Le Monde

Une forme délibérée, insidieuse et semble-t-il omniprésente est le P-hacking. Natmaka (discussion) 4 janvier 2019 à 11:36 (CET)

The Why of the World

The Why of the World -- Tim Maudlin (Boston review). "The Book of Why: The New Science of Cause and Effect" (Judea Pearl and Dana Mackenzie). Natmaka (discussion) 6 septembre 2019 à 08:59 (CEST)