Critique de la raison corrélative

De iconomie
Aller à : navigation, rechercher

Article tout d'abord publié sur le Blog de Michel Volle (3 juin 2009)

Coefficient de corrélation

La statistique fournit des dénombrements, des moyennes, des totaux ; elle fournit aussi une mesure de dispersion pour les variables quantitatives, l'écart-type ; enfin, elle fournit une mesure de la relation entre variables quantitatives, la corrélation (pour les variables qualitatives, l'équivalent de la corrélation est le chi2).

J'épargne au lecteur les expressions mathématiques de ces notions : on les trouve dans les manuels de statistique.

Lorsqu'une relation linéaire (fonction affine Y=aX+b) existe entre deux variables X et Y la valeur absolue de leur coefficient de corrélation est égale à 1 : on dit qu'elles sont "corrélées".

Lorsque aucune relation n'existe, le coefficient de corrélation est égal à 0 : les deux variables ne sont pas corrélées. Lorsque la relation existe, mais qu'elle est floue, la valeur absolue du coefficient de corrélation se trouve quelque part entre 0 et 1.


Devant les descriptions que fournit la statistique nous sommes comme ces enfants qui veulent toujours savoir pourquoi les choses sont comme elles sont, nous voulons connaître les causes. Felix qui potuit rerum cognoscere causas[1]!

Certains statisticiens (Karl Pearson dans le sillage de Ernst Mach, Jean-Paul Benzécri) critiquent la notion de cause : ils cultivent une statistique anticausaliste qui, se refusant à aller plus loin que le constat des corrélations, ne veut connaître que des contingences censées révéler «le pur diamant de la véridique nature» (Benzécri).

Il est vrai que l'explication causale suppose des hypothèses. Ils estiment que poser des hypothèses est "subjectif", voire "idéologique" et poussent à l'extrême, parfois jusqu'à la mystique, la position contemplative du statisticien. Pourtant quand il leur faut agir - au volant de leur voiture, quand ils se lavent les dents etc. - ils anticipent assurément le résultat de leur action, ce qui suppose de postuler une causalité...

Nous poursuivrons sans tenir compte de leurs objections.


L'examen des corrélations met sur la piste. Si X est la cause de Y, peut-être X et Y seront-elles corrélées ; inversement, si X est sans influence sur Y, peut-être leur corrélation sera-t-elle nulle.

Mais il faut bien dire "peut-être" car :

  • corr(X,Y)=corr(Y,X) : étant symétrique, la corrélation n'indique pas le sens de la causalité, elle ne distingue pas la "variable explicative" de la "variable expliquée" ;
  • il peut exister des relations fonctionnelles qui ne soient pas linéaires : la corrélation ne les indiquera pas toutes ;
  • il peut exister une relation fonctionnelle (y compris linéaire) entre deux variables alors que celles-ci ne sont pas reliées par un rapport de causalité ;
  • il peut exister un rapport de causalité entre deux variables sans qu'apparaisse entre elles une relation fonctionnelle qui saute aux yeux ;
  • la notion de "cause" elle-même est susceptible de plusieurs interprétations, situées à des degrés divers de profondeur.

Relation fonctionnelle non linéaire

Considérons à titre d'exemple un mobile lancé dans le vide et soumis à l'action de la pesanteur. L'équation de son mouvement dans un repère convenablement choisi est X=(1/2)gT^{2}.

Supposons que l'on observe X et T à intervalles réguliers, les positions du mobile composant alors une "population" sur laquelle on construit une statistique.

Si les valeurs observées de T sont symétriques par rapport à zéro la corrélation entre X et T sera nulle : il en est ainsi lorsqu'il existe entre deux variables une relation du second degré et que l'observation est symétrique par rapport à la moyenne.

Ainsi la nullité de la corrélation peut correspondre soit à l'indépendance de deux variables soit à une relation fonctionnelle du second degré, qu'elle masque.

Un statisticien astucieux verra que la vitesse du mobile et le temps sont corrélés puisque V=gT et cela le mettra sur la piste d'une modélisation correcte. Mais tout le monde n'est pas astucieux.

Relation fonctionnelle sans cause

Un même phénomène peut être cause de deux autres qui paraîtront corrélés sans qu'il existe de relation de causalité entre eux.

Ainsi dans les épisodes de croissance économique (ou de décroissance) beaucoup de variables sont corrélées parce qu'elles sont entraînées par une même tendance, sans être pour autant reliées par une causalité.

Cause sans relation fonctionnelle apparente

Si les évolutions d'une variable causent celles d'une autre variable il existera évidemment entre leurs valeurs une relation fonctionnelle mais celle-ci peut être masquée, par exemple par un décalage temporel : on cherche la relation entre les observations de même date alors qu'il faudrait pour la faire apparaître décaler une des variables de quelques semaines ou quelques mois.

C'est le cas par exemple pour les relations entre le niveau des stocks et la production, entre la demande et l'investissement etc. L'économètre astucieux sait repérer de tels décalages, l'économètre naïf (il en existe) n'y voit goutte.

Les étapes de la causalité

Reprenons l'exemple du mobile en chute libre. Si l'on considère les seules valeurs positives de T, une corrélation entre X et T apparaît. Peut-on dire alors que T est la cause de X ?

Le naïf répondra oui : plus le temps passe, plus le mobile descend. Cependant un physicien, plus profond, dira que la cause réside non dans le temps mais dans l'accélération g de la pesanteur.

Il pourra aussi, allant plus loin, expliquer cette accélération en suivant Newton par la force f=kmm'/d^{2} : cela fournit une modélisation de portée plus générale. Il pourra encore expliquer cette force, en suivant Einstein, par la courbure de l'espace et les ondes gravitationnelles, et la théorie des cordes fournit des hypothèses pour expliquer la propagation de ces ondes...

Ainsi la cause peut être formulée selon diverses théories dont chacune considère le phénomène selon des hypothèses de profondeur différente. Il en est de même, évidemment, en économie : l'expression de la cause qu'il convient de retenir correspond à la portée, à la profondeur du modèle que l'on bâtit.

Ajoutons enfin qu'à un même niveau de profondeur la cause peut encore s'articuler en couches solidaires, obéissant chacune à une logique qui lui est propre (voir L'entreprise et Aristote).

Économie et économétrie

L'économétrie repose tout entière sur l'exploitation des corrélations : qu'il s'agisse des modèles Logit que l'on affectionne aujourd'hui ou des formes élémentaires de la régression, elles lui fournissent de quoi étalonner les équations, de quoi produire des projections.

Elle risque donc d'être victime des ambiguïtés de la corrélation. Les économètres exercés savent éviter certains pièges - comme la corrélation générale des variables entre elles, et avec le temps, lors des périodes de croissance ou de décroissance, ou comme les décalages qui masquent les corrélations etc. - mais il leur est difficile de les éviter tous.

Pour identifier les causalités à l'oeuvre l'économétrie ne suffit donc pas : il faut un savoir en théorie économique, de l'habileté dans le choix des hypothèses. Un modèle n'est d'ailleurs rien d'autre que la mise en scène d'un faisceau d'hypothèses.


La description pure, la statistique pure appellent l'interprétation, et elle suppose que l'on :

  1. soit conscient des choix qui ont présidé à l'observation, que l'on sache en vue de quelle action elle a été organisée ;
  2. soit conscient des éventuels défauts de mesure (exemple : savoir que tout recensement comporte un biais de l'ordre de 1 %, soit 600 000 personnes en France) ;
  3.  dispose d'un bagage théorique suffisant pour choisir habilement les hypothèses sur la causalité et pouvoir, enfin, interpréter les corrélations.

Notes et références

  1. Virgile, Géorgiques, II, 489.

Voir aussi