• Aucun résultat trouvé

Problème fondamental de l’inférence causale

Le chapitre 6 a introduit le graphe orienté acyclique, un outil qui permet d’analyser les conditions théoriques sous lesquelles il est pos- sible d’identifier un effet causal. Maintenant, nous allons étudier un cadre analytique complémentaire, le modèle causal Neyman-Rubin (MCNR), qui donne une expression algébrique aux intuitions gra- phiques que nous avons déjà acquises.

Ce cadre analytique a d’abord été proposé dans un texte peu re- marqué du statisticien Jerzy Neyman (1923). Des idées similaires ont ensuite été reprises, développées et popularisées par Donald Rubin à partir des années 1970. Le MCNR est aujourd’hui un des cadres analy- tiques les plus importants en statistiques et en économie. Sa popularité dans les autres sciences sociales est aussi en forte croissance. Tous les chercheurs qui s’intéressent à l’inférence causale devraient se familia- riser avec les principes de base du MCNR.

Dans ce livre, le MCNR permettra de développer notre intuition concernant les défis de l’inférence causale et la puissance des expé- riences aléatoires. Il ouvrira aussi la porte vers une étude algébrique du biais de sélection.

Analyse contre-factuelle et résultats potentiels

Le MCNR exprime formellement l’analyse causale sous la forme d’un raisonnement contre-factuel. Cette formalisation repose sur le vocabulaire qui est traditionnellement employé pour décrire les ex- périences aléatoires : certains participants sont affectés à un groupe de « traitement » alors que d’autres sont assignés à un groupe de

« contrôle ». Par exemple, les membres du groupe de traitement pour- raient consommer un médicament, et les membres du groupe de contrôle pourraient consommer un placebo.

Soit une variable explicative binaireXi ∈ {0,1}. Si l’individuire-

çoit le traitement, on écritXi= 1. Si l’individuifait partie du groupe

de contrôle, on écritXi= 0.

Dans ce contexte, la variable dépendante peut prendre deux valeurs. Siifait partie du groupe de traitement, le résultat estYi1. Siifait partie

du groupe de contrôle, le résultat estYi0.

Yi1 et Yi0 sont appellés les « résultats potentiels », parce qu’ils ne

correspondent pas nécessairement à ce que le chercheur observe en réalité. Yi1 est le résultat qui surviendrait dans le monde hypothé-

tique oùiest assigné au groupe de traitement.Yi0est le résultat qui

surviendrait dans le monde hypothétique oùiest assigné au groupe de contrôle. Ces deux résultats ne peuvent pas être observés simulta- nément, puisque chaque individu fait partie d’un seul groupe : iest membre du groupe de traitement ou du groupe de contrôle, mais pas des deux.Yi1etYi0sont donc des résultats potentiels, puisqu’un seul

des deux résultats se concrétisera réellement.

Le tableau 7.1 montre un exemple. Six individus sont affectés aléa- toirement à deux groupes expérimentaux. Les membres du groupe de traitement consomment une aspirine (Xi = 1). Les membres du

groupe de contrôle consomment un placebo (Xi = 0). Après une

heure, le chercheur mesure le niveau de douleur rapporté par chaque individu sur une échelle de 0 à 10, où 10 représente le niveau de dou- leur maximal.Yi1mesure le niveau de douleur qui affligerait l’individu

is’il était assigné au groupe de traitement (Xi= 1).Yi0mesure le ni-

veau de douleur qui affligerait l’individuis’il était assigné au groupe de contrôle (Xi= 0).

Puisqu’une personne ne peut pas être affectée simultanément au groupe de traitement et au groupe de contrôle, le chercheur peut ob- server un seul résultat potentiel par individu. Pour les membres du groupe de traitement, nous pouvons seulement mesurerYi1, mais pas

Yi0. Pour les membres du groupe de contrôle, nous pouvons seulement

mesurerYi0, mais pasYi1.

Effet de traitement individuel

Le MCNR définit l’effet causal comme la différence entre ce qui ar- riverait à l’individuis’il recevait le traitement, et ce qui arriverait au

TABLEAU 7.1.

Résultats potentiels pour six participants à une expérience. Chaque indi-

vidu i est assigné aléatoirement à un traitement Xi∈ {0,1}. Yi0mesure

le niveau de douleur potentiel que vivrait l’individu i s’il était assigné au

groupe de contrôle. Yi1mesure le niveau de douleur potentiel que vivrait

l’individu i s’il était assigné au groupe de traitement. Yi1− Yi0est l’effet

de traitement individuel. Puisque nous observons seulement un des deux résultats potentiels, l’effet de traitement individuel n’est pas observable. C’est ce qu’on appelle le problème fondamental de l’inférence causale.

Individu Xi Yi1 Yi0 1 Aspirine (1) 2 ? 2 Placebo (0) ? 4 3 Aspirine (1) 3 ? 4 Placebo (0) ? 6 5 Placebo (0) ? 2 6 Aspirine (1) 1 ?

même individu s’il était assigné au groupe de contrôle. En d’autres mots, l’effet causalκdu traitementXisur l’individuiest égal à la dif-

férence entre les deux résultats potentiels :

κ = Yi1− Yi0 (7.1)

Malheureusement, nous ne pouvons jamais observer les deux résul- tats potentiels pour un seul et même individu. Par conséquent, l’effet de traitement individuel dans l’équation 7.1 est toujours impossible à mesurer. C’est ce qu’on appelle le problème fondamental de l’inférence

causale.

Par exemple, si je prends une aspirine aujourd’hui et un placebo de- main, les conditions d’administration sont différentes : mon niveau de douleur initial, ma condition biologique et neurologique, mon envi- ronnement sonore et visuel et mon âge varient tous d’un jour à l’autre. L’individu qui consomme une aspirine aujourd’hui est différent de l’in- dividu qui consomme un placebo demain. Aujourd’hui, le chercheur observeYi1, mais demain il observeYj0, oùi̸= j.

Le problème fondamental de l’inférence causale est omniprésent en sciences sociales. Par exemple, il est impossible de mesurer l’effet cau- sal de la crise fiscale grecque de 2009 sur la montée du parti politique

populiste Aube Dorée (Χρυσή Αυγή), parce que nous ne pouvons pas observer la popularité du parti dans un monde contre-factuel sans crise économique. Il est impossible de mesurer l’effet causal des études de doctorat sur le revenu de Vincent Arel-Bundock, parce que nous ne pouvons pas observer son revenu dans un monde contre-factuel où il a étudié moins longtemps. Il est impossible de mesurer l’effet cau- sal d’une thérapie cognitive comportementale sur le trouble obsessif compulsif d’un individu donné, dans des conditions données, parce que nous ne pouvons pas observer le monde contre-factuel où cet in- dividu ne bénéficie pas du traitement.

Le problème fondamental de l’inférence causale signifie qu’il sera

toujours impossible d’estimer l’effet de traitement individuel.

Effet de traitement moyen

Pour sortir de cette impasse, nous abandonnons l’effet de traitement au niveau individuel, pour nous intéresser à l’effet de traitement moyen :

E[Yi1− Yi0] (7.2)

Dans le reste du chapitre, nous identifions les conditions nécessaires pour que cet effet de traitement moyen soit identifiable, même si les effets individuels ne le sont pas.

Pour identifier ces conditions, il faut d’abord établir formellement la relation entre les résultats potentiels et les résultats observés. Les ré- sultats potentiels continuent d’être exprimés par Yi1 et par Yi0. En

contraste, le résultat observé est représenté parYi. LorsqueXi = 1,

le résultat observé est égal àYi = Yi1; lorsqueXi = 0, le résultat

observé est égal àYi = Yi0:

Yi =

(

Yi1siXi= 1

Yi0siXi= 0

Cette relation peut être réexprimée par l’équation suivante :

SiXi= 1, alors : Yi= 1· Yi1+ (1− 1)Yi0 = Yi1 SiXi= 0, alors : Yi= 0· Yi1+ (1− 0)Yi0 = Yi0

À cause du problème fondamental de l’inférence causale, nous n’ob- servons pas tous les résultats potentiels. Par contre, le chercheur a accès à tous les résultats observés. Il est donc facile d’estimer l’expression sui- vante, en prenant la moyenne de la variable dépendante dans le groupe d’individus qui ont reçu le traitement :1

E[Yi|Xi = 1] (7.4)

En substituant l’équation 7.3 dans l’équation 7.4 et en remplaçantXi

par 1 nous obtenons :2

E[Yi|Xi= 1] = E[XiYi1+ (1− Xi)Yi0|Xi= 1] (7.5)

= E[1· Yi1+ (1− 1)Yi0|Xi= 1]

= E[Yi1|Xi = 1]

De même,

E[Yi|Xi= 0] = E[Yi0|Xi = 0] (7.6)

Nous allons maintenant adopter un postulat très restrictif : les ré- sultats potentiels sont indépendants du traitement, soit Yi0 ⊥ Xi

et Yi1 ⊥ Xi. La règle 3.3 de l’espérance conditionnelle stipule que

1. Cette moyenne serait l’analogue échantillonnal de l’espérance qui nous intéresse dans la popu- lation.

2. La substitution de Xipar 1 est autorisée parce que nous prenons l’espérance conditionnelle sur Xi= 1.

lorsque deux variables sont indépendantes, l’espérance est égale à l’es- pérance conditionnelle :

E[Yi1] = E[Yi1|Xi= 1] (7.7)

E[Yi0] = E[Yi0|Xi= 0]

Avec ces résultats en main, nous pouvons retourner à l’effet de traite- ment moyen. En appliquant la règle 20.2 de l’espérance, nous pouvons décomposer l’équation 7.2 en deux parties :

Effet de traitement moyen= E[Yi1− Yi0]

= E[Yi1]− E[Yi0]

Finalement, nous substituons les équations 7.7, 7.5 et 7.6 pour arri- ver au résultat final :

Effet de traitement moyen= E[Yi1|Xi = 1]− E[Yi0|Xi= 0]

= E[Yi|Xi = 1]− E[Yi|Xi= 0]

Cette équation montre que nous pouvons décomposer l’effet de trai- tement moyen en deux parties :E[Yi|Xi = 1]etE[Yi|Xi= 0].

Ces deux espérances sont faciles à estimer dans notre échantillon.

E[Yi|Xi = 1]peut être estimée en calculant la moyenne deY pour

les membres du groupe de traitement.E[Yi|Xi = 0]peut être esti-

mée en calculant la moyenne deY pour les membres du groupe de contrôle. La différence entre ces deux moyennes est un estimé de l’ef- fet de traitement moyen ; elle nous permet de contourner le problème fondamental de l’inférence causale.

Si les individus du tableau 7.1 sont affectés au groupe de traitement et de contrôle de façon aléatoire, nous pouvons estimer l’effet de trai- tement moyen en comparant la moyenne dans les deux groupes :

Effet de traitement moyen= (2 + 3 + 1)

3

(4 + 6 + 2)

3 =−2

En moyenne, consommer une aspirine réduit l’intensité des maux de tête de 2 unités sur une échelle de 0 à 10.

Postulats

La démonstration ci-haut repose sur deux postulats restrictifs : (1) indépendance du traitement et des résultats potentiels, et (2) stabilité et non-interférence.3

Indépendance du traitement et des résultats potentiels

Le premier postulat que nous devons accepter pour identifier l’effet de traitement moyen est très restrictif. Pour que l’équation 7.7 tienne, il faut que la valeur du traitement soit indépendante des résultats po- tentiels :Xi ⊥ Yi0, Yi1.

Par exemple, si nous voulons estimer l’effet causal d’une thérapie cognitive comportementale sur le trouble obsessif compulsif, il faut que l’assignation au traitement soit indépendante des résultats poten- tiels. Cette condition est violée lorsqu’un psychologue choisit le plan de traitement de son patient en fonction des résultats anticipés, c’est-à- dire en fonction de la santé psychologique attendue si le patient faisait partie du groupe de contrôle ou du groupe de traitement.

De même, si nous voulons estimer l’effet causal des études de doc- torat sur le revenu, il faut que la décision de s’engager dans ces études soit complètement indépendante des revenus potentiels avec et sans études. Si ce n’est pas le cas, la différence entre les revenus moyens des doctorants et des non-doctorants n’identifie pas l’effet causal.

La condition d’indépendance dont nous avons besoin pour contourner le problème fondamental de l’inférence causale est difficile à satisfaire en pratique, surtout lorsque nous analysons des données observationnelles. Pour cette raison, plusieurs chercheurs qui s’inté- ressent à l’analyse causale se tournent vers les expériences aléatoires.

Stabilité et non-interférence

Le second postulat que nous devons accepter pour identifier l’effet de traitement moyen est aussi très restrictif. Pour que l’équation 7.3 soit valide, le chercheur doit accepter un postulat communément appelé « SUTVA », ou « Stable Unit Treatment Value Assumption ».

SUTVA requiert que les résultats potentiels soient « stables », au sens où un traitement bien défini correspond à un résultat potentiel

3. Un troisième postulat nécessaire pour l’inférence causale est la « positivité ». Il doit y avoir une probabilité plus grande que zéro qu’un individu soit assigné à chacun des traitements possibles (Aronow et Miller, 2019 ; Hernán et Robins, 2020).

qui est lui aussi bien défini. Cette condition sera violée si notre me- sureXi ne saisit pas toutes les versions possibles d’un traitement (p.

ex., changement de dose ou hétérogénéité dans les conditions d’admi- nistration).

SUTVA requiert aussi l’absence d’interférence entre les unités d’ob- servation : les résultats potentiels d’un individu ne doivent pas être affectés par le traitement que reçoit un autre individu. Par exemple, si ma conjointe est vaccinée contre la grippe, les risques que j’attrape la maladie sont réduits. Mes résultats potentiels (avec ou sans vaccin) sont affectés par le traitement reçu par les autres.

SUTVA est un postulat difficile à satisfaire en pratique, mais le dé- veloppement de méthodes qui permettent de l’assouplir est un champ de recherche actif en statistiques.

Inférence causale et expériences aléatoires

Dans ce chapitre, nous avons vu que l’effet de traitement individuel est toujours impossible à estimer, à cause du problème fondamental de l’inférence causale. Plutôt que d’estimer l’effet de traitement indivi- duel, nous avons donc montré comment estimer l’effet de traitement moyen. Pour estimer cet effet de traitement moyen, nous avons dû ac- cepter un postulat très restrictif : l’indépendance du traitement et des résultats potentiels. Les expériences aléatoires sont un outil puissant pour l’analyse causale, parce qu’elles garantissent que le postulat d’in- dépendance soit rempli.

Dans une expérience aléatoire, la valeur du traitementXireçu par

l’individuiest entièrement déterminée par la chance. Lorsque des par- ticipants sont affectés aléatoirement aux groupes de traitement et de contrôle, le traitement est le pur fruit du hasard. Par construction, ce traitement aléatoire est (en moyenne) indépendant des résultats po- tentiels. Par conséquent, la différence entre les moyennes du groupe de traitement et du groupe de contrôle dans une expérience aléatoire identifie l’effet causal. Le modèle causal Neyman-Rubin montre pour- quoi les expériences aléatoires sont souvent considérées comme le « Gold Standard » de l’inférence causale.

Partie III

Chapitre 8