• Aucun résultat trouvé

Les chapitres 6 et 7 nous ont donné les outils théoriques nécessaires pour déterminer si un résultat statistique peut être interprété de façon causale. Dans les chapitres 8 à 11, nous déploierons ces outils pour étudier quelques-uns des principaux défis empiriques auxquels font face les chercheurs.

Le premier défi de l’inférence causale que nous allons considérer s’appelle le « biais par variable omise ». Une relation observée entre deux variables peut être factice si elle est causée par une troisième va- riable ignorée par notre modèle statistique. Dans ce cas, on dit que notre estimé de l’effet causal souffre d’un biais par variable omise.

Par exemple, il y a une corrélation positive entre le nombre de pom- piers déployés sur le site d’un incendie et les dommages causés par cet incendie. En moyenne, lorsqu’il y a plus de pompiers, les flammes dé- truisent plus. Est-ce que cela veut dire que les pompiers causent les dommages ? Évidemment, la réponse est négative : l’intervention des pompiers réduit les dommages causés par le feu. La relation positive entre le nombre de pompiers et les dommages est due à un tiers fac- teur : l’intensité des flammes.1Plus l’incendie est intense, plus il cause de dommages ; plus l’incendie est intense, plus nous avons besoin de pompiers pour l’éteindre.

Nombre de pompiers Dommages causés par l’incendie Intensité des flammes

1. Pour respecter la séquence temporelle des événements, il serait plus précis de dire « l’intensité des flammes au moment où les pompiers sont appelés ».

Dans le graphe ci-haut, nous voyons que l’intensité des flammes cause à la fois la variable indépendante et la variable dépendante. Cette variable ouvre un chemin par la porte arrière, qui induit un biais par variable omise. Dans ce contexte, un modèle de régression bivarié naïf pourrait nous mener à la conclusion absurde que les pompiers causent les dégâts.

Le biais par variable omise est très répandu en sciences sociales. Lorsque nous étudions des données observationnelles, les sources po- tentielles de biais par variable omise sont presque illimitées. Une des compétences les plus utiles pour un chercheur est la capacité d’iden- tifier ces sources de biais. Le chercheur qui observe une corrélation entre deux variables doit faire preuve d’imagination scientifique afin de penser aux tiers facteurs pertinents. C’est là un travail créatif et théorique qui doit être soutenu par notre connaissance qualitative de l’objet d’étude ainsi que par les études antérieures. Ce travail peut aussi être appuyé par l’analyse graphique ou algébrique.

Analyse graphique

Pour voir comment l’analyse graphique aide à appréhender le biais par variable omise, il est utile de considérer des exemples concrets.

Est-ce que les livres causent le succès scolaire ?

Plusieurs chercheurs ont observé une forte association entre le nombre de livres sur les étagères d’une maison et le succès scolaire des enfants qui y habitent. Sur la base de cette association, un politicien pourrait tirer les conclusions suivantes : (1) augmenter le nombre de livres dans une maison causerait une amélioration de la performance des enfants qui y habitent ; (2) le gouvernement devrait mettre en place un programme massif d’achat de livres pour enfants.2

Est-ce que ces conclusions causales sont justifiées ? Pour répondre à cette question, il est utile de représenter notre modèle théorique sous la forme d’un GOA :

2. Depuis 1995, la fondation Dolly Parton’s Imagination Library a distribué gratuitement plus de 100 millions de livres pour enfants.

Livres à la maison Performance scolaire de l’enfant Éducation des parents

Ce graphe encode l’intuition théorique de base : le nombre de livres dans une maison pourrait causer le succès scolaire des enfants. Par contre, nous voyons qu’il y a une troisième variable à considérer : le niveau d’éducation des parents. Les parents plus éduqués achètent plus de livres et ils transmettent des compétences scolaires à leurs en- fants (Engzell, 2019). Cette troisième variable ouvre un chemin par la porte arrière entre la variable indépendante et la variable dépendante. Comme nous l’avons vu dans le chapitre 6, un chemin ouvert par la porte arrière biaise les résultats de l’analyse causale. Pour estimer l’ef- fet du nombre de livres sur le succès scolaire, il faut bloquer ce chemin en contrôlant le niveau d’éducation des parents :

Livres Éducation Performance

Étudier seulement l’association bivariée entre livres et performance sans contrôler l’éducation des parents produirait une conclusion erro- née. Si la vraie cause du succès scolaire est la transmission du savoir des parents à l’enfant, un programme gouvernemental d’achat de livres risque d’être inefficace.

Est-ce que l’alcool cause le diabète ?

Le lien entre la consommation d’alcool et l’état de santé est l’objet de nombreuses études, mais les chercheurs arrivent souvent à des conclu- sions contradictoires. Dans une surprenante étude, Holst et al. (2017) analysent un sondage mené auprès de 70 000 résidents du Danemark et estiment que la consommation de bière est associée à un risque réduit de diabète. En contraste, une étude de Griswold et al. (2018) conclut qu’il est plus sûr de ne pas consommer d’alcool du tout.

Il faut être prudent avant de tirer des conclusions causales sur la base de telles études, parce que plusieurs tiers facteurs pourraient fausser l’analyse. Par exemple, les gens qui choisissent un régime alimentaire

faible en calories pourraient éviter l’alcool, puisque les boissons alcoo- lisées ont souvent un haut contenu calorique. De même, les sportifs pourraient s’abstenir de consommer de l’alcool, pour éviter que leur performance soit affectée :

Alcool Diabète Régime

alimentaire

Activité physique

Dans ce modèle théorique simpliste, il y a deux sources de biais par variable omise, représentées par les deux chemins ouverts par la porte arrière. Pour obtenir un estimé non biaisé de l’effet de l’alcool sur la santé, il faut bloquer ces deux chemins :

Alcool Régime alimentaire Diabète Alcool Activité physique Diabète

Si un chercheur veut estimer l’effet causal de l’alcool sur la santé à l’aide de données d’observation (p. ex., un sondage), il doit identifier toutes les variables susceptibles d’introduire un tel biais par variable omise. Cet exercice théorique lui permettra de déterminer quelles va- riables de contrôle doivent être incluses dans un modèle de régression multiple.

Solution graphique

Les exemples ci-haut illustrent bien la méthode d’analyse graphique qui permet de déterminer si nos estimés souffrent d’un biais par va- riable omise. Spécifiquement, nos estimés seront non biaisés si les deux conditions de l’identification causale introduites dans le chapitre 6 sont satisfaites :

1. Le modèle ne contrôle pas un descendant de la cause. 2. Tous les chemins par la porte arrière sont bloqués.

Dans une étude observationnelle, l’analyste ne sera généralement pas en mesure de garantir que ces deux conditions soient remplies. Il devra plutôt faire preuve de créativité scientifique pour identifier et contrôler les principales sources de biais par variable omise.

Analyse algébrique

L’analyse graphique du biais par variable omise est utile, puisqu’elle nous permet de déterminer si un effet causal est identifiable. Par contre, cette analyse ne nous donne pas suffisamment d’information pour anticiper la taille ou la direction du biais. Pour cela, nous devons nous tourner vers l’analyse algébrique.

Nous tentons d’estimer l’effet causal deXsurY à l’aide d’un modèle de régression bivarié :

Y = α0+ α1X + ν (8.1)

Dans ce modèle,α0est la constante,α1est le coefficient de régres-

sion etνest le terme résiduel. Comme nous l’avons vu dans le chapitre 5, l’estimé du coefficientα1par les moindres carrés ordinaires est ob-

tenu en appliquant cette formule :

ˆ

α1=

Cov(Y,X)

Var(X) (8.2)

Si une variable omiseAdétermine la valeur deY, le modèle 8.1 est incomplet. Dans ce cas, le modèle « véridique » ou « complet » pourrait être :

Y = β0+ β1X + β2A + ε (8.3)

Est-ce que la variableAintroduit un biais par variable omise dans l’estimé du coefficientα1? Est-ce que le coefficient du modèle incom-

plet est égal au coefficient du modèle complet (α1= β1) ? Est-ce que

l’analyste peut ignorerA? Est-ce queαˆ1est un estimé causal ?

Pour répondre à ces questions, nous substituons l’équation 8.3 dans l’équation 8.2 et nous appliquons les règles de manipulation de la co- variance présentées au chapitre 20 :3

ˆ α1 = Cov(Y, X) Var(X) = Cov0+ β1X + β2A + ε, X) Var(X)

= Cov0, X) +Cov1X, X) +Cov2A, X) +Cov(ε, X)

Var(X)

= Cov1X, X) +Cov2A, X) +Cov(ε, X)

Var(X)

= β1Cov(X, X) + β2Cov(A, X) +Cov(ε, X)

Var(X) = β1+ β2· Cov(A, X) Var(X) + Cov(ε, X) Var(X) (8.4)

Auparavant, nous avons présumé que le modèle 8.3 était « véri- dique » ou « complet ». Cela signifie qu’il ne souffre pas d’un biais par variable omise et queX⊥ ε. En moyenne, la covariance entreXetε

sera donc égale à zéro, et le dernier terme de l’équation 8.4 tombe :

ˆ

α1= β1+ β2·

Cov(A, X)

Var(X) (8.5)

Cette équation montre que le coefficient estimé par le modèle court

ˆ

α1n’est pas égal au paramètreβ1qui nous intéresse. L’estiméαˆ1est

biaisé.

De plus, l’équation 8.5 montre que le biais est égal àβ2· Cov(A,X)Var(X) .

La fraction dans cette expression est équivalente au coefficient de ré- gression de ce modèle :

A = π0+ π1X + γπ1=

Cov(A,X)

Les résultats obtenus jusqu’à maintenant peuvent être résumés par l’équation suivante : ˆ α1 |{z} Estimé = Véritéz}|{ β1 + β2· π1 | {z } Biais (8.7)

Le biais par variable omise qui affecte le modèle 8.1 dépend donc de deux facteurs :

1. β2: La relation entre la variable omise (A) et la variable dépen-

dante (Y).

2. π1: La relation entre la variable omise (A) et la variable indé-

pendante (X).

Si l’un ou l’autre de ces coefficients est égal à zéro, nous pourrions estimer le modèle 8.1 et ignorer la variableAsans craindre que nos résultats soient biaisés.

L’équation 8.7 est utile, puisqu’elle nous informe sur la direction et la force du biais par variable omise. Spécifiquement, la direction du biais dépend du signe des deux relations qui le constituent, et sa taille dépend de la force des deux relations en question. Plus les relationsβ2

etπ1sont fortes, plus le biais risque d’être important. Le tableau 8.1

montre le signe du biais avec différentes combinaisons deπ1etβ2.

TABLEAU 8.1.

Signe du biais par variable omise en fonction des relations entre la variable dépendante Y , la variable explicative X et la variable omise A (modèles 8.1, 8.3, 8.6).

Relation entreAetY

+ -

Relation entre + Biais positif Biais négatif

Est-ce que les livres causent le succès scolaire ?

Retournons à l’exemple introduit plus tôt. Un chercheur qui s’in- téresse à l’effet causal des livres sur la performance scolaire pourrait estimer trois modèles analogues aux équations 8.1, 8.3, 8.6 :

Performance= α0+ α1Livres+ ν

Performance= β0+ β1Livres+ β2Éducation des parents+ ε

Éducation des parents= π0+ π1Livres+ γ

Le premier de ces trois modèles risque d’offrir un estimé biaisé de l’effet des livres sur la performance scolaire (αˆ1). Spécifiquement,

l’équation 8.7 montre que le coefficient de régression du modèle in- complet est égal à :

ˆ

α1 = β1+ β2· π1 (8.8)

Si l’éducation des parents est positivement associée à la performance scolaire des étudiants (β2 > 0), et si l’éducation des parents est posi-

tivement associée au nombre de livres disponibles (π1 > 0), alors le

biais par variable omise est positif :β2· π1 > 0. Estimer un modèle

naïf bivarié tend à surestimer l’effet positif des livres sur la performance des étudiants.

Plus la relation entre l’éducation des parents et la performance sco- laire est forte, plus le coefficient bivarié risque d’être biaisé. Plus la re- lation entre l’éducation des parents et le nombre de livres à la maison est forte, plusαˆ1risque d’être biaisé.

Est-ce que l’alcool cause le diabète ?

Un chercheur qui s’intéresse à l’effet de l’alcool sur la santé pourrait estimer trois modèles :

Santé= α0+ α1Alcool+ ν

Santé= β0+ β1Alcool+ β2Exercice+ ε

Exercice= π0+ π1Alcool+ γ

Le premier de ces trois modèles risque d’offrir un estimé biaisé des bienfaits de l’alcool pour la santé (αˆ1). Si l’exercice physique est lié à

négativement associée à l’exercice physique (π1< 0), alors le biais par

variable omise est négatif :β2·π1< 0. Estimer un modèle naïf bivarié

tend à sous-estimer les bienfaits de la consommation d’alcool pour la santé (ou à exagérer ses méfaits).

Les limites de l’approche algébrique

L’approche algébrique adoptée dans cette section nous permet de développer notre intuition concernant la direction et la force poten- tielle du biais par variable omise. Par contre, l’équation 8.7 mesure le biais qui survient dans un modèle avec seulement deux variables ex- plicatives. En pratique, il y a souvent beaucoup de variables explica- tives, et nous pouvons rarement toutes les inclure dans nos modèles de régression. Si plusieurs variables introduisent des biais de différentes tailles et de différents signes, il devient difficile d’anticiper la taille ou la direction du biais total. Il est donc important d’interpréter les résul- tats de notre analyse algébrique prudemment. L’équation 8.7 est une règle approximative plutôt qu’une loi déterminante.

Solutions

La meilleure stratégie pour éliminer le biais par variable omise est souvent d’exécuter une expérience avec traitement aléatoire. Dans le chapitre 12, nous verrons que ce type d’expérience n’est pas, en moyenne, affectée par le biais par variable omise. S’il est impossible de mener une expérience aléatoire, d’autres méthodes peuvent parfois limiter le biais par variable omise. Nous pourrions bloquer les che- mins par la porte arrière en contrôlant les variables omises dans un modèle de régression multiple (chapitres 5, 6, 16) ; employer une mé- thode quasi expérimentale (chapitre 13) ; estimer un modèle de régres- sion par variable instrumentale (chapitre 14) ; ou exécuter une analyse de sensibilité.

Chapitre 9