• Aucun résultat trouvé

La première partie du livre a présenté plusieurs techniques d’ana- lyse descriptive, dont la visualisation, les statistiques univariées, les mesures d’association bivariée, et la régression linéaire. Malheureuse- ment, les résultats produits par ces techniques ne peuvent pas automa- tiquement être interprétés de façon causale, puisque la causalité n’est pas une propriété purement statistique ou mathématique. Pour déter- miner si une relation est causale, nous devons complémenter l’analyse

statistique par une analyse théorique.

Ce chapitre présente le graphe orienté acyclique (GOA), un outil qui nous permettra d’identifier les conditions nécessaires pour donner une interprétation causale à des résultats statistiques. Les GOA nous aideront aussi à identifier les variables de contrôle qui doivent être in- cluses dans un modèle de régression multiple de même que celles qui doivent en être exclues.

La théorie causale structurelle

La théorie causale structurelle est une théorie générale de la cau- salité fondée sur la comparaison de mondes contre-factuels. Dans son livre Causality, Pearl (2000) montre comment les comparaisons contre-factuelles peuvent être analysées graphiquement avec un outil appelé le « graphe orienté acyclique ». Les GOA offrent un vocabulaire puissant et intuitif pour encoder visuellement nos théories et nos hy- pothèses de recherche.

Pour dessiner un GOA, une analyste doit d’abord mobiliser ses connaissances du domaine d’étude. Celles-ci pourraient être dérivées logiquement d’une théorie, être informées par une analyse empirique ou tirées d’études scientifiques antérieures. Sur la base de ces connais- sances de fond, une chercheuse identifie les variables pertinentes à sa

théorie et trace des flèches pour représenter les relations causales entre chaque variable.

Par exemple, imaginez qu’une chercheuse tente de mesurer l’effet de l’éducation sur l’idéologie politique. Des études antérieures suggèrent qu’en moyenne (1) l’éducation augmente le revenu individuel ; (2) le re- venu individuel augmente l’appui aux partis politiques qui promettent des baisses d’impôt ; (3) le revenu des parents augmente l’éducation de leurs enfants ; et (4) le revenu des parents augmente le revenu de leurs enfants.

Ces relations causales peuvent être représentées par le GOA suivant :

Éducation individuelRevenu

Revenu des parents

Idéologie politique

Dessiner un GOA remplit trois fonctions principales. D’abord, toute analyse causale repose nécessairement sur des postulats théoriques, et pas seulement sur des relations mathématiques ou statistiques. Dessi- ner un GOA force l’analyste à révéler ses postulats et ses hypothèses de recherche de façon explicite et transparente.

Ensuite, les techniques formelles que nous introduirons dans ce chapitre permettent d’analyser un GOA et de répondre à la question suivante : est-il possible d’identifier l’effet causal de la variable indé- pendante sur la variable dépendante ?

Finalement, étudier un GOA nous permet d’identifier les variables de contrôle qui doivent être incluses dans son modèle de régression multiple ainsi que celles qui doivent en être exclues.

Graphes orientés acycliques

La première caractéristique notable du GOA est qu’il s’agit d’un graphe « orienté ». Le GOA est orienté parce que les flèches qui le com- posent indiquent la direction de la relation causale qui lie les variables.

Dans un GOA, les relations causales sont toujours unidirection- nelles.1 Lorsqu’on dessine une flèche qui pointe deAversB, on si-

gnale queAcauseB, et non l’inverse :

A→ B

Lorsque deux relations causales se suivent, on dit qu’elles forment un « chemin ». Par exemple, siAcauseBetBcauseC, nous obtenons le chemin suivant :

A→ B → C

On dit qu’une variable est la « descendante » d’une autre variable si elle est en aval dans le chemin. On dit qu’une variable est « l’ancêtre » d’une autre variable si elle est en amont dans le chemin. Dans l’exemple ci-haut,A et B sont les ancêtres de C, tandis queB et C sont les descendants deA.

Dans la théorie causale structurelle,AcauseCsi, et seulement si,

Aest l’ancêtre deC. Dit autrement,AcauseCsi, et seulement si, il existe un chemin entreAetCoù toutes les flèches pointent versC.

Dans ce chemin,AcauseC:

A→ B → C

Dans ce chemin,Ane cause pasC:

A→ B ← C

Lorsqu’il n’y a pas de chemin causal entreAetC, cela signifie qu’il n’y a pas de relation causale entre ces deux variables. En moyenne, un estimateur non biaisé de l’effet causal deAsurCdevrait alors produire un estimé égal à zéro.

Graphes orientés acycliques

La deuxième caractéristique importante du GOA est qu’il est « acy- clique ». Dans ce contexte, le terme « acyclique » signifie que le GOA ne contient pas de chemin circulaire qui nous ramène au point de dé- part, et où toutes les flèches pointent dans la même direction.

Par exemple, ce graphe est un GOA valide, puisqu’il ne comprend pas de cycle :

A B

C D

Ce graphe n’est pas un GOA valide, puisqu’il comprend un cycle :

A B

C D

Cette caractéristique du GOA est importante, parce que les résultats théoriques que nous introduirons plus bas ont seulement été prou- vés mathématiquement dans le contexte de graphes acycliques (Pearl, 2000).

Effet causal vs information statistique

Pour analyser un GOA, il est utile de distinguer deux phénomènes : l’effet causal et l’information statistique.

Précédemment, nous avons vu qu’un GOA peut seulement repré- senter un effet causal unidirectionnel. Dans un GOA, l’effet causal cir- cule de la cause à l’effet, mais jamais de l’effet à la cause. En contraste, l’information statistique peut circuler dans les deux directions. La cause peut nous donner de l’information sur l’effet, et l’effet peut nous donner de l’information sur la cause.2

Considérez le GOA suivant :

Pluie Humidité du sol

Lorsqu’il pleut, le sol devient humide. Dans cet exemple, la pluie cause l’humidité du sol et non le contraire. La relation causale est uni- directionnelle. Par contre, si nous voyons que le sol est humide, nous pouvons déduire qu’il a plu récemment. Le sol humide nous donne

2. Plus formellement, on dit que l’information statistique circule entre deux variables A et C si observer la valeur de A change notre estimé de P (C = c), et si observer la valeur de C change notre estimé de P (A = a).

de l’information pertinente pour déduire (ou prédire) s’il y a eu de la pluie au cours des dernières heures. L’effet nous donne de l’informa- tion sur la cause. Même si les relations causales sont toujours unidi- rectionnelles, l’information statistique peut parfois circuler dans les deux directions.

L’information statistique peut aussi circuler sur des chemins plus complexes. Par exemple, les individus qui ont des comportements sexuels risqués sont plus nombreux à contracter une infection trans- mise sexuellement (ITS) et à sentir une brulûre à la miction :

Comportement

à risque Infection Brûlure

Dans ce GOA, la relation est unidirectionnelle, passant de « Com- portement à risque » à « Infection », à « Brûlure », dans cet ordre. Par contre, l’information statistique circule dans les deux sens.

L’extrémité gauche du chemin nous permet de mieux prédire l’extré- mité droite du chemin : les individus qui ont un comportement sexuel à risque ont plus de chances de souffrir des symptômes d’une ITS. Un ami qui constate le comportement risqué d’Alexandre le prévient qu’il risque de sentir une brûlure bientôt.

L’extrémité droite du chemin nous permet de mieux prédire l’extré- mité gauche du chemin : les individus qui sentent une brûlure à la mic- tion ont plus de chances d’avoir contracté une ITS en s’engageant dans des activités à risque. Un médecin qui constate qu’Alexandre ressent une brûlure à la miction lui pose des questions sur son comportement sexuel et recommande un test de dépistage sanguin.

Lorsque l’information statistique circule entreAetC, on dit que le chemin entre ces deux variables est « ouvert ». Lorsque l’informa- tion ne circule pas entreAetC, on dit que le chemin entre ces deux variables est « fermé ».

Typologie des chemins

Qu’est-ce qui détermine si un chemin est ouvert ou fermé ? Pour répondre à cette question, il faut créer une typologie des chemins. On peut distinguer trois structures causales :

1. Fourchette :A← B → C

2. Chaîne :A→ B → C

3. Collision :A→ B ← C

Le reste de cette section décrit les caractéristiques de ces trois types de chemins. Deux conclusions seront particulièrement importantes : (1) les chaînes et les fourchettes sont ouvertes, mais les collisions sont fermées ; (2) lorsqu’un modèle de régression contrôle le maillon cen- tral d’un chemin, il renverse le flot d’information : un chemin fermé devient ouvert, et un chemin ouvert devient fermé.

Fourchette :A← B → C

Une fourchette est composée d’une causeBet de deux effetsAetC. Par exemple, une canicule a deux conséquences : elle fait monter la co- lonne de mercure du thermomètre et augmenter les ventes de crèmes glacées.

Mercure Température Crème glacée

Une fourchette est ouverte parce que l’information statistique circule

entre ses deux extrémités : l’extrémité gauche de la fourchette nous per- met de mieux prédire l’extrémité droite, et vice versa. Lorsque nous voyons le mercure monter, nous pouvons prédire que les ventes de crèmes glacées augmenteront. À l’inverse, si les ventes de crèmes gla- cées sont élevées, nous pouvons prédire que la colonne de mercure du thermomètre est haute. Observer une extrémité de la fourchette nous donne de l’information sur l’autre extrémité. La fourchette est ouverte. Dans le chapitre 5, nous avons étudié le modèle de régression li- néaire par les moindres carrés. Ce modèle nous permettait d’analyser les données en « contrôlant » ou en « gardant constantes » certaines va- riables. Intuitivement, lorsqu’on contrôle une variable dans un modèle de régression, c’est comme si on fixait cette variable à une seule valeur constante et connue. Lorsqu’on contrôle une variable dans un modèle de régression, c’est comme si on observait cette variable prendre une valeur donnée. Ce contrôle a un effet déterminant sur le flot d’infor- mation dans un GOA.

Contrôler le maillon central d’une fourchette ferme le chemin. Par

exemple, si nous savons déjà que la température extérieure est de 35 °C, il est inutile de regarder le mercure pour prédire les ventes de

crèmes glacées. Si on connaît déjà la température exacte, la hauteur de la colonne de mercure ne nous donne aucune information addition- nelle pour mieux prédire ; connaître le maillon central de la fourchette est suffisant. Lorsque nous fixons le maillon central d’une fourchette, les deux extrémités ne « communiquent » plus.

Chaîne :A→ B → C

Une chaîne est une séquence de deux relations causales :AcauseB, etBcauseC. Nous avons déjà considéré un exemple de chaîne dans la section précédente : les comportements sexuels risqués augmentent la probabilité de contracter une ITS, et une infection augmente le risque de sentir une brulûre à la miction.

Comportement

à risque Infection Brûlure

Une chaîne est ouverte parce que l’information statistique circule

entre ses deux extrémités : connaître la cause nous donne de l’infor- mation pertinente pour prédire l’effet, et connaître l’effet nous donne de l’information pertinente pour prédire la cause. Observer une extré- mité de la chaîne nous donne de l’information sur l’autre extrémité. La chaîne est ouverte.

Contrôler le maillon central d’une chaîne ferme le chemin. Par

exemple, le médecin d’Alexandre pourrait mesurer directement le maillon central de la chaîne (« Infection ») en lui administrant un test de dépistage sanguin. Imaginez que ce test révèle qu’Alexandre n’a pas contracté d’ITS. Après avoir mesuré l’infection directement, l’extré- mité gauche de la chaîne ne nous aide plus à prédire l’extrémité droite de la chaîne. Connaître les habitudes sexuelles d’Alexandre ne nous aide pas à prédire s’il ressent une brulûre, puisque le médecin sait déjà qu’Alexandre n’a pas contracté d’ITS. Après avoir mesuré l’infection directement, l’extrémité droite de la chaîne ne nous aide plus à pré- dire l’extrémité gauche de la chaîne. Puisque la sensation de brulûre n’est pas liée à une ITS, ce symptôme ne nous donne pas d’indice pour prédire le comportement sexuel d’Alexandre.

Après avoir observé le maillon central d’une chaîne, l’effet ne nous aide plus à prédire la cause. Lorsque nous fixons le maillon central d’une chaîne, ses deux extrémités ne « communiquent » plus. Lorsque nous contrôlons la variable au milieu d’une chaîne, le chemin devient fermé.

Collision :A→ B ← C

Une collision est composée de deux variablesAetCqui contribuent à causer un même effetB. Par exemple, une équipe de hockey a plus de chances de remporter la victoire si elle joue bien et si l’arbitre est biaisé en sa faveur.

Performance

de l’équipe Victoire

Biais de l’arbitre

Une collision est fermée parce que l’information statistique ne circule

pas entre ses deux extrémités. Le fait qu’un arbitre soit biaisé en faveur d’une équipe ne nous donne pas d’information sur la qualité du jeu de cette équipe.3De même, la performance d’une équipe nous en dit peu sur le biais potentiel de l’arbitre. Observer une extrémité de la collision ne nous donne pas d’information sur l’autre extrémité. Le chemin est fermé.

Contrôler le maillon central d’une collision ouvre le chemin. Si nous

savons qu’une équipe a gagné même si elle a mal joué, les chances que l’arbitre soit biaisé sont plus élevées. À l’opposé, si nous savons qu’une équipe a gagné même si l’arbitre n’était pas biaisé, les chances que l’équipe ait bien joué sont plus hautes. Connaître le maillon cen- tral d’une collision nous permet de faire le lien entre ses extrémités. Lorsque nous fixons le maillon central, les deux extrémités « commu- niquent ».

Fourchettes, chaînes et collisions

En somme, les trois structures causales ont les propriétés suivantes :

A← B → C Ouvert

A→ B → C Ouvert

A→ B ← C Fermé

Lorsque l’analyste contrôle une variable dans un modèle de ré- gression multiple, nous traçons un cadre autour de la variable. Par exemple, si l’analyste contrôle la variable B, nous écrivons : B . Comme nous l’avons déjà vu, un modèle statistique qui contrôle le

3. Ceci requiert que les arbitres ne tentent pas systématiquement d’aider les équipes gagnantes ou perdantes.

maillon central du chemin renverse le flot d’information : la fourchette et la chaîne deviennent fermées, et la collision devient ouverte :

A← B → C Fermé

A→ B → C Fermé

A→ B ← C Ouvert

Finalement, il est utile de souligner un phénomène contre-intuitif : contrôler le descendant d’une collision ouvre le chemin. Par exemple, dans le GOA suivant, le chemin entreAetCest fermé par la collision

A → B ← C. Par contre, si on contrôleD, le flot d’information est renversé, et le chemin entreAetCdevient ouvert :

A B C

D

Combinaisons de fourchettes, chaînes et collisions

Un chemin peut être composé de plusieurs fourchettes, chaînes ou collisions. Un chemin complexe est ouvert si, et seulement si, tous les maillons qui le composent sont ouverts. Dès qu’un seul des maillons est fermé, le chemin dans son ensemble est fermé.

Par exemple, ce chemin entreAetEest ouvert, parce que tous les maillons qui le composent sont des fourchettes ou des chaînes :

A← B ← C ← D → E Ouvert

En contraste, ce chemin entreAetEest fermé, parce qu’il comporte une collision :

Si au moins un des maillons du chemin entreAetEest fermé, le chemin entier est fermé. Par exemple :

A← B ← C ← D → E Fermé

A← B ← C ← D → E Fermé

A→ B ← C → D → E Ouvert

Puisque que contrôler le descendant d’une collision renverse le flot d’information, ce chemin est ouvert :

A B C D E

F

Identification causale

Nous avons maintenant les outils nécessaires pour décortiquer un GOA et pour déterminer sous quelles conditions un modèle statistique permet d’identifier l’effet causal. Les deux conditions suivantes sont suffisantes pour que l’effet causal deXsurY soit identifiable :

1. Le modèle statistique ne contrôle pas un descendant deX. 2. Tous les « chemins par la porte arrière » entreXetY sont fer-

més.

La condition d’identification 1 identifie les variables qui doivent être exclues d’un modèle statistique, et la condition d’identification 2 identifie les variables de contrôle qui doivent être incluses. Nous al- lons maintenant considérer ces deux conditions fondamentales en sé- quence.

Condition 1 : Ne pas contrôler les descendants deX

La première règle de l’identification causale est qu’il faut éviter de contrôler une variable qui est en aval de la cause qui nous intéresse (c.- à-d., un descendant). En général, un modèle statistique qui contrôle un descendant deXn’identifiera pas l’effet causal total deXsurY.4

4. Parfois, lorsqu’un descendant ne se trouve pas sur un chemin qui lie la cause X à l’effet Y , contrôler cette variable n’affectera pas les estimés produits par notre modèle. Ce contrôle serait alors inoffensif, mais inutile.

Pour comprendre l’intuition qui motive cette règle, considérons un GOA qui représente un modèle théorique de la détermination des sa- laires en fonction du genre :

Genre

Occupation Salaire

Dans ce GOA, le genre peut avoir un effet sur le salaire à travers deux chemins. D’abord, il pourrait y avoir une discrimination directe, lors de la détermination des salaires. Ensuite, il pourrait y avoir un mécanisme indirect de discrimination structurelle, qui passe à travers l’occupation. Par exemple, si les femmes ou les personnes transgenres sont moins susceptibles d’être promues à des postes de direction au sein d’une entreprise, leurs salaires seront plus faibles. Une étude sur la discrimination « à occupation comparable », c’est-à-dire une analyse statistique qui contrôle l’occupation des individus, ignorerait un des principaux mécanismes qui lient le genre et le salaire. Dans ce type d’études, l’effet causal (total) du genre sur le salaire n’est pas identifié.5

Condition 2 : Bloquer les chemins par la porte arrière

La seconde règle de l’identification causale est que tous les chemins par la porte arrière doivent être fermés. Un « chemin par la porte ar- rière » est un chemin qui remplit deux conditions :

1. Le chemin lie la causeXà l’effetY.

2. Une des extrémités du chemin pointe versX.

Intuitivement, un chemin par la porte arrière représente « les causes de la cause » (le chemin pointe versX). Quand les facteurs qui dé- terminent la valeur de X sont liés à Y (le chemin est ouvert), la condition 2 de l’identification causale est violée, et il est impossible d’estimer l’effet causal deXsurY.

Pour vérifier si la condition 2 de l’identification causale est remplie, il faut procéder en trois étapes :

5. Au chapitre 18, nous verrons comment étudier les effets « partiels », que nous appellerons alors les effets « directs » et « indirects ».

1. faire la liste de tous les chemins qui lient la causeXà l’effetY, c’est-à-dire la liste de tous les chemins où la cause et l’effet sont à différentes extrémités ;

2. identifier les chemins dont une extrémité pointe versX; 3. vérifier si ces chemins sont ouverts.

Par exemple, imaginez qu’un chercheur s’intéresse à l’effet causal de l’éclatement familial (p. ex., divorce) sur la probabilité qu’une personne devienne itinérante :

Éclatement familial Itinérance Santé mentale

Ce GOA postule que l’éclatement familial cause l’itinérance. Il sug- gère aussi qu’un trouble de santé mentale pourrait être une cause com- mune aux deux autres phénomènes ; ce trouble pourrait augmenter la probabilité d’éclatement familial et d’itinérance. Ce tiers facteur ouvre un chemin par la porte arrière entre la cause et l’effet qui intéresse le chercheur.

Éclatement familial Santé mentale Itinérance Pour estimer l’effet causal de l’éclatement familial sur l’itinérance, il faut contrôler les troubles de santé mentale qui auraient pu causer les deux autres variables. Pour estimer l’effet causal, il faut fermer le chemin par la porte arrière.

Intuitivement, la règle 2 de l’identification causale nous indique comment éliminer les relations fallacieuses ou les autres explications possibles.

Exemples

Pour illustrer comment les règles de l’identification causales peuvent être déployées en pratique, nous revisitons le GOA avec le- quel nous avons ouvert le chapitre :

Éducation individuelRevenu

Revenu