• Aucun résultat trouvé

Définition et évaluation d'approches pour la validation des graphiques acycliques dirigés à partir de données

N/A
N/A
Protected

Academic year: 2021

Partager "Définition et évaluation d'approches pour la validation des graphiques acycliques dirigés à partir de données"

Copied!
70
0
0

Texte intégral

(1)

Définition et évaluation d'approches pour la validation

des graphiques acycliques dirigés à partir de données

Mémoire

Souleymane Gadio

Maîtrise en biostatistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Définition et évaluation d’approches pour la

validation des graphiques acycliques dirigés à partir

de données

Mémoire

Souleymane GADIO

Sous la direction de:

(3)

Résumé

L’évaluation de relations causales à l’aide de données observationnelles est une pratique cou-rante en épidémiologie. En présence de telles données, l’exposition d’intérêt est non rando-misée et l’estimation des effets peut être biaisée par l’existence de variables confondantes. Les graphes acycliques dirigés (DAG) permettent de représenter les relations causales pré-sumées entre les variables jugées pertinentes, ainsi que d’identifier les variables réellement confondantes, mais tracer un DAG peut être un défi majeur. Dans ce mémoire, nous avons étudié, développé et comparé différentes méthodes de validation des DAG. Un DAG est dit compatible avec les données si les indépendances statistiques sous-tendues par le DAG sont présentes dans les données. Nous avons considéré quatre méthodes statistiques paramétriques et deux non-paramétriques afin de tester l’ensemble de ces indépendances. À partir de don-nées synthétiques simulées, nous avons évalué la capacité de ces tests à distinguer les DAG valides de ceux non valides. Plusieurs simulations variant en fonction de la taille d’échantillon, du nombre et du type de variables, ainsi que de la forme de leurs relations ont été réalisées. Par ailleurs, nous avons illustré l’application de nos tests pour valider un DAG concernant l’impact des nouveaux retards vaccinaux aux visites de vaccination sur le statut vaccinal. La performance des tests varie d’un scénario à l’autre. La majorité des tests rejettent plus souvent la validité des DAG pourtant valides dans certains scénarios que l’erreur de type I prévue de 5% à l’exception du test d’équations structurelles WLSMV (mean and variance adjusted weighted least squares) qui donne des résultats assez satisfaisant, notamment en ab-sence de relations quadratiques dans la structure des données. Ce dernier test a toutefois une puissance relativement faible à détecter les DAG non valides dans certains cas. Par ailleurs, nos résultats illustrent que certains DAG non valides sont impossibles à discerner d’un DAG valide à partir des données observées. Les tests que nous avons explorés peuvent aider à dis-cerner certains problèmes dans les DAG. Malgré leurs limites, ces tests sont des outils avec un potentiel important pour aider les épidémiologistes à valider leurs hypothèses lorsqu’ils utilisent des DAG.

(4)

Abstract

Assessing causal relationships using observational data is common practice in epidemiology. In the presence of such data, the exposure of interest is non-randomized and the estimation of the effects may be biased by the existence of confounding variables. Directed acyclic graphs (DAGs) allow depicting the presumed causal relationships between variables deemed relevant, as well as identify truly confounding variables, but building a DAG can be a major challenge. In this thesis, we have developed and compared different DAG validation methods. A DAG is said to be compatible with the data if the statistical independencies underlying the DAG are present in the data. We consider three parametric and two nonparametric statistical methods in order to test all of these independencies. Using simulated synthetic data, we evaluate the ability of these tests to distinguish valid DAGs from those that are not valid. Several simulations varying according to the sample size, the number and type of variables, as well as the form of their relationships were performed. In addition, we illustrate the application of our tests to validate a DAG concerning the impact of new vaccine delays on vaccination visits at vaccination status. Tests’ performance vary from scenario to scenario. The majority of tests reject more often the validity of DAG yet valid in some scenarios than the type I error of 5% expected with the exception of the structural equation WLSMV (mean and variance adjusted weighted least squares) which gives fairly satisfactory results, especially in the absence of quadratic relationships in the data structure. However, this last test has a relatively low power to detect invalid DAGs in certain cases. Our results also illustrate that some invalid DAGs are impossible to discern from a valid DAG based on the observed data. The tests we have explored can help detect certain problems in DAGs. Despite their limitations, these tests are therefore tools with significant potential to help epidemiologists to validate their hypotheses when using DAGs.

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vi

Liste des figures vii

Remerciements viii

Introduction 1

1 Concepts d’inférence causale et introduction formelle aux DAG 4

1.1 Causalité et association statistique . . . 4

1.2 Le modèle contrefactuel . . . 5

1.3 Graphe causal et graphes acycliques orientés (DAG) . . . 10

2 Compatibilité DAG-données / tests d’indépendance 13 2.1 Notion d’indépendance statistique et indépendance conditionnelle . . . 14

2.2 Méthodes basées sur la corrélation partielle nulle et la régression . . . 14

2.3 Méthode basée sur le coefficient de régression . . . 18

2.4 Méthode basée sur les tests d’équations structurelles . . . 19

2.5 Limite des tests basés sur la compatibilité d’un DAG avec les données . . . 21

3 Simulations 23 3.1 Présentation des différents mécanismes . . . 23

3.2 Analyse et résultats . . . 27

4 Application 33 4.1 Objectifs et méthodologie . . . 33

4.2 Présentation et analyse descriptive des variables utilisées dans le DAG . . . 34

4.3 Analyse des résultats de l’application de la méthode WLSVM . . . 38

Conclusion 43

(6)

B Choix des variables potentiellement confondantes 49

C Noms et labels des variables 50

D Programme R 51

(7)

Liste des tableaux

3.1 Taux de rejet des tests α = 0,05 pour les implications corrects de la méthode

corrélation partielle paramétrique . . . 29

3.2 Taux de rejet des tests α = 0,05 pour les implications corrects de la méthode corrélation partielle non-paramétrique . . . 29

3.3 Taux de rejet des tests α = 0,05 pour les implications corrects de la méthode basée sur le test des coefficients de régression . . . 30

3.4 Taux de rejet des tests α = 0,05 pour les implications corrects des méthodes SEM Paramétrique et SEM de Bollen-Stine . . . 31

3.5 Taux de rejet des tests α = 0,05 pour les implications corrects de la méthode de test d’équations structurelles WLSMV . . . 31

4.1 Cohortes ciblées, taux de réponse et nombre d’enfants inclus dans l’analyse selon l’année . . . 34

4.2 Répartition des enfants selon le retard à 2 mois et la couverture vaccinale à 24 mois. . . 35

4.3 Répartition des participants selon les caractéristiques de l’enfant . . . 36

4.4 Répartition des participants selon les caractéristiques de la mère . . . 37

4.5 Répartition des participants selon les occasions manquées . . . 37

4.6 valeur-p des 54 tests d’indépendance effectués . . . 39

4.7 variables potentiellement dépendantes . . . 40

B.1 Choix des variables potentiellement confondantes . . . 49

(8)

Liste des figures

1.1 DAG représentant une variable intermédiaire M entre X et Y . . . 11

1.2 DAG représentant une cause commune Z entre X et Y . . . 11

1.3 DAG représentant une cause commune Z entre X et Y sans flèche de X à Y . . 11

2.1 DAG A représentant des implications correctes . . . 22

2.2 DAG B représentant des implications incorrectes dérivées du DAG A . . . 22

3.1 Configuration d’un scénario . . . 24

3.2 DAG correct représentant un contexte simple avec six variables confondantes où Y est l’issu, X l’exposition alors que les U1 à U6 représentent 6 variables

confondantes. . . 25

3.3 DAG incorrect représentant un contexte simple avec six variables confondantes où Y est l’issu, X l’exposition alors que les U1 à U6 représentent 6 variables

confondantes. . . 25

3.4 DAG correct sur la relation entre les exercices d’entraînement et le risque de

blessures. . . 26

3.5 DAG incorrect sur la relation entre les exercices d’entraînement et le risque de

blessures. . . 26

3.6 DAG correct sur la relation entre la bilirubine sérique et le risque d’hypertension 27

3.7 DAG incorrect sur la relation entre la bilirubine sérique et le risque d’hypertension 27

4.1 DAG correspondant à l’exposition nouveaux retards vaccinal à 2 mois . . . 38

4.2 Indépendances correspondant à l’exposition nouveaux retards vaccinal à 2 mois 39

(9)

Remerciements

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais témoigner toute ma gratitude.

Je souhaite avant tout remercier mes directeurs de recherche, Monsieur Denis Talbot et Ma-dame Marilou Kiely, pour avoir accepté de diriger mon projet de recherche. Je souhaiterais également les remercier pour le temps qu’ils ont consacré à m’apporter les encouragements et outils méthodologiques indispensables à la conduite de cette recherche mais aussi pour leurs lectures et relectures accompagnées d’annotations très claires.

Je tiens également à remercier Madame Awa Diop pour ses précieuses remarques et les échanges fructueux avec elle qui ont contribué grandement à la qualité de mon travail. Un grand merci à mes parents et ma très chère épouse pour leurs encouragements incessants. Enfin, je voudrais également exprimer ma reconnaissance envers toutes les personnes qui de près ou de loin ont contribué à la réalisation de ce travail.

(10)

Introduction

La causalité est une notion assez complexe. Elle peut être considérée sous différents angles d’une discipline à une autre. Souvent, les études épidémiologiques évaluent la présence d’as-sociations entre des facteurs d’exposition et le risque de survenue d’une maladie. Les épidé-miologistes cherchent ensuite habituellement à déterminer si l’association mise en évidence correspond à une relation de cause à effet. Dans ce contexte, l’inférence causale pourrait être définie comme étant le processus qui permet de tirer des conclusions sur des relations de cause à effet entre une exposition et une issue.

Les méthodes d’inférences causales sont relativement faciles à appliquer pour des don-nées provenant d’études randomisées dans la mesure où la randomisation rend les groupes d’exposition similaires entre eux en moyenne. La randomisation consiste à attribuer un trai-tement d’intérêt (ou une intervention) de façon aléatoire à chacun des groupes à l’étude. Lorsqu’elle est bien réalisée, les groupes devraient avoir des caractéristiques similaires et les différences d’issues observées peuvent être attribuées à l’effet de l’exposition. Cependant, les études randomisées peuvent s’avérer difficiles voire impossibles à mettre en œuvre pour des raisons pragmatiques, économiques ou éthiques. Pour pallier ces contraintes, les chercheurs ont souvent recours aux études observationnelles où l’exposition des sujets n’est ni décidée ni contrôlée par le chercheur.

La difficulté de l’inférence causale dans le cas de données observationnelles résulte du fait que dans certaines situations, l’exposition et l’issue sont expliquées par une même variable qui est inconnue ou mal mesurée dans l’étude. Ces variables peuvent être des variables confon-dantes qui créent une association non-causale entre l’exposition et l’issue. Ainsi, la difficulté à identifier les variables de confusion pour pouvoir en tenir compte de manière appropriée dans les analyses peut engendrer la présence d’un biais dans l’estimation de l’effet entre l’exposition et l’issue. À titre d’exemple, dans l’étude de la relation causale entre les nouveaux retards vaccinaux et le statut vaccinal à 24 mois, des auteurs (tableau B.1) ont émis l’hypothèse que le niveau de scolarité de la mère, le rang de l’enfant et la taille de la famille sont certaines des causes potentielles de l’exposition et de l’issue. Il est donc important de bien décrire les variables de l’association entre l’exposition et l’issue.

(11)

Dans ce contexte d’études observationnelles, l’approche proposée par Pearl (1995)[13] consiste à faire recours à un graphique acyclique orienté (« Directed Acyclic Graph » ou « DAG »). Il s’agit d’un outil graphique qui permet d’illustrer toutes les suppositions faites sur les liens de causalité entre les variables d’exposition et d’issue, d’identifier les variables réellement confondantes, mais aussi d’inférer des effets causaux à partir de données observa-tionnelles.

La construction d’un DAG est habituellement basée sur les connaissances, les écrits scienti-fiques et l’opinion d’experts. Compte tenu du fait que ces connaissances scientiscienti-fiques ne sont pas parfaites et ne permettent généralement pas de déterminer avec certitude comment sont reliées l’ensemble des variables, élaborer un DAG correct représente une tâche difficile. Or, la validité de l’identification des variables confondantes à partir du DAG, et ainsi de l’ajuste-ment pour les biais de confusion, dépendent de la validité du DAG. Pour être valide, un DAG doit répondre à un certain nombre d’hypothèses et correspondre aux données qu’il est censé représenter. L’évaluation de la cohérence d’un DAG avec l’ensemble de données s’appuie sur des restrictions statistiquement testables découlant de la propriété dite de « d-séparation », critère graphique permettant de déduire des indépendances statistiques (conditionnelles ou inconditionnelles) entre des variables à partir d’un DAG. Ainsi, pour qu’un DAG soit poten-tiellement correct il faudrait qu’aucune des indépendances impliquées par le DAG testées ne soit rejetée.

Différentes approches pour effectuer ces tests d’indépendance sont définies dans la littéra-ture. Une stratégie relativement simple pour tester une déclaration d’indépendance condition-nelle donnée telle que X ⊥ Y |Z, où ⊥ désigne l’indépendance statistique, consiste à régresser X sur Z puis Y sur Z et à tester une corrélation non nulle entre les résidus de ces régressions (Textor et al., 2016)[25]. Lorsqu’une régression linéaire est utilisée, cette approche équivaut à un test de corrélation partielle nulle. Pour les variables communément distribuées normale-ment, l’indépendance conditionnelle implique une corrélation partielle nulle. Cependant, pour les données non normales, la corrélation partielle peut être non nulle même lorsque les va-riables examinées sont conditionnellement indépendantes. Pour atténuer cette limite, Textor et al. (2016)[25] proposent d’utiliser des techniques de régression non paramétriques pour cal-culer les résidus. Une autre limite de ces approches réside sur le fait que dans la réalité, on se conforte à des situations où plusieurs variables entrent dans le processus de construction des DAG. Ceci nous amène à tester un grand nombre d’implications, entrainant ainsi le problème des tests multiples. Textor et al. (2016)[25] proposent comme solution de corriger les valeurs-p obtenues par la méthode de Bonferroni-Holm (Holm 1979)[7].

Une autre approche de validation des DAG est basée sur les modèles d’équations struc-turelles (Structural equation models ; SEM). Il s’agit de modèles statistiques combinant des hypothèses qualitatives de cause à effet avec des données pour tester les modèles causaux

(12)

et estimer les relations causales. Cette méthode basée sur les SEM consiste à comparer la matrice de covariance des variables impliquées par le modèle à celle observée à partir d’une statistique du khi-deux. Cependant, elle impose une hypothèse de relations linéaires entre les variables et de normalité multivariée des données. Une alternative utilisant le Bootstrap de Bollen-Stine a été utilisée par Talbot et al. (2016)[24] afin de tester un DAG concernant l’effet de l’activité physique sur la pression artérielle. Elle fournit des statistiques de tests robustes à la non-normalité des données.

Ce mémoire a pour objectif principal d’étudier et de comparer différentes méthodes de vali-dation des DAG à partir de données. Ces méthodes sont basées sur des tests d’indépendances statistiques (conditionnelles ou inconditionnelles). Nous proposons quatre méthodes statis-tiques paramétriques et deux non-paramétriques afin de tester l’ensemble des indépendances. À partir de données simulées, nous déterminerons la capacité de ces tests à distinguer les DAG corrects de ceux incorrects. Au meilleur de notre connaissance, une telle évaluation et comparaison de méthodes de validation de DAG n’a encore jamais été effectuée. Le mémoire sera divisé en cinq chapitres. Dans le premier, nous ferons une introduction formelle aux DAG et présenterons les outils et concepts d’inférence causale. Le deuxième aborde les diffé-rentes méthodes de tests d’indépendances statistiques (conditionnelles ou inconditionnelles). Le troisième chapitre présente une étude de simulations des différentes méthodes identifiées à travers plusieurs mécanismes de génération de données synthétiques. Le quatrième cha-pitre sera consacré à une application de nos tests sur des données d’enquêtes transversales sur les couvertures vaccinales réalisées tous les deux ans, depuis 2006, auprès d’échantillons représentatifs d’enfants de 1 an et 2 ans. Le dernier chapitre sera consacré aux conclusions.

(13)

Chapitre 1

Concepts d’inférence causale et

introduction formelle aux DAG

L’inférence causale désigne le processus par lequel on peut établir une relation de causalité entre différentes variables. Les méthodes d’inférence causale ont beaucoup progressé au cours des dernières décennies. Ce chapitre a pour but de définir certains concepts ainsi que les outils qui sont utilisés en inférence causale pour mieux comprendre la notion de causalité. Par ailleurs, une introduction formelle aux DAG sera effectuée. Pour finir, un bref aperçu des méthodes de validation des DAG sera présenté.

1.1

Causalité et association statistique

Une cause, en santé, est un événement, une condition ou une caractéristique (« exposition ») nécessaire à la survenue de l’évènement de santé au moment où il est survenu compte tenu des autres conditions présentes (Rothman et al., 2008)[17].

Une exposition X est une cause de l’issue Y si le fait de modifier la valeur de X entraîne une modification de la distribution de Y . Par exemple, si Y est la survenue d’une maladie, alors X serait une cause de Y si la modification de X conduit à une modification de la probabilité que Y survienne. Si Y est plutôt une variable continue, comme la tension artérielle, alors X serait une cause de Y si modifier X modifie la moyenne de Y ou sa variance, par exemple. Les relations de causalités sont habituellement évaluées à partir d’associations statistiques. Cependant, on ne peut déduire directement des relations de causalité à partir de simples asso-ciations. « Une association statistique ne peut être interprétée, sans de grandes précautions, comme une relation causale » (Raymond Boudon 1967)[3].

En effet, deux variables peuvent être associées statistiquement sans que l’une soit la cause de l’autre. A titre d’exemple, il est possible d’établir une association entre les doigts jaunes et la

(14)

présence d’un cancer du poumon, mais avoir des doigts jaunes n’est pas une cause du cancer du poumon. Une hypothèse plus crédible serait que la cigarette a causé à la fois des doigts jaunes et un cancer du poumon.

Dès lors, il est important de faire la différence entre association statistique et causalité. Trois conditions impliquent une relation causale entre X et Y :

• Existence d’association statistique entre X et Y ;

• La variable indépendante X survient avant la variable dépendante Y ; • L’association entre X et Y n’est pas due à une troisième variable.

Une autre façon de différencier les concepts associatifs et causaux, nette et facile à appliquer, a été formulée par Judea Pearl comme suit : « un concept associatif est toute relation qui peut être définie en termes de distribution conjointe des variables observées, et un concept causal est toute relation qui ne peut pas être définie à partir de la distribution seule. »

• Exemples de concepts associatifs : corrélation, dépendance, indépendance conditionnelle, régression, vraisemblance, etc.

• Exemples de concepts causaux : randomisation, influence, calcul d’effet, confusion, etc.

1.2

Le modèle contrefactuel

Le modèle contrefactuel est le modèle le plus utilisé pour l’inférence causale dans les études épi-démiologiques et médicales. Il a pris ses racines dans les travaux de Splawa-Neyman (1923)[21] et Fisher (1935)[6] dans le cadre d’expériences aléatoires et a ensuite été étendu par Rubin (1977)[19] en proposant un cadre plus général applicable aux études observationnelles. La causalité dans l’approche contrefactuelle est définie en comparant l’événement observé et l’événement contrefactuel ou évènement potentiel. Le cadre contrefactuel stipule qu’un événement X (exposition) peut être considéré comme une cause d’un événement Y (issue) si, contrairement aux faits, X ne s’était pas produit, alors Y ne se serait pas produit. À titre d’exemple, imaginons qu’un individu, Jean, ait à choisir entre deux sujets A et B lors d’un examen. Il choisit le sujet A et échoue. Bouleversé par le résultat, Jean déclare qu’il devait plutôt choisir le sujet B. Sa déclaration stipule que son échec est dû au fait d’avoir choisi le sujet A dans la mesure où il aurait réussi l’examen s’il avait choisi le sujet B. Nous noterons cependant qu’il est impossible de prouver la déclaration de Jean. Le seul moyen l’obligerait à choisir simultanément les deux sujets et à observer l’issue de chaque choix. Dès lors, il est important de bien noter que la valeur contrefactuelle n’est pas l’opposé de la réalisation. Elle décrit juste une autre réalité : celle où le sujet se trouverait dans l’état où il n’est pas observé.

(15)

Nous présentons ci-dessous une formalisation de l’effet causal individuel que nous venons d’introduire. Comme nous le verrons, cet effet ne peut toutefois généralement pas être estimé à partir des données. L’effet causal moyen est alors plutôt considéré habituellement.

1.2.1 Effet causal individuel

Notons, Y l’évènement d’intérêt (par exemple une maladie) que l’on appellera « issue » et X l’exposition dont on souhaite évaluer l’effet causal. Pour simplifier nos définitions, on considère une exposition binaire. Toutefois, le principe reste le même pour une exposition avec plus de deux modalités ou une exposition continue.

Ainsi, on peut définir, pour chaque sujet Yx=0, l’évènement qui serait observé si le sujet n’avait pas été exposé, et Yx=1, l’évènement qui serait observé si le sujet avait été exposé. Pour chaque individu, un seul de ces deux événements est effectivement observé, et l’autre est l’évènement contrefactuel.

Au niveau individuel, on dira qu’il y a un effet causal si Yx=0 6= Yx=1. L’effet causal de cette exposition sur cette maladie peut être différent d’un individu à un autre, compte tenu de la présence d’autres facteurs individuels. L’effet causal pour l’individu i est ainsi défini par :

βi = Yix=1− Yix=0. (1.1)

Cependant, le problème fondamental de l’inférence causale repose sur le fait qu’il est im-possible d’observer simultanément plusieurs versions de l’exposition pour un même individu. Autrement dit, nous ne pouvons observer que le résultat Yix=0 ou Yix=1.

La relation entre le résultat potentiel et le résultat observé est alors :

Yi = XiYixi=1+ (1 − Xi)Yixi=0. (1.2) Cette opération d’addition n’est pas formelle dans la mesure où :

Xi = 1 ⇒ 1 − Xi= 0.

Cette écriture sous-entend qu’il n’existe pas d’interaction entre les résultats potentiels.

1.2.2 Effet causal moyen

L’effet causal individuel est rarement identifiable à partir des données observées. En effet, seule une des deux variables potentielles est observée pour chaque individu. Il est donc commun de plutôt chercher à évaluer un effet causal au niveau d’un groupe ou d’une population

(16)

donnée. Ceci correspond à un effet causal moyen. Comme défini précédemment, les évènements observés pour un individu sont soit Yx=0 ou Yx=1.

Soit P (Yx=0 = 1) la proportion de sujets qui auraient été malades si toute la population avait été non exposée, et P (Yx=1 = 1) la proportion de sujets qui auraient été malades si toute la population avait été exposée. Au niveau de la population, il y a un effet causal si P (Yx=0= 1) 6= P (Yx=1 = 1).

L’effet causal moyen est défini par :

β = P (Yx=1= 1) 6= P (Yx=0 = 1).

Dans le cas d’une issue continue, on pourrait définir l’effet causal moyen sur l’ensemble de la population (ATE ; Average Treatment Effect) comme étant une différence d’espérance mathé-matique entre la situation où tous les sujets seraient exposés et celle où aucun sujet ne serait exposé :

AT E = E(Yix=1− Yix=0) = E(Yix=1) − E(Yix=0).

Trois principales hypothèses sont nécessaires pour l’identification de l’effet causal moyen sur l’ensemble de la population à partir des données d’une expérience randomisée : l’hypothèse de stabilité (SUTVA), l’hypothèse de cohérence et l’hypothèse de positivité.

(i) Hypothèse de stabilité (stable unit treatment value assumption ou SUTVA)

SUTVA est une hypothèse nécessaire pour définir l’issue potentielle. Elle stipule que le résultat potentiel de l’individu i, Yix ne devrait pas être affecté par l’exposition d’autres individus. Autrement dit, il doit y avoir absence d’interférences entre les individus. Cette hypothèse est souvent difficilement réalisable. Par exemple, dans le cas de certaines maladies infectieuses, la vaccination d’un individu donné peut influencer le risque d’être malade des autres individus en raison de la nature transmissible de la maladie étudiée et de la protection conférée par la vaccination.

(ii) Hypothèse de cohérence :

L’hypothèse de cohérence suppose qu’il y a une seule version d’une même exposition. Autre-ment dit, les issues potentielles pour chaque individu sous chaque exposition possible sont bien définies et prennent une valeur unique. S’il existe plusieurs versions d’une même exposition et si ces différentes versions donnent lieu à des issues potentielles différentes chez un même individu, cette hypothèse sera violée et un effet causal non ambigu ne peut être identifié.

(17)

Pour les expositions binaires, cette hypothèse permet d’exprimer l’issue observée en termes des issues potentielles comme nous l’avons fait à l’équation (1.2).

(iii) Hypothèse de positivité

Cette hypothèse stipule que chaque sujet dans la population doit avoir une probabilité non nulle de recevoir chaque valeur d’exposition. Pour les traitements binaires, elle exige que la probabilité de l’assignation au traitement soit strictement comprise entre 0 et 1. C’est-à-dire, si certaines sous-populations observées ont une probabilité nulle de recevoir (ou de ne pas recevoir) un traitement, il n’y a pas de sens dans ce cas à parler d’un effet de traitement étant donné que le contrefactuel n’existe pas dans les données observées. Elle peut être formulée comme suit :

0 < P (X = x) < 1 ∀x ∈ X , (1.3)

où P (X = a) est la distribution de X et X est le domaine des valeurs possibles de X. Sous ces hypothèses, l’estimation de l’effet causal moyen (ATE) peut se faire comme suit : soient n0 et n1 le nombre d’observations respectif dans le groupe traité (i.e., exposé) et le groupe de contrôle (i.e., non-exposé). Alors nous pouvons estimer sans biais E(Y0) par

¯

Y0 = P{i/xi=0} Yi n0

et E(Y1) par ¯Y1 = P{i/xi=1} Yi n1

où {i/xi = a} dénote l’ensemble des is tels que xi = a. (Rubin, 1974)[18].

En effet,

AT E = E(Y1− Y0)

= E(Y1) − E(Y0)

= E(Y1|X = 1) − E(Y0|X = 0)(Ya⊥ X par la randomisation)

= E   X {i/xi=1} Yi n1  − E   X {i/xi=0} Yi n0   = E( ¯Y1) − E( ¯Y0)

Ce résultat est valide dans le cadre d’une expérience randomisée idéale où le niveau d’ex-position est décidé de façon totalement aléatoire. De ce fait, toutes les caractéristiques pré-exposition des sujets, ainsi que les réponses potentielles sont, en moyenne, équilibrées entre les deux groupes (Talbot, 2015)[22].

(18)

1.2.3 Estimation de l’effet causal moyen avec des données observationnelles

Comme montré précédement, l’estimation de l’effet causal moyen dans le contexte d’études de randomisation est relativement simple. Dans ce cas, il est possible de construire aléatoi-rement un groupe de contrôle (i.e. le groupe non-exposé) avec des caractéristiques similaires à celles du groupe de traitement (i.e. le groupe exposé) et ainsi d’éliminer les potentielles biais de confusion. Cependant, les plans expérimentaux sont souvent irréalisables pour des contraintes d’ordres éthiques, logistiques, temporelles ou financières. Dès lors, les chercheurs doivent fréquemment recourir à données orbservationnelles provenant de dossiers adminis-tratifs, d’enquêtes ou de recensements. Il est cependant plus difficile d’accomplir d’estimer l’effet causal moyen à partir de ces données. En effet, en absence de randomisation, différents facteurs peuvent influencer à la fois le niveau d’exposition des sujets et leur réponse observée. Conséquemment, les réponses contrefactuelles ne sont pas nécessairement équilibrées entre le groupe exposé et le groupe non exposé. Ce qui laisse supposer la présence de potentiels biais de confusion dans les études observationnelles.

De façon pratique, nous avons E(Y1) 6= E(Y1|X = 1) et E(Y0) 6= E(Y0|X = 0) et il devient

donc impossible de déterminer une estimation sans biais de l’effet causal moyen du traitement par une simple comparaison entre les deux groupes.

Nous dirons donc qu’il y a absence de confusion pour la relation causale entre X et Y si et seulement si {Y (0), Y (1)} ⊥ X. Il s’agit de l’hypothèse forte d’ignorabilité.

Une solution pour obtenir une estimation sans biais de l’effet causal serait de contrôler pour un ensemble de variables Z confondantes satisfaisant l’hypothèse faible d’ignorabilité condi-tionnelle (Rosenbaum et Rubin, 1983)[14] suivante :

Yz⊥ X|Z = z pour tout x ∈ X et z ∈ {0, 1}. Ainsi, nous pouvons estimer l’ATE comme suit : AT E = E(Y1− Y0)

= E(Y1) − E(Y0)

= EE(Y1|Z = z)− EE(Y0|Z = z)(Théorème de l’espérance totale)

= EE(Y1|Z = Z, X = 1)− EE(Y0|Z = z, X = 0)(Ignorabilité conditionnelle) = E (E(Y |Z = z, X = 1)) − E (E(Y |Z = z, X = 0)) (SUTVA)

La quantité E (E(Y |Z = z, X = 1)) peut être estimée à partir des données observées grâce à l’hypothèse de positivité dans la mesure où certaines unités sont dans le groupe traité d’autres dans le groupe non traité.

(19)

1.3

Graphe causal et graphes acycliques orientés (DAG)

Les analyses graphiques sont de plus en plus utilisées pour l’étude de la causalité. Elles permettent de dessiner, à partir des hypothèses ou théories, les relations entre les variables et d’illustrer la manière dont on peut éventuellement modifier le cours des choses en agissant sur certaines variables.

Un DAG est un graphique permettant de représenter les relations entre différentes variables. Il facilite la visualisation des relations causales entre les variables d’un modèle. Plus particu-lièrement, il permet de représenter des distributions jointes de manière simples, de déduire les associations statistiques qu’implique un ensemble d’hypothèses causales et d’inférer des effets causaux à partir de données observationnelles.

Dans le contexte de données observationnelles, les DAG représentent un outil puissant pour identifier les facteurs confondants. L’hypothèse de causalité entre les variables représentées dans un DAG est qualitative et non paramétrique. Son identification des facteurs de confu-sion utilise la causalité entre les variables et ne s’appuie pas sur les connexions statistiques observées. Lorsque plusieurs variables sont impliquées, même s’il existe des variables non me-surables, la relation causale entre des variables telles que l’exposition, l’issue et les facteurs de confusion potentiels peut être représentée sur le graphique, facilitant ainsi aux chercheurs l’utilisation d’une série d’opérations simples et intuitives.

1.3.1 Vocabulaire et définitions

Il est important dans le cadre de ce mémoire de pouvoir lire et interpréter un DAG.

• Un DAG doit d’abord inclure des variables (nœuds). Ces variables peuvent être reliées par des flèches simples (ou unidirectionnelles ; les arêtes) représentant une hypothèse de relation de cause à effet directe (cause → résultat).

• Le graphe est dit dirigé car tous les arêtes sont des flèches. Il est acyclique car aucun chemin dirigé ne forme de boucle fermée, c’est-à-dire si on suit le chemin dirigé (dans le sens des flèches) à partir d’une variable, on ne retombera jamais sur la variable d’origine. • Si la flèche pointe de la variable X vers Y , s’il n’y a pas d’autres variables au milieu,

alors X est le parent de Y et Y est l’enfant de X (X → Y ).

• S’il y a au moins une autre variable M au milieu, alors X est l’ancêtre de Y , et Y est le descendant de X (X → M → Y ).

• Un chemin porte arrière entre X et Y est un chemin entre X et Y qui commence par une flèche pointant vers X. Donc X → M → Y n’est pas un chemin porte-arrière, mais X ← Z → Y en serait un.

• L’absence de relation causale entre X et Z (aucune flèche) est une hypothèse non-causale très forte indiquant que X ne cause pas Z.

(20)

X

M

Y

Figure 1.1 – DAG représentant une variable intermédiaire M entre X et Y

X

Z

Y

Figure 1.2 – DAG représentant une cause commune Z entre X et Y

X

Z

Y

Figure 1.3 – DAG représentant une cause commune Z entre X et Y sans flèche de X à Y .

• Si la flèche part de la variable X et pointe vers Z sans aucune autre variable au milieu (X est le parent de Z), tandis que si une autre flèche part de la variable Y et pointe vers Z sans aucune autre variable au milieu (Y est le parent de Z), on dira que Z est l’effet commun (progéniture) de X et Y . Aussi, Z serait un point de collision ou collisionneur (X → Z ← Y ) sur le chemin de X, Y et Z.

• Un chemin est bloqué (fermé) s’il inclut un collisionneur pour lequel on ne contrôle pas (ni pour un de ses descendants) ou s’il inclut un non-collisionneur pour lequel on contrôle.

• Un chemin qui n’est pas fermé est ouvert.

• Un DAG est dit causal s’il inclut toutes les causes communes (observées ou non) de toutes les variables représentées dans le DAG.

(21)

1.3.2 Notion de D-séparation

L’objectif principal d’un DAG est de représenter un diagramme de causalité potentiel. Ces relations causales présumées sous-tendent également des associations statistiques entre les variables dans le diagramme. Ainsi, deux variables (X et Y) peuvent-être statistiquement liées dans les trois situations suivantes :

• Si la variable X est la cause (directe ou indirecte) de la variable Y ou Y est la cause de X ;

• s’ils ont une cause commune Z ;

• s’ils ont un effet commun Z, alors X et Y sont toujours statistiquement liés au sein d’une strate donnée de Z.

Ces associations se traduisent par la présence de chemins ouverts entre X et Y et disparaissent lorsque tous les chemins entre X et Y sont bloqués. C’est-à-dire que lorsque l’exposition et les variables de résultat sont dans un chemin ouvert en même temps, l’exposition et l’issue seront liées. Si le chemin entre les deux est un chemin de blocage, l’exposition n’a rien à voir avec l’issue.

La propriété de d-séparation (dans laquelle le « d » signifie « dirigé ») est un critère graphique permettant de déduire des indépendances statistiques (conditionnelles ou inconditionnelles) entre des variables à partir d’un DAG. On dit que deux variables sont d-séparées par un ensemble Z si tous les chemins entre ces variables sont bloqués après contrôle pour Z. Au-trement dit, un ensemble de variables, Z, d-sépare deux variables X et Y lorsque tous les chemins entre X et Y sont bloqués par l’ensemble Z. Lorsque deux variables sont d-séparées par un ensemble Z, ces deux variables devraient être indépendantes conditionnellement à Z. L’identification des conditions de « d-séparation » peut être difficile à effectuer « manuelle-ment » dans le cas des DAG plus grands et plus complexes bien que dans chaque cas, le test de la propriété de « d-séparation » se résume finalement à l’examen de tous les chemins dans un DAG qui contiennent (au moins) trois variables. Des algorithmes ont été développés pour identifier l’ensemble des conditions de d-séparations sous-tendues par un DAG de façon efficace (Textor et al., 2016)[25]. Par exemple, le package R ’dagitty’ automatise l’application de la propriété d-séparation pour trouver l’ensemble des implications testables.

Nous verrons dans le chapitre qui suit l’importance de la propriété de d-séparation pour évaluer la compatibilité d’un DAG avec des données.

(22)

Chapitre 2

Compatibilité DAG-données / tests

d’indépendance

Utiliser un test mal adapté au type de données peut mener à un rejet d’un DAG pourtant compatible avec les données observées ou encore à un manque de puissance à détecter une incompatibilité du DAG avec les données. Comme évoqué dans l’introduction, l’évaluation de la cohérence d’un ensemble de données avec un DAG s’appuie sur des restrictions, sous forme d’indépendances conditionnelles ou inconditionnelles, statistiquement testables fournies par le critère de « d-séparation ». Par exemple, dans le modèle X → M → Y , la propriété de d-séparation implique que X et Y doivent être conditionnellement indépendants étant donné M (X ⊥ Y |M où ⊥ désigne l’indépendance statistique). En testant statistiquement de telles implications, il est possible d’évaluer si le DAG, comme spécifié, est cohérent avec l’ensemble de données qu’il est censé représenter. Si au moins une indépendance impliquée par le DAG ne tient pas dans l’ensemble de données, cela signifie que les processus causaux codés par le DAG ne peuvent pas avoir généré ces données.

Dès lors, il est important de bien tester l’ensemble des indépendances (conditionnelles et in-conditionnelles) générées. Cependant, la plupart des tests existants requièrent des hypothèses paramétriques contraignantes et peuvent ne pas s’appliquer à des contextes généraux. Pour pallier ce problème, des tests « semi-paramétriques » et « non-paramétriques » ont été pro-posés, mais ils font aussi face à des limites telles que le temps de calcul et la difficulté pour obtenir un seuil statistique. De plus, ces tests ne s’adaptent pas à tous les types de variables. Les prochaines sections portent sur un bref survol des méthodes pouvant être utilisées pour vérifier les implications d’un DAG.

Dans les lignes qui suivent, nous ferons un petit rappel des notions d’indépendance statistique et d’indépendance conditionnelle. Par la suite nous examinerons différentes méthodes pour tester nos hypothèses d’indépendances.

(23)

2.1

Notion d’indépendance statistique et indépendance

conditionnelle

Pour simplifier cette partie, nous supposerons que nos variables sont catégorielles ou binaires. Les différentes méthodes seront présentées sous formes de probabilités. Pour les variables continues, il suffit de remplacer les probabilités par des densités.

2.1.1 Indépendance statistique

Deux variables X et Y sont dites indépendantes (X ⊥ Y ) si et seulement si la probabilité conjointe de X et Y (c’est-à-dire la probabilité que X = x et Y = y) est le produit de la probabilité que la variable X prenne la valeur x et la probabilité que la variable Y prenne la valeur y. Autrement dit, PXY(x,y) = PX(x)PY(y).

Lorsque les données sont issues d’une loi gaussienne, il y a indépendance entre X et Y si leur corrélation est nulle. Dans le cas d’une indépendance simple (ou indépendance incondition-nelle), l’influence des autres variables n’est pas prise en compte. Pour prendre en compte cette influence nous avons recours à l’indépendance conditionnelle

2.1.2 Indépendance conditionnelle

Deux variables X et Y sont dites indépendantes conditionnellement à la variable Z(X ⊥ Y |Z) si et seulement si la probabilité conjointe de X et Y sachant Z = z est le produit de la probabilité de X = x sachant que Z = z et celle de la probabilité de Y = y sachant Z = z. On notera PXY |Z(x,y|z) = PX|Z(x|z)PY |Z(y|z).

La variable Z peut-être une variable unique ou représenter un ensemble de variables (cas d’un processus multivarié). Différentes méthodes sont exposées dans la littérature pour tester les indépendances conditionnelles. Nous en exposerons principalement 3.

2.2

Méthodes basées sur la corrélation partielle nulle et la

régression

Dans l’hypothèse de normalité de l’ensemble des variables, l’indépendance conditionnelle est équivalente à une corrélation partielle nulle et donc à un paramètre de régression nul dans le modèle linéaire correspondant (Baba et al., 2004)[2].

2.2.1 Méthode basée sur la corrélation partielle

Dans un premier temps, supposons que nous sommes dans un contexte de variables gaus-siennes. L’indépendance entre deux variables correspond donc à une corrélation partielle nulle entre ces deux variables.

(24)

De façon pratique, pour déterminer la corrélation partielle de deux variables Y et Z sachant un ensemble de variables X, il est plus simple de passer par la corrélation des résidus de régression de Y sur X avec ceux de la régression de Z sur X.

En effet, Cor(Y, Z|X) = Cor(εY, εZ),

où ˆY (X) est l’estimation linéaire de Y sachant X, εY = Y − ˆY (X) le résidu de Y sachant X et similairement pour ˆZ(X) et εZ. .

Il est donc important de déterminer le calcul du coefficient de corrélation des résidus de régression et de présenter son test de nullité.

Calcul du coefficient de corrélation des résidus de régression

Comme nous allons l’illustrer, plutôt que de calculer directement les corrélations entre les résidus de régression, il est possible d’exprimer la corrélation partielle comme une fonction des corrélations ordinaires bivarées entre Y , Z et X.

Dans le calcul de la corrélation partielle, on cherche à éliminer l’effet (linéaire) d’une ou de plusieurs variables avant de calculer les corrélations entre les variables qui nous inté-ressent. De manière générale, les corrélations partielles mettent en jeux deux variables (Y et Z par exemple) conditionnellement à un groupe de variables contenues dans la matrice X (X2,..., Xp). L’objectif est de mesurer la corrélation entre les variables Y et Z auxquelles on a enlevé la partie explicable par les variables de X. Pour ce faire, on effectue la régression de Y sur X et celle de Z sur X puis on conserve les résidus. Ceux-ci représentent les parts des variables Y et Z qui ne peuvent être linéairement expliquées par X.

Soit PX = I − X(X

0

X)−1X0 le projecteur sur l’orthogonal du sous-espace engendré par les colonnes de la matrice X.

• Le vecteur des résidus de la régression de y en X est donné par :

ey|X = y − Xby|X = PX.y. (2.1)

• Le vecteur des résidus de la régression de y en X est donné par :

ez|X = y − Zbz|X = PX.z. (2.2)

Le coefficient de corrélation partielle est défini par :

ryz|x2,...,xp = q cov(ey|X,ez|X) var(ey|X)var(ez|X)

= y 0 Pxz p y0Pxz.z 0 Pxz (2.3)

(25)

Les deux variances s’écrivent comme suit : V ar(ey|X) = 1 n n X i=1 e2iy|X = 1 ne 0 y|Xez|X = 1 ny 0 PXPXy = 1 ny 0 PXy, (2.4) V ar(ez|X) = 1 n n X i=1 e2iz|X = 1 ne 0 z|Xez|X = 1 nz 0 PXPXz = 1 nz 0 PXz. (2.5)

Étant donné que la somme des résidus est nulle, la covariance des résidus s’écrit :

cov(ey|X,ez|X) = n1 Pn

i=1eiy|Xeiz|X = n1e

0 y|Xez|X = n1y 0 PXPXz = n1y 0 PXz

Dans le cas où une seule variable X est utilisée, les équations (2.5) et (2.6) deviennent :

V ar(ey|X) = n1 Pn i=1e2iy|X = (1 − rxy)s2y. V ar(ez|X) = n1 Pn i=1e2iz|X = (1 − rxz)s2z.

Avec rxy le coefficient de corrélation entre X et Y puis rxz celui entre X et Z. Soient by|X = Sxy

s2

x et bz|X = Sxz

s2

x les pentes respectives des droites de régression de Y en X et de Z en X. La covariance se définit par :

cov(ey|X,ez|X) = 1 n n X i=1 eiy|Xeiz|X = 1 n n X i=1 [(yi− ¯y) − by|x(xi− ¯x][(zi− ¯z) − bz|X(xi− ¯x] = 1 n n X i=1 (yi− ¯y)(zi− ¯z) − 1 n n X i=1 (zi− ¯z)by|x(xi− ¯x) −1 n n X i=1 (yi− ¯y)bz|x(xi− ¯x) +1 n n X i=1 by|x(xi− ¯x)bz|x(xi− ¯x) = syz− sxybz|x− sxzby|x+ s2xby|xbz|x = sysz(ryz− rxyrxz− rxyrxz+ rxyrxz) = sysz(ryz− rxyrxz).

(26)

Ce qui nous permet de formuler le coefficient de corrélation partielle comme suit :

ryz|x2,...,xp =

cov(ey|X,ez|X) q

var(ey|X)var(ez|X)

= q ryz− rxyrxz (1 − r2

xy)(1 − rxz2 )

. (2.6)

Lorsque nos variables ne sont pas conjointement normales, la corrélation partielle peut-être non nulle même lorsque les variables examinées sont conditionnellement indépendantes. En effet, le modèle de régression linéaire utilisé dans le calcul ne permet pas d’éliminer com-plètement la relation entre X et Y ou entre X et Z. Pour atténuer cette limite, Textor et al. (2016)[25] proposent d’utiliser des techniques de régression non-paramétriques pour calculer les résidus. Cette approche est intuitivement intéressante, puisque la régression non-paramétrique permet de modéliser avec davantage de flexibilité les relations et de mieux éliminer l’association entre X et Y , ainsi qu’entre X et Z.

Par ailleurs, une autre limite de la méthode basée sur la corrélation partielle nulle et la ré-gression est que les DAG ont souvent de nombreuses implications vérifiables, particulièrement lorsque plusieurs variables sont représentées. Ceci nous amène à tester un grand nombre d’im-plications, entrainant ainsi le problème des tests multiples. Une solution pour contourner ce problème est de corriger les valeurs P obtenues par la méthode de Bonferroni-Holm (1979)[7].

Test du coefficient de corrélation partielle

Lorsque Y et Z sont indépendantes conditionnellement à X, on a ryz|x = 0. Autrement dit, après avoir retiré l’effet de X sur Y et sur Z, il ne persiste plus aucune association entre Y et Z.

Le test de significativité du coefficient de corrélation partielle nulle équivaut à un test d’in-dépendance entre Y et Z conditionnellement à X sous l’hypothèse de normalité. À l’inverse, les propriétés asymptotiques peuvent permettre d’éprouver la nullité du coefficient.

L’hypothèse nulle du test, qui peut être bilatéral ou unilatéral, s’écrit :

H0: ryz.x= 0.

Sous H0, la statistique du test est donnée par :

ˆ r s 1 − ˆr n − 3 .

(27)

2.3

Méthode basée sur le coefficient de régression

Dans un processus gaussien, la régression linéaire pourrait-être utilisée pour déterminer l’in-dépendance entre deux variables X et Y conditionnellement à un ensemble de variable Z. En effet, lorsque X et Y sont indépendantes conditionnellement à Z, le coefficient de X dans la régression de Y sur X et Z est nul. Cette définition découle du théorème suivant dont la démonstration est inspirée des oeuvres de Whittaker (2009)[27], Lauritzen (1989)[11] et Anderson (1984)[1] :

Théorème 2.1

Soit T = (X, Y, Z) avec T ∼ Np+m+l(0, Σ) et n observations. Notons que l’hypothèse de moyennes nulles simplifie la notation, mais n’affecte pas la généralité des résultats. X est de taille p × n , Y de taille m et Z de taille l. La régression linéaire de Y par rapport à Z et X s’écrit de la façon suivante :

Y = δ0+ βZZ + βXX + εY (2.7)

Si X et Y sont indépendants conditionnellement à Z alors βX = 0.

Démonstration 2.1

Soit ˆY (Z, X) l’estimation linéaire de Y sachant Z et X.

Y (Z, X) = cov Y, " Z X #! var(Z, X)−1 " Z X # = hcov(Y, Z) cov(Y, X)i " var(Z) cov(Z, X) cov(X, Z) var(X) #−1" Z X #

Où cov(Y, Z) = E(Y Zt) et var(Y Z) = E(ZZt) sont respectivement des matrices de tailles m × l et l × l.

D’après le lemme de l’inverse de la variance (Whittaker, 2009)[27] :

" var(Z) cov(Z, X) cov(X, Z) var(X) #−1 = "

var(Z)−1+ Btvar(X|Z)tB −Btvar(X|Z)−1 var(X|Z)−1Bt var(X|Z)−1

#

Où var(X|Z) = Eh[X − ˆX(Z)][X − ˆX(Z)]tiet Bt= cov(Z, X)var(Z)−1. Le coefficient matriciel de X dans la régression est donc donné par :

(28)

βX = −cov(Z, X)Btvar(X|Z)−1+ cov(Y, X)Btvar(X|Z) = −cov(Z, X)Bt+ cov(Y, X)Btvar(X|Z)−1

= −cov(Z, X)var(Z)−tcov(Z, X)t+ cov(Y, X)var(X|Z)−1.

Étant donné que var(Z)t= var(Z)−1 et cov(X, Z)t= cov(Z, X) βX =



cov(Y, X) − cov(Y, Z)var(Z)−1cov(Y, X)tvar(X|Z)−1.

D’après Whittaker (2009)[27] : cov(Z, X)var(Z)−tcov(Z, X)t+ cov(Y, X) = cov(Y, X|Z) Ainsi : βX = cov(Y, X|Z)var(X|Z)−1

Nous pouvons alors conclure que : βX = 0 ⇔ cov(Y, X|Z) = 0.

Une démonstration plus triviale serait de passer par les fonctions de densité marginale. Il suffit de voir que fY |X,Z(y|x, z) = √1

2πσ2Exp n −12 (y − (δ0+ βxx + βzz)) o . Donc βX = 0 ⇔ fY |X,Z(y|x, z) = fY |Z(y|z) (Talbot et al., 2015)[23].

Par ailleurs, cette méthode peut se généraliser au cas où les données ne sont pas normales. Par exemple, si Y est binaire, on peut faire une régression logistique de Y sur X et Z et montrer que βX = 0 si et seulement si cov(Y, X|Z) = 0 sous l’hypothèse que le modèle de Y sur X et Z est effectivement celui postulé.

2.4

Méthode basée sur les tests d’équations structurelles

Les modèles d’équations structurelles (Structural equation models ; SEM) englobent un large éventail de techniques statistiques multivariées. À partir de combinaison d’hypothèses qualita-tives sur les relations de cause à effet entre des variables, ils permettent de tester des modèles causaux et d’estimer des relations causales à partir de données. Les relations causales encodées dans un DAG donné peuvent ainsi être représentées dans un SEM.

2.4.1 Méthode basée sur le test du Khi-deux en SEM

Afin de tester les modèles causaux, une approche couramment utilisée dans le cadre des SEM consiste à comparer la matrice de covariance des variables impliquées par le modèle à celle observée à partir d’une statistique du Khi-deux. Il s’agit d’une façon d’évaluer conjointement toutes les implications vérifiables d’un DAG. En effet, la méthode basée sur le test du Khi-deux fournit l’ajustement exact dans la mesure où il calcule l’écart exact entre la matrice de covariance impliquée dans le modèle et la matrice de covariance de l’échantillon. En règle

(29)

Exemple 2.4.1. Exemple d’un DAG pour ullistrer le lien entre le test du Khi-deux et les

implications vérifiables.

Soient trois variables X, M et Y . Les SEM usuels sont basés sur l’hypothèse de normalité multivariée, ce qui implique que les X, M et Y sont associées selon un modèle de régression linéaire sans interaction. Supposons le DAG suivant X → M → Y . Pour que le DAG corres-ponde aux données, il faudrait donc que Y et X soient indépendantes conditionnellement à M : Y ⊥ X|M .

Nous pouvons montrer que cette indépendance conditonnelle a pour effet d’induire une contrainte sur la forme de la matrice de variance covariance entre X, M et Y . Plus par-ticulièrement, nous allons montrer que Cov(Y,M ) peut s’exprimer en fonction des autres paramètres de variances covariances. Considérons le modéle de régression linéaire suivant : Y = β0+ β1X + εY.

Cov(β0+ β1X + εY, M ) = β1Cov(X,M ),

où β1 = Cov(X, Y )/V ar(X).

Par ailleurs, pour effectuer l’ajustement du Khi-deux, nous avons entre autres la possibilité d’utiliser l’estimateur du maximum de vraissemblance (ML) ou celui du WLSMV (mean and variance adjusted weighted least squares). WLSMV est un estimateur robuste, notamment fourni par le module R Lavaan (Lavaan et al., 2012)[15]. Cet estimateur comprend plusieurs composantes, il utilise les moindres carrés pondérés en diagonale pour estimer les paramètres du modèle, la matrice de pondération complète pour calculer les erreurs types et un test ajusté en moyenne et en variance.

Une limite importante au test usuel du Khi-deux des SEM est qu’il suppose des relations linéaires entre les variables et la normalité multivariée des données. Or cette hypothèse est intenable dans la plupart des études en santé, car plusieurs variables d’intérêt sont binaires ou catégorielles (par exemple, le sexe ou la présence d’une maladie). En effet, en cas de non-normalité des données, dans les SEM, lorsque l’estimateur du maximum de vraisemblance (ML) est utilisé, la statistique d’ajustement du Khi-deux est souvent biaisée positivement (Curran et al., 1996)[4]. Il est donc possible que le test du khi-deux soit significatif même si l’ajustement est acceptable. Cependant, des tests alternatifs des modèles causaux représentés par les SEM qui sont robustes à la non-normalité des données sont disponibles.

2.4.2 Méthode basée sur le Bootstrap de Bollen-Stine

Une première alternative offrant une robustesse à la non-normalité est le Bootstrap de Bollen-Stine. Il s’agit de l’approche retenue par Talbot et al. (2016)[24] afin de vérifier la validité de

(30)

leur DAG.

Le test de Bollen-Stine est basé sur une distribution empirique de khi-deux et fournit un moyen d’imposer le modèle aux données de l’échantillon afin que le Bootstrap se fasse sous ce modèle. De manière pratique, il s’agit d’un ré-échantillonnage dans lequel nous construisons une distribution d’échantillonnage d’une statistique en tirant un grand nombre d’échantillons aléatoires simples avec des remplacements à partir de notre échantillon d’origine qui nous a servi de population. Aussi, tous les échantillons auront la même taille que notre échantillon d’origine.

L’objectif visé à travers la méthode du Bootstrap de Bollen-Stine est une transformation des données de sorte que l’hypothèse nulle (que le modèle par défaut correspond aux données) se vérifie exactement dans l’échantillon.

Pour tester l’hypothèse nulle, il est nécessite d’utiliser la matrice de covariance pour transfor-mer convenablement les données à partir desquelles les échantillons de bootstrap sont tirés. Puis pour chaque nouvel échantillon, un khi-deux est calculé pour l’ajustement des nouvelles données sur le modèle. Ils sont ensuite comparés au khi-deux calculé pour les données ob-servées ajustées au modèle. le nombre de fois où le khi-deux du modèle pour l’échantillon Bootstrap dépasse le khi-deux pour les données observées correspond à la valeur-p du test de Bootstrap de Bollen-Stine.

Une limite majeure de la méthode basée sur le Bootstrap de Bollen-Stine est la non prise en compte des observations avec valeurs manquantes. Une extension aux données manquantes est proposée par Enders (2002)[5] mais il s’agit d’une solution approximative (avec un degré d’approximation inconnue) et non exacte.

2.5

Limite des tests basés sur la compatibilité d’un DAG

avec les données

Selon la structure des données, la nature des variables et de leurs liens, les différentes méthodes présentées peuvent permettre de déterminer si un DAG est compatible avec les données. Cependant, elles ne permettent pas de discerner le DAG représentant réellement la façon dont les données sont générées à tout autre DAG compatible avec les mêmes données. Cette limite des tests basés sur la compatibilité d’un DAG avec les données provient du fait que plusieurs DAGs différents peuvent avoir exactement les mêmes implications vérifiables.

(31)

Exemple 2.5.1. Exemples de DAG différents avec des implications identiques

Considérons le cas de deux DAG simples avec 4 variables X, L, M et Y .

Figure 2.1 – DAG A représentant des im-plications correctes

Figure 2.2 – DAG B représentant des impli-cations incorrectes dérivées du DAG A Pour cet exemple, il n’existe que deux paires de variables qui ne sont pas directement reliées : (X, Y ) et (L, M ). Ce sont donc les deux seules paires de variables pour lesquelles il est susceptible d’exister des implications vérifiables. En examinant le DAG de gauche (DAG A), on remarque que X et Y sont connectés par deux chemins X → M → Y et X ← L → Y . Le premier chemin peut être bloqué en contrôlant pour M et le second en contrôlant pour L. On en déduit que X ⊥ Y |M, L. De la même manière on déduit du DAG de droite (DAG B) que X ⊥ Y |M, L. Par ailleurs, nous constatons dans les deux DAG, M et L sont connectés que par l’intermédiaire de X (L ⊥ M |X). Il en ressort que toutes les implications du DAG B sont des implications du DAG A, notamment X ⊥ Y |M, L et L ⊥ M |X. Ainsi, si le DAG A est compatible avec les données alors le DAG B le serait également. De même, si le DAG B est incompatible avec les données, alors le DAG A serait de même. Dans une telle situation, il est donc impossible de discerner le DAG correct (DAG représentant réellement la façon dont les données sont générées) du DAG incorrect.

(32)

Chapitre 3

Simulations

Dans ce chapitre, nous détaillons notre étude de simulation visant à évaluer et comparer les tests d’indépendances présentés au chapitre précédent. Cette étude de simulation vise à déterminer la capacité de nos tests à distinguer les DAG corrects des DAG incorrects à partir de données synthétiques générées. Pour ce faire nous avons considéré plusieurs mécanismes qui varient en fonction du type de DAG, des types de variables et des relations entre ces variables.

3.1

Présentation des différents mécanismes

Nous avons élaboré un total de 36 scénarios différents. Il s’agit d’une combinaison de trois DAG différents partant de la configuration la plus simple à la plus complexe, de trois tailles d’échantillons (200, 500 et 1000) et de quatre types de variables et formes de relations entre elles (variables continues avec relations linéaires, variables binaires avec relations linéaires, va-riables continues avec présence d’interactions et vava-riables continues avec présence de relations quadratiques).

Deux des trois DAG considérés ont déjè été utilisés pour des analyses de données réelles. Ceci permet de donner plus de réalismes à nos différentes simulations. Le choix de trois tailles d’échantillons différentes s’explique par le besoin de mieux illustrer leur impact sur l’acceptation/rejet des tests.

(33)

Figure 3.1 – Configuration d’un scénario

Comme nous cherchons à mesurer la capacité des tests de validité des DAG à distinguer les DAG corrects des DAG incorrects, à partir de chaque DAG de référence (DAG correct), nous avons généré un DAG qui lui est différent (DAG incorrect). Cet ensemble de deux DAG considéré pour les trois différentes tailles d’enchantillon et les quatre combinaisons de types et de formes de variables sera par la suite considéré comme étant un mécanisme. Ainsi, pour chaque scénario trois mécanismes seront considérés.

Pour mesurer la performance des tests, nous utilisons les données générées à partir du DAG de référence (correct) pour tester les indépendances et indépendances conditionnelles véri-fiables issues de la génération du DAG correct et du DAG incorrect. Ainsi, dans les différents mécanismes, nous avons généré 1000 ensembles de données par DAG. Pour chaque test nous déterminons ensuite la proportion des valeurs-p inférieures au seuil de 5% parmi les 1000 ensembles de données générés.

(34)

3.1.1 Mécanismes de génération des données

Afin de présenter plus en détails les différents mécanismes, nous représentons ci-dessous sous formes de figures le DAG correct et le DAG incorrect considérés pour chacun des mécanismes de génération des données. Puis, pour simplifier la présentation, nous donnons les équations ayant généré les données pour le cas de variables continues avec relations linéaires. Les autres équations seront fournies en annexe.

Mécanisme 1

Dans le mécanisme 1, le DAG correct est inspiré d’un DAG présenté dans Talbot et al. (2015)[22]. Dans ce DAG, les auteurs ont considéré 6 variables potentiellement confondantes U1,U2, . . . ,U6, une variable d’exposition X et une issue Y . Les variable potentiellement

confon-dantes U2, U1 en couleurs vertes représentent les purs prédicteurs de l’exposition, les variables U4,U5, 56 représentées en couleurs bleues sont les purs prédicteurs de l’issue et la variable U3

en couleur orange est une pure variable confondante car associée à la fois à l’exposition et à un prédicteur pur de l’issue. L’exposition est représentée en vert avec un triangle à l’intérieur du noeud et l’issue est représentée en bleu avec une barre verticale à l’intérieur du noeud.

Figure 3.2 – DAG correct représen-tant un contexte simple avec six va-riables confondantes où Y est l’issu, X l’exposition alors que les U1 à U6 re-présentent 6 variables confondantes.

Figure 3.3 – DAG incorrect représentant un contexte simple avec six variables confon-dantes où Y est l’issu, X l’exposition alors que les U1 à U6 représentent 6 variables confondantes.

Les variables sont générées de telle sorte que les données correspondent au DAG correct. Les variables potentiellement confondantes U1, . . . , U6 sont générées selon une loi normale centrée

et réduite. L’équation de génération de l’exposition est une combinaison linéaire des variables U1,U2,U3 ainsi que d’une erreur aléatoire suivant une loi normale centrée réduite. L’issue est

(35)

normale centrée réduite. U1= N (0,1);

U3= N (0,1); U5= N (0,1);

U6= 0.5U3+ N (0,1);

X = 0.1U1+ 0.1U2+ 0.1U3+ N (0,1);

Y = 0.1U4+ 0.5U5+ 0.5U6+ 0.1X + N (0,1)

Mécanisme 2

Le mécanisme 2 est tiré de l’article de Textor et al. (2016)[25]. Les DAG reflètent l’étude de l’impact des exercices d’entraînement sur le risque de blessures.

Figure 3.4 – DAG correct sur la re-lation entre les exercices d’entraîne-ment et le risque de blessures

Figure 3.5 – DAG incorrect sur la relation entre les exercices d’entraînement et le risque de blessures

Les variables sont générées de telle sorte que les données correspondent au DAG correct. C = N (0, 1); F L = 0.5C + N (0, 1); N M F = 0.3C + 0.2F L + N (0, 1); T M = 0.7C + N (0, 1); P I = 0.4T M + N (0, 1); CS = 0.6P I + 0.1T M + N (0, 1); IGP = 0.1CS + 0.1T M + (N, 0, 1); P GP = 0.1F L + (N, 0, 1); I = 0.1N M F + 0.1IGP + 0.1F L + (N, 0, 1); W U E = 0.1IGP + 0.5P GP + 0.1I + N (0, 1)

(36)

Mécanisme 3

Ce scénario nous est inspiré par Lina Wang et al. (2015)[26]. Les DAG portent sur l’étude de la relation entre la bilirubine sérique et le risque d’hypertension. Les variables ont été renommées pour plus de simplicité.

Figure 3.6 – DAG correct sur la re-lation entre la bilirubine sérique et le risque d’hypertension

Figure 3.7 – DAG incorrect sur la relation entre la bilirubine sérique et le risque d’hy-pertension

Pour les scénarios basés sur ce mécanisme, les équations ayant générées les données contiennent certains liens très faibles entre les variables (voir annexe 3.1), ce qui pourrait rendre plus difficile d’établir que certaines indépendances conditionnelles ne sont pas respectées.

3.2

Analyse et résultats

Afin d’évaluer nos différents DAG, nous avons appliqué différentes méthodes. Notamment, la méthode basée sur la corrélation partielle paramétrique, la méthode de la corrélation partielle non-paramétrique, la méthode basée sur le coefficient de régression et les tests d’équations structurelles paramétrique, de Bollen-Stine et de WLSMV. Pour le test basé sur le coefficient de régression, nous avons utilisé une régression linéaire dans les scénarios où la réponse était une variable continue et une régression logistique lorsque la réponse était une variable binaire. Dans tous les scénarios, seulement les termes linéaires principaux étaient inclus. Pour le test de Bollen-Stine 1000 échantillons bootstrap ont été réalisés.

Pour le mécanisme 2, les résultats pour le DAG correct et le DAG incorrect sont quasi-similaires dans tous les scénarios. Ceci découle du fait que toutes les implications vérifiables

(37)

du DAG incorrect sont également des implications du DAG correct. Ainsi, comme nous l’expli-quions au chapitre précédent, il est impossible de discerner le DAG incorrect du DAG correct. Dès lors, nous nous focaliseront surtout sur l’analyse des résultats des mécanismes 1 et 3.

3.2.1 Corrélation partielle paramétrique et non-paramétrique

La méthode de corrélation partielle paramétrique est implantée à travers la fonction

local-Tests du package dagitty. Elle dérive les implications testables du modèle graphique (DAG)

et les teste par rapport à l’ensemble de données.

Par contre, la méthode de corrélation partielle non-paramétrique n’est pas disponible dans le package dagitty. Elle est basée sur un test de corrélation entre les différentes variables par la méthode de (Spearman, 1904)[20]. En utilisant la fonction localTests de dagitty, nous avons extrait, pour chaque implication à vérifier, la liste des variables impliquées. Lorsqu’il s’agit d’un test d’indépendance simple, nous avons effectué un test de corrélation entre les deux variables concernées. En cas d’indépendence conditionnelle, la méthode se résume à un test de corrélation de Spearman des résidus de régression des différentes variables sur la variable de conditionnement. Les valeurs-p minimales ajustées par la méthode de Bonferroni-Holm sont ensuite calculées.

Pour les deux méthodes, les résultats sont assez semblabes. Dans le cas de variables binaires et de variables continues, le test de corrélations partielles continue rejette dans une proportion d’environ 5% le DAG correct, tel qu’attendu. En présence d’interactions ou de relations qua-dratiques, des proportions de rejets largement supérieures à 5% sont observées dans certains scénarios du troisième mécanisme, notamment lorsque n = 1000. Lorsque le DAG incorrect était évalué, les proportions de rejets étaient proche de 1 dans presque tous les cas, sauf avec n = 200 en présence de variables binaires (rejet dans moins de 50%).

Figure

Figure 1.2 – DAG représentant une cause commune Z entre X et Y
Figure 3.1 – Configuration d’un scénario
Figure 3.2 – DAG correct représen- représen-tant un contexte simple avec six  va-riables confondantes où Y est l’issu, X l’exposition alors que les U1 à U6  re-présentent 6 variables confondantes.
Figure 3.4 – DAG correct sur la re- re-lation entre les exercices  d’entraîne-ment et le risque de blessures
+7

Références

Documents relatifs

Une variable aléatoire X sur Ω est une fonction, qui à chaque issue de Ω, associe un nombre réel Exemples: Un joueur lance un dé a

Fonctions de plusieurs

Le graphe d’une fonction de deux (a fortiori trois, quatre, etc.) variables est beaucoup plus difficile ` a tracer que le graphe d’une fonction d’une variable : difficult´ e du

Le profil du relief au-dessus de l’axe Nord-Sud, dessin´e `a la question 2.b, est un ensemble de points dans le plan des variables y et z.. Exprimez cette ´equation `a l’aide de

Le double de la valeur moyenne du carré de la perte d'un joueur se nomme la fonction d'instabilité^ son jeu (supposé équitable) parce que les gains et les pertes du

la section 3.2, nous devrions utiliser les formes k-lin´ eaires, qui sont hors programme pour ce cours. Voici la r´

Ainsi, si on note qu’il y a une forme indéterminée pour la valeur de la limite pour certaines valeurs de m, on tente d’arriver dans la même direction que cette direction

2.6 La commande est (si with(plots) a déjà été écrit au moins 1 fois depuis le démarrage de Maple).. On