Limite des tests basés sur la compatibilité d’un DAG avec les données

Selon la structure des données, la nature des variables et de leurs liens, les différentes méthodes présentées peuvent permettre de déterminer si un DAG est compatible avec les données. Cependant, elles ne permettent pas de discerner le DAG représentant réellement la façon dont les données sont générées à tout autre DAG compatible avec les mêmes données. Cette limite des tests basés sur la compatibilité d’un DAG avec les données provient du fait que plusieurs DAGs différents peuvent avoir exactement les mêmes implications vérifiables.

Exemple 2.5.1. Exemples de DAG différents avec des implications identiques

Considérons le cas de deux DAG simples avec 4 variables X, L, M et Y .

Figure 2.1 – DAG A représentant des implications correctes

Figure 2.2 – DAG B représentant des implications incorrectes dérivées du DAG A Pour cet exemple, il n’existe que deux paires de variables qui ne sont pas directement reliées : (X, Y ) et (L, M ). Ce sont donc les deux seules paires de variables pour lesquelles il est susceptible d’exister des implications vérifiables. En examinant le DAG de gauche (DAG A), on remarque que X et Y sont connectés par deux chemins X → M → Y et X ← L → Y . Le premier chemin peut être bloqué en contrôlant pour M et le second en contrôlant pour L. On en déduit que X ⊥ Y |M, L. De la même manière on déduit du DAG de droite (DAG B) que X ⊥ Y |M, L. Par ailleurs, nous constatons dans les deux DAG, M et L sont connectés que par l’intermédiaire de X (L ⊥ M |X). Il en ressort que toutes les implications du DAG B sont des implications du DAG A, notamment X ⊥ Y |M, L et L ⊥ M |X. Ainsi, si le DAG A est compatible avec les données alors le DAG B le serait également. De même, si le DAG B est incompatible avec les données, alors le DAG A serait de même. Dans une telle situation, il est donc impossible de discerner le DAG correct (DAG représentant réellement la façon dont les données sont générées) du DAG incorrect.

Chapitre 3

Simulations

Dans ce chapitre, nous détaillons notre étude de simulation visant à évaluer et comparer les tests d’indépendances présentés au chapitre précédent. Cette étude de simulation vise à déterminer la capacité de nos tests à distinguer les DAG corrects des DAG incorrects à partir de données synthétiques générées. Pour ce faire nous avons considéré plusieurs mécanismes qui varient en fonction du type de DAG, des types de variables et des relations entre ces variables.

3.1 Présentation des différents mécanismes

Nous avons élaboré un total de 36 scénarios différents. Il s’agit d’une combinaison de trois DAG différents partant de la configuration la plus simple à la plus complexe, de trois tailles d’échantillons (200, 500 et 1000) et de quatre types de variables et formes de relations entre elles (variables continues avec relations linéaires, variables binaires avec relations linéaires, variables continues avec présence d’interactions et variables continues avec présence de relations quadratiques).

Deux des trois DAG considérés ont déjè été utilisés pour des analyses de données réelles. Ceci permet de donner plus de réalismes à nos différentes simulations. Le choix de trois tailles d’échantillons différentes s’explique par le besoin de mieux illustrer leur impact sur l’acceptation/rejet des tests.

Figure 3.1 – Configuration d’un scénario

Comme nous cherchons à mesurer la capacité des tests de validité des DAG à distinguer les DAG corrects des DAG incorrects, à partir de chaque DAG de référence (DAG correct), nous avons généré un DAG qui lui est différent (DAG incorrect). Cet ensemble de deux DAG considéré pour les trois différentes tailles d’enchantillon et les quatre combinaisons de types et de formes de variables sera par la suite considéré comme étant un mécanisme. Ainsi, pour chaque scénario trois mécanismes seront considérés.

Pour mesurer la performance des tests, nous utilisons les données générées à partir du DAG de référence (correct) pour tester les indépendances et indépendances conditionnelles véri- fiables issues de la génération du DAG correct et du DAG incorrect. Ainsi, dans les différents mécanismes, nous avons généré 1000 ensembles de données par DAG. Pour chaque test nous déterminons ensuite la proportion des valeurs-p inférieures au seuil de 5% parmi les 1000 ensembles de données générés.

3.1.1 Mécanismes de génération des données

Afin de présenter plus en détails les différents mécanismes, nous représentons ci-dessous sous formes de figures le DAG correct et le DAG incorrect considérés pour chacun des mécanismes de génération des données. Puis, pour simplifier la présentation, nous donnons les équations ayant généré les données pour le cas de variables continues avec relations linéaires. Les autres équations seront fournies en annexe.

Mécanisme 1

Dans le mécanisme 1, le DAG correct est inspiré d’un DAG présenté dans Talbot et al. (2015)[22]. Dans ce DAG, les auteurs ont considéré 6 variables potentiellement confondantes U1,U2, . . . ,U6, une variable d’exposition X et une issue Y . Les variable potentiellement confon-

dantes U₂, U₁ en couleurs vertes représentent les purs prédicteurs de l’exposition, les variables U4,U5, 56 représentées en couleurs bleues sont les purs prédicteurs de l’issue et la variable U3

en couleur orange est une pure variable confondante car associée à la fois à l’exposition et à un prédicteur pur de l’issue. L’exposition est représentée en vert avec un triangle à l’intérieur du noeud et l’issue est représentée en bleu avec une barre verticale à l’intérieur du noeud.

Figure 3.2 – DAG correct représen- tant un contexte simple avec six variables confondantes où Y est l’issu, X l’exposition alors que les U1 à U6 re- présentent 6 variables confondantes.

Figure 3.3 – DAG incorrect représentant un contexte simple avec six variables confondantes où Y est l’issu, X l’exposition alors que les U1 à U6 représentent 6 variables confondantes.

Les variables sont générées de telle sorte que les données correspondent au DAG correct. Les variables potentiellement confondantes U₁, . . . , U6 sont générées selon une loi normale centrée

et réduite. L’équation de génération de l’exposition est une combinaison linéaire des variables U1,U2,U3 ainsi que d’une erreur aléatoire suivant une loi normale centrée réduite. L’issue est

normale centrée réduite. U1= N (0,1);

U3= N (0,1); U5= N (0,1);

U6= 0.5U3+ N (0,1);

X = 0.1U1+ 0.1U2+ 0.1U3+ N (0,1);

Y = 0.1U4+ 0.5U5+ 0.5U6+ 0.1X + N (0,1)

Mécanisme 2

Le mécanisme 2 est tiré de l’article de Textor et al. (2016)[25]. Les DAG reflètent l’étude de l’impact des exercices d’entraînement sur le risque de blessures.

Figure 3.4 – DAG correct sur la relation entre les exercices d’entraîne- ment et le risque de blessures

Figure 3.5 – DAG incorrect sur la relation entre les exercices d’entraînement et le risque de blessures

Les variables sont générées de telle sorte que les données correspondent au DAG correct. C = N (0, 1); F L = 0.5C + N (0, 1); N M F = 0.3C + 0.2F L + N (0, 1); T M = 0.7C + N (0, 1); P I = 0.4T M + N (0, 1); CS = 0.6P I + 0.1T M + N (0, 1); IGP = 0.1CS + 0.1T M + (N, 0, 1); P GP = 0.1F L + (N, 0, 1); I = 0.1N M F + 0.1IGP + 0.1F L + (N, 0, 1); W U E = 0.1IGP + 0.5P GP + 0.1I + N (0, 1)

Mécanisme 3

Ce scénario nous est inspiré par Lina Wang et al. (2015)[26]. Les DAG portent sur l’étude de la relation entre la bilirubine sérique et le risque d’hypertension. Les variables ont été renommées pour plus de simplicité.

Figure 3.6 – DAG correct sur la relation entre la bilirubine sérique et le risque d’hypertension

Figure 3.7 – DAG incorrect sur la relation entre la bilirubine sérique et le risque d’hypertension

Pour les scénarios basés sur ce mécanisme, les équations ayant générées les données contiennent certains liens très faibles entre les variables (voir annexe 3.1), ce qui pourrait rendre plus difficile d’établir que certaines indépendances conditionnelles ne sont pas respectées.

Dans le document Définition et évaluation d'approches pour la validation des graphiques acycliques dirigés à partir de données (Page 30-36)