• Aucun résultat trouvé

Une fois le CPDAG établi, les effets des covariables sur Y sont estimés. L’effet causal de chaque covariable est calculé dans chacun des DAGs de laclasse équivalente de Markov. L’effet causal deX1 est donné par :

Θ1.={θ1,1, θ1,2, θ1,3, θ1,4}={β1|pa(X1,G1), β1|pa(X1,G2), β1|pa(X1,G3), β1|pa(X1,G4)}

={β1|, β1|X2, β1|X2, β1|X4},

2.4. Effet causal en l’absence du vrai DAG 61 On peut faire de même pourX2, X3 etX4jusqu’à complétion deΘ.

Θ =         β1|, β1|X2, β1|X2, β1|X4 β2|X1, β2|, β2|X3, β2|X1 β3|X2, β3|X2, β3|, β3|X2 β4|X1, β4|X1, β4|X1, β4|        

L’ensemble de parents pour les covariables change selon le DAG et donc donne des esti-mations différentes. Enfin, pour comparer les tailles d’effets, la valeur absolue minimale est regardée pour chaque covariable tel que :

min|θ1.|> min|θ3.|> min|θ2.|> min|θ4.| (2.12)

2.4.2 CStaR

Au moment où est développé l’IDA, l’algorithme PC est toujours dépendant de l’ordre et donc les performances de l’IDA sont toujours sensibles à l’ordre dans lequel sont intro-duites les variables. Pour palier à cette limite, Stekhoven (Stekhoven et al., 2012) propose de combiner l’IDA à une optimisation de la robustesse par stability selection (Meinshausen and Bühlmann, 2010) dans la méthode appelée Causal Stability Ranking (CStaR). L’addition du stability selection à l’IDA permet un classement stable des covariables selon leur effet cau-sal et, selon certaines hypothèses, le contrôle du taux d’erreur de faux positifs à travers le per-comparison error rate (PCER). Pour intégrer la stability selection, les auteurs proposent d’appliquer l’IDA sur 100 jeux de données indépendants de taillen/2par rapport au jeu de données initiales. Puis, à partir de chaque classement d’effets causaux comme dans 2.12, la fréquenceΠd’apparition dans le topqest calculée pour chaque covariable et celles-ci sont classées comme :

Π1 ≥Π2 ≥...Πp. (2.13) Les covariables stables sont définies par celles qui ont une fréquence supérieure à un seuil donnéπ:

avec0.5< π≤1.

On note alors les covariables sélectionnées à tort commeF P = |Sstable ∩Sf aux|, oùSf aux

est l’ensemble des variables pour lesquelles le vrai effet causal est nul. Puis, pour un seuil et une valeur deqdonnés, l’espérance des faux positifs est :

E[F P]≤ 1

2π−1

q2

p. (2.15)

rapportée au nombre de variables, cette espérance donne le PCER :

P CER=E[F P]/p (2.16)

P CER= 1

2Π−1

q2

p2. (2.17)

L’IDA a été étendu par Nandy (Nandy et al., 2017) pour prendre en compte l’effet causal joint de covariables, c’est-à-dire estimer l’effet causal d’interventions simultanées. D’autres méthodes ont été également proposées pour calculer les effets causaux à partir de données observationnelles et expérimentales (Monneret et al., 2017; Rau et al., 2013).

2.5 Conclusion

Ce chapitre a décrit l’évolution de la notion de causalité au cours du temps et a posé des cadres théoriques. La causalité est régie par 5 problématiques que sont le raisonnement : comment on pense la causalité, est ce que qu’il y a des conditions nécessaires pour que cer-tains effets produisent certaines causes. L’explication est indissociable à la causalité, où l’on se pose la question du « comment ? ». L’inférence ici détaillée dans ce chapitre cherche à estimer un effet causal, est ce qu’il y a un vrai effet ? Puis si l’on a réussi à estimer ou non un vrai effet, peut on le contrôler pour modifier ce qui va arriver et peut on faire des prédictions vis à vis de ce modèle ?

Les études expérimentales dont l’essai randomisé contrôlé (ERC) en recherche clinique per-mettent d’évaluer les effets causaux en « créant » deux réalités identiques où seul un para-mètre est modifié. Dans certains cas, il n’est pas possible de réaliser ces ERCs et alors la théorie permet sous certaines conditions de pouvoir estimer ces effets causaux à partir de données observationnelles.

2.5. Conclusion 63 il est facile d’identifier à la main le DAG puis d’estimer les effets causaux. Mais dans le cas où le processus implique des centaines de variables, il est nécessaire de chercher le DAG à l’aide de méthodes d’apprentissage pour identifier et estimer les effets causaux à partir de ces DAGs appris.

Jusqu’à maintenant ces méthodes ont été développées dans le contexte de variables mesurées à un seul temps et lorsqu’on est confronté à des données longitudinales, la reconstruction des graphes pour l’estimation d’effets causaux n’est pas possible. Dans le prochain chapitre, on va s’intéresser à intégrer la notion de temps dans la méthode de l’IDA pour pouvoir estimer des effets causaux à partir de données longitudinales multidimensionnelles.

Chapitre 3

Apprentissage d’expositions dépendantes

du temps

It’s the great outdoors ! It’s fresh air !

Tommy/Trainspotting

Ce chapitre a fait l’objet d’un article intitulé «Estimating causal effects of

time-dependent exposures on a binary endpoint in a high-dimensional setting» et publié dans la revue BMC Medical research methodology. Il est disponible dans l’annexe G.

Sommaire

3.1 Introduction . . . 66 3.2 Réseaux Bayésiens et temps . . . 66 3.2.1 Hypothèses . . . 66 3.2.2 Réseaux Bayésiens dynamiques . . . 68 3.3 Chronologically ordered PC-algorithme (COPC) . . . 72 3.3.1 Intuition . . . 72 3.3.2 Proposition . . . 74 3.3.3 Effet causal . . . 75 3.4 Étude de simulation . . . 77 3.4.1 Génération des données . . . 77 3.4.2 Scénarios . . . 79 3.4.3 Résultats . . . 79 3.5 Application . . . 80 3.5.1 Contexte . . . 80 3.5.2 Représentation . . . 81 3.5.3 Données manquantes . . . 81 3.5.4 Résultats . . . 82 3.6 Discussion . . . 84 3.7 Conclusion . . . 88 65

3.1 Introduction

Afin de comprendre le « pourquoi » (cf chapitre 2), on s’intéresse à la succession de causes et d’effets au cours du temps. En statistiques, ont été développées de nombreuses mé-thodes d’analyse de données répétées. Des mémé-thodes d’apprentissage de réseaux Bayésiens ont également été développées pour intégrer la notion de temps. Le temps peut être inté-gré de façon continu ou bien discret comme dans les réseaux Bayésiens dynamiques (RBD) (Dean and Kanazawa, 1989; Murphy, 2002) qui est la classe de modèles graphiques la plus utilisée pour les données répétées. Avec leurs algorithmes d’apprentissage associés (Trabelsi et al., 2013b; Gao et al., 2008; Friedman et al., 1998), ils font l’hypothèse que la structure du graphe est conservée au cours du temps. Cette hypothèse très forte n’est pas toujours vérifiée (i.e. l’efficacité du système immunitaire diminue en présence de grande fatigue).

Les méthodes comme l’IDA (Maathuis et al., 2009) ne sont pas adaptées aux données répétées. Présentée dans la section 2.4.1, l’étape 1 de l’IDA consiste en un algorithme d’ap-prentissage qui ne tient pas compte des données répétées et a été développé uniquement pour des évènements d’intérêts continus.

Dans ce chapitre nous nous intéressons à l’estimation d’effets causaux à partir de don-nées observationnelles en présence d’expositions dépendantes du temps. Nous proposons donc d’étendre l’algorithme PC aux expositions dépendantes du temps, et d’intégrer l’esti-mation d’effet causaux pour des évènements d’intérêts binaires. Je présenterai dans un pre-mier temps les modèles graphiques temporels dans la section 3.2. Puis, dans la section 3.3 je présenterai la nouvelle méthode qui sera ensuite décrite par une étude de simulation dans la section 3.4 et une application sur des données immunologiques dans la section 3.5.

3.2 Réseaux Bayésiens et temps

3.2.1 Hypothèses

La représentation et le raisonnement temporel sont des champs très étudiés (Adlassnig et al., 2006; Augusto, 2005; Madkour et al., 2016). Une des taches les plus complexes est de déterminer quel scénario temporel correspond au schéma étudié car celui-ci influence fortement la méthodologie qui en découle. L’échelle de temps est également une question à approfondir quand le temps est considéré comme continu ou discret. Il est important

d’uti-3.2. Réseaux Bayésiens et temps 67 liser la bonne échelle selon la question. Dans les études de survie, selon la pathologie et l’événement considéré, on peut vouloir raisonner soit en semaines, en mois ou en années. En effet, raisonner en semaines pour un évènement qui apparait en moyenne après deux ans de suivi n’est pas du tout pertinent et vice et versa. Ce raisonnement peut paraitre assez simple et logique dans ces exemples mais qui devient beaucoup plus complexes dans le cas des réseaux Bayésiens. A B A est avant B (1) A B A rencontre B (2) A B A chevauche B (3) A B A commence B (4) A B A est pendant B (5) A B A finit B (6) A B A est egal à B (7)