• Aucun résultat trouvé

Un test pour la bonne spécification d'un modèle structurel marginal

N/A
N/A
Protected

Academic year: 2021

Partager "Un test pour la bonne spécification d'un modèle structurel marginal"

Copied!
110
0
0

Texte intégral

(1)

Un test pour la bonne spécification d'un modèle

structurel marginal

Mémoire

Alioune Sall

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Un test pour la bonne spécification d’un modèle

structurel marginal

Mémoire

Alioune Sall

Sous la direction de:

(3)

Résumé

Estimer l’effet d’une exposition variant dans le temps à l’aide de modèles de régression or-dinaires peut entraîner un biais si des variables confondantes variant dans le temps sont un effet des expositions passées. Les modèles structurels marginaux (MSMs) sont une solution à ce problème qui est de plus en plus utilisée, notamment dans les études en santé. L’une des hypothèses principales des MSMs est que la relation entre l’issue et les expositions antérieures est bien spécifiée. Ainsi, nous avons développé un test statistique de cette hypothèse.

Différentes pondérations peuvent être utilisées pour estimer les paramètres du MSM et celles-ci devraient produire des estimations similaires lorsque le modèle est correctement spécifié. Un test statistique vérifiant si les différences observées sont au-delà de celles attendues permet donc de tester que le modèle est correct. La performance du test est étudiée à l’aide d’une étude de simulations sur des données synthétiques, où différentes véritables relations entre les expositions et l’issue, ainsi que différentes tailles d’échantillons étaient considérées.

L’étude de simulation démontre une bonne performance du test : les taux de rejet de modèles corrects sont faibles alors que ceux de modèles incorrects sont généralement élevés, surtout pour des tailles d’échantillons élevées. Cependant, il existe des situations où le test est inca-pable de détecter des erreurs de spécification.

Le test est appliqué pour étudier l’effet d’une exposition répétée au stress au travail sur une période de 5 ans sur la pression artérielle ambulatoire dans une cohorte de 1576 travailleurs cols-blancs.

(4)

Abstract

Estimating the effect of a time-varying exposure using ordinary regression models may lead to bias if time-varying confounding variables are an effect of past exposures. Marginal structural models (MSMs) are a solution to this problem that is increasingly used, especially in health studies. One of the main assumptions of MSMs is that the relationship between outcome and past exposures is well specified. Thus, we developed a statistical test of this hypothesis.

Different weights can be used to estimate MSM parameters and these should produce similar estimates when the model is correctly specified. A statistical test verifying if the differences observed are beyond those expected makes it possible to test that the model is correct. The performance of the test is investigated using a synthetic data simulation study, where differ-ent true relationships between exposures and outcome, as well as differdiffer-ent sample sizes were considered.

The simulation study demonstrates good test performance: rejection rates for correct models are low, while rejection rates for incorrect models are generally high, especially for large sam-ple sizes. However, there are situations where the test is unable to detect specification errors.

The test is applied to study the effect of repeated psychosocial work stressor exposure over a 5-year period on ambulatory blood pressure in a cohort of 1576 white-collar workers.

(5)

Table des matières

Résumé iii

Abstract iv

Table des matières v

Liste des tableaux vii

Liste des figures viii

Remerciements x

Introduction 1

1 Les outils et concepts utilisés en inférence causale 5

1.1 Notion d’effet causal . . . 5

1.2 Effet causal moyen . . . 6

1.3 Hypothèses du modèle contrefactuel . . . 6

1.4 Estimation de l’effet causal . . . 7

2 Méthodes pour l’estimation d’un effet causal 12 2.1 Exposition ponctuelle . . . 12

2.2 Exposition dépendante du temps . . . 16

3 Le bootstrap 19 3.1 Le principe de substitution . . . 19

3.2 Estimation bootstrap de la variance d’un estimateur . . . 20

4 A test for the correct specification of marginal structural models 22 4.1 Introduction. . . 23

4.2 MSMs and Notation . . . 24

4.3 A test for the correct specification of the outcome model . . . 25

4.4 Simulation study . . . 27

4.5 Application . . . 31

4.6 Discussion . . . 36

Conclusion 38

(6)
(7)

Liste des tableaux

2.1 Distribution des étudiants selon les variables. . . 13

4.1 Rejection rates (%) of tests at α = 0.05 for the correct specification of the

outcome model by postulated specification for Scenario 1. . . 32

4.2 Rejection rates (%) of tests at α = 0.05 for the correct specification of the

outcome model by postulated specification for Scenario 2. . . 33

4.3 Rejection rates of tests at α = 0.05 for the correct specification of the outcome

model by postulated specification for Scenario 3 . . . 34

4.4 P-values of the tests for the model correct specification and estimated causal effect on ambulatory blood pressure (in mm Hg) of the repeated exposure to effort-reward imbalance as compared to never exposed workers with their 95%

(8)

Liste des figures

1.1 DAG représentant l’effet de X sur Y en présence de variables confondantes L . 9

(9)
(10)

Remerciements

La réalisation de ce travail aurait pu être plus difficile sans le soutien constant de mon directeur de recherche, Denis Talbot. Il s’est montré toujours disponible dans les moments précieux. Ses lectures et relectures accompagnées d’annotations très claires m’ont été d’une grande utilité. Qu’il trouve en ces lignes toute ma reconnaissance.

Je remercie également mes parents, au Sénégal, pour leurs encouragements et conseils qui m’ont accompagné tout au long de ce périple, sans oublier mes frères et sœurs.

(11)

Introduction

L’association n’est pas la causalité, a-t-on l’habitude de lire, ce qui est vrai d’ailleurs. Dès lors, il est naturel de s’intéresser aux méthodes employées afin de caractériser une relation de causa-lité. On pourrait définir l’inférence causale comme étant un ensemble de méthodes utilisées afin d’établir une relation de causalité entre deux événements qu’on appellera  traitement  et  issue . Elle est très présente dans certains domaines notamment en santé dans le but de déterminer l’effet d’un traitement sur une population donnée. Les termes "exposition" et "traitement" sont utilisés de façon interchangeable dans la suite.

Pour illustrer la différence entre l’association et la causalité, considérons l’exemple de Hernán et Robins (2016). Nous voulons connaitre l’effet d’un traitement X sur la maladie Y dans une population. La population est divisée en deux groupes : les traités (X = 1) et les non traités (X = 0). Pour juger d’une association entre X et Y, il suffit de comparer les probabilités conditionnelles P (Y |X = 0) et P (Y |X = 1). Par contre, pour étudier la causalité entre le trai-tement et la maladie, il faudrait soumettre l’ensemble de la population aux deux possibilités. En effet, on devrait observer l’issue de tous les individus de la population dans le cas où ils sont tous exposés et dans celui où aucun d’entre eux ne l’est. On dira alors qu’il y a causalité si les risques de maladie sont différents dans les deux cas. Toutefois, il est impossible d’observer les résultats dans les deux cas pour un individu donné puisque ce dernier est soit exposé, soit il ne l’est pas. Le modèle contrefactuel initié par Neyman (1923) et repris par Rubin (1974) dans le cadre des études observationnelles nous permettra d’appréhender la causalité avec des données observationnelles.

L’intérêt grandissant pour les méthodes d’inférence causale s’explique notamment par les appli-cations qui en sont faites. Par exemple, en santé publique, les autorités ont besoin de connaitre l’éventuel effet préventif que pourrait avoir un vaccin sur une maladie afin de décider quant au financement d’une campagne de vaccination. Les méthodes d’inférence causale se trouvent être un bon outil pour appréhender cet effet.

(12)

méthodes d’inférence causale restent difficiles à appliquer lorsqu’il s’agit de données observa-tionnelles. En sus, souvent, ces dernières sont les seules disponibles, les études randomisées étant contraignantes à réaliser du fait de considérations financières, éthiques... De ce fait, l’utilisation des données issues d’études observationnelles reste la seule alternative, d’où le dé-veloppement récent de plusieurs méthodes pour améliorer les résultats obtenus à partir de ce type de données. L’estimation d’un effet causal à partir de données observationnelles nécessite un contrôle pour les variables dites confondantes. Ces dernières sont associées à la fois au trai-tement et à l’issue et, par conséquent, peuvent donner une perception erronée de la relation de causalité en l’absence de contrôle. Pour réaliser ce contrôle, une des méthodes utilisées est la pondération par probabilité inverse de traitement qui va créer une pseudo-population dans laquelle les individus traités sont similaires à ceux non traités. Dans les cas où le traitement varie au cours du temps, les modèles structurels marginaux (MSMs) (22) permettent d’esti-mer sans biais l’effet causal, sous les hypothèses i) de positivité, ii) d’absence de variables confondantes non mesurées et iii) de bonne spécification du modèle.

Pour chaque individu, on mesure son exposition au moment t (t = 1, . . . T ) (dans le cas binaire, elle prend la valeur 1 si l’individu est exposé et 0 sinon). On s’intéresse à l’effet causal entre l’historique de l’exposition (X1, X2, ..., XT) et l’issue finale (Y ). Par exemple, supposons une

étude longitudinale chez une cohorte de n sujets. Chaque sujet participe à T + 1 visites. À chacune des T premières on mesure une exposition d’intérêt, par exemple la tension artérielle de chaque individu ainsi que des facteurs potentiellement confondants. À la dernière visite, on mesure une issue, par exemple, la survenue d’une maladie coronarienne. Cependant, la multi-plicité des expositions observées dans le temps fait qu’il peut exister une confusion dépendante du temps, ce qui a pour conséquence d’introduire un biais dans les approches classiques uti-lisées pour estimer l’effet causal (Robins et al., 2000). On parle de confusion dépendante du temps lorsque des variables Ltaffectent le traitement (Xt) et l’issue Y , mais qu’elles sont affec-tées par les expositions antérieures Xt−1. En effet, dans le cas d’une exposition ponctuelle, des

techniques telles que la stratification ou la régression peuvent être utilisées pour le contrôle des facteurs confondants alors que dans les études longitudinales, en cas de présence de confusion dépendante du temps, elles deviennent inappropriées, même sous les hypothèses i), ii) et iii). Les MSMs sont alors utilisés pour estimer l’effet causal.

Pour définir les modèles structurels marginaux, on introduit la notion d’issue potentielle définie comme étant la valeur que prendrait Y si l’historique était le vecteur (x1, x2, ..., xT) que l’on

notera ¯x. L’issue potentielle est alors notée Yx¯. Ainsi, les modèles structurels marginaux mo-délisent l’espérance de la loi marginale d’une issue à partir de l’historique d’exposition. En re-prenant les mêmes notations que dans le paragraphe précédent, on pourrait définir notre MSM comme étant g(E(Yx¯)) = f (x1, x2, ..., xT) ; g étant notre fonction de lien et f (x1, x2, ..., xT)

(13)

une fonction de l’historique d’exposition.

Un autre défi, non des moindres, est de trouver la forme fonctionnelle qui lie l’issue et l’his-torique de l’exposition. Dans le cas où on a un nombre de périodes d’exposition limité, on pourrait utiliser un modèle saturé. On dit qu’un modèle est saturé lorsqu’il comporte autant de paramètres à estimer que d’inconnues ; ces dernières étant les probabilités de Y associées aux différentes combinaisons possibles des valeurs de X. Par exemple, en considérant que X est binaire et que nous avons T périodes, on a 2T historiques d’exposition possibles dont une seule est observée pour chaque observation. Par conséquent, si T est grand, il devient très difficile voire impossible (dans le cas d’expositions continues) d’utiliser un tel modèle. La connaissance du domaine d’études pourrait aider au choix du modèle. Par exemple, en présence d’une pé-riode de latence, on pourrait ne pas tenir tenir compte des expositions récentes dans la forme fonctionnelle ; au contraire, dans les cas où l’exposition agit rapidement sans effet durable, on pourrait ne tenir compte que des expositions les plus récentes. Un choix de modèle non adéquat implique des inférences basées sur des hypothèses erronées, ce qui a pour effet de les rendre invalides.

L’estimation des paramètres d’un MSM peut se faire par la pondération par probabilité in-verse de traitement (IPTW). Cette pondération va briser le lien qui existe entre les variables confondantes et l’exposition de telle sorte que l’on pourra estimer directement l’effet causal. Puisqu’il s’agit d’une exposition dépendante du temps, on calcule le poids pour chaque période d’exposition comme étant l’inverse de la probabilité d’exposition, étant donné, les variables confondantes antérieures. Ainsi, la pondération pour chaque individu est obtenue en faisant le produit des poids aux différentes périodes. De tels poids cherchent à émuler une étude rando-misée séquentielle, c’est-à-dire où l’exposition à chaque période serait randorando-misée. Toutefois, les poids obtenus, appelés poids ordinaires, peuvent être très variables et conduire à des infé-rences imprécises. Afin de réduire leur variance, on peut utiliser les poids stabilisés, lesquels sont obtenus en remplaçant le numérateur des poids ordinaires par la probabilité que chaque individu reçoive son propre traitement sachant son historique d’exposition. Cette dernière est donnée par P (Xt= 1) pour les exposés et P (Xt= 0) pour les non exposés. Lorsqu’un modèle

saturé est utilisé, les estimations de l’effet causal obtenues avec les deux types de poids sont les mêmes (Robins et al., 2000) tandis qu’une différence peut être observée pour les modèles non saturés correctement spécifiés. Toutefois, cette différence est uniquement due aux fluctuations d’échantillonnage (Robins et al., 2000). Les estimations obtenues par IPTW ne sont valides que si les hypothèses sont respectées. Dans ce mémoire, nous nous intéressons à la validation de l’hypothese iii), c’est-à-dire à la bonne spécification du modèle causal.

(14)

d’exposition, il est très difficile de valider l’hypothèse selon laquelle le modèle est correctement spécifié. Des approches ont été proposées pour aider à choisir entre différents modèles. Ainsi, Platt et al. (2012) ont développé un critère d’information pour les MSMs (QICw) inspiré du

critère d’information d’Akaike. Ils comparent différents modèles en se basant sur le QICw. Plus petit est le critère, meilleur est le modèle. A partir du QICw, Taguri et Matsuyuka (2013) ont proposé un autre critère qu’ils appellent le QICw corrigé (cQICw). Ce critère permet

égale-ment de faire un choix de modèle en comparant les différentes valeurs prises pour différents modèles. Ces critères ont des performances relativement limitées, ne choisissant le vrai modèle qu’avec une proportion assez faible. Takamichi et al. (2017) ont également mis sur pied un critère basé sur le Cp. Les résultats obtenus avec ce critère sont relativement bons, lequel critère choisit plus fréquemment le vrai modèle que les critères basés sur le QIC. Toutefois, ces critères étant comparatifs, présentent l’inconvénient de ne choisir que parmi les modèles présentés. Autrement dit, si le vrai modèle n’est pas présent parmi ceux supposés candidats, il ne pourrait être choisi. À la différence de ces critères, nous proposons un critère absolu qui nous permettra de décider si un modèle est correctement spécifié.

Ce mémoire a pour objectif de proposer un test afin de savoir si un modèle structurel marginal est bien spécifié. Le test se base sur l’égalité des estimateurs des effets causaux obtenus par une pondération avec des poids ordinaires et par une pondération avec des poids stabilisés. En effet, sous l’hypothèse nulle que le modèle structurel est correctement spécifié, les variations des estimateurs obtenus avec les différents types de poids sont essentiellement dues aux fluc-tuations d’échantillonnage. À l’aide du bootstrap, on veut tester si les différences observées entre les estimations des paramètres en utilisant ces différents poids peuvent être attribuées aux fluctuations aléatoires. Dans un tel cas, les données sont compatibles avec l’hypothèse que le modèle est correctement spécifié. Autrement, les données suggèrent que le modèle est incor-rectement spécifié. Le mémoire est divisé en quatre chapitres. Dans la premier, nous présentons les outils et les concepts utilisés en inférence causale. Le deuxième aborde les différentes mé-thodes pour l’estimation d’un effet causal en présence d’une variation du traitement au cours du temps. Le chapitre 3 présente le bootstrap. Le quatrième et dernier chapitre est constitué de notre article qui constitue le coeur de ce mémoire. L’article est soumis le 25 mai 2018 à Statistics in Medicine.

(15)

Chapitre 1

Les outils et concepts utilisés en

inférence causale

Afin de mieux appréhender la notion de causalité, il est nécessaire de définir certains concepts ainsi que les outils qui sont utilisés en inférence causale. Outre la notation, ce chapitre présen-tera, avec des graphes acycliques orientés (directed acyclic graph, DAG), l’approche contrefac-tuelle ainsi que les hypothèses qui la sous-tendent. Dans le but de simplifier la présentation, on se focalise sur une exposition binaire. Toutefois, le principe reste le même si on considère une exposition avec plus de deux modalités ou une exposition continue.

1.1

Notion d’effet causal

1.1.1 Effet causal individuel

Pour définir l’effet causal individuel, nous nous aidons d’un exemple. Supposons que nous avons deux étudiants, J ean et Luc, qui suivent le même cours. Pour étudier, les deux étudiants ont à leur disposition un manuel et ils l’utilisent. À la fin du cours, on s’intéresse à la réussite des deux étudiants. Pour J ean, ce fut le cas ; tandis que pour Luc c’est le contraire, il a échoué. On se demande alors si l’utilisation du manuel a eu un impact sur les différentes issues des deux étudiants. Supposons de plus que nous ayons les résultats des deux étudiants si aucun d’entre eux n’avait utilisé le manuel (en pratique, on ne peut observer qu’un seul cas par individu) et que cela soit, cette fois-ci, un échec pour J ean et, encore, un échec pour Luc. On dira alors que l’utilisation du manuel a un effet causal pour J ean et non pour Luc. En effet le résultat de J ean change selon qu’il a utilisé le manuel ou non alors qu’il reste le même pour Luc. Plus généralement, nous appellerons ce résultat  issue  et l’utilisation sera considéré comme un  traitement . Ils seront respectivement désignés par les variables Y et X. Supposons que ces deux variables sont dichotomiques avec 0 et 1 comme valeurs possibles. X = 0 et X = 1 désignant respectivement un individu traité et un individu non traité ; et Y = 0 et Y = 1

(16)

désignant, par exemple, un individu ayant échoué et un autre ayant réussi. On définit alors Yx=1 (respectivement Yx=0) comme la valeur de l’issue si le traitement prend la valeur x = 1 (respectivement x = 0). On dira que le traitement a un effet causal sur l’issue d’un individu si Yx=16= Yx=0. Les variables Yx=1 et Yx=0 sont appelées issues potentielles ou contrefactuelles.

L’effet causal pour l’individu i est ainsi défini par :

βi = Yix=1− Yix=0. (1.1)

1.2

Effet causal moyen

Considérons cette fois que nous avons n étudiants. On suppose que nous connaissons les is-sues de tous ces étudiants lorsqu’ils utilisent le manuel (X = 1) et lorsqu’ils ne l’utilisent pas (X = 0). Pour chaque étudiant, on a donc les valeurs Yx=0 et Yx=1. L’effet causal moyen est défini par P (Yx=1 = 1) − P (Yx=0 = 1). En d’autres termes, c’est la différence des propor-tions de succès entre le cas où tous les étudiants auraient utilisé le manuel et celui où aucun d’entre eux ne l’aurait utilisé. On dira qu’il y a effet causal moyen si cette différence n’est pas nulle. Plus généralement, afin de prendre en compte les cas où on aurait une issue continue, on pourrait définir l’effet causal moyen comme étant la différence d’espérance mathématique entre les deux cas, i.e :

β = E(Yx=1) − E(Yx=0) (1.2)

où β désigne l’effet causal moyen.

1.3

Hypothèses du modèle contrefactuel

Afin que le modèle contrefactuel puisse identifier l’effet causal, on pose deux hypothèses.

1.3.1 Indépendance entre les individus

Cette hypothèse suppose que l’issue d’un sujet soumis à un certain traitement x ne dépend pas des traitements des autres sujets. Reprenons notre exemple et supposons maintenant que Luc n’utilise pas le manuel. À la fin du cours on constate que J ean qui, lui, a utilisé le manuel a échoué. Le résultat de J ean a changé du fait que Luc n’a pas utilisé le manuel. L’exposition de Luc interfère avec l’issue de J ean. On pourrait expliquer ce changement par le fait que les deux étudiants travaillent ensemble et que, en utilisant le manuel, Luc a pu comprendre un aspect et l’expliquer à J ean, ce qui a permis à ce dernier de réussir son cours. Cette interférence est plus fréquemment rencontrée dans les études dans le domaines de la santé où l’issue d’un individu dépend de ses interactions avec la population. Dans un tel cas l’effet causal ne serait pas bien défini. Toutefois on pourrait définir un effet causal conditionnellement aux valeurs des expositions des autres individus.

(17)

1.3.2 Version unique du traitement

L’hypothèse d’une version unique du traitement suppose que tous les individus traités le sont de la même façon. Par exemple si on avait deux manuels différents, disons A et B, J ean pourrait réussir en utilisant le manuel A et échouer en utilisant le manuel B. Dans ce cas l’issue contrefactuelle pour un individu n’est pas bien définie dans la mesure où elle dépend de la version du traitement, ici, le manuel. Toutefois, si cette hypothèse n’est pas satisfaite, plutôt que de s’intéresser à l’effet causal qui serait mal défini, on pourrait étudier l’effet causal conditionnellement à l’utilisation d’un des manuels ou des deux à la fois.

A ces deux hypothèses, on peut ajouter celle de cohérence qui stipule que l’issue contrefactuelle pour X = x d’un individu i est nécessairement égale à son issue observée lorsque la valeur de X pour cet individu est x. En d’autres termes, on a :

Yix= (Yi|Xi= x). (1.3)

1.4

Estimation de l’effet causal

Dans la pratique, les données dont nous disposons sont issues d’études observationnelles, les-quelles ne permettent pas d’estimer directement l’effet causal sans avoir recours à des hypo-thèse supplémentaires. Bien que plus rares, les données issues d’études randomisées permettent d’estimer l’effet causal moyen quand elles sont réalisées dans un contexte idéal.

1.4.1 Études randomisées

Dans les faits, toutes les issues contrefactuelles (Yx) ne sont pas connues. En effet, seules les valeurs observées sont connues. Par exemple, dans le cas d’une exposition binaire, on observe Yx=1 ou Yx=0 selon que l’individu est exposé ou ne l’est pas. Donc, il nous manque, dans ce cas-ci, la moitié des données qui aurait permis d’estimer l’effet causal.

Les études randomisées nous assurent que ces valeurs manquantes arrivent de façon complète-ment aléatoire, ce qui nous permet de pouvoir estimer l’effet causal. Pour illustrer cette situa-tion, reprenons l’exemple sur les élèves en considérant cette fois-ci deux groupes. Le premier groupe utilise le manuel (X = 1) et le second groupe ne l’utilise pas (X = 0). L’assignation du premier groupe au traitement (utilisation du manuel) est faite de manière aléatoire. A la fin du cours, on calcule la proportion de succès dans chacun des deux groupes (P (Y = 1|X = 0) et P (Y = 1|X = 1)). Le risque relatif est défini comme étant le rapport de ces deux proportions. Une étude randomisée nous assure que même si les étudiants du groupe 1 s’étaient retrouvés dans le groupe 2 et vice-versa, c’est-à-dire que les étudiants qui n’avaient pas utilisé le manuel l’utilisent et que ceux qui l’avaient utilisé ne l’utilisent pas, le risque relatif serait resté le

(18)

même : c’est la notion d’ignorabilité.

Le principe d’ignorabilité signifie que les chances de succès dans le premier groupe auraient été les mêmes si c’était les étudiants du deuxième groupe qui s’étaient retrouvés dans le premier. Cela se traduit par P (Yx = 1|X = 1) = P (Yx = 1|X = 0) ∀x = 0, 1. L’équation 1.4 définit l’ignorabilité de façon plus générale

YxaX ∀x. (1.4)

où ` désigne l’indépendance statistique.

Une conséquence de ce principe est qu’il nous permet d’estimer l’espérance de Yx dans la population pour toutes les valeurs de x. Dans le cas où X est binaire, on a

P (Yx=1 = 1) = P (Yx=1= 1|X = 1), (1.5)

P (Yx=0 = 1) = P (Yx=0= 1|X = 0). (1.6)

D’après l’hypothèse de cohérence1.3, les deux égalités précédentes deviennent respectivement : P (Yx=1 = 1) = P (Yx=1= 1|X = 1) = P (Y = 1|X = 1), (1.7) P (Yx=0 = 1) = P (Yx=0= 1|X = 0) = P (Y = 1|X = 0). (1.8) L’effet causal peut ainsi être estimé par l’équation 1.9.

ˆ

β = ˆP (Y = 1|X = 1) − ˆP (Y = 1|X = 0). (1.9)

La randomisation qu’on a présentée jusqu’ici se fait sur la seule variable d’exposition, c’est-à-dire les chances d’être exposé sont les mêmes pour tous les individus de la population. Toutefois, on pourrait s’intéresser à l’estimation de l’effet causal dans le cas où la randomisation se fait en tenant compte d’autres variables, que l’on notera L. Dans ce dernier cas, on parle de randomisation conditionnelle. Les résultats présentés pour la randomisation (ou randomisation marginale) restent valables, mais seulement à l’intérieur des différentes strates de L. En effet, la probabilité d’exposition n’est plus la même pour tous les individus, mais elle varie selon les différentes combinaisons des variables L. Le principe d’ignorabilité 1.4est ainsi remplacé par celui d’ignorabilité conditionnelle 1.10

(19)

1.4.2 Études observationnelles

Contrairement aux études randomisées, l’assignation au traitement n’est pas aléatoire dans les études observationnelles. Dans ces dernières, étant donné qu’une issue pourrait avoir plusieurs causes et que chaque individu est exposé différemment à ces différentes causes, on ne pourrait pas attribuer la relation existant entre le traitement et l’issue à un effet causal. Ainsi, en reprenant notre exemple, on sait que la réussite à un cours dépend aussi du nombre d’heures que l’étudiant a passé à étudier. Donc en estimant notre effet causal, on devrait tenir compte de cette variable dans la mesure où les étudiants ne passent pas le même nombre d’heures à étudier, en supposant que ceux qui ont un manuel ont, à la base, plus tendance à étudier. Cette variable est dite confondante puisqu’elle agit à la fois sur l’issue et le traitement, rendant impossible une estimation non biaisée d’un effet causal en l’état. Cette situation peut être matérialisée à l’aide d’un DAG. Un DAG est un graphique permettant de représenter les relations entre différentes variables. Il est orienté, c’est-à-dire que lorsqu’une variable dépend d’une autre, la relation est matérialisée par une flèche qui pointe vers la variable résultante. Enfin, un DAG est acyclique dans la mesure où on n’a pas de variable qui se cause elle même, autrement dit on ne devrait pas avoir un chemin tel qu’en suivant le sens des flèches on retombe sur la variable de départ.

L’objectif ici est d’estimer l’effet causal en considérant l’étude observationnelle comme une étude randomisée conditionnelle. Toutefois, certaines hypothèses sont à respecter.

Figure 1.1 – DAG représentant l’effet de X sur Y en présence de variables confondantes L

X

L

Y

Définition 1 On définit un chemin comme étant un ensemble de sommets et de flèches conti-gus.

Définition 2 On appelle collisionneur (collider) pour un chemin une variable sur laquelle pointent au moins deux flèches sur ce chemin.

Définition 3 On dira qu’un chemin entre l’exposition X et l’issue Y est porte-arrière s’il existe dans ce chemin une flèche qui pointe vers X.

Le biais de confusion dans la relation entre X et Y est attribuable au fait que ces deux variables ont des causes communes. Autrement dit, il existe un chemin porte-arrière entre l’exposition

(20)

et l’issue. Dans la figure 1.1, on a un chemin porte-arrière entre l’exposition et l’issue (X ← L → Y ), ce qui a pour effet d’engendrer une association non causale. Afin d’éliminer cette confusion, on ajuste avec l’ensemble des variables L. Toutefois, cet ajustement est basé sur certaines hypothèses. En effet, une étude observationnelle peut être considérée comme une étude randomisée conditionnelle si elle satisfait aux hypothèses d’ignorabilité conditionnelle et de positivité.

Ignorabilité conditionnelle

Comme on l’a mentionné dans le paragraphe précédent, dans les études observationnelles on a des variables (L) qui sont liées à l’issue et dont la distribution n’est pas la même selon le groupe d’exposition. En reprenant notre exemple, cela voudrait dire que la probabilité d’étudier un certain nombre d’heures donné (P (L = l)) n’est pas la même pour ceux qui ont utilisé le manuel (X = 1) et ceux qui ne l’ont pas utilisé (X = 0). On va alors considérer les différentes strates formées par les modalités de (L). Cela nous permet de traiter chaque strate comme une sous-popoulation dans laquelle l’ignorabilité est vérifiée. Dès lors, on parle d’ignorabilité conditionnelle et l’étude pourrait être considérée comme randomisée conditionnelle et l’effet causal peut ainsi être estimé.

Toutefois, il faudrait que L soit la seule variable confondante. Si tel n’est pas le cas, l’estima-tion de l’effet causal serait biaisée. Malheureusement, on ne peut pas s’assurer qu’il n’existe pas d’autres variables confondantes. Supposons, dans notre exemple, que le manuel est très cher et que les élèves issus de familles riches (U = 1) ont plus de chances d’en disposer que les autres (U = 0). Cela voudrait dire que, pour un nombre d’heures d’étude donné (L = l), la richesse de la famille de l’élève influence son exposition (X) et son résultat (Y ). Donc si cette variable U n’est pas mesurée par le chercheur, par ignorance de son impact, l’hypothèse d’ignorabilité conditionnelle ne tient plus.

Même si cette variable était mesurée, il en resterait probablement d’autres. Donc, au mieux on pourrait espérer réduire le nombre de variables confondantes non mesurées et s’approcher de cette hypothèse. Pour cela, il faudrait collecter le maximum de variables possibles en concer-tation avec les experts du domaine qui ont une meilleure connaissance de ces potentielles variables confondantes.

Positivité

Cette hypothèse stipule que tous les individus ne doivent pas avoir les mêmes valeurs d’exposi-tion (X = 0 ou X = 1) ; cela aurait pour conséquence qu’aucun individu n’aurait reçu l’autre valeur d’exposition, ce qui rend impossible l’estimation de l’effet causal. Autrement dit, on doit avoir une probabilité non nulle pour toutes les valeurs d’exposition. Dans notre cas, on a

(21)

alors P (X = 1) > 0 et P (X = 0) > 0.

Dans le cas des études observationnelles, afin de pouvoir estimer l’effet causal, il faudrait que cette hypothèse soit valable à l’intérieur des différentes strates formées par les combinaisons des variables confondantes. Ainsi, pour toute strate de variables confondantes observée, on doit avoir aussi bien des individus exposés que des individus non exposés. Mathématiquement, cette hypothèse est représentée par l’équation 1.11.

(22)

Chapitre 2

Méthodes pour l’estimation d’un effet

causal

Dans ce chapitre on s’intéresse aux différentes méthodes disponibles pour l’estimation d’un effet causal. On y présente les méthodes les plus utilisées en distinguant deux cas. Dans la première partie, nous abordons l’estimation d’un effet causal dans le cadre d’une exposition ponctuelle. Dans la seconde partie, nous traitons des méthodes utilisées dans le cas d’une exposition variant au cours du temps en présence de confusion dépendante du temps.

2.1

Exposition ponctuelle

Dans le cadre d’une exposition ponctuelle, on s’intéresse à l’effet d’une exposition sur une issue à un moment donné.

2.1.1 Standardisation

La standardisation est une méthode permettant d’estimer l’effet causal dans une étude obse-vationnelle lorsque les hypothèses d’ignorabilité conditionnelle et de positivité sont satisfaites. Pour l’illustrer, reprenons notre exemple sur les étudiants et supposons qu’ils sont au nombre de 12. Parmi eux, 7 utilisent le manuel et les 5 autres ne l’utilisent pas. Toutefois, étant donné qu’il y a de la confusion induite par L (le nombre d’heures d’études), les étudiants n’ont ni les mêmes chances d’utiliser le manuel ni de succès. Supposons dans notre cas que les heures de travail possibles sont L = 1 et L = 2 et que, parmi les 12 étudiants, 7 étudient 2 heures et le reste étudie 1 heure. Le tableau 2.1présente la distribution des étudiants selon les trois variables.

Sous les hypothèses, on a P (Yx = 1|X = 1, L = l) = P (Yx = 1|X = 0, L = l) avec l = 1, 2. Dans le tableau 2.1, on peut calculer aisément les différentes probabilités. Dans le groupe de ceux qui étudient 1 heure (L = 1), trois utilisent le manuel et deux ne l’utilisent

(23)

Table 2.1 – Distribution des étudiants selon les variables Étudiant L X Y 1 1 0 1 2 1 0 0 3 1 1 1 4 1 1 1 5 1 1 0 6 2 0 1 7 2 0 0 8 2 0 1 9 2 1 1 10 2 1 0 11 2 1 1 12 2 1 1

pas. Deux des trois qui l’utilisent réussissent alors que l’autre échoue, ce qui nous donne P (Y = 1|X = 1, L = 1) = 23. Parmi les deux qui ne l’utilisent pas, un réussit et l’autre échoue ; ce qui équivaut à P (Y = 1|X = 0, L = 1) = 12. Dans le groupe des individus qui étudient 2 heures (L = 2), quatre étudiants utilisent le manuel et trois ne l’utilisent pas. Au sein des quatre qui l’utilisent, trois réussissent et un seul échoue alors que parmi les trois qui ne l’utilisent pas, on enregistre deux réussites et un échec. En termes probabilistes, on a respec-tivement, P (Y = 1|X = 1, L = 2) = 34 et P (Y = 1|X = 0, L = 2) = 23. Grâce aux hypothèses, on peut estimer P (Yx = 1|L = 1), P (Yx = 1|L = 2), P (Yx = 0|L = 1) et P (Yx = 0|L = 2) avec les données présentées dans le tableau. Plus précisément, P (Yx = 1|L = 1) = P (Y = 1|X = x, L = 1) et P (Yx = 1|L = 2) = P (Y = 1|X = x, L = 2). Les probabilités qu’on a calculées jusqu’ici ont été faites sur les strates de L alors que le but est d’estimer un effet causal sur l’ensemble de la population. Supposons que l’on veuille exprimer cet effet causal en terme de risque relatif, on cherche alors à estimer la quantité RR = P (YP (Yx=1x=0=1)=1).

La standardisation nous permet d’estimer le numérateur et le dénominateur. Dans le premier groupe (L = 1), on a cinq individus avec une probabilité de 23 de réussite pour X = 1 et dans le deuxième groupe, cette probabilité est de 34. Pour avoir cette probabilité sur toute la popu-lation, on multiplie chaque probabilité par le poids de sa strate. Ainsi, on a P (Yx=1 = 1) = P (Y = 1|X = 1, L = 1)×P (L = 1)+P (Y = 1|X = 1, L = 2)×P (L = 2) = 125×23+127×34 = 103144 pour le numérateur. Le même procédé nous donne P (Yx=0 = 1) = P (Y = 1|X = 0, L = 1) × P (L = 1) + P (Y = 1|X = 0, L = 2) × P (L = 2) = 125 × 1 2 + 7 12 × 2 3 = 86 144 pour le

dénominateur. Ainsi notre risque relatif peut être estimé par P (Y =1|X=1)P (Y =1|X=0) =

103 144 86 144 = 1.19. Plus généralement, on a P (Yx = 1) = P l

(24)

différentes strates possibles des variables confondantes. Avec l’hypothèse d’ignorabilité condi-tionnelle, on a P (Yx= 1) =P

l

P (Y = 1|X = x, L = l) × P (L = l). Le risque relatif est ainsi donné par P l P (Y =1|X=1,L=l)×P (L=l) P l P (Y =1|X=0,L=l)×P (L=l). 2.1.2 Pondération

Cette section présente la pondération qui est une méthode assez proche de la standardisation. Cette méthode est issue de l’estimateur proposé par Horvitz et Thompson (14). L’idée derrière la pondération ou pondération par probabilité inverse de traitement est de créer une pseudo − population dans laquelle, pour un individu donné, les probabilités d’être exposé et de ne pas être exposé sont les mêmes. La pseudo − population ainsi obtenue permet de briser le lien qui existe entre X et L. Différents types de poids peuvent être utilisés pour créer cette pseudo − population. Nous en présentons deux dans cette section.

Pondération avec les poids ordinaires

Les poids standards permettent d’avoir une pseudo − population dans laquelle chaque individu est représenté par deux copies, l’une qui est exposée et l’autre qui ne l’est pas. En pratique, chaque individu de cette population est représenté par l’inverse de la probabilité qu’il soit exposé sachant la valeur des variables confondantes, c’est-à-dire w = P (X=x|L=l)1 . Calculons ces poids avec les données du tableau 2.1. Pour L = 1, on a trois individus exposés parmi les cinq, donc on a un poids de 53 = 1.66 pour chacun des individus exposés et un poids de 52 = 2.5 pour les deux individus non exposés. Pour L = 2, on a quatre exposés sur sept, ce qui fait un poids de 74 = 1.75 pour les quatre exposés et un poids de 73 = 2.33 pour les trois non exposés. Ainsi on se retrouve avec une pseudo − population de 24 étudiants alors que la taille originale est de 12. Afin d’avoir l’effet causal, on applique les probabilités de succès aux deux strates de L dans la pseudo − population. Pour L = 1, on a un poids total de 10 dont 5 exposés et 5 non exposés. En appliquant les mêmes probabilités que dans le tableau2.1on se retrouve avec 3.33 réussites pour les exposés et 2.5 chez les non exposés. Pour L = 2 on se retrouve avec un poids total de 14 avec la moitié qui est exposée et l’autre qui ne l’est pas. Respectivement, on a 5.25 et 4.66 réussites dans les deux groupes. Le risque relatif peut ainsi s’estimer par le rapport des nombres de réussites entre les exposés et les non exposés. RR = 3.33+5.252.5+4.66 = 1.19, ce qui correspond à la même valeur que celle qu’on a trouvée avec la standardisation.

Comment estimer ces poids lorsque nous avons plusieurs variables confondantes avec plusieurs modalités ? Bien sûr, nous n’allons pas utiliser le même principe pour le calcul des poids au vu du nombre très élevé de strates que l’on pourrait avoir. Dans ce cas, on peut estimer les poids par une méthode paramétrique, c’est-à-dire en ajustant un modèle pour P (X|L). Dans notre

(25)

cas où l’exposition est binaire, on peut ajuster un modèle logistique. Cette option devient incontournable lorsqu’il y a au moins une variable confondante continue. Lorsqu’on obtient les poids pour les individus, l’estimation de l’effet causal se fait comme dans le paragraphe précédent.

Pondération avec les poids stabilisés

Comme on les a décrits dans la section2.1.2, les premiers poids créent deux copies pour chaque individu en donnant à l’une une probabilité d’être exposé égale à 1 et à l’autre une probabilité de 0 (donc une probabilité de ne pas être exposé égale à 1). Toutefois, au lieu d’avoir un numérateur égal à l’unité, on pourrait avoir une valeur positive inférieure ou égale à 1. Par exemple, une valeur de 0.5 signifierait que chaque individu dans la pseudo − population aurait des probabilités d’être exposé et de ne pas être exposé égales à 0.5 indépendamment de la valeur des variables confondantes. La taille de la pseudo − population serait alors la même que celle de la population d’origine.

Le but étant d’avoir une pseudo-population dans laquelle l’exposition serait indépendante des variables confondantes, toute fonction de probabilité qui assure cette condition pourrait convenir (12). On peut ainsi choisir comme numérateur la probabilité de recevoir son propre traitement. En d’autres termes, les exposés auront P (X = 1) et les non exposés P (X = 0). Par conséquent, pour les deux groupes, les poids seront respectivement P (X=1|L)P (X=1) et P (X=0|L)P (X=0) . Les poids ainsi obtenus sont appelés poids stabilisés.

Calculons ces poids pour notre exemple (2.1). On a sept exposés et cinq non exposés, ce qui donne P (X = 1) = 127 et P (X = 0) = 125. Pour L = 1, on a trois individus exposés parmi les cinq, donc on a un poids de

7 12

3 5

= 0.97 pour les exposés et un poids de

5 12

2 5

= 1.04 pour les non exposés soit en total des poids 2.92 et 2.08. Pour L = 2, on a quatre exposés sur sept, ce qui correspond à des poids respectifs de

7 12

4 7

= 1.02 pour les exposés soit un poids total de 4.08 et

5 12

3 7

= 0.97 pour les non exposés soit un poids total de 2.92.

On remarque que le poids dans chacune des strates de L est sensiblement le même que la taille de la strate originale. Pour estimer l’effet causal, on applique les probabilités associées aux différentes valeurs de l’issue déduites du tableau 2.1. Ainsi, on se retrouve avec 2.92 ×

2

3 + 4.08 × 3

4 = 5 réussites pour les exposés et 2.084 × 1 2 + 2.92 × 2 3 = 3. Le risque relatif estimé donne RR = 5 7 3 5

= 1.19. Cette valeur est exactement égale à celle trouvée avec les poids standards (11).

(26)

2.2

Exposition dépendante du temps

Dans cette partie, nous traitons essentiellement des modèles structurels marginaux (MSMs) (22) qui sont les plus populaires lorsqu’on veut estimer l’effet causal d’une exposition variant au cours du temps en présence de confusion dépendante du temps. On parle de confusion dépendante du temps lorsqu’une variable au temps t prédit l’exposition au temps t + 1, mais aussi l’issue étant donné les expositions passées et qu’elle est affectée par les expositions passées. Dans la mesure où cette variable est affectée par les expositions passées, elle sert aussi d’intermédiaire entre l’exposition et l’issue. Par exemple, dans la figure 2.1, L2 est prédite par X1 et elle agit sur X2. De ce fait, l’ajustement pour cette variable confondante crée un

biais dans l’estimation de l’effet causal en bloquant un chemin intermédiaire d’intérêt. Les modèles structurels marginaux, à travers la pondération par probabilité inverse de traitement, constituent ainsi un bon moyen d’estimer l’effet causal sans biais.

2.2.1 Présentation des MSMs

Jusqu’ici, nous nous sommes intéressés à l’effet causal d’une exposition pour un temps fixe. Ici, nous allons introduire une notation qui prendra en compte le temps, l’exposition n’étant plus figée (figure 2.1). Ainsi, en considérant une étude longitudinale avec T périodes et n individus, Xt,i désigne la valeur de l’exposition de l’individu i au temps t et Lt,i celle des variables confondantes pour le même individu, t = (1, 2, . . . , T − 1). L’issue pour chaque individu est mesurée à la fin de l’étude ; on la notera Yipour l’individu i. ¯Xt= (X1, X2, . . . , Xt)

et ¯Lt= (L1, L2. . . , Lt) représentent respectivement les historiques d’exposition et des variables

confondantes au temps t, c’est-à-dire, les valeurs observées du début jusqu’au temps t. Figure 2.1 – DAG représentant une présence de confusion dépendante du temps

L1 X1 L2 X2 L3 X3 Y

En présence d’une exposition dépendante du temps, l’effet causal peut être identifié sous certaines conditions.

2.2.2 Ignorabilité séquentielle

Nous avons présenté le principe d’ignorabilité dans le paragrahe 1.4.2 dans le cadre d’une exposition ponctuelle. De façon similaire, l’estimation d’un effet causal dans le cadre d’un traitement variant au cours du temps requiert un ajustement pour l’historique des variables confondantes ( ¯Lt) à chaque période t. Pour une exposition ponctuelle, un individu est soit

(27)

pour un individu augmente rapidement avec le nombre de fois où la mesure est prise dans le temps. En effet, pour T périodes de mesure, soit T − 1 périodes d’exposition avec une variable dichotomique, on a 2T −1 possibilités. On définit ces possibilités comme étant des stratégies de traitement. On peut ainsi s’intéresser, par exemple, à l’effet causal moyen entre ceux qui sont traités uniquement à la première période ¯x = (1, 0, ..., 0) et ceux qui sont toujours traités ¯

x0 = (1, 1, ..., 1) donné par E(Yx¯) − E(Yx¯0).

Afin de pouvoir mesurer l’effet causal, il faudrait que, pour chaque période, la probabilité de traitement pour un individu dépende uniquement de son historique de traitement. En d’autres termes, on devrait être dans une expérience de randomisation séquentielle dans la-quelle l’ignorabilité vaut par construction. Toutefois, en pratique, ce cas de figure se présente très rarement, les études étant observationnelles pour la plupart des cas. L’effet causal reste estimable lorsqu’il existe des variables confondantes telles qu’en conditionnant sur elles, le principe d’ignorabilité devient valable pour chaque période. L’équation 2.1 représente cette condition, mathématiquement

Yx¯aX¯t| ¯Xt−1, ¯Ltpour tout ¯Xt−1et ¯Lt. (2.1)

2.2.3 Positivité

La notion de positivité pour un traitement variant au cours du temps, c’est-à-dire un traitement dont la valeur change éventuellement pour chaque individu d’un temps t à un autre t + 1, stipule que, pour chaque période donnée, la probabilité d’être exposé (ou de ne pas l’être), conditionnellement à l’historique de son exposition et des variables confondantes, est différente de 0

P (Xt= xt| ¯Xt−1= ¯xt−1, ¯Lt= ¯lt) > 0. (2.2)

L’équation 2.2doit être valide ∀ ¯xt, ¯ltpour tout P ( ¯Lt= ¯lt) 6= 0.

2.2.4 Estimation d’un effet causal avec un MSM

L’estimation sans biais d’un effet causal d’un traitement variant au cours du temps à partir d’un modèle structurel marginal nécessite que les conditions présentées dans les sections pré-cédentes soient satisfaites. En effet, lorsque l’exposition est mesurée dans le temps, sa valeur au moment t peut affecter les potentielles variables confondantes aux temps ultérieurs (23). De ce fait, ces variables potentiellement confondantes deviennent des variables intermédiaires dans la relation entre l’exposition et l’issue. Par conséquent, en contrôlant ces variables, on risque de ne pas prendre en compte tout l’effet induit par l’exposition. Les modèles struc-turels marginaux permettent de résoudre ce problème. Ils permettent d’estimer l’effet causal sans biais sous certaines conditions à travers la pondération qui permet de briser le lien qui

(28)

existe entre l’exposition à un moment donné et celles passées ainsi que celui entre les variables confondantes et les expositions.

On considère trois types de poids : les poids standards, les poids stabilisés et les poids sta-bilisés marginaux. En reprenant les mêmes notations que celles qui ont été utilisées dans les paragraphes précédents, ces poids, respectivement notés w, sw et swm sont représentés par les équations ci-dessous

wi= T

Y

t=1

1

P (Xt= xt,i| ¯Xt−1 = ¯xt−1,i, ¯Lt= ¯lt,i)

; (2.3) swi = T Y t=1 P (Xt= xt,i| ¯Xt−1= ¯xt−1,i)

P (Xt= xt,i| ¯Xt−1= ¯xt−1,i, ¯Lt= ¯lt,i)

; (2.4) swmi= T Y t=1 P (Xt= xt,i)

P (Xt= xt,i| ¯Xt−1= ¯xt−1,i, ¯Lt= ¯lt,i)

. (2.5)

Un exemple de code sous R est fourni en annexe (A). Plusieurs méthodes peuvent être utilisées pour obtenir les poids. Dans notre cas, nous avons procédé à une régression logistique de l’exposition sur les variables confondantes et les expositions antérieures. L’étape finale consiste à considérer un modèle pour l’issue. Ce modèle est une fonction reliant l’issue à l’historique d’exposition. Un des types de poids sera utilisé pour la pondération. Ce modèle définissant la relation entre l’issue et l’historique d’exposition doit être bien spécifié. Notre test (4.3) permet de valider le modèle choisi avec des données observationnelles. Plusieurs modèles peuvent être utilisés selon la relation supposée entre le traitement et l’issue. Par exemple, si on suppose que l’effet de l’exposition sur l’issue est cumulatif, alors on utilise l’equation2.6

E(Yx¯) = β0+ β1 T

X

t=1

Xt. (2.6)

Le paramètre β1 obtenu avec ce modèle est ainsi interprété comme étant l’effet causal. Plus précisément, si ¯x et ¯x0 sont deux historiques d’exposition qui diffèrent dans le fait que le nombre de période où le sujet est exposé sous ¯x est supérieur de 1 au nombre de période où le sujet est exposés sous ¯x0, alors E(Yx¯) − E(Yx¯0) = β1. Selon ce modèle, cette différence

est la même quelle que soit les moments précis auxquels le sujet est exposé, d’autant que la différence dans le nombre de période où le sujet est exposé soit de 1.

(29)

Chapitre 3

Le bootstrap

Le bootstrap est une méthode de rééchantillonnage proposée par Efron en 1979 (6) . Son déve-loppement est lié à celui des capacités de calcul des ordinateurs, sa mise en œuvre étant assez exigeante en ressources. En effet, le principe du bootstrap est de tirer, avec remise, à partir d’un échantillon de taille n d’autres échantillons de la même taille afin de pouvoir réaliser une estimation d’une statistique, par exemple un paramètre d’un modèle ou la variance d’un estimateur. Ces échantillons sont appelés échantillons bootstrap. Ainsi, avec un echantillon original de taille n, on peut avoir nnéchantillons bootstrap. L’estimation d’un paramètre avec cette méthode repose sur le principe de substitution.

Le bootstrap est particulièrement utile dans les situations où aucune expression analytique n’est disponible pour estimer la variance. Dans le cadre de ce mémoire, le bootstrap est juste-ment utilisé pour estimer une matrice de variance-covariance pour laquelle le développejuste-ment d’un estimateur analytique est compliqué.

3.1

Le principe de substitution

Considérons n variables aléatoires indépendantes et identiquement distribuées X1, X2, . . . , Xn

de fonction de répartition F . Les observations x1, x2, . . . , xnassociées à ces variables aléatoires

ont pour loi empirique la loi uniforme discrète. La valeur de la fonction de répartition au point x peut être estimée par le nombre d’observations dont les valeurs sont inférieures ou égales à x rapporté à la taille n de l’échantillon, ˆF (x) = #{xi:xi≤x}

n .

Lorsqu’on considère la variable aléatoire qui représente la loi comptant le nombre de valeurs prises par Xi inférieures à x, il est aisé de voir qu’elle est une binomiale. Formellement, on

(30)

La loi des grands nombres nous assure ainsi la convergence de ˆF (x) vers F (x). De façon analogue, si on veut estimer un paramètre θ dépendant de F , qu’on notera θ(F ), on pourrait le faire en prenant ˆθ = θ( ˆF ). Ce principe est appelé principe de substitution.

3.2

Estimation bootstrap de la variance d’un estimateur

Considérons un échantillon bootstrap X∗ = (X1∗, X2∗, . . . , Xn∗). Les Xi∗ (i = 1, 2, . . . , n) sont indépendantes et identiquement distribuées de fonction de répartition ˆF . La variance s’écrit :

vboot = V arFˆ(ˆθ)

= EFˆn ˆθ(X1∗, . . . , Xn∗) − EFˆ(ˆθ(X1∗, . . . , Xn∗))

o2 .

L’estimation de la variance du paramètre d’intéret θ se fait selon les étapes suivantes : 1. Sélection de B échantillons bootstrap

2. Calcul de l’estimation du paramètre θ, pour chaque échantillon bootstrap. Cette esti-mation sera notée ˆθ∗(b) pour l’échantillon b, b = 1, 2, . . . , B

3. On calcule la variance des estimations obtenues avec l’équation 3.1

vboot = PB b=1(θ∗(b) − θ∗(.))2 B (3.1) où θ∗(.) = PB b=1θ∗(b) B 3.2.1 Le bootstrap paramétrique

Jusqu’ici, nous n’avions pas supposé de loi pour les données. Ainsi, nous avons appliqué un bootstrap non paramétrique. Une autre approche est de considérer les données comme étant issues d’une certaine distribution connue qu’on notera ˆFpar. De ce fait, l’échantillonnage se

fait à partir de cette distribution et pas sur les données. L’estimation bootstrap se fait comme dans le cas non paramétrique. Par exemple, si la loi considérée est celle d’une distribution normale, on tire B échantillon à partir de cette loi normale dont les paramètres sont estimés à partir des données, on calcule une estimation du paramètre pour chaque échantillon et, enfin, on calcule la variance des estimations obtenues.

3.2.2 Nombre de réplications

L’idéal serait d’utiliser tous ces échantillons (nn) pour l’estimation bootstrap. Toutefois, ce nombre grimpe très rapidement lorsque la taille de l’échantillon original augmente, rendant ainsi presque impossible d’exploiter tous ces échantillons bootstrap. Par conséquent, on se

(31)

contentera de faire une estimation avec B réplications. Mais quelle valeur de B ?

Selon Efron (7), B = 200 devrait suffir dans la plupart des cas. La valeur de B dépend en partie de la présence de valeurs extrêmes dans l’échantillon. Leur fréquence devrait pousser à choisir B plus grand. Lorsqu’on s’intéresse à la construction d’intervalles de confiance, on devrait également réaliser plus de réplications.

(32)

Chapitre 4

A test for the correct specification of

marginal structural models

Authors

Alioune Sall, Karine Aubé, Xavier Trudel, Chantal Brisson, Denis Talbot

Avant-propos

Cet article est rédigé dans le cadre d’une maitrise en statistique. L’auteur principal est Alioune Sall qui y a contribué approximativement à hauteur de 65%. Il a notamment élaboré la mé-thode présentée dans l’article, l’a implantée dans le logiciel R, a conçu et réalisé les études de simulation, a réalisé les analyses concernant l’application illustrée à la section4.5, a effectué la recherche bibliographique et a produit la première ébauche de l’article. L’article a été soumis à Statistics in Medicine le 25/05/2018. La version de l’article soumise ne comprend pas le dernier paragraphe de la section 4.6.

Denis Talbot a identifié la problématique étudiée dans l’article, a participé à la recherche bibliographique ainsi qu’à la conception des scénarios de simulation et a dirigé le travail réa-lisé, sa contribution est à hauteur de 30%. Karine Aubé, Xavier Trudel et Chantal Brisson ont contribué à la conception de l’analyse illustrative présentée à la section 4.5 ainsi qu’à la rédaction de cette section.

Tous les auteurs ont participé à la révision critique de l’ensemble du manuscrit et ont approuvé la version finale.

(33)

Abstract

Marginal structural models allow estimating the causal effect of a time-varying exposure on an outcome in the presence of time-dependent confounding. The parameters of marginal structural models can be estimated utilizing an inverse probability of treatment weight estimator under certain assumptions. One of these assumptions is that the proposed causal model relating the outcome to exposure history is correctly specified. However, in practice, the true model is unknown. We propose a test that employs the observed data to attempt validating the assumption that the model is correctly specified. The performance of the proposed test is investigated with a simulation study. We illustrate our approach by estimating the effect of repeated exposure to psychosocial stressors at work on ambulatory blood pressure in a large cohort of white-collar workers in Quebec City (Canada).

Keywords : Causal inference ; marginal structural models ; model specification

4.1

Introduction

Marginal structural models (MSMs) (22) are a class of causal models that are becoming increasingly popular for the estimation of causal effects when one deals with time varying exposures in the presence of time-dependent confounding. The causal parameters are often estimated using an inverse probability of treatment weight (IPTW) estimator (5). When using this estimator, the analyst must specify an outcome model that relates the outcome to the exposure history, as well as a weighting model relating the exposure at each time point to previous potential confounders. This estimator is unbiased under the assumptions of absence of i) unmeasured confounders and ii) misspecification of both the weighting model and the outcome model.

The specification of the structural outcome model, that links the outcome to the exposure history, has been the subject of much methodological work during the last few years. For instance, it has been observed that biased inferences may be obtained when the model considers only a part of the exposure history.(28) It has also been suggested that employing a basic stabilized weight IPTW estimator may provide some robustness to misspecifications in this instance.(28;26) Platt et al (21) have proposed an information criterion for MSMs (QICw)

inspired by Akaike’s information criterion to help in selecting a best fitting model among a set of candidate specifications for the structural outcome model. However, the performance of the QICwis mitigated in so far as, in some cases, the QICwselects the true model with a relatively

small probability in simulation studies (21; 27). Based on the QICw, Taguri and Matsuyuka (27) have presented a corrected QICw (cQICw) which also compares different models based

on the value of the criterion. The ability of this cQICw in selecting the correct specification

was also variable in simulation studies (27). More recently, Baba et al (1) proposed a CP criterion. In simulations, CP was observed to perform generally better than the cQICw. The

(34)

QICw, cQICw and CP are all comparative criteria. So far, there exists no absolute criterion

to validate the proposed specification of a marginal structural model.

In this paper, we thus introduce a test based on non-parametric bootstrap that seeks to detect when the proposed specification of the structural outcome model is incorrect. The paper is structured as follows. In the second section, we introduce the concepts that underlie MSMs and present the notation. Section 3 introduces our test for the correct specification of the outcome model. In Section 4, we present a simulation study that investigates the empirical properties of our test. Section 5 presents an application of our new test in which we investigate the effect of psychosocial stressors at work on ambulatory systolic and diastolic blood pressure. Finally, in Section 6, we conclude with a discussion.

4.2

MSMs and Notation

Marginal structural models (22) model the expectation of the potential outcome, as a function of exposure history. We consider a follow-up study with T time points and n individuals sampled from a population. For individual i (i = 1, . . . , n), let Yi be the outcome at the end of the follow-up (at time T ), Xt,i be the exposure at time t and Lt,i be the other measured

risk factors of Y at time t (t = 1, . . . , T − 1). We define ¯Xt,i = (X1, X2, . . . , Xt) as the

individual i’s exposure history with ¯Lt,i defined similarly. As a notational shortcut, we denote

¯

XT −1,i as ¯Xi. The potential outcome Yx¯ is defined as the value that Y would have taken

if the exposure history had been ¯x. Thus, the marginal structural model can be represented as E(Yx¯) = f (¯x) where f (¯x) denotes a function of the exposure history. For instance, f (¯x) could be : f (¯x) = β0+ β1x1+ . . . , +βT −1xT −1 or f (¯x) = β0+ β1x1+ . . . , +β1xT −1. The first

function assumes that the outcome depends on all the exposure history additively while the latter supposes that the outcome depends linearly on the total amount of exposure. For the sake of simplicity, we henceforth consider binary exposures, that is Xt,i = 1 if subject i is

exposed at time t and Xt,i = 0 otherwise.

Parameters of MSMs are often estimated using IPTW estimators. (5) More precisely, the parameters of MSMs are estimated with the estimated parameters of the weighted linear model for E(Y | ¯X), where the weights are given by the inverse probability of the observed exposure history conditionally on covariates and prior exposures. The weights create a pseudo-population in which, at each time point, exposed (Xt= 1) and unexposed (Xt= 0) subjects

are similar to each other. Many type of weights can be considered, including standard weights (w), stabilized weights (sw) and marginal stabilized weights (swm). Formally, these different

(35)

weights for subject i are defined as follows : wi = T Y t=1 1

P (Xt= xt,i| ¯Xt−1= ¯xt−1,i, ¯Lt= ¯lt,i)

swi = T

Y

t=1

P (Xt= xt,i| ¯Xt−1= ¯xt−1,i)

P (Xt= xt,i| ¯Xt−1= ¯xt−1,i, ¯Lt= ¯lt,i)

swmi = T

Y

t=1

P (Xt= xt,i)

P (Xt= xt,i| ¯Xt−1= ¯xt−1,i, ¯Lt= ¯lt,i)

Remark that all weights share the same denominator, only the numerator of the weights varies according to the type of weights. In fact, it has been shown that the numerator of the weights might be any function of ¯XT −1without affecting the consistency of the estimator, that is, as the

sample size increases to infinity, the estimate converges to the parameter in probability under the sequential exchangeability and positivity assumptions.(22) The sequential exchangeability assumption entails that

Yx¯aX¯t| ¯Xt−1, ¯Lt,

where` denotes statistical independence, whereas the positivity assumption involves that P (Xt= xt| ¯Xt−1= ¯xt−1, ¯Lt= ¯lt) > 0 for all ¯xt, ¯ltwhere P ( ¯Lt= ¯lt) 6= 0.

The covariates ¯L are thus chosen to satisfy these conditions.

Furthermore, it was shown that when a saturated MSM is fitted, the estimates of the causal parameters are the same regardless of the type of weights employed, but when an unsaturated model is considered, the estimates produced by the stabilized weights are different from those yielded by the standard weights.(22) The latter are more variable, but the difference is only due to sampling variability under the hypothesis that the model is correctly specified.(22). We will say that a model is correctly specified if the assumed causal relationship between exposure and outcome is the one that exists in reality. Otherwise, the model is said to be misspecified.

4.3

A test for the correct specification of the outcome model

MSMs provide, under certain assumptions, unbiased estimators of the causal effect of an exposure history. To ensure that the estimates obtained are unbiased, one should validate these assumptions. As previously mentioned, one of the assumptions of MSMs is that the outcome model is correctly specified. However, it is very difficult to know if the model is correctly specified or not since, so far, there is no formal way to test the validity of this assumption. Comparative criteria, such as QICw (21), cQICw (27) or Cp (1) can be used to select a best-fitting specification among a set of candidates, but there is no guarantee that the model chosen employing such criteria is correctly specified. For instance, a correct specification

(36)

is impossible to find using these criteria if none of the models in the candidate set is correctly specified. We thus propose a statistical test that seeks to detect if the proposed specification of the outcome model is incorrect.

As was mentioned in the previous section, the parameters of MSMs can be estimated using various type of weights. When an unsaturated model is considered and the outcome model is correctly specified, the estimates may differ depending on the type of weights used, but the difference is only due to sampling variability. However, if the model is misspecified, the estimators may not converge to the same values.(19) We utilize these properties of the IPTW estimator in devising our test for the correct specification of the outcome model. That is, we want to test whether the differences observed between the estimates of the parameters using different weights can be attributed to random fluctuations. In such a case, the data are in line with the null hypothesis that the model is correctly specified. Otherwise, the data suggest that the model is incorrectly specified.

We provide details for comparing estimates obtained utilizing standard weights w and those produced by stabilized weights sw, but the same procedure can be used to compare estimates obtained with any two types of weights. The test is defined as follows

H0: βw = βsw vs H1: βw 6= βsw,

where βk denotes the vector of the parameters (without the intercept) estimated by using the weight k = (w, sw). More precisely, βkdenotes the true parameter toward which the estimator based on weights k converges when sample size grows.

The IPTW estimators ˆβwand ˆβsware regular and asymptotically linear estimators (22), whose limit distribution is normal (30) with mean β. Then δ = ˆβw− ˆβsw is also normal with mean 0 under the null hypothesis, such that D = δ dV ar(δ)−1δ0 ∼ χ2

m under H0, where m denotes the

dimension of δ. Indeed, under the hypothesis of normality of δ, D is a sum of the square of m standard normal variables. We thus propose using D as a statistic for testing if the outcome model is correctly specified.

To calculate our test statistic, we need to estimate the unknown variance-covariance matrix of δ. However, it is very difficult to derive an analytical estimator of this variance because

ˆ

βw and ˆβsw are estimated from the same model based on the same data, but with different weights. We thus propose a non-parametric bootstrap estimator. More precisely, n observations are sampled with replacement from the original data, B times. In each sample, the weights sw and w are first estimated. Then the parameters of the MSM are estimated employing the weights sw and w, and δ is computed. The covariance matrix is finally estimated by computing the empirical covariance matrix based on the B bootstrap estimates of δ.

(37)

4.4

Simulation study

4.4.1 Description of the simulation study

In this section, we detail our simulation study which includes three scenarios. This simulation study aims to evaluate the capacity of our test described in Section 4.3 to detect a misspe-cified model with different sample sizes. We compare the performance of the test according to different combinations of weights and investigate if truncating the weights at their 99.5th percentile impacts the performance of our test. The estimators of the causal parameter based on truncated weights have been observed to be less variable than those based on untruncated weights. (32)

Scenario 1

This scenario is taken from Talbot et al.(28) The relationships between the variables are as follows L1 ∼ N (0, 1), P (X1 = 1) = expit(0.5L1) L01 = X1+ L1+ εL0 1 L2 = 0.5X1+ εL2 P (X2 = 1) = expit(0.5X1+ 0.5L 0 1+ 0.5L2) Y = X2+ 0.5L 0 1+ L2+ εY,

where expit(a) = 1+eeaa and εL2, εY2 are N (0, 1) independent random variables. In this scenario,

the standard, stabilized and basic stabilized weights are defined as wi =

1

P (X1 = x1,i|L1 = l1,i)

× 1

P (X2= x2,i|X1 = x1,i, L1= l1,i, L2= l2,i)

swi =

P (X1= x1,i)

P (X1 = x1,i|L1 = l1,i)

× P (X2 = x2,i|X1 = x1,i)

P (X2= x2,i|X1 = x1,i, L1= l1,i, L2= L2,i)

swmi =

P (X1= x1,i)

P (X1 = x1,i|L1 = l1,i)

× P (X2= x2,i)

P (X2= x2,i|X1 = x1,i, L1= l1,i, L2= l2,i)

(38)

Scenario 2

This scenario is inspired by the ones considered by Platt et al.(21) : L1 ∼ N (10, 1) P (X1 = 1) = expit(−2.6 + 0.25L1) L2 ∼ N (L1+ X1, 1) P (X2 = 1) = expit(−2.6 + 0.25L2+ 0.1X1)) L3 ∼ N (L2, 1) P (X3 = 1) = expit(−2.6 + 0.25L3+ 0.1X2) L4 ∼ N (L3+ 2X3, 1) P (X4 = 1) = expit(−2.6 + 0.25L4+ 0.1X3) Y ∼ N (L4+ 3X4, 1).

The different types of weights are defined as follows wi=

1

P (X1 = x1,i|L1 = l1,i)

× 1

P (X2 = x2,i|X1= x1,i, L1 = l1,i, L2= l2,i)

× 1

P (X3 = x3,i|X2= x2,i, X1= x1,i, L1 = l1,i, L2 = l2,i, L3= l3,i)

× 1

P (X4 = x4,i|X3= x3,i, X2= x2,i, X1= x1,i, L1 = l1,i, L2= l2,i, L3= l3,i, L4= l4,i)

swi=

P (X1 = x1,i)

P (X1 = x1,i|L1 = l1,i)

× P (X2= x2,i|X1 = x1,i)

P (X2 = x2,i|X1= x1,i, L1 = l1,i, L2= l2,i)

× P (X3 = x3,i|X2 = x2,i, X1 = x1,i)

P (X3 = x3,i|X2= x2,i, X1= x1,i, L1 = l1,i, L2 = l2,i, L3= l3,i)

× P (X4= x4,i|X3 = x3,i, X2 = x2,i, X1 = x1,i)

P (X4 = x4,i|X3= x3,i, X2= x2,i, X1= x1,i, L1 = l1,i, L2= l2,i, L3= l3,i, L4= l4,i)

swmi=

P (X1 = x1,i)

P (X1 = x1,i|L1 = l1,i)

× P (X2 = x2,i)

P (X2 = x2,i|X1= x1,i, L1 = l1,i, L2= l2,i)

× P (X3= x3,i)

P (X3 = x3,i|X2= x2,i, X1= x1,i, L1 = l1,i, L2 = l2,i, L3= l3,i)

× P (X4 = x4,i)

P (X4 = x4,i|X3= x3,i, X2= x2,i, X1= x1,i, L1 = l1,i, L2= l2,i, L3= l3,i, L4= l4,i)

(39)

Scenario 3

Scenario 3 is the same as Scenario 2, but with different parameter values. The variables are generated as follows L1∼ N (10, 1) P (X1 = 1) = expit(−2.6 + 0.25L1) L2∼ N (L1, 1) P (X2 = 1) = expit(−2.6 + 0.25L2+ 0.1X1) L3∼ N (L2, 1) P (X3 = 1) = expit(−2.6 + 0.25L3+ 0.1X2) L4∼ N (L3, 1) P (X4 = 1) = expit(−2.6 + 0.25L4+ 0.1X3) Y ∼ N (L4+ X4, 1).

The weights are defined as in Scenario 2.

4.4.2 Analysis of the simulation

For each of the scenarios described above, we generated 1000 datasets of size n = 200, n = 500, n = 1000 and n = 5000. We considered the four following specifications of the MSM in each scenario E(Yx¯) = β0+ β1 T X t=1 Xt E(Yx¯) = β0+ βTXT E(Yx¯) = β0+ β11 T X t=1 Xt> 0 ! E(Yx¯) = β0+ T X t=1 βtXt,

where 1 denotes the indicator function, T = 2 in Scenario 1 and T = 4 in Scenarios 2 and 3. In the following, these models will be designated respectively as the cumulative (24), the current (22) (11), the indicator and the full model (24)(16).

For each model, we estimated the causal parameters using the three different forms of weights described above and the probabilities forming these weights were estimated employing logistic regression models. We then applied 6 variations of our test described in Section 3 : 1) standard weights vs stabilized weights, 2) standard weights vs marginal stabilized weights, 3) stabilized weights vs marginal stabilized weights, 4) truncated standard weights vs truncated stabilized weights, 5) truncated standard weights vs truncated marginal stabilized weights, 6) truncated

Références

Documents relatifs

marge brute – remise – prix d’achat net – prix de vente hors taxe – coût d’achat prix de vente toute taxe comprise – prix d’achat net – frais d’achat – prix

Pour cela (figure 1), on émet dans le local I avec une source de bruit normalisée, et on mesure dans le local II, séparé de I par la paroi étudiée, le niveau acoustique par

 A chaque type et chaque degré est affecté un nombre de points La méthode permet de calculer le poids du projet en points de

Réaliser une analyse de l’arbre généalogique suivant pour déterminer quel risque pour III4 d’avoir un enfant malade. Les femmes sont symbolisées par des ronds, et les hommes par

L'objet posé sur le sol ne pourra en aucun cas libérer de l'énergie par le travail de son poids. Son énergie potentielle de pesanteur est nulle. Pour définir une énergie potentielle

L'induit d’un moteur est alimenté par une tension continue V = 275V, par l'intermédiaire d'un hacheur série, selon le schéma de principe connu. A l'aide d'un oscilloscope bi-courbe,

Les réactifs sont les ions Ag + et le cuivre métallique car les courbes correspondantes ont un coefficient directeur négatif.. Les produits sont le métal Ag et les ions Cu 2+ car

* Détermination de la graduation 100 : on plonge le réservoir du thermomètre dans de l’eau en ébullition sous la pression atmosphérique normale.. Le liquide dans le capillaire