• Aucun résultat trouvé

Comparaison d'approches d'ajustement pour les facteurs confondants dans le cadre d'études observationnelles à l'aide de données administratives

N/A
N/A
Protected

Academic year: 2021

Partager "Comparaison d'approches d'ajustement pour les facteurs confondants dans le cadre d'études observationnelles à l'aide de données administratives"

Copied!
84
0
0

Texte intégral

(1)

Comparaison d'approches d'ajustement pour les

facteurs confondants dans le cadre d'études

observationnelles à l'aide de données administratives

Mémoire

Imane Benasseur

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Comparaison d’approches d’ajustement pour les

facteurs confondants dans le cadre d’études

observationnelles à l’aide de données administratives

Mémoire

Imane Benasseur

Sous la direction de:

Denis Talbot, directeur de recherche Jason Robert Guertin, codirecteur de recherche

(3)

Résumé

Les méthodes du score de propension (PS) sont populaires pour estimer l’effet d’une exposition sur une issue à l’aide de données observationnelles. Cependant, leur mise en place pour l’ana-lyse de données administratives soulève des questions concernant la sélection des covariables confondantes et le risque de covariables confondantes non mesurées. Notre objectif principal consiste à comparer différentes approches d’ajustement pour les covariables confondantes pour éliminer les biais dans le cadre d’études observationnelles basées sur des données administra-tives. Quatre méthodes de sélection de covariables seront comparées à partir de simulations, à savoir le score de propension à hautes dimensions (hdPS), le score de propension à hautes dimensions modifié (hdPS_0), le LASSO adapté pour l’issue (OAL) et l’estimation ciblée collaborative et évolutive par maximum de vraisemblance (SC-TMLE). Pour hdPS, hdPS_0 et OAL, quatre approches d’ajustement sont considérées : 1) la pondération par l’inverse de probabilité de traitement (IPTW), 2) l’appariement, 3) l’appariement pondéré et 4) l’ajuste-ment pour le score de propension. Des simulations avec 1000 observations et 100 covariables potentiellement confondantes ont été réalisées. Les résultats indiquent que la performance des méthodes d’ajustement varie d’un scénario à l’autre, mais l’IPTW, a réussi globalement à ré-duire le plus le biais et l’erreur quadratique moyenne parmi toutes les méthodes d’ajustement. De surcroît, aucune des méthodes de sélection de covariables ne semble vraiment arriver à corriger le biais attribuable aux covariables confondantes non mesurées. Enfin, la robustesse de l’algorithme hdPS peut être beaucoup améliorée, en éliminant l’étape 2 (hdPS_0).

(4)

Abstract

Propensity score methods (PS) are common for estimating the effect of an exposure on an out-come using observational data. However, when analyzing administrative data, the application of PS methods raises questions regarding how to select confounders, and how to adjust for unmeasured ones. Our objective is to compare different methods for confounding adjustment in the context of observational studies based on administrative data. Four methods for select-ing confounders were compared usselect-ing simulation studies: High-dimensional propensity score (hdPS), modified hdPS (hdPS_0), Outcome-adaptive Lasso (OAL) and Scalable collaborative targeted maximum likelihood (SC-TMLE). For hdPS, hdPS_0 and OAL, four PS adjustment approaches were considered : 1) inverse probability of treatment weighting (IPTW), 2) match-ing, 3) matching weights and 4) covariate adjustment in the outcome model. Simulations based on synthetically generated data with 1000 observations and 100 potential confounders have been realized. The results indicate that the performance of the adjustment methods varies from one scenario to another, but the IPTW, has globally succeeded in reducing the bias and the mean square error. Moreover, no method for selecting confounders, seem to be able to adjust for unmeasured confounders. Finally, the robustness of the hdPS algorithm can be greatly improved, by eliminating step 2 (hdPS_0).

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux v

Liste des figures vi

Remerciements vii

Introduction 1

1 Inférence causale : concepts & définitions 5

1.1 Approche contrefactuelle . . . 5

1.2 Score de propension et méthodes du score de propension . . . 12

2 Méthodes d’apprentissage machine de sélection de covariables

confon-dantes en hautes dimensions 20

2.1 Score de propension à hautes dimensions (high-dimensional propensity score) 20

2.2 Le LASSO adapté pour l’issue (Outcome-adaptive LASSO-OAL) . . . 24

2.3 L’estimation ciblée collaborative et évolutive par maximum de

vraisem-blance (SC-TMLE) . . . 29

3 Étude de simulation : Comparaison entre les approches de sélection de

covariables dans un contexte d’inférence causale hdPS, OAL et SC-TMLE 36

3.1 Génération des données synthétiques et description des scénarios . . . 36

3.2 Résultats . . . 41

Conclusion 46

A Figures 48

B Suite des résultats de simulation non-explorés dans le chapitre 3 50

C Code R du scénario1 53

(6)

Liste des tableaux

3.1 Les valeurs de n et k utlisées par l’hdPS et l’hdPS_0 selon le scéanrio . . . 40

3.2 Résultats des simulations obtenues avec le scénario1 : RRV rai1= 1.267309, une

seule dimension, covariables non-corrélées et toute l’information est disponible. 43

3.3 Résultats des simulations obtenues avec le scénario2 : RRV rai1= 1.267309, une

seule dimension, covariables non-corrélées et X1 est masquée. . . 44

3.4 Résultats des simulations obtenues avec le scénario3 : RRV rai2 = 1.647812,

quatre dimensions, corrélations variant de 0.1 à 0.2 et toute l’information est

disponible.. . . 44

3.5 Résultats des simulations obtenues avec le scénario4 : RRV rai2 = 1.647812,

quatre dimensions, corrélations variant de 0.1 à 0.2 et X1 est masquée. . . 45

3.6 Résultats des simulations obtenues avec le scénario5 : RRV rai3 = 1.638383,

quatre dimensions, corrélations variant de 0.2 à 0.4 et X1 est masquée. . . 45

B.1 Résultats des simulations obtenues avec le scénario6 : RRV rai2 = 1.647812,

quatre dimensions, corrélations variant de 0.1 à 0.2 et X1, X2, X41, et X42sont

masquées. . . 50

B.2 Résultats des simulations obtenues avec le scénario7 : RRV rai3 = 1.638383,

quatre dimensions, corrélations variant de 0.2 à 0.4 et X1, X2, X41 et X42 sont

masquées. . . 51

B.3 Résultats des simulations obtenues avec le scénario8 : RRV rai2 = 1.647812,

quatre dimensions, corrélations variant de 0.1 à 0.2, et la première dimension

est masquée. . . 51

B.4 Résultats des simulations obtenues avec le scénario9 : RRV rai3 = 1.638383,

quatre dimensions, corrélations variant de 0.2 à 0.4, et la première dimension

(7)

Liste des figures

1.1 Effet du traitement A sur l’issue Y , en présence de covariables confondantes X 6

2.1 Graphique acyclique dirigé décrivant un proxi mesuré d’un facteur confondant

non mesuré. Source : Guertin (2015) . . . 21

2.2 Graphique acyclique dirigé des covariables confondantes potentielles. Les flèches

doubles représentent de possibles corrélations entre les covariables . . . 25

A.1 L’erreur type et l’estimation de RR dans les scénarios 2, 4 et 5 où certaines

covariables sont non-mesurées. . . 48

A.2 L’erreur type et l’estimation de RR dans les scénarios 1 et 3 où toutes les

(8)

Remerciements

Au terme de ce travail, il m’est agréable de m’acquitter d’une dette de reconnaissance auprès de toutes les personnes dont l’intervention a favorisé son aboutissement.

Je tiens à exprimer ma profonde gratitude et mes sincères remerciements à Monsieur Denis Talbot, mon directeur de recherche. Pour avoir accepté d’être mon mentor et superviseur durant la réalisation de ce travail, et aussi pour sa disponibilité, son soutien constant, son dévouement et ses directives, qui m’ont été d’une énorme utilité. Je tiens également à remercier Monsieur Jason Robert Guertin mon co-directeur de recherche pour sa précieuse collaboration, ses remarques et sa disponibilité qui ont contribué dans l’amélioration de la qualité de mon travail.

Un grand merci à mes parents qui me suivent de loin. Ce remerciement est insignifiant devant mon profond amour, mon immense gratitude et mon plus grand respect, car votre tendresse et votre amour dévoué depuis mon enfance transcende la définition d’un simple remerciement. Votre affection et votre soutien est un grand secours le long de ma vie. J’espère que ce modeste travail vous inspirera une simple reconnaissance pour tous vos efforts. Un merci aussi à mon frère et ma sœur, qui m’ont toujours encouragé et n’ont cessé de croire à moi.

Bien entendu, je ne saurais accomplir cet écrit sans remercier tous mes amis pour les beaux moments qu’on a vécus ensemble, ici à Québec ou ailleurs.

(9)

Introduction

Il va sans nul doute que l’inférence causale, qu’on introduira en détails dans le chapitre1, joue un rôle crucial dans la prise de décision sur une intervention, qu’elle soit médicale, économique, sociale, ou autre. Elle a beaucoup aidé à gérer la fin de cycle des personnes qui ont une maladie, la fin de cycle d’une machine, la survie, etc.

Les méthodes d’inférence causales sont facilement explorées à l’aide des études randomisées contrôlées (ERC). Ces dernières constituent la référence pour évaluer l’efficacité d’un nouveau traitement, dans le contexte de la santé, vu qu’elles se basent sur un processus dans lequel l’assignation du traitement s’effectue d’une façon aléatoire. Elles présentent dès lors l’avan-tage d’établir solidement les liens de causalité, ce qui permet aux décideurs de confirmer que les résultats obtenus découlent principalement du traitement administré. Cependant, des bar-rières politiques, économiques, éthiques ou organisationnelles peuvent empêcher la conduite des études avec assignation aléatoire en pratique. Lorsque l’ECR ne peut être réalisé, les déci-deurs ont recours souvent aux données observationnelles, qui pourraient constituer un excellent substitut aux données provenant d’études randomisées, vu leur richesse en information. Les données administratives sont de plus en plus utilisées par les organismes de recherche dans leur processus de prise de décision. En effet, de telles données présentent des avantages importants par rapport aux autres sources de données, vu qu’elles sont moins coûteuses, plus facilement disponibles et entreprises sur de larges populations. Toutefois, s’il est vrai que de telles données ont des avantages, les statisticiens devraient aborder l’analyse de telles données avec le même œil prudent et critique que lorsqu’ils abordent l’analyse de données prove-nant d’une autre source. Dans les études observationnelles, le traitement n’est pas attribué d’une façon aléatoire. Conséquemment, les patients recevant un traitement ou une interven-tion spécifique diffèrent souvent systématiquement de ceux ne le recevant pas. Des méthodes statistiques doivent donc être utilisées pour réduire ou minimiser le biais de confusion1 afin

d’obtenir des estimations précises et efficaces de l’effet du traitement. Par ailleurs, même si un contrôle statistique est effectué, il demeure possible qu’un biais de confusion résiduel de-meure, particulièrement lorsque des données administratives sont utilisées, car des covariables confondantes potentiellement importantes peuvent être manquantes (par exemple, habitudes

(10)

de vie) et en raison de la qualité variable des données disponibles (erreurs de mesure, biais d’information). En outre, la présence d’un grand nombre de covariables dans une une banque de données médico-administratives constitue une arme à double tranchant. Dans un contexte où le nombre de covariables est élevé, il incombe souvent au chercheur d’identifier les véritables covariables confondantes biaisant l’association entre le traitement et l’issue, selon son bagage de connaissance à priori sur le sujet. Toutefois, ceci a pour effet de laisser à l’analyste un grand nombre de covariables, dont certaines sont redondantes ou non pertinentes et le fait de les inclure dans le modèle peut nuire à la qualité et la validité des inférences établies. De ce fait, une réduction du nombre de covariables peut être souhaitable voire avantageuse.

Il existe des méthodes d’inférence causale basées sur le score de propension qui permettent la correction du biais de confusion, lors de l’estimation des effets de traitement à l’aide de données observationnelles. Le score de propension, qui correspond pour un individu donné, à la proba-bilité d’être traité sachant ses caracteristiques initiales, a été développé à cet effet. Introduit initialement par Rosenbaum and Rubin (1983), le score de propension s’est progressivement imposé comme l’une des méthodes de référence dans l’analyse des données observationnelles et il est omniprésent dans un large éventail d’articles scientifiques. De nombreuses méthodes d’ajustement basées sur le score de propension ont été proposées, citons à titre indicatif la pondération par l’inverse de probabilité de traitement (IPTW), l’appariement, l’appariement pondéré et l’ajustement pour le score de propension. Indépendamment de la méthode utilisée, une hypothèse cruciale à considérer consiste à supposer que toutes les covariables confondantes sont mesurées et incluses dans le modèle de score de propension.

Les véritables covariables confondantes, c’est-à-dire celles associées à la fois à l’issue et au traitement, doivent impérativement être incluses. L’inclusion des covariables liées uniquement à l’issue améliore la précision de l’estimation de l’effet du traitement sans augmenter le biais (Brookhart et al. (2006), Myers et al. (2011)). En revanche, les covariables liées uniquement au traitement, ne doivent pas être incluses dans le modèle de score de propension. En effet, plusieurs études ont démontré que l’inclusion de telles covariables dans le modèle de score de propension expose à un risque d’augmentation du biais et de diminution de la précision de l’estimation particulièrement dans les modèles non linéaires (De Luna et al. (2011), Patrick et al. (2011),Myers et al.(2011),Pearl (2012)).

Ainsi, la sélection de covariables en général, et dans le contexte de l’inférence causale en particulier, a généré un intérêt considérable auprès des statisticiens chercheurs. À la diffé-rence des méthodes de sélection de covariables traditionnelles (les méthodes algorithmiques telles que la sélection pas-à-pas ou encore les méthodes de régularisation telles que l’approche du LASSO), les méthodes d’identification de covariables confondantes, dans le contexte de l’inférence causale, doit prendre en considération à la fois les relations issue-covariables et traitement-covariables.Schneeweiss et al.(2009) ont dévelopé un algorithme de sélection stan-dardisé, appelé hdPS, qui sélectionne un nombre important de covariables confondantes

(11)

obser-vées dans une banque de données médico-administratives. Encore, l’hdPS pourrait permettre le contrôle de confondants non mesurés, grâce à l’identification de proxys mesurés dans la base de données (Guertin et al. (2016)) et qui répondent aux critères de sélection de l’algorithme.

Shortreed and Ertefaie (2017) ont développé la méthode du LASSO adapté pour l’issue afin d’identifier les covariables confondantes pour l’estimation non biaisée de l’effet d’une exposition binaire sur une issue.

Pour plus de protection contre les erreurs de spécification du modèle, la littérature fournit une multitude de méthodes, dites doublement robustes, dédiées à cet effet, comme par exemple l’es-timation ciblée par maximum de vraisemblance (TMLE) (Van Der Laan and Rubin(2006)), l’estimation ciblée collaborative par maximum de vraisemblance (C-TMLE) (van der Laan and Gruber (2009)) ou encore l’estimation ciblée collaborative et évolutive par maximum de vraisemblance (SC-TMLE) (Ju et al.(2016)). À la différence des approche basées uniquement sur le modèle de score de propensions, les approches doublement robustes combinent la mo-délisation et de l’issue et du traitement, elles requièrent ainsi la bonne spéciation du modèle de soit l’un soit l’autre. La problématique de sélection de covariables a été aussi discutée dans

Talbot et al.(2015), Wang et al.(2012),Rolling and Yang (2014) et Koch et al.(2018). Le travail effectué dans le cadre de ce mémoire est motivé par cette problématique. L’objectif est de faire une étude comparative de différentes approches d’ajustement pour les covariables confondantes dans leur capacité à éliminer les biais lorsque des données administratives sont utilisées pour effectuer une évaluation économique. L’hypothèse est que, malgré leurs limites, les bases de données administratives constituent une source d’information suffisamment riche pour que des méthodes d’ajustement sophistiquées basées sur l’apprentissage-machine puissent permettre de produire des estimations pratiquement sans biais.

Ce mémoire est structuré comme suit. Le premier chapitre est consacré à la présentation des outils et des concepts utilisés en inférence causale, ainsi qu’une introduction au score de propension et ses méthodes, à savoir la pondération par l’inverse de probabilité de traitement (IPTW), l’appariement, l’appariement pondéré et l’ajustement pour le score de propension. Le deuxième chapitre abordera une explication détaillée des différentes méthodes de sélection de covariables utilisées dans ce travail. Il s’agit du score de propension à hautes dimensions (hdPS), le LASSO adapté pour l’issue (OAL) et l’estimation ciblée collaborative et évolutive par maximum de vraisemblance (SC-TMLE). Une étude comparative est effectuée dans le cadre d’une simulation de type Monte Carlo, à travers différents scénarios. Les études de simulation permettent de générer des données au moins partiellement synthétiques où les véritables covariables confondantes et les véritables tailles d’effet sont connues, ce qui constitue un avantage majeur pour comparer de façon objective plusieurs méthodes. Le dernier chapitre sera voué à la discussion des résultats obtenus. Le travail effectué dans le cadre de ce mémoire a été d’ailleurs retenu pour une présentation orale lors de la conférence nationale biennale organisée par la société canadienne d’épidémiologie et de biostatistique qui s’est tenue en mai

(12)

2019 à l’Université Carleton. Il a été aussi présenté par affiche lors de la 6ème Journée de la recherche des étudiants de l’axe SP-POS à l’Université Laval en juin 2019, et lors du congrès international organisé par la société internationale de la pharmacoépidémiologie à Philadelphie en août 2019. Aussi le résumé a été publié dans la revue « Pharmacoepidemiology and Drug Saftey » (Benasseur et al.(2019)).

(13)

Chapitre 1

Inférence causale : concepts &

définitions

1.1

Approche contrefactuelle

Le modèle causal contrefactuel prend ses racines dans les travaux de Splawa-Neyman (1923) et

Fisher (1935) dans le cadre d’expériences aléatoires. Il a ensuite été étendu parRubin(1974). On l’appelle aussi, modèle causal de Rubin et modèle des issues potentielles.

1.1.1 Notation

La notation définie ici garde des similitudes avec celle définie pour présenter les travaux de

Shortreed and Ertefaie(2017).

Soit Y , la variable aléatoire correspondant à l’issue étudiée, par exemple le fait de développer ou non une maladie. Afin de simplifier la présentation, nous considérons le cas d’une variable d’exposition A binaire (0/1) et d’un ensemble X de covariables préexposition (baseline) poten-tiellement confondantes. Ces covariables sont conceptualisées comme étant des déterminants à la fois de l’exposition A et de la réponse, Y . Cette situation peut être illustrée à l’aide d’un graphique acyclique orienté (DAG), figure 1.1.

Un DAG est un graphique permettant de représenter les relations entre différentes variables. Il est orienté, c’est-à-dire que les relations entre les variables seront représentées par des flèches à une pointe. Aussi, un DAG est acyclique dans la mesure où si on suit le chemin dirigé (dans le sens des flèches) à partir d’une variable, on ne retombera jamais sur la variable d’origine.

(14)

X

A Y

Figure 1.1 – Effet du traitement A sur l’issue Y , en présence de covariables confondantes X

1.1.2 Effet causal individuel

Dans la suite, sauf indication contraire, on suppose que les données sont issues d’études ran-domisées.

Rubin (1974) propose un modèle causal où pour un même sujet il existe plusieurs résultats hypothétiques, les résultats potentiels, qui sont fonction de l’exposition du sujet au traitement. Ce modèle repose sur deux piliers. Il y a d’un côté le paramètre d’intérêt, qui correspond à l’issue étudiée. Ce paramètre d’intérêt est mesurable par l’investigateur en même temps qu’un ensemble de covariables observables caractérisant le sujet.

L’autre versant de l’analyse causale est le choc supposé que l’on impose au paramètre d’intérêt. Ce choc, qui correspond au traitement dans le cadre d’une expérience médicale, peut prendre différentes formes. À ce stade, nous avons recours à une formalisation, la plus légère possible, pour éviter d’être imprécis. Nous nous plaçons dans le cadre simple de l’évaluation d’un traite-ment qui agit sur le niveau d’un seul paramètre d’intérêt. Nous observons n individus que l’on indexe par i. Seule une partie des individus reçoit le traitement. Nous notons Ai la variable

indicatrice qui vaut 1 si l’individu i reçoit le traitement et 0 s’il ne le reçoit pas. Les individus qui sont exposés au traitement font partie du groupe de traitement, les autres du groupe de contrôle. Nous notons A le vecteur (A1, A2, · · · , An). Pour chaque individu nous observons un

ensemble de covariables potentiellement confondantes. Ces covariables sont représentées par p covariables explicatives des caractéristiques propres de l’individu regroupées au sein de la matrice X de dimension np.

Dans le modèle contrefactuel, nous faisons l’hypothèse qu’il existe deux réalisations potentielles du paramètre d’intérêt que l’on note Ya

i avec a ∈ {0,1}, Yi0 représente la réalisation du

paramètre d’intérêt si l’individu n’est pas exposé au traitement. Inversement, Y1

i représente la

valeur du paramètre d’intérêt si l’individu est exposé au traitement. Un individu ne peut pas être observé dans les deux états. Si l’individu i est effectivement exposé au traitement alors c’est Y1

i que l’on observe et Yi0 est alors la valeur contrefactuelle. Inversement si le sujet ne

reçoit pas le traitement alors la réalisation est Y0

i et la valeur contrefactuelle Yi1. Il faut noter

que la valeur contrefactuelle n’est pas l’opposé de la réalisation. Elle décrit juste une autre réalité : celle où le sujet se trouverait dans l’état où il n’est pas observé.

(15)

De cette notion de contrefactuel, nous pouvons définir une mesure de l’effet causal individuel du traitement sur le sujet i comme la différence :

Yi1− Yi0.

L’effet du traitement est mesuré comme la différence entre le résultat du paramètre d’intérêt si le sujet est exposé au traitement avec le résultat du paramètre d’intérêt si le sujet n’était pas exposé. L’avantage d’utiliser des réalisations potentielles est multiple : celles-ci permettent de définir l’effet causal sans avoir à modéliser le mécanisme de participation, ni à définir une éventuelle forme fonctionnelle liant le paramètre d’intérêt et les covariables confondantes, ni non plus à formuler des hypothèses sur les distributions des différentes covariables.

Évidemment, pour estimer un effet causal pour le sujet i, il faut observer les deux issues potentielles. Le problème trivial de l’utilisation de cette définition hypothétique est que nous ne pouvons observer qu’un individu sous une version de l’exposition à un moment donné, c’est-à-dire que nous ne pouvons observer que le résultat Y0

i ou Yi1 : le problème fondamental

de l’inférence causale.

La relation entre les résultats potentiels et le résultat observé est :

Yi = AiYi1− (1 − Ai)Yi0. (1.1)

L’équation (1.1) ne doit pas tromper le lecteur. L’opération d’addition n’est que formelle puisque :

Ai= 0 ⇒ 1 − Ai= 1

et vice-versa. En revanche cette écriture sous-entend qu’il n’existe pas d’interaction entre les résultats potentiels. Pour résoudre le problème d’identification concernant l’absence d’infor-mation du sujet i dans l’état où il n’est pas observé, nous nous intéressons à un effet agrégé sur l’ensemble de la population, le plus souvent la moyenne. Sous un ensemble d’hypothèses, expliquées dans la section qui suit, on peut estimer l’effet causal moyen.

1.1.3 Effet causal moyen

Soit Y1 le vecteur de l’ensemble des valeurs potentielles si tous les sujets étaient soumis au

traitement et soit Y0 le vecteur de l’ensemble des valeurs potentielles si aucun sujet n’était

soumis au traitement. La solution au problème d’identification va être de s’intéresser à l’ef-fet causal moyen sur l’ensemble de la population, AT E, défini comme l’espérance des efl’ef-fets individuels :

AT E = E(Y1− Y0) = E(Y1) − E(Y0), (1.2) où E représente l’espérance mathématique. L’équation (1.2) suggère que les résultats observés sur différents sujets, selon qu’ils sont ou non exposés au traitement, peuvent être utilisés pour

(16)

connaître la valeur d’AT E. Les sujets effectivement soumis au traitement vont contribuer à l’information de E(Y1) et ceux qui en sont exclus vont fournir de l’information pour E(Y0).

Les hypothèses nécessaires pour identifier l’AT E avec les données d’une expérience randomisée idéale sont : l’hypothèse de stabilité (SUTVA) et l’hypothèse de positivité.

SUTVA est une hypothèse nécessaire afin de définir l’issue potentielle. Elle stipule que le résultat potentiel de l’individu i, Ya

i , ne devrait pas être affecté par l’exposition d’autres

unités. Ceci est parfois défini sous l’hypothèse d’aucune interaction entre les individus. SUTVA suppose également qu’il n’y a pas de versions différentes d’une même exposition, c’est-à-dire que les issues potentielles pour chaque individu sous chaque exposition possible sont bien définies et prennent une valeur unique. S’il existe plusieurs versions d’une même exposition et si ces différentes versions donnent lieu à des issues potentielles différentes, cette hypothèse sera violée et un effet causal ne peut être identifié. Cette dernière partie de l’hypothèse est aussi parfois dénommée l’hypothèse de cohérence. Pour les expositions binaires, elle est parfois formulée comme :

Y = AY1+ (1 − A)Y0

de sorte qu’elle indique de manière évidente que l’issue contrefactuelle, Ya

i , sous la valeur

d’exposition potentielle a est égale à l’issue réellement observée Y . Par conséquent, l’hypothèse de cohérence garantit que si un sujet possède A = a et Y = y en l’absence d’intervention, le sujet atteindrait également le niveau Y = y lorsqu’il serait forcé au niveau A = a. L’autre hypothèse requise est l’hypothèse de positivité :

0 < P (A = a) < 1 ∀a ∈ A,

où, P (A = a) est la distribution de A et A est le domaine des valeurs possibles de A. Afin d’identifier Yacela signifie que chaque sujet dans la population doit avoir une probabilité non

nulle de recevoir chaque valeur d’exposition. Pour les traitements binaires, cela exige que la probabilité de l’assignation au traitement soit strictement comprise entre 0 et 1. Autrement dit, si certaines sous-populations observées ont une probabilité nulle de recevoir (ou de ne pas recevoir) un traitement, il n’y a pas de sens dans ce cas à parler d’un effet de traitement étant donné que le contrefactuel n’existe pas dans les données observées.

Sous ces conditions, l’effet causal moyen l’AT E, peut être estimé de la façon suivante : soient n0 et n1 le nombre d’observations dans le groupe traité et le groupe de contrôle,

res-pectivement. Alors nous pouvons estimer sans biais E(Y0)et E(Y1)par, ¯Y

0=P{i|ai=0} Yi n0 et ¯ Y1 =P{i|ai=1} Yi

n1 respectivement (Rubin(1974)), où {i|ai = a}dénote l’ensemble des is tels

(17)

Démonstration. AT E = E Y1− Y0 = E Y1 − E Y0 = E Y1|A = 1 − E Y0|A = 0 (Ya⊥ Apar randomisation1) = E (Y |A = 1) − E (Y |A = 0) (Par SUTVA) = E   X {i|ai=1} Yi n1  − E   X {i|ai=0} Yi n0   = E ¯Y1 − E ¯Y0 

Rappelons que pour que cette stratégie soit valide, il faut que la sélection des sujets soit faite de manière à ce qu’il n’existe pas de biais de confusion2 entre les deux groupes. L’idéal serait

que l’affectation au traitement se fasse de manière aléatoire au sein de la population.

Principe d’ignorabilité

La résolution du modèle contrefactuel est intimement liée à la notion d’expérience aléatoire, c’est-à-dire d’un processus dans lequel l’allocation des traitements aux unités se fait d’une façon randomisée. En pratique, ce qui est observé, ce sont les issues Y1

i et Yi0, selon que le sujet i est

traité ou non, alors que le paradigme contrefactuel exige d’imaginer les résultats que l’on aurait observés pour le groupe traité dans d’autres circonstances que celles auxquelles il a été exposé. Par conséquent, une partie des données est manquante. Les études randomisées nous assurent que ces valeurs manquantes arrivent de façon complètement aléatoire, ce qui nous permet de pouvoir estimer l’effet causal, et ce, en constituant implicitement deux groupes comparables à tout point de vue. Autrement dit, en dehors du fait qu’ils reçoivent des traitements différents, les deux groupes seraient semblables dans tous les aspects. Idéalement, on voudrait comparer les résultats des patients obtenus pour le traitement avec les résultats qu’on aurait obtenus pour les mêmes patients s’ils n’avaient pas reçu le traitement, toutes choses étant égales par ailleurs. C’est ce qu’on appelle le principe d’ignorabilité, qui signifie que les résultats que l’on observe pour le groupe traité auraient été les mêmes si le groupe contrôle avait été traité, et vice versa. Mathématiquement :

Ya⊥ A ∀a ∈ A.

Ceci étant, les hypothèses énoncées ci-dessus assurent l’évaluation de l’impact moyen du trai-tement sur la population des sujets, via une simple comparaison des moyennes du paramètre d’intérêt.

1. Voir la section : Principe d’ignorabilité 2. Il y a biais de confusion si : Ya6⊥⊥ A

(18)

1.1.4 Estimer les effets causaux dans les études observationnelles

Le lien entre l’affectation au traitement et les résultats potentiels est crucial dans l’approche contrefactuelle. Comme nous l’avons vu précédemment, le cas le plus simple est lorsque le traitement est administré de manière aléatoire et donc indépendant à la fois des résultats potentiels, mais aussi des covariables préexposition potentiellement confondantes. Dans ce cas, un groupe de contrôle se dégage naturellement avec des caractéristiques similaires à celles du groupe de traitement. Cependant, ce n’est pas toujours possible en pratique de réaliser des expériences aléatoires. Certes, ces dernières constituent le devis idéal en théorie, mais il y a toujours des contraintes éthiques, logistiques, temporelles et financières à réaliser ce genre d’expérience. C’est pour cette raison que les études observationnelles jouent un rôle essentiel pour répondre à plusieurs questions de recherche.

Les études observationnelles servent à tirer des inférences à partir d’un échantillon de la population où les sujets sont naturellement exposés au traitement à l’étude. Conséquemment, comme les caractéristiques des sujets peuvent influencer leur exposition au traitement, les études observationnelles peuvent être affectées par le biais de confusion. Ainsi nous avons : E(Y1) 6= E(Y1|A = 1), E(Y0) 6= E(Y0|A = 0) et nous ne pouvons pas estimer sans biais,

l’effet moyen du traitement, par une simple comparaison entre les deux groupes.

Pour contourner ce problème, nous pouvons contrôler pour un ensemble de covariables X satisfaisant l’hypothèse faible d’ignorabilité conditionnelle (Rosenbaum and Rubin (1983)) qui stipule que :

Ya⊥ A|X = x ∀a ∈ A, x ∈ X , où X représente le domaine des valeurs de X.

Ceci indique que l’exposition A est indépendante de l’issue potentielle dans les strates de X. Si X est suffisant pour que cela soit vérifié, nous pouvons alors assimiler les données issues d’un essai randomisé où le traitement est assigné indépendamment des caractéristiques avant traitement.

L’hypothèse énoncée ci-dessus, l’hypothèse de stabilité (SUTVA) et celle de positivité, dont

Rosenbaum and Rubin (1983) désignent l’ensemble par le terme d’ignorabilité forte, assurent l’identifiabilité des effets causals à partir des données observationnelles. Dans le cas des

(19)

trai-tements binaires, l’AT E peut se calculer comme suit : AT E = E Y1− Y0

= E Y1 − E Y0

= E E Y1|X = x − E E Y0|X = x (Selon le théorème de l’espérance totale)

= E E Y1|X = x, A = 1 − E E Y0|X = x, A = 0 (En raison de l’hypothèse

d’ignorabilité conditionnelle)

= E(E(Y |X = x, A = 1)) − E(E(Y |X = x, A = 0))( Par SUTVA ), (1.3) où E(Y |X = x, A = a) est estimable à partir des données observées, grâce à l’hypothèse de positivité, étant donné qu’il existe des unités à la fois dans le groupe traité et dans le groupe non traité.

Par ailleurs, même si une étude observationnelle pourrait assimiler une étude randomisée sous certaines conditions, dans plusieurs situations l’assignation au traitement peut être plus facile à modéliser que l’issue. En effet, pour estimer les deux quantités dans1.3, on peut avoir recours à un modèle de régression linéaire de la forme :

Yi = f (xi, ai; β) +fluctuation aléatoire, i = 1, . . . , n,

où, f est une fonction connue et linéaire en β.

Cependant, dans plusieurs situations la forme de la relation f est inconnue, alors que la fonction g dans l’équation (1.4) pourrait être connue, étant donné que le processus d’assignation du traitement, pourrait expliquer la relation entre les covariables potentiellement confondantes X et le traitement A, de façon fonctionnelle.

Ai= g (xi; α) +fluctuation aléatoire, i = 1, . . . , n. (1.4)

Encore, quand l’issue est rare, il pourrait être difficile, voire impossible, d’ajuster de façon traditionnelle pour plusieurs covariables d’ajustement à l’intérieur d’un modèle de l’issue en fonction de l’exposition, il serait donc plus avantageux d’opter pour un modèle pour le traite-ment qu’un modèle pour l’issue.

Finalement, en présence d’un grand ensemble de covariables, il serait fastidieux de faire un ajustement pour les facteurs confondants. Ainsi, les méthodes d’ajustement, tel que l’apparie-ment et la stratification, ne peuvent être réalisables. Dans les faits, ces méthodes permettent de comparer les réalisations d’une covariable, observées dans deux échantillons distincts, en ajustant des différences de composition en termes de caractéristiques observables entre ces échantillons. À mesure que le nombre de covariables grandit, il devient difficile voire impos-sible de construire un groupe témoin aussi identique que posimpos-sible au groupe de traitement, en termes de caractéristiques observables avant l’assignation du traitement.

(20)

Dans ce contexte,Rosenbaum and Rubin (1983) proposent une stratégie d’estimation équiva-lente et réalisable sur la base du concept de score de propension. Ce dernier permet de convertir un dispositif multidimensionnel en un dispositif unidimensionnel, en résumant l’information de plusieurs covariables dans une seule variable. Ceci étant, on pourrait ajuster pour une seule variable au lieu de plusieurs covariables. La section qui suit, examinera en détails la notion du score de propension, ainsi que ses différentes applications.

1.2

Score de propension et méthodes du score de propension

Le score de propension a été introduit par Rosenbaum and Rubin (1983). Les méthodes utili-sant le score de propension ont initialement été conçues pour estimer l’effet d’une exposition binaire (0/1) sur une issue de type quelconque, mais des généralisations ont été proposées depuis pour les expositions catégoriques ou continues.

L’idée du score de propension est de résumer l’information contenue dans les covariables X à l’intérieur d’une seule variable π(X) de sorte que le fait de contrôler pour π(X) permettrait également d’estimer l’effet d’intérêt. En fait, le score de propension est tel que la distribu-tion des covariables préexposidistribu-tion est la même chez les sujets exposés que chez les sujets non exposés pour une valeur de π(X) donnée. Mathématiquement, X ⊥ A|π(X), où ⊥ désigne l’indépendance statistique. Autrement dit, pour une valeur π(X) donnée, les sujets exposés et non exposés auront en moyenne les mêmes caractéristiques initiales. Ainsi, le score de pro-pension permet, d’une certaine manière, de simuler un contexte d’étude randomisée, puisque, en moyenne, la randomisation assure que la distribution des covariables préexposition est la même chez les sujets exposés que chez ceux non exposés.

Le score de propension correspond simplement à la probabilité qu’un sujet soit exposé condi-tionnellement à ses covariables pré-exposition, π(X) = P (A = 1|X). En pratique, il est com-mun d’estimer le score de propension à l’aide d’un modèle de régression logistique.

Deux résultats importants, dus à Rosenbaum and Rubin (1983), énoncent que l’hypothèse d’ignorabilité forte peut être reformulée en remplaçant le vecteur de covariables X par le score π(X), et que le score de propension possède la propriété équilibrante.Rosenbaum and Rubin (1983) ont démontré ces résultats dans le cas des traitements binaires.

Théorème 1 (Propriété équilibrante du score de propension). L’assignation du traitement et les covariables pré-expositions observées sont indépendantes conditionnellement au score de propension.

X ⊥ A|π(X)

Cochran and Rubin (1973) ont prouvé ce théorème dans le cas particulier où les covariables X sont distribuées selon une loi normal multivariée ; mais les résultats sont maintenus peu

(21)

importe la distribution de X. Ce théorème met en évidence le fait que le score de propension « équilibre » les distributions des covariables. Ainsi, pour chaque valeur du score de propension, la distribution des covariables X dans le groupe traité est identique à celle du groupe de contrôle, ce qui permet de les comparer en ayant ainsi ajusté des différences de composition. Définition 1. Ignorabibilité forte, Rosenbaum and Rubin(1983)

L’assignation au traitement A est fortement ignorable conditionnellement au vecteur de cova-riables X si :

Ya⊥ A|X, 0 < P (A = a|X = x) < 1

Théorème 2. L’ignorabilité forte conditionnellement au vecteur de covariables X implique l’ignorabilité forte conditionnellement au score de propension π(X), Mathématiquement :

Ya⊥ A|X et 0 < P (A = a|X = x) < 1, ∀x ∈ X Implique

Ya⊥ A|π(X) et 0 < P (A = a|π(X)) < 1, ∀x ∈ X

Démonstration. On a : Ya⊥ A|X Il faut montrer que : Ya⊥ A|π(X)

autrement P (A = 1|Y1, Y0, π(X)) = P (A = 1|π(X))

Or

P (A = 1|π(X)) = P (A = 1|x, π(x)) (Propriété équilibrante du score de propension) = P (A = 1|X)

= π(x)

Donc montrons que : P (A = 1|Y1, Y0, π(X)) = π(X)

P (A = 1|Y1,Y0,π(X)) = E(A|Y1,Y0,π(X))

= E[E(A|Y1,Y0,X)|Y1,Y0,π(X)] (Théorème de l’espérance totale) = E[P (A = 1|Y1,Y0,X)|Y1,Y0,π(X)]

= E[P (A = 1|X)|Y1,Y0,π(X)] (car Ya⊥ A|X) = E[π(X)|Y1,Y0,π(X)]

= π(X)

Le score de propension (PS) sert à construire divers estimateurs non paramétriques ou semi-paramétriques pour l’effet du traitement via l’appariement, la pondération et l’ajustement pour le score de propension. Un des avantages fondamentaux de l’utilisation du PS est d’éviter la

(22)

nécessité de conditionner sur un vecteur de covariables potentiellement confondantes à un grand nombre de dimensions et c’est cette propriété de réduction des dimensions qui permet la mise en œuvre effective d’estimateurs flexibles. Un autre avantage du PS est qu’il est très efficace pour isoler la région de support commun (où 0 < P (A = a|π(X)) < 1), chose qui est difficile quand on utilise de nombreuses covariables.

1.2.1 Pondération par l’inverse de probabilité de traitement (IPTW)

Cette méthode a d’abord été développée par Horvitz et Thompson pour des études transver-sales dans le cadre de l’échantillonnage ; le but étant d’estimer la moyenne et le total d’une population à partir d’un échantillon aléatoire stratifié en tenant compte de différentes propor-tions spécifiques à chaque observation dans les strates de la population cible.

Intuitivement, la méthode de pondération par l’inverse de probabilité de traitement crée une pseudo-population, où il n’existe pas de déséquilibres par rapport aux covariables, et où les probabilités d’être exposé et de ne pas être exposé sont les mêmes pour chaque sujet. Éliminant ainsi, les effets de la confusion lors de l’estimation.

Prenons l’exemple d’une situation où on est en présence d’une seule covariable confondante binaire X, prenant les valeurs 0 ou 1, pour laquelle on doit contrôler. Imaginons à présent, que parmi les sujets i ayant Xi = 1, la probabilité de recevoir le traitement est de 0.10. Autrement

dit, seulement 10% des sujets ayant un Xi = 1 pourraient recevoir le traitement. Pour l’autre

partie de la population possédant un Xi = 0, on considère une probabilité de recevoir le

traitement de 0.8. Ainsi :

π(Xi) =

(

0.10 si Xi = 1

0.80 sinon

Par conséquent, si le nombre total des sujets avec un X = 1 est de 10, alors on s’attend à avoir 9 sujets dans le groupe contrôle et 1 sujet dans le groupe traité. On aurait pu utiliser simplement l’appariement basé sur le score de propension, mais cette approche mènera à la suppression de 8 sujets dans le groupe contrôle qu’il est impossible d’apparier, étant donné que le groupe exposé contient un seul sujet. L’approche IPTW utilisera toute l’information disponible, ainsi on gardera tous les sujets dans la cohorte, tout en leur attribuant différentes pondérations. Dans cet exemple, le sujet traité recevrait une pondération de 10

1 = 1

0.10, alors

que dans le groupe contrôle, chaque sujet recevrait une pondération de 10 9 =

1

0.90. Ceci étant,

le sujet exposé représenterait 9 sujet non-exposé dans la pseudo-population créée dans la strate X = 1. Le même raisonnement s’applique pour l’autre strate X = 0. Il s’agit dès lors, d’attribuer à chaque sujet une pondération définie comme étant l’inverse de la probabilité d’inclusion de ce sujet. On est donc invité à se représenter la pondération de l’unité comme étant le nombre d’unités de la population qu’elle représente.

(23)

sujet traités  1 π(x)



et l’inverse de un moins le score de propension comme poids pour les sujet non-traités  1

1−π(x). On donne ainsi plus de poids aux individus peu représentés dans

l’échantillon.

Les poids peuvent donc se calculer comme étant : w = A

π(x) +

1 − A 1 − π(x). Dès lors, l’effet moyen du traitement peut s’écrire :

AT E = E Y1− Y0 = E Y1 − E Y0 = E AY π(x)  − E (1 − Y )(1 − A) 1 − π(x) 

Démonstration. L’effet moyen du traitement : Ya⊥ A|X Montrons que : E  AY π(X)  = E Y1 et : E (1 − Y )(1 − A) 1 − π(X)  = E Y0 E  AY π(X)  = E AY 1 π(X) 

(Par hypothèse de cohérence) = E  E AY 1 π(X)|X 

(Théorème de l’espérance totale) = E  1 π(X)E (A|X) E Y 1|X  (Car A ⊥ Ya|X) = E  1 π(X)P (A = 1|X)E Y 1|X  = E π(X) π(X)E Y 1|X  = E Y1

Même raisonnement pour montrer :

E (1 − Y )(1 − A) 1 − π(X)



= E Y0

L’estimateur « naturel » de l’effet moyen du traitement est donné par : [ AT EIP T W = 1 n n X i=1 AiYi πi(x) − (1 − Ai) (1 − Yi) 1 − πi(x) .

(24)

1.2.2 Appariement

Souvent, les investigateurs sont confrontés à des études où le nombre de patients dans le groupe traité est limité et le nombre de patients dans le groupe témoin est beaucoup plus grand. L’approche d’appariement est particulièrement populaire, puisqu’elle est conçue pour réduire les écarts entre les deux groupes à l’étude et ainsi reproduire partiellement les conditions de l’assignation aléatoire. Selon cette approche, chaque sujet exposé est apparié à un ou plusieurs sujets non exposés en fonction du score de propension. L’appariement peut être associées à une multitude de techniques, à savoir l’appariement M :1 (Ming and Rosenbaum (2000)) et l’appariement complet (Gu and Rosenbaum(1993), Hansen(2004),Rosenbaum(1991)), bien que l’appariement 1 :1 soit de loin la technique la plus utilisée.

Il existe différents estimateurs d’appariement, dont les principaux sont : Le plus proche voisin et la distance maximale.

En ce qui a trait à la technique du plus proche voisin, en général, l’approche utilisée est celle de l’appariement glouton (greedy matching), sans remise. L’algorithme fonctionne comme suit : Le premier cas traité est tiré puis apparié au cas contrôle dont le score de propension est le plus proche de ce cas traité.

Mathématiquement un sujet j ayant un score de propension πj(X)du groupe contrôle I0 est

jumelé à un sujet i ayant un score de propension πi(X)du groupe traité si la différence, en

valeur absolue, entre leurs scores de propensions est la plus petite : C (πi(X)) = min

i kπi(X) − πj(X)k , jI0.

Les deux cas sont ensuite retirés de l’ensemble. Le processus se poursuit ainsi pour tous les cas traités, un à la suite de l’autre, jusqu’à ce que les patients non-traités soient appariés à tous les patients traités, ou jusqu’à ce qu’il n’y ait plus de sujets traités. Les autres alternatives à ces techniques sont l’appariement optimal, et l’appariement avec remise (Rosenbaum(2002)). L’échantillon des paires de sujet traités et non-traités qui ont été pigés est alors notre échan-tillon apparié. Il s’agit d’un échanéchan-tillon dans lequel les différences pour les covariables sélec-tionnées dans le score de propension sont réduites.

Pour ce qui est de l’approche de distance maximale, tout comme la technique du plus proche voisin, un sujet du groupe témoin est jumelé avec un sujet du groupe traité sur la base du plus proche score de propension, mais sous réserve d’une certaine distance maximale, identifiée par le terme Caliper en anglais. Les individus traités pour lesquels le plus proche voisin non traité n’appartient pas à la région définie sont exclus de l’analyse.

kπi(x) − πj(x)k < ε, j ∈ I0,

(25)

Il incombe à l’investigateur de fixer cette distance, il n’existe donc pas de méthode permettant de déterminer le niveau acceptable de tolérance à choisir. Plus le Caliper sera petit, plus les in-dividus appariés seront semblables, mais plus le nombre d’inin-dividus non appariés augmentera. Par ailleurs, il convient de souligner que Austin (2011) a suggéré une distance qui pourrait être optimale, puisqu’elle minimise l’erreur quadratique moyenne de l’estimation de l’effet du traitement, dans différents scénarios :

ε = 0.2σ[logit(π(x))] = 0.2σ  log π(x) 1 − π(x)  , où σ dénote l’écart type et logit(x) représente log( x

1−x).

Dans le cas où on s’intéresse à l’estimation de l’effet moyen du traitement, l’estimateur de l’appariement est formellement donné par :

[ AT EM = 1 n n X i=1  ˆY1 i − ˆYi0  ˆ Yi0 = ( Yi si Ai= 0 Yj(i) si Ai= 1 ˆ Yi1 = ( Yj(i) si Ai= 0 Yi si Ai= 1

où, Yj(i) correspond à l’issue de l’unité j appariée à l’unité i.

Abadie and Imbens (2006) ont montré que, sous certaines hypothèses, ces estimateurs sont convergents et suivent une distribution asymptotique normale.

1.2.3 Ajustement pour le score de propension

Le score de propension peut également être utilisé en tant que tel, comme une covariable, dans un modèle de régression classique. L’approche se base sur un modèle de régression multivariée incluant l’exposition au traitement et le score de propension estimé. Dépendamment du type de l’issue, on peut utiliser différents types de modèles (modèle de régression linéaire, logistique, Cox, . . . ). Aussi, plusieurs approches sont possibles pour l’ajustement, par exemple supposer une relation linéaire entre le score de propension et l’issue, diviser le score de propension en catégories (par exemple, en quintiles) ou utiliser une modélisation flexible (par exemple, un spline cubique). Cependant, il conviendrait de souligner que l’utilisation de cette approche implique la perte de la capacité à mimer une étude randomisée dans le sens où, elle ne permet pas un diagnostic naturel du niveau d’équilibre des caractéristiques préexposition.

L’ajustement d’un modèle de régression nous permet d’examiner l’effet du traitement sur l’issue, via l’estimation du coefficient de régression associé à la variable « score de propension ».

(26)

Afin de prouver cela, postulons le modèle suivant :

E(Y |A,π(X)) = β0+ β1A + β2π(X)

Alors, sous réserve de spécifier correctement le modèle et de respecter les conditions d’igno-rabilité forte, de cohérence, et de positivité, β1 n’est autre que l’effet moyen du traitement

ATE.

Démonstration. Montrons que : β1 = E(Y1) − E(Y0)

E Y1 = Z 1 π(X)=0 E Y1|π(X) f (π(X))dπ(X) = Z 1 π(X)=0

E Y1|A = 1, π(X) f (π(X))dπ(X) (Par ignorabilité forte) =

Z 1

π(X)=0

E(Y |A = 1, π(X))f (π(X))dπ(X) (Hypothèse de cohérence) = Z 1 π(X)=0 (β0+ β11 + β2π(X)) f (π(X))dπ(X) = (β0+ β1) π(X)|10+ β2E(π(X)) = β0+ β1+ β2E(π(X))

De même, on montre que :

E(Y0) = β0+ β2E(π(X))

Ainsi :

β1= E(Y1) − E(Y0)

1.2.4 Appariement pondéré (Matching weight)

Li and Greene(2013) définissent le poids d’appariement pour le sujet i comme suit : wi =

min (1 − πi(X), πi(X))

Aiπi(X) + (1 − Ai) (1 − πi(X))

. (1.5)

L’estimateur « naturel » de l’effet moyen du traitement est donné par :

[ AT EM W = Pn i=1wiAiYi Pn i=1wiAi − Pn i=1wi(1 − Ai) (1 − Yi) Pn i=1wi(1 − Ai) .

Cette approche est une variante de l’estimation par inverse de probabilité de traitement, le dénominateur du poids dans (1.5) est identique à celui de l’approche IPTW, alors que le numérateur est le minimum entre le score de propension et son complémentaire.

(27)

Prenons l’exemple d’une valeur ˜π du score de propension, et supposons qu’il y’a ˜msujets ayant un score de propension situé au voisinage de ˜π. Ceci étant, on espère avoir ˜m˜π sujets traités, et ˜m (1 − ˜π) sujets témoins au voisinage de ˜π. Lorsque ˜π < 0.5, on s’attend à avoir plus de sujets témoins que de sujets traités, au voisinage de ˜π. Dans ce cas, les sujets traités ont une probabilité de 1 d’être sélectionnés, alors que les sujets témoins ont une probabilité qui est de

e π

1−πe. Par conséquent, la pondération utilisée dans cette approche peut être perçue comme une

probabilité d’être sélectionné dans l’ensemble des sujets appariés.

Dans une situation pareille, l’appariement classique réduirait la taille d’échantillon sur les sujets appariables uniquement, écartant ainsi (1 − 2eπ)me sujets de l’étude. Par ailleurs, le poids d’appariement (Matching Weight) conserverait tous les sujets dans l’étude, tout en attribuant moins de poids aux sujets témoins. Autrement dit, chaque sujet ne contribuera à l’estimation de l’effet du traitement qu’en partie, qui n’est autre que le poids d’appariement wi. Il importe

de souligner que les auteurs Li and Greene (2013) ont montré que cette méthode estime la même quantité que l’appariement.

(28)

Chapitre 2

Méthodes d’apprentissage machine de

sélection de covariables confondantes

en hautes dimensions

2.1

Score de propension à hautes dimensions

(high-dimensional propensity score)

Comme mentionné auparavant, le score de propension permet de résumer l’information conte-nue dans des covariables qui prédisent le fait d’être exposé ou non dans une étude non ran-domisée et ainsi de réduire le risque de confusion dans l’évaluation de l’intervention vis-à-vis l’issue.

Le score de propension à haute dimension (hdPS), une variante du score de propension, est réalisé à partir d’un très grand nombre de covariables issues typiquement de base de données médico-administratives, certaines étant des proxys de covariables confondantes non observées dans la base de données. Schneeweiss et al. (2009) ont développé un algorithme standardisé, qui tente d’identifier de manière empirique un grand nombre de covariables potentiellement confondantes dans les bases de données médico-administratives, ce faisant, il extrait plus d’informations sur les covariables confondantes et les proxys.

La méthode du hdPS sera décrite dans la section qui suit d’une façon plus détaillé. L’hdPS se base sur un modèle de régression logistique pour calculer la probabilité qu’un sujet soit exposé conditionnellement à ses covariables préexposition.

2.1.1 Ajustement pour les proxys

Une covariable proxy est une covariable facilement mesurable utilisée à la place d’une co-variable qui ne peut pas être mesurée ou qui est difficile à mesurer. En tant que telle, une

(29)

covariable proxy n’a pas un grand intérêt dans le contexte d’étude, mais elle pourrait présen-ter une corrélation étroite avec la variable d’intérêt.

Les covariables confondantes et les covariables proxy sont essentiellement la même chose : des covariables prédicteurs corrélées. Mais il y a une énorme différence entre elles :

• Les covariables de confusion affectent négativement nos résultats en ne faisant pas partie du modèle. Autrement dit, il serait désavantageux d’entamer toute analyse lorsqu’elles sont inconnues ou non mesurées.

• Les proxys sont bénéfiques pour notre analyse. On les connait et inclut intentionnelle-ment dans le modèle pour améliorer nos résultats.

La connaissance du sujet et de la structure de corrélation parmi nos covariables nous permet d’utiliser ces corrélations à notre avantage, en ajustant pour des proxys au lieu des covariables confondantes inconnues ou non mesurées au moment de l’analyse. Dans cette optique, l’hdPS pourrait permettre le contrôle de confondants non mesurés, grâce à l’identification de proxys mesurés dans la base de données (Guertin et al. (2016)) et qui répondent aux critères de sélection de l’algorithme, qu’on examinera dans la section qui suit.

Confondant non mesuré Proxy Événement d’intérêt Exposition

Figure 2.1 – Graphique acyclique dirigé décrivant un proxi mesuré d’un facteur confondant non mesuré. Source : Guertin (2015)

2.1.2 Les étapes de l’algorithme

Cet algorithme se base sur l’évaluation de la prévalence des covariables et les associations avec l’exposition et l’issue pour sélectionner des milliers de diagnostics, procédures et médicaments uniques enregistrés dans les demandes de remboursement de frais médicaux. Les covariables sont ensuite classées en fonction de leur potentiel de confusion, et les investigateurs peuvent sélectionner les covariables les mieux classées à inclure dans un modèle de score de propension. L’algorithme générateur de covariables est indépendant de la signification médicale de chaque

(30)

code et peut donc être appliqué à toute source de données structurée ou non structurée et à tout système de codage.

Étape 1 - Identification des sources de données : L’algorithme hdPS prend en entrée les événements d’utilisation des services de santé enregistrés. Ces événements sont codés avec une terminologie cohérente, dans une série de hautes dimensions de données. Chaque haute dimension décrit un aspect des soins.

Une haute dimension se définit comme (Guertin (2015)) étant un ensemble de covariables provenant d’une même et unique base de données identifiée selon un système de classification spécifique à l’haute dimension de la variable. Schneeweiss et al. (2009) énumèrent les hautes dimensions les plus souvent rencontrées dans une base de données médico-administratives, à savoir, la liste de codes diagnostics posés par un médecin, la liste de procédures médicales posées par un médecin et la liste des médicaments donnés à un patient. À ces dimensions,

Schneeweiss et al. (2009) suggèrent aussi d’ajouter les résultats d’examens de laboratoire, autres informations provenant des dossiers médicaux électroniques et les registres d’accidents. Notons le nombre de dimensions identifiées à cette étape par p.

Après avoir identifié les hautes dimensions disponibles dans la base de données, l’algorithme fonctionne en silo (chaque silo représentant une haute dimension différente) jusqu’à la fin de l’étape 4 (Guertin (2015)).

Ce faisant,Schneeweiss et al.(2009) proposent de déterminer une fenêtre temporelle précédant l’administration du traitement pendant laquelle il faudra identifier les covariables préexposi-tion. Les choix fréquents de cette période de temps sont 6 et 12 mois. Il existe 2 types de covariables identifiées par l’investigateur durant cette période. Les covariables sociodémogra-phiques de base, notées d (p. ex., sexe, âge, race et date d’entrée dans la cohorte) et les cova-riables similaires à ce qu’un investigateur utiliserait dans une étude d’évaluation habituelle du traitement en question, notées l. Ces dernières seront toujours forcées dans le modèle. L’autre partie des covariables va être utilisée par l’algorithme dès l’étape 2.

Étape 2 - Identification des covariables potentielles dans chaque haute dimension: L’algorithme hdPS considère différents codes dans chaque dimension, sans avoir besoin de comprendre leur signification médicale, il crée des covariables binaires indiquant la présence de chaque code au cours de la période précédant l’initiation du traitement. Pour chacune de ces covariables, si la prévalence est inférieure à 100 personnes alors elle est exclue1. Les

covariables ainsi restantes sont classées en ordre décroissant en fonction de leur prévalence. Puisque la prévalence d’une covariable binaire est symétrique autour de 0.5 nous soustrayons toutes les prévalences estimées supérieures à 0.5, de 1. Enfin, on considère uniquement les n

1. Ce critère est abandonné dans le cadre de ce travail. En effet, la fonction identify_covariates sur R permettant d’implanter l’étape 2 de l’algorithme ne tient pas compte de cette exclusion vu que les covariables ayant une prévalence inférieure à 100 personne, sont classées après celles ayant une prévalence supérieure à 100 personnes.

(31)

covariables les plus prévalentes dans chaque dimension.Schneeweiss et al.(2009) suggèrent un n = 200, mais ceci n’est pas obligatoire, cette valeur peut être modifié par l’investigateur si désiré.

Étape 3 - Calcul de la récurrence : Cette étape requiert le calcul de récurrence pour les covariables n sélectionnées à l’étape 2. Premièrement, on évalue la fréquence d’enregistre-ment de chaque covariable pour chaque patient au cours de la période précédant l’initiation du traitement. Deuxièmement, nous examinons la distribution de la fréquence de toutes les covariables n en question. Enfin, l’algorithme crée 3 covariables binaires pour chaque cova-riable n : la covacova-riable est apparue ≥ 1 fois, ≥ la médiane de la distribution de sa fréquence, et ≥ le troisième quartile de la distribution de sa fréquence. Si deux de ces covariables ont les mêmes valeurs, la covariable représentant le point de coupure le plus élevé sera supprimée. Ainsi, tout en ayant p hautes dimensions, cette étape créera jusqu’à p × n × 3 covariables. Étape 4 - Identification du potentiel d’ajustement des covariables: Si nous souhaitons maintenant combiner les informations contenues dans toutes les dimensions p pour réduire le nombre total de covariables, nous devons prendre en considération le fait que la prévalence moyenne des covariables diffère selon les dimensions. D’après Schneeweiss et al. (2009), la prévalence des codes de procédures médicales posées par un médecin est souvent supérieure à celle des médicaments administrés à un patient. Par conséquent, le fait de combiner les covariables créées auparavant et de choisir les k principales covariables dominantes en termes de prévalence sous-estimerait l’importance de la l’administration des médicaments dans l’optique de contrôler de manière appropriée pour le biais de confusion. De plus,Brookhart et al.(2006) ont montré que l’inclusion dans le modèle du score de propension des caractéristiques du patient associées à l’exposition, mais pas à l’issue augmenterait la variance de l’estimateur du paramètre d’intérêt, sans amélioration du contrôle de biais de confusion, et dans certaines situations, pourrait même induire de la confusion. Donc, il ressort qu’il convient de classer les covariables en fonction de leur potentiel à contrôler pour le biais de confusion. Ce potentiel est mesuré à l’aide du biais multiplicatif noté Biasm. Pour chaque covariable créée à l’étape

3, on calcule le Biasm à l’aide de l’équation suivante :

Biasm =

PC1(RRCD− 1) + 1

PC0(RRCD− 1) + 1

,

où PC1représente la prévalence de la covariable dans le groupe exposé au traitement d’intérêt,

PC0représente la prévalence de la covariable dans le groupe non exposé au traitement d’intérêt

et où le RRCD représente le risque relatif entre la covariable sélectionnée et l’événement

d’intérêt de l’étude en tenant compte des covariables d identifiées à l’étape 1. Par la suite, on classe les covariables créées à l’étape 3 dans un ordre décroissant, selon | log (Biasm) |.

Il convient de remarquer que les étapes citées auparavant, sont répétées pour chaque dimension identifiée par l’investigateur à l’étape 1.

(32)

Étape 5 - Sélection des covariables : Il s’agit à présent, de regrouper l’ensemble des covariables créées après chacune des étapes 4. Dans un premier lieu, l’algorithme classe les covariables créées à l’étape 3 dans un ordre décroissant, selon | log (Biasm) |, et ce dans

chaque dimension. Dans un second lieu, l’algorithme sélectionne les k premières covariables,

Schneeweiss et al.(2009) proposent un k = 500 (environ 10% des p×n×3 covariables créées à l’étape 3 dans leur étude originale). À ces covariables, on ajoute la covariables d et l identifiées à l’étape 1. On se retrouve ainsi, avec d+l+k covariables à utiliser dans les prochaines étapes. Étape 6 - Estimation du modèle de l’exposition : À l ’aide d’un modèle de régression logistique, l’algorithme estime le score de propension pour chaque patient, qui n’est autre que la probabilité de recevoir le traitement, conditionnellement aux d + l + k covariables.

Étape 7 - Utiliser le score de propension dans l’estimation du paramètre d’intérêt: Tout comme le score de propension, une fois le hdPS estimé, il peut être utilisé dans différentes méthodes d’ajustement, afin d’estimer l’effet du traitement, à savoir : l’appariement, l’ajus-tement pour le score de propension, la pondération par l’inverse de probabilité de trail’ajus-tement (IPTW) et l’appariement pondéré, ou une combinaison de ces derniers, afin d’estimer l’effet du traitement.

2.2

Le LASSO adapté pour l’issue (Outcome-adaptive

LASSO-OAL)

Dans de nombreuses études, il est courant de sélectionner des covariables préexpositions per-tinentes à partir d’un ensemble plus large de covariables. Il conviendrait donc de prêter une attention particulière à ce choix de covariables. Dans les faits, les banques de données médico-administratives contiennent un nombre important de covariables, et on ne sait pas lesquelles permettent un meilleur contrôle pour le biais de confusion (Figure 2.2). L’hypothèse d’igno-rabilité suggère que X devrait inclure au minimum, toutes les covariables liées à la fois au traitement A et à l’issue Y . De surcroît, l’inclusion de covariables liées uniquement à l’is-sue pourrait aussi améliorer l’efficacité statistique (Brookhart et al. (2006), Rotnitzky et al.

(2010)). Par ailleurs, l’inclusion de covariables liées uniquement au traitement présenterait un risque, en termes d’efficacité statistique (Schisterman et al. (2009), Rotnitzky et al. (2010),

Myers et al.(2011))

2.2.1 Méthode de régularisation : LASSO

Le LASSO est une méthode de pénalisation et de sélection de variables initialement proposée pour la régression linéaire (Tibshirani(1996)). Elle part du principe que si des variables inutiles sont incluses dans le modèle, la variance des estimés des coefficients de régression va exploser et on aura tendance à avoir des βj qui prennent des valeurs extrêmes, d’où le problème de

(33)

Figure 2.2 – Graphique acyclique dirigé des covariables confondantes potentielles. Les flèches doubles représentent de possibles corrélations entre les covariables

l’ajustement superflus. Dans cette optique, la méthode consiste à trouver la valeur de βj qui

minimise l’opposé de la fonction de log-vraisemblance, mais sous la contrainte que la longueur du vecteur βj est bornée. Mathématiquement, on cherche βj qui minimise :

−ln(β; y,x) + λn p

X

j=1

j|.

Le paramètre λn doit être choisi par l’investigateur et contrôle la taille du modèle. En effet,

λn = 0 donne le plus grand modèle et coïncide avec la régression linéaire, et le modèle se

simplifie au fur et à mesure que λn augmente.

2.2.2 Le LASSO adapté (Adaptive LASSO)

Introduit par Zou (2006), le LASSO adapté est une extension du LASSO traditionnel qu’on définit en deux étapes. Tout d’abord, on calcule un estimateur préliminaire eβ ∈ Rp, pouvant être l’estimateur par maximum de vraisemblance ou tout autre estimateur. Par la suite, cet estimateur préliminaire eβest utilisé pour ajuster la pénalité imposée sur chacun des coefficients du paramètre de régression du LASSO adapté, de la façon suivante :

ˆ β(AL) = argmin β    −ln(β, y, x) + λn p X j=1 b ωj|βj|    , oùcωj = βej −γ

tel que γ > 1, λnest un paramètre de régularisation et eβ = argmin β

− ln(β, y, x)

(34)

Les pondérations ωbj permettent ici de réduire la pénalisation des coefficients βj lorsque la valeur de |eβj|est grande et de la renforcer dans le cas contraire.

Il importe de souligner que cet estimateur nécessite d’être adapté dans le contexte de l’inférence causale pour pouvoir prendre en compte les problèmes des biais de confusion. D’une part, le modèle de score de propension doit inclure les covariables confondantes liée à la fois au traitement et à l’issue, et les covariables liées uniquement à l’issue. D’autre part, il doit exclure toute covariable de nuisance et toute covariable liée uniquement au traitement. On verra dans la prochaine section, comment un choix pertinent de la pondération bωj pourrait pallier cette problématique.

2.2.3 Le LASSO adapté pour l’issue (Outcome-adaptive LASSO)

2.2.3.1 Étapes

Cette méthode, introduite par Shortreed and Ertefaie(2017), est définie en trois étapes. Dans un premier temps, on définit un modèle de régression logistique pour l’issue, et on estime ses paramètres via la méthode du maximum de vraisemblance :

logitnPYi = 1|ai, xi, ˜β, ˜η o = ˜ηai+ xTi β Où ( ˜β, ˜η) = argmin β,η ln(β, η; y, x, a).

Dans un second temps, on définit un modèle de régression logistique pour le score de propension comme suit : logit {P (Ai = 1|x, ˆα)} = logit (πi) = xTi α.ˆ Donc log πi 1 − πi = xTi αˆ et log (1 − πi) = log 1 1 + exp xT i αb  ! = − log 1 + exp xTi α .ˆ

Et on estime ses paramètres via la méthode du LASSO adapté, et ce en utilisant une pondé-ration ωcj = ˜ βj −γ

tel que γ > 1. Ainsi, on obtient l’estimateur suivant :

ˆ α(OAL) = argmin α    −ln(α, a, x) + λn p X j=1 c ωj|αj|    .

Supposons qu’on est en présence de n observations indépendantes, soit (A1, x1) , . . . , (An, xn).

La fonction de probabilité pour l’observation i est :

(35)

Donc la fonction de probabilité conjointe de l’échantillon observé sera : Ln(α; a, x) = n Y i=1 h πai i (1 − πi) 1−aii.

Il s’en suit que la fonction de log-vraisemblance est donnée par : ln(α, a, x) = log {Ln(α; a, x)} = n X i=1 ailog πi+ n X i=1 (1 − ai) log (1 − πi) = n X i=1 ailog πi 1 − πi + n X i=1 log (1 − πi) = n X i=1 ai xTi α +ˆ n X i=1 − log 1 + exp xT i αˆ  Il en résulte donc que :

ˆ α(OAL) = argmin α    n X i=1

−ai xTi α + log 1 + exp xˆ Ti α + λˆ n p X j=1 c ωj|αj|    . Il importe de remarquer que la pénalité associée à chaque covariable est proportionnelle à la valeur absolue de l’inverse de l’estimateur du coefficient associé à la même covariable, dans le modèle pour l’issue. De sorte que les covariables qui sont fortement liées à l’issue (ayant une grande valeur du coefficient ˜βj dans le modèle pour l’issue) sont moins pénalisées, et ont une

forte chance d’être incluses dans le modèle du score de propension.

Dans un troisième temps, vient l’étape de sélection du paramètre de régularisation λn.

L’esti-mateur IPTW de l’effet moyen du traitement (ATE) utilise le score de propension (PS) pour équilibrer la distribution des covariables entre les exposés et les non-exposés. Shortreed and Ertefaie (2017) proposent dans cette optique de sélectionner le paramètre λn en minimisant

une différence de moyenne absolue (wAMD) entre les groupes exposés et non-exposés : wAM D (λn) = p X j=1 ˜ βj Pn i=1τˆ λn i XijAi Pn i=1τˆ λn i Ai − Pn i=1τˆ λn i Xij(1 − Ai) Pn i=1τˆ λn i (1 − Ai) , (2.1) où ˆτλn

i est la pondération reçue par le sujet i, qui n’est autre que l’inverse de sa probabilité

d’avoir reçu son traitement, calculée en utilisant le score de propension estimé à partir du LASSO adapté pour l’issue. Mathématiquement :

ˆ τλn i = Ai ˆ πλn i {Xi, ˆα(OAL)} + 1 − Ai 1 − ˆπλn i {Xi, ˆα(OAL)} .

Rappelons que ˜βj est l’estimateur du coefficient associé à la covariable Xj dans le modèle de

l’issue, reflétant ainsi la force de la relation entre la covariable Xj et l’issue Y . Notons que, la

pondération par ˜ βj

a pour but d’atténuer la contribution des covariables faiblement associées à l’issue dans la différence moyenne absolue. Ainsi, pour une covariable Xj ayant une valeur

Figure

Figure 1.1 – Effet du traitement A sur l’issue Y , en présence de covariables confondantes X
Figure 2.1 – Graphique acyclique dirigé décrivant un proxi mesuré d’un facteur confondant non mesuré
Figure 2.2 – Graphique acyclique dirigé des covariables confondantes potentielles. Les flèches doubles représentent de possibles corrélations entre les covariables
Table 3.1 – Les valeurs de n et k utlisées par l’hdPS et l’hdPS_0 selon le scéanrio hdPS hdPS_0 n k n k Scénario1 50 15 100 15 Scénario2 50 15 99 15 Scénario3 8 10 40 10 Scénario4 8 10 39 10 Scénario5 8 10 39 10
+7

Références

Documents relatifs

Cependant, étant donné les effets néfastes potentiels liés à l'utilisation de morphiniques chez les patients a eint d’un cancer et le bénéfice rapporté de l’OFA sur la

Là où un carré sémiotique, par exemple, pouvait fièrement établir des relations de contrariété entre « pratique » et « mythique » (pour reprendre la fameuse

(3) moins de 3 ganglions du patient cible ont ´et´e examin´es et moins de 3 ganglions du patient cible sont envahis, (4) la recommandation Sol(srce) pour srce. est le protocole « N+

Dans cette étude, l’appariement 1:1 sur le score de propension fait perdre 15/252 patients sans préparation colique et 916/1 153 sujets avec préparation colique.. Dans cette

Cette procédure permet de rendre les variables initiales comparables entre les groupes au sein de chaque strate pour les variables recueillies, et le traitement peut être évalué

Ce premier chapitre est destiné aux di¤érents fonctions outils dans le calcul fractionnaire (fonction Gamma d’Euler, fonction Béta d’Euler), et on introduira l’approche

Using lossy counter machines, hardness results relying on the first half of the Hard- ness eorem have been derived for a variety of logics and automata dealing with data words or

· Loubignac 30 dans le cadre d’une série de fractures per-trochantériennes opérées par un clou centromédullaire à double vis cervico-céphalique reporte un Parker moyen