• Aucun résultat trouvé

Inférence causale pour mesurer le retour sur les investissements publicitaires

N/A
N/A
Protected

Academic year: 2021

Partager "Inférence causale pour mesurer le retour sur les investissements publicitaires"

Copied!
81
0
0

Texte intégral

(1)

Inférence causale pour mesurer le retour sur les

investissements publicitaires

Mémoire

Hanae Zouitene

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Inférence causale pour mesurer le retour sur les

investissements publicitaires

Mémoire

Hanae Zouitene

Sous la direction de:

Thierry Duchesne, directeur de recherche Louis-Paul Rivest, co-directeur de recherche

(3)

Résumé

Dans le but d’optimiser sa politique d’investissement, toute compagnie d’assurances aimerait être en mesure de quantifier le retour sur sa stratégie en marketing. Une métrique bien dé-terminée qui donne une réponse presque directe à cette question est le nombre de nouvelles soumissions d’assurances générées pour chaque dollar investi en publicité dans un certain type de média. Certes les compagnies d’assurances possèdent généralement des données précises sur les soumissions reçues et les dépenses publicitaires hebdomadaires. Cependant, ces données sont de nature observationnelle, ce qui implique la présence d’une forte corrélation qu’on re-trouve entre les dépenses publicitaires dans les différents médias avec les cycles du marché. De plus, il y a une forte saisonnalité et plusieurs facteurs confondants sociodémographiques, ce qui rend difficile et complexe l’estimation de l’effet causal des investissements en marketing. Dans ce mémoire, nous présentons des méthodes plus générales d’inférence causale à savoir la méthode du score de propension généralisé (GPS), la méthode des modèles de moyennes conditionnelles séquentielles (SCMMs) et la méthode du score de propension généralisé mul-tivarié (MGPS) afin d’estimer le retour sur investissement d’un média donné tel que mesuré par le nombre de soumissions reçues par la compagnie d’assurances « ASSURE ».

(4)

Abstract

In order to optimize its investment policy, any insurance company would like to be able to quantify the return on its marketing strategy. A well defined measure that gives a direct response to this question is the number of new insurance quotes generated for every dollar invested in advertising in every type of media. Admittedly, insurance companies have accurate data concerning the quotes received and their weekly advertising expenses. However, the data are observational, which implies a potential correlation between the advertising expenses in the different media with the market cycles. Furthermore, there is a strong seasonality and several socio-demographic confounding factors, which adds difficulty and complexity to the estimation of the causal effect of marketing investments.

In this thesis, we present some general causal inferencial methodologies such as: the gener-alised propensity score (GPS) methodoly, the Sequential Conditional Mean Models (SCMMs) methodology and the multivariate GPS (MGPS) methodology in order to estimate the return on investment in a given media measured by the number of quotes received by the insurance company «ASSURE».

(5)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vi

Liste des figures vii

Remerciements x

Introduction 1

1 Concepts de base en inférence causale 3

1.1 Inférence causale . . . 3

1.2 Paradigme contrefactuel . . . 4

1.3 Score de propension avec traitement binaire . . . 6

2 Score de propension avec traitement continu 12 2.1 Le score de propension généralisé . . . 12

2.2 Méthode Hirano-Imbens . . . 14

2.3 Conclusion du chapitre . . . 17

3 Extension de la méthode du score de propension généralisé pour les données longitudinales 18 3.1 Traitement variant au cours du temps . . . 19

3.2 Les modèles de moyennes conditionnelles séquentielles . . . 20

3.3 Le score de propension généralisé multivarié . . . 23

3.4 Conclusion du chapitre . . . 26

4 Application : Analyse de données de marketing 27 4.1 Les données . . . 27

4.2 Problématique de l’étude. . . 29

4.3 Présentation des résultats . . . 30

4.4 Conclusion du chapitre . . . 40

(6)

A Dictionnaire des variables 44

A.1 Variables en provenance de la compagnie d’assurances ASSURE . . . 44

A.2 Variables en provenance de Statistique Canada . . . 45

A.3 Variables liées à la standardisation . . . 47

A.4 Variables retardées . . . 47

A.5 Covariables selon la méthode utilisée . . . 47

B Code R 48

(7)

Liste des tableaux

4.1 Résumé du modèle pour le score de propension de la méthode Hirano-Imbens . 31

4.2 Résumé du modèle pour SOUM* de la méthode Hirano-Imbens . . . 31

4.3 Les statistiques t d’égalité des moyennes avant ajustement pour le GPS. . . 32

4.4 Les statistiques t d’égalité des moyennes après ajustement pour le GPS. . . 32

4.5 Résumé du modèle pour le score de propension de la méthode des SCMMs . . . 33

4.6 Résumé du modèle pour SOUM de la méthode des SCMMs . . . 34

4.7 Résumé du modèle pour le score de propension de la méthode Moodie-Stephens,

traitements nuls remplacés par 0.1 . . . 35

4.8 Résumé du modèle pour SOUM de la méthode Moodie-Stephens, traitements

nuls remplacés par 0.1. . . 36

4.9 Résumé du modèle de régression logistique, traitement avec masse à 0 . . . 36

4.10 Résumé du modèle pour le score de propension de la méthode Moodie-Stephens,

traitement avec masse à 0. . . 37

4.11 Résumé du modèle de SOUM avec modèle de mélange pour traitement avec

(8)

Liste des figures

3.1 Les associations multiples entre Tj et Yj dans une structure longitudinale. . . . 19

4.1 Les courbes dose-réponse des méthodes élaborées, avec bandes de confinace à

90%. . . 39

4.2 Les courbes de dérivées associées aux courbes dose-réponse des méthodes

(9)

À la mémoire de mes grands-pères décédés en pleine rédaction de ce mémoire. Vous m’avez toujours fait preuve d’amour et d’affection. Que vos âmes reposent en paix !

(10)

« I know the price of success : dedication, hard work, and an unremitting devotion to the things you want to see happen. »

(11)

Remerciements

Au terme de ce travail, il m’est particulièrement agréable d’exprimer toute ma gratitude envers Dieu et mes remerciements à tous ceux qui, par leur encadrement, leur soutien et leurs conseils, ont favorisé son aboutissement.

Je tiens tout d’abord à exprimer mes remerciements les plus sincères à mon directeur de recherche Thierry Duchesne, professeur titulaire au Département de mathématiques et de sta-tistique, qui m’a guidée tout au long de mon parcours académique de maîtrise à l’Université Laval. Je le remercie de m’avoir honorée de sa confiance en acceptant d’être mon mentor et mon superviseur et aussi d’avoir contribué énormément par sa grande disponibilité, ses directives et ses conseils si pertinents, qui m’ont été d’une énorme utilité. Je tiens à remercier également mon co-directeur de recherche Louis-Paul Rivest, professeur titulaire au Département de ma-thématiques et de statistique pour sa précieuse collaboration, ses remarques, ses suggestions et son dévouement tout au long de mon projet de recherche. Un grand merci à vous deux de m’avoir accordé la chance de faire partie de votre équipe de recherche. Collaborer avec vous a été une opportunité d’apprentissage très précieuse et enrichissante. Vos lectures et relectures accompagnées d’annotations très claires ont permis de bonifier substantiellement la qualité de mon travail. Puissent ces lignes être l’expression de ma plus profonde reconnaissance.

Je souhaite également adresser mes vifs remerciements à la compagnie qui m’a permis de réaliser ce projet de recherche. En particulier, je remercie chaleureusement Sylvain Demars pour sa grande bienveillance, son implication infaillible, son suivi constant et surtout pour tous les efforts qu’il a parfois dû consentir pour me libérer du temps afin de mener à bien ce travail. Qu’il sache que je lui en suis profondément reconnaissante. Mes remerciements sont aussi adressés au programme Mitacs Accélération qui a subventionné ce projet avec la compagnie.

Par ailleurs, je tiens à remercier toutes les parties prenantes dans l’élaboration du programme d’échange entre l’Institut National de Statistique et d’Économie Appliquée de Rabat et le Département de mathématiques et de statistique de l’Université Laval. C’était une expérience très riche et avantageuse.

(12)

accom-pagnée tout au long de ce périple. Je remercie Kenza Haimer et Mohamed Zouitene, mes chers parents, ma raison d’être et à qui je dois ce que je suis devenue jusqu’à date. Je ne saurais jamais vous remercier assez. Que ce modeste travail soit le fruit de vos innombrables sacrifices ! Merci à Soumaya, ma soeur chérie, mon autre moitié et ma plus grande bénédiction que la vie m’a offerte. Merci à Anass et Adnane mes deux frères, ma force et mon repère éternel, je vous remercie infiniment d’avoir contribué à ma formation et à mon apprentissage depuis mon enfance. Merci à Rim et Marwa, mes belles-soeurs pour leur amour et leur soutien de tous les instants. Un merci tout spécial à Omar et Zayd, mes chers neveux, votre existence est une source inépuisable de mon bonheur. Je remercie aussi mes chères grands-mères, qui ne manquent jamais de m’inclure dans leurs prières. Que Dieu les bénisse ! Je veux remercier également mes oncles et tantes pour toutes leurs pensées et leurs attentions. Et un grand merci à Ikram, Sara, Zaynab, Firdaws, Aya, Imad, Ayman, Mohamed et Zaid, mes chers cousines et cousins qui m’ont toujours soutenue et motivée.

Je tiens à remercier mon amie Kaoutar pour son affection et ses pensées grandement appréciées. Mes remerciements sont également adressés à Mamoune, Faissal, Zakaria et Mehdi pour leurs encouragements et leur support moral. Merci d’avoir toujours été là pour le meilleur, mais surtout pour le pire chers amis !

Je tiens aussi à témoigner mon immense gratitude et mon plus grand respect à Saïd, l’une des connaissances les plus précieuses que j’ai faite à Québec. Merci d’avoir été l’oreille qui m’écoute et l’épaule qui me soutient. Merci pour ton temps accordé et tes conseils judicieux qui me tiennent vraiment à coeur.

Bien entendu je ne saurais clôturer cet écrit sans remercier les gens que j’ai côtoyés durant cette aventure qui a commencé il y a deux ans. Un grand merci à Chaimae pour son amitié et sa générosité. Merci pour tous ces beaux et drôles moments qu’on a vécus ensemble, et vivement tous ceux qui sont à venir ! Merci à Imane et Ouassima pour leur gentillesse et leur disponibilité incessante qui m’a été d’une aide précieuse. Merci à Meriem, pour son affabilité hors pair. Merci à Ikram qui m’a hébergée pendant le confinement. Et un merci tout spécial à Aziz pour le coup de main qu’il m’a donné et que je n’oublierai jamais ! Je veux aussi remercier Fouad, Ghizlane, Youssra et Hanae pour tous les beaux moments que nous avons partagés à l’université.

(13)

Introduction

Les méthodes d’inférence causale sont largement utilisées dans divers domaines scientifiques. L’intérêt grandissant pour ces méthodes, qui sont en effet d’une grande flexibilité et permettent la modélisation de plusieurs types de données, s’explique notamment par les applications qui en sont faites. Par exemple, en santé publique, on peut s’intéresser à l’effet que peut avoir un nouveau vaccin sur une maladie pour décider du financement d’une campagne de vaccination. En marketing, on peut s’intéresser à quantifier l’impact d’une nouvelle campagne de publicité sur les ventes d’un certain produit. De nos jours, les compagnies d’assurances comptent sur la publicité afin de commercialiser leurs produits auprès de la clientèle potentielle en investis-sant des sommes considérables en publicité de toute sorte (sollicitation par téléphone, envois postaux, publicités à la radio ou à la télévision, etc...). Ainsi, dans l’optique de guider sa décision stratégique et d’optimiser sa politique d’investissement en publicité dans un certain type de média, il serait judicieux pour toute compagnie d’assurances de quantifier le retour de chaque investissement en terme de profit généré et par conséquent en soumissions reçues. Dans ce cadre, le MROI (Marketing Return On Investment) permet de mesurer la rentabilité des efforts marketing, des actions publicitaires par exemple, et revient à mettre en relation les coûts d’une campagne de publicité et l’activité commerciale générée, à titre d’exemple 1 dollar investi rapporte 8 dollars de chiffre d’affaire.

Nonobstant leurs maints domaines d’applications et leur rôle de plus en plus important, il s’avère complexe d’appliquer les méthodes d’inférence causale. L’estimation d’un effet causal à partir des données issues d’études observationnelles nécessite un contrôle pour les variables dites confondantes associées à la fois au traitement et à l’issue et qui peuvent donner une perception erronée de l’effet causal en l’absence de contrôle. Les données de marketing sont observationnelles et non pas issues d’une expérience randomisée, ce qui implique la présence de corrélation qu’on retrouve entre les dépenses publicitaires dans les différents médias et aussi avec les cycles du marché. Également, ces données sont sujettes à de multiples variations saisonnières au niveau des soumissions et souvent confondues avec les effets de variables non observables. De ce fait, quand il est question d’isoler l’effet de l’investissement, il faut corriger pour toute autre variable confondante et donc construire des modèles qui contiennent à la fois des paramètres mesurant l’effet des dollars investis dans chaque type de publicité sur le nombre de soumissions tout en éliminant l’effet de la saisonnalité, et en prenant en compte les

(14)

facteurs confondants.

Dans le présent mémoire, on traite la question de la mesure du MROI dans le cadre de données observationnelles et dans le contexte d’une compagnie d’assurances. L’objectif est de cerner le mieux possible l’effet causal d’un certain type d’investissement à travers l’ajustement de diffé-rents modèles d’inférence statistique et causale dans une optique comparative. Pour cela, nous disposons d’un jeu de données avec d’une part des soumissions et de l’autre des mesures de l’effort publicitaire. On souhaite quantifier l’impact des efforts marketing sur les soumissions, mais plusieurs complexités surviennent. Il s’agit d’une forte saisonnalité des soumissions (da-vantage d’efforts marketing lors des semaines d’achalandage), une corrélation forte entre des efforts marketing dans différents médias qui surviennent en même temps, et la présence d’une corrélation avec des variables sociodémographiques qui influencent à la fois les soumissions et les efforts publicitaires.

Le mémoire est structuré comme suit. Le premier chapitre présente les outils et les concepts de base utilisés en inférence causale. On y trouvera une présentation de la notion du score de propension ordinaire pour un traitement binaire. Dans le deuxième chapitre, nous présentons la méthode du score de propension généralisé (GPS) pour un traitement continu tel qu’introduit par Hirano and Imbens (2004). Le chapitre 3 aborde deux méthodes pour l’estimation d’un effet causal pour les données longitudinales, à savoir la méthode de Keogh et al. (2018) qui se base sur des modèles de moyennes conditionnelles séquentielles (SCMMs) et la méthode du score de propension généralisé multivarié (MGPS) proposé par Moodie and Stephens (2012), qui s’avère une extension de la méthodeHirano and Imbens(2004) aux données longitudinales. Finalement, le chapitre 4 illustre l’utilisation et l’application des trois méthodes étudiées aux chapitre 2 et 3 aux données de marketing à notre disposition.

(15)

Chapitre 1

Concepts de base en inférence causale

Ce chapitre a pour objectif de présenter les concepts globaux de l’inférence causale, qui s’avère un moyen efficace pour estimer l’effet causal d’un traitement dans les études observationnelles. Nous commençons par introduire tout d’abord ce qu’est l’inférence causale. Ensuite, nous abordons le concept de contrefactuel. Dans la troisième section de ce chapitre, nous présentons la méthode du score de propension dans le cas d’un traitement binaire, son estimation et les différentes méthodes d’utilisation de ce score dans l’estimation de l’effet causal.

1.1

Inférence causale

L’inférence causale est un processus qui permet de tirer des conclusions sur des relations de cause à effet entre une intervention et une issue d’intérêt. En effet, elle vise à répondre à la question fondamentale de savoir comment la variation d’une cause ou d’un traitement peut affecter une issue potentielle ultérieure. L’inférence causale est utilisée dans une panoplie de domaines de recherche quand l’objectif est de quantifier ces relations de cause à effet. En épidémiologie, on peut s’intéresser à analyser les relations entre l’exposition à un traitement et l’occurrence d’une maladie. On dit que le traitement possède un effet causal si, par exemple, la proportion des individus qui développent la maladie, dans le cas où les individus dans la population auraient été exposés au traitement, est différente de la proportion d’individus ayant développé la maladie dans le cas où les mêmes individus n’auraient pas été exposés au traitement (Hernán (2004)). En marketing, on peut s’intéresser à évaluer l’impact des investissements publicitaires sur l’activité commerciale, par exemple, pouvoir dire que chaque dollar investi rapporte 10 dollars de chiffre d’affaire. Souvent, la motivation derrière l’usage de ce concept réside dans l’optimisation des politiques et des stratégies adoptées.

Certes, l’inférence causale peut s’effectuer assez facilement à l’aide de données provenant des études randomisées. Il en va toutefois autrement quand on désire inférer à partir de données observationnelles, c’est-à-dire de données où l’exposition des sujets au traitement n’est pas randomisée ou contrôlée par l’investigateur. Dans ce cas, il faut bien vérifier et corriger les

(16)

inférences pour l’existence de caractéristiques qui peuvent être à la fois liées à la variable réponse et au traitement, et qui peuvent engendrer une erreur systématique (biais de confusion) dans l’estimation de l’effet d’un traitement (Austin(2011), Williamson et al. (2012)). Ainsi, pour inférer la causalité sur la base des données d’observation, il est nécessaire de contrôler pour ces variables dites confondantes. Ce contrôle peut se faire directement au moment de récolter les données par appariement, ou au moment d’analyser les données avec un modèle statistique.

Dans la section qui suit, nous présentons quelques notions permettant de mieux assimiler le concept d’inférence causale dans le cas où le traitement est binaire. Pour cela, nous adoptons la notation suivante :

— i : l’indice des individus inclus dans l’étude,

— N0 : l’ensemble des individus inclus dans l’étude et exposés au traitement,

— N◦ : l’ensemble des individus inclus dans l’étude et non exposés au traitement,

— N : l’ensemble global des individus inclus dans l’étude tel que N = N0S N◦,

— Ti : la valeur du traitement appliqué à l’unité i. Par exemple, Ti = 1 si l’individu i est exposé au traitement et Ti = 0 si l’individu i n’y est pas exposé,

— Yi : la variable réponse pour l’individu i ou l’issue,

— Xi : le vecteur des covariables associées à l’individu i.

Nous supposons que les variables Xi ont été observées avant le traitement et ne sont pas

affectées par ce dernier. Ces variables peuvent être divisées en quatre principaux types : ∗ Variables de confusion (facteurs de confusion) liées à la fois au traitement et à l’issue, ∗ Variables pronostiques liées uniquement à l’issue,

∗ Variables instrumentales liées uniquement au traitement, ∗ Variables de nuisance liées ni au traitement, ni à l’issue.

Les facteurs de confusion jouent un rôle majeur dans l’inférence causale et peuvent avoir une grande influence sur les estimations de l’effet causal du traitement.

1.2

Paradigme contrefactuel

Partant du fait qu’on veut élucider des relations de cause à effet, il est utile de définir le paradigme contrefactuel (le paradigme des issues potentielles), qui a été élaboré par Neyman en 1923 (Spława-Neyman et al. (1990)) dans le but d’étudier les expériences randomisées. Une généralisation proposée par Rubin (1974) a permis d’étudier les liens causaux avec des données observationnelles. Ce paradigme considère que, pour un même individu i, il existe deux issues potentielles, ou contrefactuelles : l’issue potentielle correspondant à l’exposition Yi(1) et l’issue potentielle correspondant à l’absence d’exposition Yi(0). L’issue réellement

observée pour l’unité i est notée Yi = Yi(Ti), qui peut être également écrite comme Yi =

(17)

l’hypothèse que chaque individu a des probabilités non nulles d’être exposé et d’être non exposé :

Hypothèse de positivité (Support commun) : P (Ti= t|Xi) ∈ (0, 1) pour tout t. Il y a

positivité conditionnellement à X si P (T = t|X = x) > 0 pour tous t et x tels que f (x) > 0 avec f la densité de x .

Ainsi l’effet causal du traitement pour l’individu i défini par Rubin est la différence Yi(1) − Yi(0). Dans certains contextes, il peut être utile de caractériser l’effet causal au niveau de

l’unité comme un rapport, Yi(1)/Yi(0), ou une autre mesure de l’écart entre les résultats

potentiels.

Par ailleurs, on note que la cible de l’inférence statistique est souvent l’effet causal moyen (ACE ; Average Causal Effect) pour une population donnée, soit

ACE = µ(1) − µ(0) = E[Y (1)] − E[Y (0)]. (1.1)

Cependant, il est à mentionner qu’un seul des résultats potentiels, Yi(1) ou Yi(0), est observé

pour une même unité i ; c’est ce que Holland (1986) appelle « le problème fondamental de l’inférence causale ». Une hypothèse qui est souvent faite en inférence causale est l’hypothèse forte d’ignorabilité.

Hypothèse forte d’ignorabilité : On dit qu’il y a absence de confusion pour la relation causale entre T et Y si et seulement si :

{Y (0), Y (1)} ⊥ T,

où ⊥ désigne l’indépendance statistique. Ceci signifie qu’en raison de la randomisation, les deux variables aléatoires Y (0) et Y (1) sont statistiquement indépendantes de T . Cela découle du fait que, dans le cadre d’une expérience randomisée idéale, le niveau d’exposition est décidé de façon totalement aléatoire. Ainsi, les issues potentielles sont, en moyenne, équilibrées entre les deux groupes exposé et non exposé.

Néanmoins, l’estimation de l’effet causal moyen E[Y (1)] − E[Y (0)] s’avère plus difficile à accomplir en l’absence de randomisation. En effet, plusieurs facteurs de confusion peuvent influencer à la fois le niveau d’exposition des sujets et leur réponse observée. Dans une telle situation, les réponses contrefactuelles ne sont pas nécessairement équilibrées entre le groupe exposé et le groupe non exposé.

Dans la section 1.1.3 de Talbot(2015), on démontre qu’une condition suffisante pour estimer sans biais l’effet causal moyen est de contrôler pour l’ensemble des variables confondantes X satisfaisant l’hypothèse faible d’ignorabilité conditionnelle (Rosenbaum and Rubin(1983)) :

(18)

En pratique, en absence de randomisation cette relation de l’hypothèse faible d’ignorabilité conditionnelle est invérifiable vu que, pour chaque individu, une seule des issues potentielles est observée. Ceci étant dit, l’identification des variables confondantes X est désormais une étape primordiale dans l’application des méthodes d’inférence causale avec des données obser-vationnelles.

Certes, il semble simple d’estimer E[Y (1)] et E[Y (0)] à partir des données provenant d’une expérience randomisée idéale de telle sorte que la différence naïve ¯Y (1) − ¯Y (0) peut alors estimer clairement l’effet causal moyen E[Y (1)] − E[Y (0)] où :

— Y1 = n11 Pi∈N0Yi la moyenne de la variable réponse Y dans le groupe exposé N0 avec

Card(N0) = n1.

— Y0 = n10 Pi∈NYi la moyenne de la variable réponse Y dans le groupe non exposé N◦ avec

Card(N◦) = n0.

Mais il est plus difficile d’accomplir cette tâche à partir de données d’observation dû aux variables confondantes. En effet, en absence de randomisation, différents facteurs peuvent influencer à la fois le niveau d’exposition des sujets et leur réponse observée. Dans une telle situation, les réponses observées ne sont pas nécessairement équilibrées entre le groupe exposé et le groupe non exposé et la différence naïve Y1− Y0 n’estime pas E[Y (1)] − E[Y (0)] sans biais.

1.3

Score de propension avec traitement binaire

Le score de propension a été introduit par Rosenbaum and Rubin(1983) et a été utilisé dans de nombreux travaux (Guo and Fraser(2014)) pour faire des inférences causales dans le cadre des études observationnelles en corrigeant pour l’effet des facteurs confondants (Li(2011)). En effet, l’ajustement par score de propension consiste à calculer la probabilité conditionnelle de recevoir un niveau de traitement sachant un vecteur de covariables observées. L’idée derrière le score de propension est de résumer l’information contenue dans les covariables X dans la valeur d’une seule variable e(t, x) de sorte que le fait de contrôler pour e(t, x) permettrait aussi d’estimer l’effet causal d’intérêt. Il s’agit d’une condensation de l’information en remplaçant toutes les covariables par une variable unique qui est une fonction de ces covariables et qui sera utilisée comme une variable de confusion unique. Les méthodes basées sur le score de propension ont initialement été conçues pour estimer l’effet d’une exposition binaire sur une issue de type quelconque ; c’est ce qui va être traité dans l’ensemble de cette section.

1.3.1 Définition

Dans le cadre du traitement binaire, le score de propension (PS : Propensity Score) est la probabilité de recevoir un traitement étant donné un ensemble de covariables, soit ei(1, x) =

(19)

P (Ti= 1|Xi = x) . Le score de propension réalisé pour l’unité d’échantillonnage i s’écrira

comme ei(Xi) .

Avec sa « propriété de balance », le PS peut équilibrer les covariables entre les groupes de traitement, dans le sens où

P (Xi= xi|ei(Xi) = c, Ti = 1) = P (Xi = xi|ei(Xi) = c, Ti= 0) . (1.3)

Ainsi, conditionnellement à une valeur du score de propension ei(Xi) = c donnée, la

distribu-tion des covariables Xi dans le groupe traité devrait être la même que celle du groupe témoin. Mathématiquement,

T ⊥ X|e(X). (1.4)

Le score de propension permet ainsi de simuler un contexte d’étude randomisée. En effet, dans une étude randomisée, la randomisation assure qu’en moyenne la distribution des cova-riables est la même chez les sujets exposés que chez les non exposés, et c’est ce qu’on observe conditionnellement au score de propension dans les équations (1.3) et (1.4).

1.3.2 Estimation et méthodes d’utilisation des scores de propension

Suite à notre définition du score de propension, on va expliquer comment s’en servir pour estimer l’effet causal moyen quand on observe un échantilllon de N observations indépendantes. Nous allons décrire tout d’abord comment estimer le score de propension, ensuite nous allons présenter les méthodes d’utilisation des scores de propension pour améliorer l’estimation par différence de moyennes naïve.

Estimation du score de propension

Étant donné que le score de propension doit être estimé en fonction des covariables observées, la façon la plus courante pour modéliser le score de propension s’avère la régression logistique, quoique des modèles plus sophistiqués puissent être utilisés. Soit ei(Xi), le score de propension

estimé par une régression logistique de Ti sur Xi (Li(2011)) comme suit :

ei(Xi) = Pr (Ti = 1|Xi) =

expXi

1 + expXiTβ . (1.5)

On note que d’autres méthodes ont été utilisées. Par exemple, Lee et al.(2010) ont considéré la régression probit, la régression boostée (McCaffrey et al. (2004)), les réseaux de neuronnes et les forêts aléatoires.

Méthodes d’utilisation des scores de propension

L’objectif de l’analyse par score de propension est d’estimer l’effet causal moyen d’une in-tervention ou d’un traitement particulier sur une certaine variable d’issue. Dans cette partie,

(20)

nous abordons les méthodes les plus répandues en terme d’estimation de l’effet causal du trai-tement par le biais du score de propension et qui s’avèrent une partie intégrante des recherches appliquées.

– Appariement (matching)

Selon cette approche, chaque sujet traité est apparié à un sujet non traité en fonction du score de propension. Il s’agit de créer des paires de sujets : traité-non traité ayant une valeur de PS identique ou proche, ce qui aboutit à la constitution de deux groupes de sujets ayant des caractéristiques comparables et entre lesquels le critère de jugement peut être comparé. Ainsi, on peut comparer les traités avec les non-traités en calculant la différence des moyennes ACE = Y1 − Y0. Dans cette approche, qui assure une réduction efficace du biais, l’effet

du traitement est estimé sur la base appariée. Il existe differentes méthodes d’appariement, notament celles basées sur le plus proche voisin (“nearest neighbor matching”), le caliper (“Caliper matching”), la stratification (“subclassification”), etc, (Aurélie et al.(2014)).

Par ailleurs, l’appariement à partir du score de propension peut mener à la perte potentielle de certains sujets. Par exemple, en faisant l’appariement, on peut avoir un certain nombre de sujets traités ayant un P S = 0.8 mais en revanche on n’a aucun sujet non-traité ayant un P S = 0.8. Donc, on ne peut pas se servir des observations ayant cette valeur de score de propension 0.8, d’où la perte des données avec l’appariement.

– Pondération

Cette approche consiste à conserver toutes les observations, mais à utiliser une pondération dans le calcul des moyennes échantionnales, de sorte que le statut d’exposition n’est plus associé aux covariables dans l’échantillon pondéré. En effet, cette méthode présente l’avantage, par rapport à l’appariement, de conserver l’ensemble de l’échantillon pour l’analyse, là où l’appariement conduit à exclure les individus qui ne peuvent être jumelés (Aurélie et al.(2014)). Pour ce faire, chaque sujet reçoit une pondération inverse de sa probabilité d’avoir reçu son traitement. Autrement dit, les sujets exposés reçoivent un poids de e 1

i(Xi), tandis que les

sujets non exposés reçoivent un poids de (1−e1

i(Xi)). Les poids peuvent donc se calculer comme

étant Ti

ei(Xi) +

1−Ti

(1−ei(Xi)). La pondération inverse réduit le poids de ceux qui avaient de fortes

chances de recevoir le traitement actuellement reçu d’après leurs caractéristiques observables, et augmente le poids de ceux qui avaient peu de chance de recevoir le traitement effectivement reçu, toujours selon ces caractéristiques observables. Toutefois, un désavantage est l’instabilité qui survient lorsque pour plusieurs unités, le score de propension est très proche de 0 ou de 1. En effet, cette approche peut créer des poids ayant des valeurs très élevées. Il est donc souvent recommandé d’effectuer une modification au poids de probabilité inverse afin d’éviter qu’une ou plusieurs observations pour lesquelles le poids est très important aient un impact démesuré sur les inférences. Cette modification se fait avec min (1 − ei(Xi), ei(Xi)) en définissant un

(21)

nouveau poids qui est le poids d’appariement (matching weight) par : Wi=

min (1 − ei(Xi), ei(Xi))

Tiei(Xi) + (1 − Ti) (1 − ei(Xi))

, (1.6)

où ei(Xi) est donné par l’équation (1.5). Une fois que le poids pour chaque observation à

l’étude est obtenu, l’ACE peut être calculé en comparant le résultat moyen de chaque groupe comme suit : ˆ ¯ ACEM W = ˆY¯1−M W − ˆY¯0−M W, où : − ¯Y1−M W = P i∈N0Wi×Yi P

i∈N0Wi : la moyenne de la variable réponse Y dans le groupe exposé pondérée

par les poids issus du modèle du score de propension et calculés dans l’équation (1.6) et − ¯Y0−M W =

P

i∈N◦Wi×Yi

P

i∈N◦Wi : la moyenne de la variable réponse Y dans le groupe non exposé

pondérée par les poids issus du modèle du score de propension et calculés dans l’équation (1.6).

– Ajustement par régression

La dernière approche est la plus simple d’utilisation, mais la moins robuste. Elle consiste à ajuster un modèle de régression pour la variable réponse en fonction du traitement tout en ajustant pour le score de propension. Nombreuses sont les approches qui sont possibles pour l’ajustement, notamment entrer le score de propension de façon linéaire dans le modèle, le diviser en catégories (par exemple, en quintiles) ou bien utiliser une modélisation flexible (par exemple, un spline cubique). À titre d’exemple, s’il s’agit de faire une régression linéaire avec comme variable dépendante la variable réponse Yi et comme variables indépendantes, la

variable liée au traitement Ti et le score de propension ei(Xi), on peut opter pour le modèle

linéaire suivant si la variable Yi est continue :

Yi = α + βACETi+ βei(Xi) + εi, εi ∼ N 0, σ2 ,

où βACE est l’effet causal moyen. Dans le cas où Y est une variable dichotomique, on peut opter pour la régression logistique (Oussaïd(2015)).

On mentionne que le manque de robustesse de cette méthode est dû au fait que le modèle de régression pour Yi et le score de propension doivent tous les deux être correctement modélisés si on veut éliminer le biais.

1.3.3 Validation des scores de propension

Une fois le score de propension estimé, il est nécessaire de vérifier si ce score permet d’estimer l’effet causal et évaluer ainsi sa qualité. En premier temps, il faut valider la propriété de balance du fait qu’un bon score de propension est un outil d’"équilibrage" ou de "balance". En effet,

(22)

étant donné le score de propension, la distribution des covariables est indépendante de l’affec-tation du traitement. Ainsi, une façon de vérifier si le score de propension est adéquatement estimé est de vérifier la propriété de balance des différents sous-échantillons créés par le score de propension, par exemple les échantillons appariés dans le cas de la méthode d’appariement (Oussaïd (2015)). De ce fait, il existe un critère qu’on appelle « Différence Standardisée » (DS) permettant de comparer les moyennes des covariables continues et dichotomiques entre les deux groupes de traitement. Pour une covariable X continue, cette différence est donnée par : dx= ¯ x(1)− ¯x(0)  q S2 (1)+S 2 (0) 2 , où :

— ¯x(1) et ¯x(0) désignent respectivement les moyennes de la variable X dans le groupe des

traités et le groupe des non-traités et

— S(1)2 et S(0)2 sont respectivement les variances de X dans le groupe des traités et le groupe des non-traités.

Pour une variable X dichotomique, la différence standardisée est donnée par :

dx= ˆ p(1)x− ˆp(0)x q ˆ p(1)x(1− ˆp(1)x)+ ˆp(0)x(1− ˆp(0)x) 2 , où : ˆ

p(1)x et ˆp(0)x désignent les fréquences observées de la variable X dans le groupe traité et le

groupe témoin dans l’échantillon considéré.

Ainsi, avec un score de propension de qualité, les différences significatives entre les groupes traité et témoin à la période initiale ne devraient plus subsister, et ce, pour chacune des va-riables utilisées dans la construction du score.

En deuxième temps, il faut vérifier l’hypothèse de positivité ou du support commun, trai-tée dans la section 1.2. En effet, le support commun est cette zone de superposition des deux groupes de traitement sur l’ensemble des valeurs du score de propension. Il permet de s’assurer qu’il est possible, pour chaque individu du groupe traité, de trouver au moins un participant du groupe témoin ayant le même score de propension, c’est à dire son contrefactuel (Bryson et al. (2002)).

Il existe deux principales méthodes pour déterminer les zones de support commun et valider ainsi l’hypothèse de positivité (Aurélie et al.(2014)). La première se base sur la comparaison des minima et maxima des scores de propension des deux groupes de traitement en se basant sur le critère « Min-Max ». Elle est proposée par Dehejia and Wahba (1999) et consiste à éliminer les individus traités ayant un score de propension supérieur au maximum du score de propension des non-traités, et d’éliminer également les non-traités ayant un score de propen-sion inférieur au minimum du score de propenpropen-sion des traités. La seconde, qui est proposée

(23)

par Dehejia(2005), consiste à comparer la distribution du score de propension dans les deux groupes de traitement et exclure les individus non traités pour lesquels la proportion de contre-factuels potentiels est la plus faible. Autrement dit, si la proportion des individus traités dont le score de propension est très proche de celui des individus non traités considérés est faible, ces derniers vont être éliminés.

(24)

Chapitre 2

Score de propension avec traitement

continu

Tel que vu au chapitre 1, le score de propension est la probabilité pour un individu possédant certaines caractéristiques données d’être exposé à un traitement d’intérêt, soit Pr (T = 1|X). Le score de propension est donc la probabilité conditionnelle qu’un individu reçoive le traite-ment sachant les covariables observées. L’objectif de ce chapitre est d’étendre ce concept en définissant le score de propension généralisé (GPS ; Generalized Propensity Score) qui per-mettrait l’estimation de l’effet causal d’un traitement continu, comme par exemple une dose. On se base sur les travaux d’Imbens(2000). En premier lieu, nous décrivons en détail la théo-rie sous-jacente aux scores de propension généralisés. En deuxième lieu, nous introduisons la méthode Hirano-Imbens (Hirano and Imbens(2004)).

2.1

Le score de propension généralisé

La généralisation du score de propension a été proposée comme alternative à la régression pour évaluer l’effet causal des traitements continus dans plusieurs études basées sur des données ob-servationnelles. Dans le cas d’un traitement binaire, on s’intéresse à l’ACE E[Y (1)] − E[Y (0)], tel que vu dans le chapitre 1. Dans ce chapitre 2, on est plutôt intéressé à l’estimation de µ(t) = E[Y (t)], communément appelée la fonction dose-réponse. À titre d’exemple, en pharmaco-épidémiologie on peut être intéressé à estimer la fonction dose-réponse, où la dose de médicament représente le traitement et peut prendre des valeurs continues (Efron and Feld-man(1991)). En marketing, on peut s’intéresser à quantifier l’effet des efforts publicitaires sur la vente d’un produit, où les efforts publicitaires sont mesurés sur un intervalle continu. Dans ce chapitre, nous allons adopter la notation ci-contre. Soit un ensemble d’issues poten-tielles, {Yi(t)}t∈T , i = 1, . . . , N , où :

— T est un intervalle dans R qui donne le traitement, — N est le nombre d’unités dans l’étude,

(25)

— Yi(t) pour t ∈ T est l’issue qui serait observée si l’unité i recevait la dose t du traitement. Nous nous intéressons à la fonction dose-réponse moyenne dans la population, µ(t) = E [Yi(t)]. SuivantHirano and Imbens(2004), nous supposons que Yi(t) avec t ∈ T , Tiet Xi, i = 1, . . . , N ,

sont définis sur un espace de probabilité commun ; que Ti suit une distribution continue sur T ; et que finalement Yi = Yi(Ti) est une variable aléatoire bien définie.

Selon la terminologie proposée par Hirano and Imbens (2004), on définit le GPS comme la densité conditionnelle du traitement sachant les covariables observées :

r(T, X) = fT |X(t|x). (2.1)

Ainsi le score de propension généralisé est R = r(T, X) et pour T = t on a R(t) = r(t, X). De manière analogue au cas binaire, le score de propension généralisé possède la propriété de balance, c’est-à-dire que, dans les strates ayant la même valeur de r(T, X), la probabilité que T = t est indépendante de la valeur de X. Autrement dit, les observations avec la même valeur du score r(T, X) possèdent la même distribution de X, indépendamment de l’indicateur I(T ) de l’exposition au traitement T :

X ⊥ I(T = t)|r(t, x), (2.2)

où I() est la fonction indicatrice telle que I(T = t) vaut 1 sous l’événement T = t.

Imbens (2000) a défini la notion d’ignorabilité faible (weak ignorability) comme suit :

Y (t) ⊥ T |X pour tout t ∈ T . (2.3)

Selon cette définition, la courbe de réponse potentielle Y (t), t ∈ T est indépendante du trai-tement reçu T , conditionnellement au vecteur de covariables X. Il en découle le théorème d’ignorabilité faible sachant le score de propension généralisé.

Théorème 2.1 (Ignorablité faible) : Hirano and Imbens(2004) Sous l’hypothèse (2.2), on a :

fT(t|r(t, X), Y (t)) = fT(t|r(t, X)) pour tout t ∈ T . (2.4)

Ce théorème montre que le GPS peut être utilisé pour éliminer tous les biais associés aux différences des covariables. (Nous référons le lecteur à la page 75 de Hirano and Imbens(2004) pour voir la preuve de ce théorème).

Généralement les applications du GPS se font en trois étapes principales. La première consiste à ajuster un modèle pour estimer fT |X. La deuxième utilise ce modèle pour estimer l’espérance conditionnelle de la réponse potentielle Y (t) étant donné le niveau de traitement t et la valeur du score de propension r :

(26)

La troisième étape est l’estimation de la fonction dose-réponse pour un niveau de traitement t déterminé :

µ(t) = E[Yi(t)] = E[β(t, r(t, X))].

Et c’est ce que nous décrirons en détail par la suite.

2.2

Méthode Hirano-Imbens

Hirano and Imbens (2004) ont introduit une méthode basée sur le GPS, dont l’idée est d’ajus-ter un modèle paramétrique pour les issues observées, en considérant le GPS estimé comme prédicteur, et utiliser ce modèle pour prédire les issues à des valeurs spécifiques de t. En outre, et analogiquement au score de propension standard, le GPS se caractérise par une propriété de balance. Il est donc particulièrement utile et pertinent dans l’application de la méthode Hirano-Imbens de vérifier la validité de cette propriété à travers un test de balance puisqu’il nous permet de voir si la spécification du GPS est adéquate. La méthode Hirano-Imbens repose sur plusieurs étapes qui seront présentées dans la sous-section qui suit.

2.2.1 Estimation et inférence

L’estimation du GPS repose sur un modèle de base qui relie le traitement aux covariables. En effet, le GPS peut être estimé paramétriquement sous différentes hypothèses de distribution. Nous supposons tout d’abord de façon générale que

Ti|Xi∼ fθ(t|Xi),

où fθ(t|Xi) est la fonction de densité de Ti sachant Xi, qui dépend des covariables et qui peut

être dépendante d’un paramètre θ. On estime habituellement ce paramètre par ˆθ obtenu avec la méthode de maximum de vraissemblance.

Le GPS Ri est une variable aléatoire qui est utilisée pour équilibrer les covariables. Elle est

estimée par ˆRi= ˆr(Ti, Xi) défini ainsi :

ˆ

Ri = fθˆ(Ti|Xi).

Pour illustrer la formule présentée ci-dessus, nous proposons les deux exemples suivants. Exemple 1

On utilise en premier lieu une distribution normale pour la loi du traitement sachant les covariables :

Ti|Xi ∼ N β0+ β10Xi, σ2 .

On obtient par la méthode de maximum de vraissemblance les ˆβ et ˆσ pour avoir notre GPS estimé sous la forme d’une densité normale comme suit :

ˆ Ri = 1 √ 2π ˆσ2 exp  − 1 2ˆσ2  Ti− ˆβ0− ˆβ10Xi 2 .

(27)

Exemple 2

On suppose que le traitement, qui prend des valeurs strictement positives, suit une loi gamma de paramètres k et θi strictement positifs. On a, sachant les covariables Xi,

Ti|Xi ∼ Γ(k, θi).

On ajuste un modèle linéaire généralisé (glm) qui modélise la distribution de la variable réponse qui est le traitement Ti en fonction des variables explicatives Xi tout en précisant une fonction de lien g telle que kθ(Xi) = µi= g−1 Xi>β. On effectue ensuite l’inférence sur les paramètres

k et β par maximum de vraissemblance pour calculer la fonction densité ˆRi :

ˆ Ri= f (Ti; ˆk, ˆθ(Xi)) = Tiˆk−1e− Ti ˆ θ(Xi) Γ(ˆk)ˆθ(Xi)ˆk , où ˆθ(Xi) = ˆk−1g−1  Xi>βˆ  .

À partir de ce moment, on a le GPS estimé ˆRi tel que pour chaque unité i et pour Ti = t ,

ˆ

Ri(t) = ˆr (t, Xi) . La deuxième étape consiste à ajuster un modèle de Yi sachant Ti et ˆRi. C’est

là où nous utilisons les valeurs estimées du GPS, et nous estimons l’espérance conditionnelle de Yi sachant Ti et Ri par un modèle de régression paramétrique. Dans leur article, Hirano

and Imbens (2004) ont suggéré qu’un modèle quadratique est robuste et flexible, viz. E [Yi|Ti, Ri] = α0+ α1Ti+ α2Ti2+ α3Ri+ α4R2i + α5TiRi,

où α0, . . . , α5 sont des paramètres de régression inconnus qui vont être estimés par ˆα0, . . . , ˆα5

à l’aide de la méthode des moindres carrés et en utilisant le GPS estimé ˆRi. Ainsi, pour chaque

unité i, on aura la valeur prédite de l’issue à Ti= t :

ˆ

Yi(t) = ˆα0+ ˆα1t + ˆα2t2+ ˆα3Rˆi(t) + ˆα4Rˆ2i(t) + ˆα5Rˆi(t)t.

Dans la troisième étape, nous aggrégons les valeurs prédites de l’issue, pour aboutir à l’effet du traitement pour une valeur de Ti = t. Il s’agit de la moyenne échantionnale de l’espérance conditionnelle estimée, pour Ti= t, soit

d µ(t) =E[Y (t)] =d 1 N N X i=1  ˆ α0+ ˆα1t + ˆα2t2+ ˆα3Rˆi(t) + ˆα4Rˆ2i(t) + ˆα5Rˆi(t)t  .

En répliquant cette étape pour chaque valeur t ∈ T , nous obtenons finalement l’estimation de la fonction dose-réponse (ADRF) µ(t) = E [Yi(t)], pour tout t ∈ T .

2.2.2 Validation du score de propension généralisé

Après l’ajustement de la distribution conditionnelle du traitement en continu sachant les covariables, il serait nécessaire d’étudier comment la spécification du GPS affecte l’équilibre des covariables afin de voir si cette spécification du score de propension est adéquate. Cette idée

(28)

découle de l’analyse dans le cas du traitement binaire dans laquelle Rosenbaum and Rubin

(1983) soulignent la propriété de balance du score de propension comme il est mentionné dans le chapitre précédent. De son côté, le GPS se caractérise par cette propriété de balance de manière analogue au score de propension standard dans le cas du traitement binaire. La définition (2.1) et le théorème (2.2) mettent nettement en excergue cette propriété du GPS de telle sorte qu’ils impliquent son utilisation pour éliminer tout biais associé aux différences au niveau des covariables observées.

Le processus du test de balance employé par Hirano and Imbens (2004) joue un rôle crucial dans l’application de la méthode Hirano-Imbens. Il repose sur les six étapes ci-contre, comme mentionné dans le chapitre 10 de Guo and Fraser(2014) :

1. Diviser l’ensemble des valeurs continues du traitement T en K intervalles déterminés selon une règle spécifiée par l’utilisateur. Typiquement, pour définir le nombre d’inter-valles à utiliser, on peut soit utiliser la distribution de la variable traitement T , soit choisir un certain nombre K qui génère des intervalles G1,...,Gk ayant la même taille,

soit opter pour des quantiles de la variable traitement T .

2. Dans chaque intervalle de traitement Gk, k = 1, . . . ,K, faire une approximation du

GPS pour chaque individu i à une valeur r(tGk, Xi) pour t = tGk ∈ Gk; le niveau de

traitement tGk peut être considéré comme un point représentatif, la valeur médiane de

T dans l’intervalle Gk à titre d’exemple.

3. Pour chaque Gk, k = 1, . . . ,K, on partitionne les valeurs de r(tGk, Xi) en m partitions

qu’on appelle des blocs. Soient B1(k), . . . , Bm(k) les m blocs du GPS pour le kème

inter-valle du traitement Gk. Il s’agit d’un processus de classification dans lequel on divise l’échantillon des valeurs du GPS en blocs, en se basant sur les quintiles de r(tGk, Xi) par

exemple si on veut opter pour 5 blocs de la même taille.

4. Dans chaque bloc du GPS Bj(k), j = 1, . . . ,m , calculer la différence moyenne de chaque covariable entre les unités appartenant à l’intervalle de traitement, Gk {i : Ti ∈ Gk}, et les unités appartenant au même bloc du GPS,

n

i : r (tGk, Xi) ∈ B

(k) j

o

, mais qui appar-tiennent à un intervalle de traitement différent, {i : Ti ∈ G/ k}.

5. Combiner les m différences moyennes calculées dans l’étape précédente en pondérant avec le nombre d’observations dans chaque bloc du GPS Bj(k), j = 1, . . . ,m. Soit : — N

B(k)j : le nombre d’observations dans le bloc du GPS B (k)

j tel que

Pm

j=1NB(k)j = N

est le nombre total d’observations ;

— ¯xl,j(Gk) : la moyenne de la covariable Xlpour les unités i de telle sorte que r (tGk, Xi) ∈

Bj(k) et Ti ∈ Gk;

— ¯xl,j(Gck) : la moyenne de la covariable Xl pour les unités i0 de telle sorte que

r (tGk, Xi0) ∈ B

(k)

j et Ti0 ∈ G/ k.

(29)

Xl , l = 1, . . . , p : 1 N m X j=1 N Bj(k){¯xl,j(Gk) − ¯xl,j(G c k)} .

Les statistiques du test utilisées pour évaluer la propriété de balance sont des fonctions de cette moyenne pondérée.

6. Pour chaque Gk, k = 1, . . . , K, en vue de vérifier la propriété de balance, tester l’éga-lité des moyennes des covariables Xl, l = 1, . . . , p en utilisant des tests classiques de comparaison, comme par exemple la statistique t de Student ou les facteurs de Bayes. Finalement, la valeur la plus extrême de ces statistiques, à savoir la plus grande valeur absolue de la statistique t de Student ou la plus petite valeur des facteurs Bayes, doit être comparée avec des valeurs de référence habituellement (1.00 pour les facteurs Bayes et 1.645 pour la statistique t de Student). De ce fait, l’utilisateur pourrait savoir dans quelle mesure la propriété de balance est raisonnable.

Le lecteur sera mieux en mesure de comprendre cette méthode en regardant un exemple de son application à la section 4.3.1. On mentionne que d’autres diagnostics alternatifs basés sur les différences au niveau des covariables observées sont aussi parfois utilisés (voir (Imai et al.,

2008)) etAustin(2019)).

2.3

Conclusion du chapitre

Dans ce chapitre, nous avons présenté le concept du score de propension généralisé qui permet d’obtenir une estimation de l’effet causal d’un traitement continu, soit la courbe dose-réponse. Nous avons détaillé la méthode Hirano-Imbens qui peut être mise en œuvre à l’aide du package causaldrf de R (Schafer,2015). Et nous avons fini par la méthodologie permettant de tester la propriété de balance du GPS.

Néanmoins, un défi de taille qu’on affronte avec les approches du GPS est de spécifier correcte-ment les modèles utilisés, à savoir le modèle de l’issue (la variable réponse) et le modèle du GPS. En effet, pour le modèle de l’issue, les études précédentes ont proposé des modèles complète-ment paramétriques avec des polynômes (Hirano and Imbens(2004), Bia and Mattei(2008)) ou des approches semi-paramétriques avec des splines de régression (Kluve et al. (2012)). À travers ces études, on a comparé les estimateurs paramétriques et semi-paramétriques du mo-dèle de la variable réponse et on a trouvé que la fonction dose-réponse estimée est plus robuste si on choisit l’approche semi-paramétrique mais reste sensible à la spécification de la partie paramétrique. Quant au 1er modèle permettant l’estimation du GPS, de nombreuses études

sont basées sur les distributions normale, log-normale ou gamma et ont proposé la vérification de la validité du GPS estimé à l’aide de tests de la propriété de balance caractérisant le GPS (Hirano and Imbens(2004),Imai and Van Dyk(2004)). Il est à noter que comme pour le cas du traitement binaire, la mauvaise spécification du score de propension au modèle de sortie pourrait induire un biais dans l’estimation de l’effet causal (Kang et al.(2007)).

(30)

Chapitre 3

Extension de la méthode du score de

propension généralisé pour les données

longitudinales

Dans ce chapitre on s’intéresse aux différentes méthodes disponibles pour évaluer l’effet causal d’un traitement variant dans le temps, en présence de confusion, tel que discuté dans la section 2.1, mais qui est dépendante du temps dans ce cas de figure. En effet, on a une confusion dépendante du temps lorsque la valeur d’une variable explicative observée au temps j prédit le traitement de même que l’issue Y au temps j+1, sachant les traitements antérieurs dont cette variable explicative dépend aussi. Du fait que cette variable explicative dépend des traitements passés, elle joue le rôle d’intermédiaire entre le traitement et l’issue, tel qu’illustré en B) dans la figure 3.1. Souvent, dans des études observationnelles, les modèles de régression standards peuvent fournir des résultats biaisés lorsqu’il existe des facteurs de confusion variant dans le temps. Néanmoins, l’effet causal reste estimable si on contrôle bien ces variables confondantes, par exemple en conditionnant sur elles tout en spécifiant correctement la relation entre l’issue et les expositions antérieures. On note bien que les termes "exposition" et "traitement" sont utilisés de façon interchangeable par la suite. Ainsi, ce chapitre présente une nouvelle classe de modèles causaux qui permettent un meilleur ajustement de la confusion dans ce contexte. Nous commençons dans la première section par définir un traitement variant au cours du temps en présence de confusion dépendante du temps. Dans la seconde section, nous présentons une méthode d’estimation associée à des modèles de moyennes conditionnelles séquentielles (SCMMs, Sequential Conditional Mean Models) et nous décrivons comment l’utilisation des scores de propension dans l’ajustement des modèles SCMMs pourrait être avantageux. Dans la troisième section, nous présentons l’approche qui consiste à étendre la méthodologie du GPS aux données longitudinales pour estimer l’effet direct d’une dose de traitement continue sur une réponse longitudinale. Finalement, dans la section 3.4 nous décrivons une adaptation de

(31)

la méthode Hirano-Imbens, vue au chapitre 2, aux données longitudinales.

3.1

Traitement variant au cours du temps

Cette section porte sur le cas où le traitement varie dans le temps. On considère une étude longitudinale sur n individus de telle sorte qu’on possède ni, i = 1, . . . , n mesures disponibles pour chaque sujet. On note le nombre total des observations par N =Pn

i=1ni, Yij désigne la

réponse pour un sujet i à l’intervalle j, j = 1, . . . , ni, Tij et Xij représentent respectivement la dose du traitement et les variables confondantes du même sujet. Les valeurs observées de ces variables aléatoires sont yij, tij et xij, respectivement. Cette notation va être utilisée

dans tout ce qui suit. La figure 3.1 montre comment les variables peuvent être liées au cours du temps. Les valeurs observées du début jusqu’au temps j sont ¯Tj = (T1, T2, . . . , Tj) et

¯

Xj = (X1, X2, . . . , Xj), qui représentent, respectivement, les historiques du traitement et des

variables explicatives jusqu’au temps j. On suppose que Tj référe à une mesure de traitement à un temps juste avant celui auquel l’issue Yj est observée. Autrement dit, Tj représente la

valeur du traitement dans l’intervalle [j − 1, j) alors que Yj représente la valeur de l’issue dans

l’intervalle [j, j + 1).

La figure 3.1 présente les associations entre les expositions {Tj} et les issues {Yj} mesurées au temps j = 1, 2, 3. On distingue le graphe A) qui montre clairement ces associatons sans facteurs de confusion variant dans le temps et le graphe B) qui met en exergue une présence de confusion dépendante du temps créée par les variables Xj, ce qui rend l’effet apparent de Tj sur Yj différent de l’effet causal.

Figure 3.1 – Les associations multiples entre Tj et Yj dans une structure longitudinale.

On parle de confusion dépendante du temps lorsque la valeur d’une variable explicative Xj

(32)

traitements antérieurs ¯Tj et qu’elle dépend de ces traitements passés. Partant du fait que

cette covariable dépend des traitements passés ¯Tj, elle joue un rôle d’intermédiaire entre le

traitement Tj+1 et l’issue Yj+1. Ceci veut dire que le vecteur des variables explicatives {Xj}

est un facteur confondant dans l’association entre Tj et Yj. À titre d’exemple, dans la figure 3.1.B), X2 est prédite par T1 et affecte aussi T2. Ainsi, le non ajustement pour cette covariable engendre un biais dans l’estimation de l’effet causal en bloquant le chemin intermédiaire d’in-térêt, à savoir le lien entre Y2 et T2, notamment si on ne tient pas compte de l’effet simultané de T1 sur Y2 et T2. Ceci justifie le recours aux méthodes traitées dans les sections suivantes et

qui constituent un bon moyen d’estimer sans biais l’effet causal d’une exposition variant au cours du temps en présence de confusion dépendante du temps.

Généralement, il existe deux effets intéressants dans les données longitudinales receuillies lors-qu’un traitement est administré de façon continue :

— l’effet direct du traitement reçu à un moment donné sur une réponse ultérieure ;

— l’effet total ou cumulatif du traitement (direct et indirect) qui peut se manifester par l’intermédiaire d’autres variables.

Si l’intérêt de l’analyse réside dans l’effet direct d’un traitement sur la réponse, il s’agit bien de considérer le fait d’examiner comment les variations du traitement influencent les variations de l’issue. À titre d’exemple, on peut penser à la pollution (baisse de la qualité de l’air) comme traitement et la mortalité comme issue, puis on note comment les hausses de la pollution dans une semaine donnée entraînent des hausses de mortalité dans la même semaine. Il s’agit de l’effet direct à court terme de la pollution sur la mortalité. Étudier les variations de la réponse a également l’avantage de permettre à l’analyste d’ajuster une courbe commune à toutes les périodes. Il s’agit bien de la courbe dose-réponse telle que vue dans la section 2.2.

3.2

Les modèles de moyennes conditionnelles séquentielles

Dans cette section, nous traitons essentiellement les modèles de moyennes conditionnelles sé-quentielles (SCMMs) qui font partie des modèles les plus populaires lorsqu’on veut estimer l’effet causal d’une exposition variant au cours du temps en présence des variables de confusion qui aussi varient dans le temps. Nous allons voir comment les méthodes de régression ordi-naires peuvent être utilisées en présence de la confusion temporelle. Nous nous concentrons sur l’estimation de l’effet à court terme de Tj sur Yj. D’aprèsKeogh et al.(2018), on suppose d’abord que les issues longitudinales Yj ne sont corrélées que par le biais de Tj et Xj tel

qu’illustré à la figure 3.1.B. Ainsi, on a le modèle suivant qui prédit l’issue en conditionnant sur les traitements et les covariables observés du début jusqu’au temps j :

E Yj| ¯Tj, Xj = β0+ βT1Tj+ βT2Tj−1+ βXXj. (3.1)

(33)

étant l’effet causal à court terme de Tj sur Yj à condition que le modèle (3.1) soit correctement spécifié, c’est à dire que les historiques ¯Tj et ¯Xj soient suffisants pour corriger l’estimation de

l’effet de Tj sur Yj et que le modèle ne dépend spécifiquement que de l’historique Tj−1.Keogh

et al. (2018) recommandent d’inclure les issues antérieures dans le modèle de base (3.1) afin d’obtenir une modélisation plus robuste :

E Yj| ¯Tj, Xj, ¯Yj−1 = β0+ βT1Tj + βT2Tj−1+ βXXj+ βYYj−1. (3.2)

Ainsi, l’inclusion de l’historique de l’issue dans le modèle est fortement recommandée dans les SCMMs du moment qu’elle augmente la précision en terme de correction des estimations biaisées, surtout lorsque l’historique de Y confond la relation entre Tj et Yj, d’où le fait que

le modèle (3.2) soit plus pertinent que le modèle (3.1).

3.2.1 Estimation des SCMMs

L’inférence sur les paramètres du SCMM (3.1) peut se faire avec des méthodes standards comme la méthode des moindres carrés ou l’estimation par maximum de vraisemblance ou bien des méthodes comme les équations d’estimation généralisées (GEEs), qui s’avèrent l’une des méthodes statistiques les plus employées dans l’analyse des données longitudinales. SelonKeogh et al.(2018), les estimateurs des GEEs du modèle (3.1) seraient biaisés sauf sous l’hypothèse que l’issue Yj ne soit pas dépendante des traitements et des covariables futurs sachant l’historique du traitement et des covariables. Pour pallier à ce problème,Keogh et al.

(2018) recommandent fortement de travailler avec une structure de corrélation d’indépendance et d’inclure les issues passées ¯Yij dans les modèles.

3.2.2 Incorporer les scores de propension dans les SCMMs

Il s’avère avantageux d’inclure l’ajustement par score de propension dans les SCMMs, puisque cela permet d’obtenir un estimé de l’effet du traitement βT1 doublement robuste et non biaisé. On parle d’un estimateur de l’effet du traitement qui est doublement robuste et non biaisé quand on obtient un estimateur sans biais dès qu’au moins l’un des deux modèles derrière sa construction, soit le modèle du SCMM et le modèle de score de propension, est correctement spécifié. En effet, le modèle du score de propension doit inclure comme variables explicatives tous les prédicteurs de Tj de même que ¯Yj−1. On définit le score de propension d’un individu

au temps j, qui est une généralisation de la formule (1.4), comme la probabilité d’avoir le traitement au temps j conditionnellement au traitement passé en utilisant la formule P Sj =

Pr Tj = 1| ¯Tj−1, Xj, ¯Yj−1. Dans le cas d’un traitement binaire et d’une issue continue, un

modèle typique de score de propension est P Sj =

exp (ρ0+ ρTTj−1+ ρXXj+ ρYYj−1)

1 + exp (ρ0+ ρTTj−1+ ρXXj+ ρYYj−1)

(34)

Les scores de propension estimés dP Sj peuvent être inclus dans le SCMM donné par l’équation

(3.2) :

E Yj| ¯Tj, Xj, ¯Yj−1 = β0+ βT1Tj+ βT2Tj−1+ βXX + βYYj−1+ βP SdP Sj. (3.4)

3.2.3 Les interactions dans les SCMMs

Du fait que les SCMMs estiment des effets conditionnels, ils se généralisent facilement et permettent d’incorporer les interactions qui existent entre le traitement et les covariables. Dans le cas des SCMMs incluant des scores de propension, il pourrait également être pertinent d’inclure les interactions entre le score de propension dP Sj et les variables explicatives Xj et

l’issue lors du temps précédent Yj−1. Une généralisation de (3.4) est ainsi donnée par : E Yj| ¯Tj, Xj, ¯Yj−1



= β0+ βT1Tj+ βT2Tj−1+ βXXj + βYYj−1+ βP SdP Sj

+ ηT1TjXj+ ηT2TjYj−1+ ηP S1dP SjXj+ ηP S2dP SjYj−1.

3.2.4 Les SCMMs dans le cas d’un traitement continu

Les SCMMs, étant donné qu’ils reposent sur une régression linéaire classique, permettent de manipuler facilement des traitements Tj continus. Dans ce cadre, il est avantageux d’incorporer

dans le modèle le score de propension généralisé. On définit le GPS comme étant GP Sj = E Tj|Tj−1, Xj, Yj−1, et on l’utilise à la place du P Sj dans l’équation (3.4).

Dans leur article, Keogh et al. (2018) recommandent d’ajuster dans un premier temps un SCMM pour modéliser le traitement en fonction des variables explicatives Xj, des traitements passés ¯Tj−1 de même que les issues antérieures ¯Yj−1 :

E Tj| ¯Tj−1, Xj, ¯Yj−1 = β0+ βTTj−1+ βXXj+ βYYj−1. (3.5)

Il est ensuite préférable d’ajuster un modèle linéaire ordinaire afin de modéliser l’issue Yj tout en incluant les prédicteurs du traitement ¯Tj, les variables explicatives Xj, les issues antérieures

¯

Yj−1 et le GP Sj que de faire un GEE sans inclure les issues passées.

SelonNewsome et al. (2018), le point fort de la méthode des SCMMs réside dans l’estimation très robuste de βT1 une fois qu’on introduit les variables retardées du traitement et de l’issue, à savoir Tj−1 et Yj−1, ainsi que le GPS dans l’équation (3.4). C’est une méthode qui estime

très bien cet effet moyen à court terme. Par contre, son point faible est qu’elle ne permet pas d’estimer une courbe réponse. En effet, cette méthode suppose que la fonction dose-réponse est constante de telle sorte que l’effet du traitement est le même pour toute valeur de la dose. Cela approxime donc la dérivée de la courbe dose-réponse par βT1.

(35)

3.3

Le score de propension généralisé multivarié

L’objectif de cette section est d’étendre la notion du score de propension généralisé, traité dans le chapitre 2, aux données longitudinales. Ainsi, en se basant sur l’approche du GPS appliqué dans un seul intervalle, nous allons définir la méthodologie MGPS (Multivariate GPS) permettant d’estimer l’effet direct d’une dose continue sur une réponse longitudinale, telle que proposée parMoodie and Stephens(2012). Dans cette section-ci, nous adoptons une notation qui prendra en compte le temps tel que mentionné dans l’articleMoodie and Stephens

(2012). Ensuite, nous présentons les différentes propriétés caractérisant le MGPS. Finalement, on va exposer l’approche MGPS appliquée au traitement continu.

3.3.1 Notation

On définit l’intervalle T qui contient les valeurs possibles de la dose du traitement. Nous supposons que l’effet causal moyen est constant sur tous les intervalles j, de telle sorte que la loi de Yij(t) n’est pas modifiée au fil du temps, ce qui mène à estimer une fonction dose-réponse

unique (ADRF) µ(t) = E [Yij(t)] = E[Y (t)] qui ne dépend pas de j.

L’idée de l’approche MGPS est d’adapter à la structure longitudinale, c’est à dire aux mesures répétées, l’approche GPS proposée par Hirano et Imbens en tenant compte de la confusion de l’effet direct de la dose Tij sur la réponse Yij à l’aide des doses de traitement, et des réponses

antérieures. De ce fait, Xij peut également inclure les doses de traitement et les réponses passées pour l’individu i aux temps 1, 2, . . . , j − 1. On note ainsi l’historique des covariables, des doses de traitement et de la réponse par ˇXij = (Xi1, . . . , Xij)T, et Rij = r Tij, ˇXij désigne

l’extension du GPS aux données longitudinales (MGPS) c’est à dire la densité conditionnelle du traitement sachant les covariables jusqu’au temps j.

3.3.2 Propriétés du MGPS

De manière similaire au GPS, la méthode du MGPS adapte au contexte des mesures répétées les concepts de l’approche univariée telles que les propriétés de balance (voir la section 2.1). La présentation de ce nouveau concept du MGPS dans cette section s’inspire de Moodie and Stephens (2012) qui sont les premiers à avoir introduit cette généralisation.

Le principe d’ignorabilité faible (weak ignorability) défini par Imbens (2000) est présenté à la section 2.1. Dans un contexte multivarié, ce dernier devient le principe d’ignorabilité faible séquentielle (sequential weak unconfoundedness) :

Yij(t) ⊥ Tij| ˇXij. (3.6)

Ceci veut dire que pour chaque temps j, la fonction dose réponse Yij(t) est indépendante

(36)

traitement mesurées du début jusqu’au jème temps.Moodie and Stephens(2012) ont démontré le théorème d’ignorabilité faible sachant le MGPS.

Théorème 3.1 (Ignorablité faible sachant le MGPS) Sous l’hypothèse de l’ignorabilité faible séquentielle (3.6), on a :

Yij(t) ⊥ Tij|Rij(t), (3.7)

avec Rij(t) = r t, ˇXij.

Selon ce théorème, on a que pour tout t ∈ T , la fonction dose réponse Yij(t) dans l’intervalle j est séquentiellement indépendante de la distribution de la dose reçue Tij, sachant le MGPS

Rij pour tout i et j. Pour les détails de la preuve du théorème (3.1), nous référons le lecteur

à Moodie and Stephens (2012).

Pour estimer sans biais l’effet causal à l’aide du MGPS, on suppose que la moyenne marginale d’intérêt s’écrit sous la forme : µ(t) = E [Yij(t)] = E[Y (t)]. Ainsi, pour l’intervalle j, on

considère l’espérance conditionnelle de la réponse potentielle Yij(t) étant donné la valeur du MGPS,

β(t, r) = E [Yij(t)|Rij(t) = r (t, ˘xij) = r] . (3.8)

La réponse potentielle moyenne qui est obtenue en moyennant β(t, r) sur les covariables ˜Xij,

est un estimateur non biaisé de la fonction dose-réponse µ(t).

3.3.3 MGPS pour un traitement continu

De façon similaire à la méthode Hirano-Imbens, l’estimation d’un effet causal par la méthode du MGPS dans le cadre d’un traitement continu variant au cours du temps requiert un ajus-tement de deux modèles paramétriques. En premier lieu, il y a le modèle MGPS qui consiste à estimer le score de propension généralisé multivarié sous différentes hypothèses de distribu-tion ; une distribudistribu-tion gamma entre autres. Dans ce modèle, on procède de la même manière que la méthode Hirano-Imbens présentée dans la section 2.2. Nous supposons tout d’abord de façon générale :

Tij| ˇXij ∼ fθ(tij| ˇXij),

avec fθ(tij| ˇXij) est une densité conditionnelle pour le traitement Tij sachant les covariables

ˇ

Xij qui comprennent l’historique des doses de traitement Tij−1 et des issues Yij−1 et qui est

bel et bien le MGPS Rij.

Maintenant, à partir de cette relation on peut ajuster, par exemple, un glm gamma. On effectue ensuite l’inférence sur le paramètre θ par maximum de vraissemblance afin d’estimer le MGPS

ˆ

Figure

Figure 3.1 – Les associations multiples entre T j et Y j dans une structure longitudinale.
Table 4.1 – Résumé du modèle pour le score de propension de la méthode Hirano-Imbens Modèle pour le score de propension
Table 4.4 – Les statistiques t d’égalité des moyennes après ajustement pour le GPS. Les statistiques t après ajustement
Table 4.5 – Résumé du modèle pour le score de propension de la méthode des SCMMs Modèle de score de propension
+6

Références

Documents relatifs

Si cet effet est étudié et utilisé dans de nombreuses applications, notamment en microscopie électronique, à l’heure actuelle, la question du temps requis pour traverser une

Par contre, la dose calculée par la m éthode du nuage de points en assim ilant l’organe à une sphère de m êm e volum e est nettem ent inférieure aux autres résultats,

Tégévé prend le train, il regarde toujours l’horloge de la gare au départ et

[r]

[r]

[r]

[r]

Au total, 24 critères classés en 10 dimensions dans les quatre catégories de réponses (production animale, santé, rejets dans l’environnement et qualité des produits) et