• Aucun résultat trouvé

Le score de propension généralisé multivarié

Les scores de propension estimés dP Sj peuvent être inclus dans le SCMM donné par l’équation

(3.2) :

E Yj| ¯Tj, Xj, ¯Yj−1 = β0+ βT1Tj+ βT2Tj−1+ βXX + βYYj−1+ βP SdP Sj. (3.4)

3.2.3 Les interactions dans les SCMMs

Du fait que les SCMMs estiment des effets conditionnels, ils se généralisent facilement et permettent d’incorporer les interactions qui existent entre le traitement et les covariables. Dans le cas des SCMMs incluant des scores de propension, il pourrait également être pertinent d’inclure les interactions entre le score de propension dP Sj et les variables explicatives Xj et

l’issue lors du temps précédent Yj−1. Une généralisation de (3.4) est ainsi donnée par : E Yj| ¯Tj, Xj, ¯Yj−1



= β0+ βT1Tj+ βT2Tj−1+ βXXj + βYYj−1+ βP SdP Sj

+ ηT1TjXj+ ηT2TjYj−1+ ηP S1dP SjXj+ ηP S2dP SjYj−1.

3.2.4 Les SCMMs dans le cas d’un traitement continu

Les SCMMs, étant donné qu’ils reposent sur une régression linéaire classique, permettent de manipuler facilement des traitements Tj continus. Dans ce cadre, il est avantageux d’incorporer

dans le modèle le score de propension généralisé. On définit le GPS comme étant GP Sj = E Tj|Tj−1, Xj, Yj−1, et on l’utilise à la place du P Sj dans l’équation (3.4).

Dans leur article, Keogh et al. (2018) recommandent d’ajuster dans un premier temps un SCMM pour modéliser le traitement en fonction des variables explicatives Xj, des traitements passés ¯Tj−1 de même que les issues antérieures ¯Yj−1 :

E Tj| ¯Tj−1, Xj, ¯Yj−1 = β0+ βTTj−1+ βXXj+ βYYj−1. (3.5)

Il est ensuite préférable d’ajuster un modèle linéaire ordinaire afin de modéliser l’issue Yj tout en incluant les prédicteurs du traitement ¯Tj, les variables explicatives Xj, les issues antérieures

¯

Yj−1 et le GP Sj que de faire un GEE sans inclure les issues passées.

SelonNewsome et al. (2018), le point fort de la méthode des SCMMs réside dans l’estimation très robuste de βT1 une fois qu’on introduit les variables retardées du traitement et de l’issue, à savoir Tj−1 et Yj−1, ainsi que le GPS dans l’équation (3.4). C’est une méthode qui estime

très bien cet effet moyen à court terme. Par contre, son point faible est qu’elle ne permet pas d’estimer une courbe dose-réponse. En effet, cette méthode suppose que la fonction dose- réponse est constante de telle sorte que l’effet du traitement est le même pour toute valeur de la dose. Cela approxime donc la dérivée de la courbe dose-réponse par βT1.

3.3

Le score de propension généralisé multivarié

L’objectif de cette section est d’étendre la notion du score de propension généralisé, traité dans le chapitre 2, aux données longitudinales. Ainsi, en se basant sur l’approche du GPS appliqué dans un seul intervalle, nous allons définir la méthodologie MGPS (Multivariate GPS) permettant d’estimer l’effet direct d’une dose continue sur une réponse longitudinale, telle que proposée parMoodie and Stephens(2012). Dans cette section-ci, nous adoptons une notation qui prendra en compte le temps tel que mentionné dans l’articleMoodie and Stephens

(2012). Ensuite, nous présentons les différentes propriétés caractérisant le MGPS. Finalement, on va exposer l’approche MGPS appliquée au traitement continu.

3.3.1 Notation

On définit l’intervalle T qui contient les valeurs possibles de la dose du traitement. Nous supposons que l’effet causal moyen est constant sur tous les intervalles j, de telle sorte que la loi de Yij(t) n’est pas modifiée au fil du temps, ce qui mène à estimer une fonction dose-réponse

unique (ADRF) µ(t) = E [Yij(t)] = E[Y (t)] qui ne dépend pas de j.

L’idée de l’approche MGPS est d’adapter à la structure longitudinale, c’est à dire aux mesures répétées, l’approche GPS proposée par Hirano et Imbens en tenant compte de la confusion de l’effet direct de la dose Tij sur la réponse Yij à l’aide des doses de traitement, et des réponses

antérieures. De ce fait, Xij peut également inclure les doses de traitement et les réponses passées pour l’individu i aux temps 1, 2, . . . , j − 1. On note ainsi l’historique des covariables, des doses de traitement et de la réponse par ˇXij = (Xi1, . . . , Xij)T, et Rij = r Tij, ˇXij désigne

l’extension du GPS aux données longitudinales (MGPS) c’est à dire la densité conditionnelle du traitement sachant les covariables jusqu’au temps j.

3.3.2 Propriétés du MGPS

De manière similaire au GPS, la méthode du MGPS adapte au contexte des mesures répétées les concepts de l’approche univariée telles que les propriétés de balance (voir la section 2.1). La présentation de ce nouveau concept du MGPS dans cette section s’inspire de Moodie and Stephens (2012) qui sont les premiers à avoir introduit cette généralisation.

Le principe d’ignorabilité faible (weak ignorability) défini par Imbens (2000) est présenté à la section 2.1. Dans un contexte multivarié, ce dernier devient le principe d’ignorabilité faible séquentielle (sequential weak unconfoundedness) :

Yij(t) ⊥ Tij| ˇXij. (3.6)

Ceci veut dire que pour chaque temps j, la fonction dose réponse Yij(t) est indépendante

traitement mesurées du début jusqu’au jème temps.Moodie and Stephens(2012) ont démontré le théorème d’ignorabilité faible sachant le MGPS.

Théorème 3.1 (Ignorablité faible sachant le MGPS) Sous l’hypothèse de l’ignorabilité faible séquentielle (3.6), on a :

Yij(t) ⊥ Tij|Rij(t), (3.7)

avec Rij(t) = r t, ˇXij.

Selon ce théorème, on a que pour tout t ∈ T , la fonction dose réponse Yij(t) dans l’intervalle j est séquentiellement indépendante de la distribution de la dose reçue Tij, sachant le MGPS

Rij pour tout i et j. Pour les détails de la preuve du théorème (3.1), nous référons le lecteur

à Moodie and Stephens (2012).

Pour estimer sans biais l’effet causal à l’aide du MGPS, on suppose que la moyenne marginale d’intérêt s’écrit sous la forme : µ(t) = E [Yij(t)] = E[Y (t)]. Ainsi, pour l’intervalle j, on

considère l’espérance conditionnelle de la réponse potentielle Yij(t) étant donné la valeur du MGPS,

β(t, r) = E [Yij(t)|Rij(t) = r (t, ˘xij) = r] . (3.8)

La réponse potentielle moyenne qui est obtenue en moyennant β(t, r) sur les covariables ˜Xij,

est un estimateur non biaisé de la fonction dose-réponse µ(t).

3.3.3 MGPS pour un traitement continu

De façon similaire à la méthode Hirano-Imbens, l’estimation d’un effet causal par la méthode du MGPS dans le cadre d’un traitement continu variant au cours du temps requiert un ajus- tement de deux modèles paramétriques. En premier lieu, il y a le modèle MGPS qui consiste à estimer le score de propension généralisé multivarié sous différentes hypothèses de distribu- tion ; une distribution gamma entre autres. Dans ce modèle, on procède de la même manière que la méthode Hirano-Imbens présentée dans la section 2.2. Nous supposons tout d’abord de façon générale :

Tij| ˇXij ∼ fθ(tij| ˇXij),

avec fθ(tij| ˇXij) est une densité conditionnelle pour le traitement Tij sachant les covariables

ˇ

Xij qui comprennent l’historique des doses de traitement Tij−1 et des issues Yij−1 et qui est

bel et bien le MGPS Rij.

Maintenant, à partir de cette relation on peut ajuster, par exemple, un glm gamma. On effectue ensuite l’inférence sur le paramètre θ par maximum de vraissemblance afin d’estimer le MGPS

ˆ

En deuxième lieu, on peut considérer un modèle paramétrique qui est une fonction reliant Yij(t) au traitement Tij, et au MGPS ˆRij estimé dans la première étape. Par exemple, on peut

opter pour un modèle quadratique :

E [Yij|Tij, Rij] = α0+ α1Tij+ α2Tij2 + α3Rij+ α4R2ij+ α5TijRij. (3.9)

Ainsi, pour chaque unité i et à chaque temps j, on aura la valeur prédite de l’issue à Tij = t :

ˆ

Yij(t) = ˆα0+ ˆα1tij+ ˆα2t2ij + ˆα3Rˆij(t) + ˆα4Rˆ2ij(t) + ˆα5tijRˆij(t). (3.10)

Ce qui mène à estimer la fonction dose réponse qui demeure une moyenne sur toutes les observations, d µ(t) =E[Ydij(t)] = 1 N n X i=1 ni X j=1  ˆ α0+ ˆα1tij+ ˆα2t2ij + ˆα3r (t, ˇˆ xij) + ˆα4ˆr (t, ˇxij)2+ ˆα5tijr (t, ˇˆ xij)  . (3.11)

3.3.4 MGPS pour traitement avec masse de probabilité à 0

Il est opportun de mentionner queMoodie and Stephens(2012) ont présenté dans leur article un exemple assez particulier pour l’application de l’approche du MGPS. Dans ce contexte, on considère une dose de traitement continu avec masse de probabilité à 0 qui prend des valeurs aussi bien nulles que positives, d’où l’idée de considérer un modèle de mélange où on combine deux distributions pour la variable traitement. Nous supposons sachant les ˜Xij = ˇxij que

Tij L

= π (ˇxij, γ) I[t = 0] + {(1 − π (ˇxij, γ))}I[t 6= 0]f (t|ˇxij, φ, β) , (3.12)

— = signifie l’égalité en loi.L

— π (ˇxij, γ) est un poids de mélange qui correspond à la probabilité que Tij = 0 prédite en

ajustant un modèle de régression logistique (0 < π (ˇxij, γ) < 1).

— f (t|ˇxij, φ, β) est la densité paramétrique évaluée en t avec φ et β les paramètres de forme

et de régression, respectivement.

Afin d’estimer le MGPS, on conserve les doses de traitement non nulles Tij > 0. Ensuite par le

biais d’un modèle paramétrique, comme par exemple un modèle gamma ou Weibull, on prédit la probabilité de bien recevoir une dose particulière strictement positive. Le MGPS estimé s’écrit sous la forme :

b r (t, ˘xij) =bπ (ˇxij,bγ) I[t = 0] + {(1 −bπ (ˇxij,γ))}I[t 6= 0]fb  t|ˇxij, bφ, bβ  . (3.13) Une fois que le MGPS est estimé à partir de la relation (3.13), on considère le même modèle paramétrique reliant Yij au traitement Tij et au MGPS estimé ˆRij que dans la relation (3.9).

Nous obtenons finalement l’estimation de la fonction dose réponse dµ(t), toujours en utilisant l’équation (3.11).

3.4

Conclusion du chapitre

Dans ce chapitre, nous avons traité les différents modèles qui peuvent être utilisés dans le but d’assurer une estimation sans biais de l’effet causal dans une structure longitudinale, plus particulièrement dans le cas d’une exposition qui varie au cours du temps. Il s’agit de la méthode des SCMMs telle que proposée par Keogh et al. (2018) et de la méthode MGPS de Moodie and Stephens (2012). Dans le chapitre suivant, nous illustrons le potentiel des méthodes traitées dans les chapitres 1, 2 et 3 dans une application aux données de marketing dans le contexte d’une compagnie d’assurances.

Chapitre 4

Application : Analyse de données de

marketing

La mesure du retour sur l’investissement marketing constitue un élément clé dans la stratégie d’investissement de chaque compagnie d’assurances. En effet, il s’agit d’une mesure de perfor- mance permettant d’évaluer la rentabilité des efforts marketing et de juger de leur pertinence. Dans ce chapitre et dans une optique comparative, nous illustrons la capacité des différents modèles d’inférence statistique et causale à cerner le mieux possible l’effet d’un certain in- vestissement marketing sur le nombre de soumissions reçues. Dans la première section, nous présentons le jeu de données disponible pour l’analyse. Dans la deuxième section, nous pré- sentons la problématique et l’objectif de notre étude. Finalement, nous présentons le travail effectué et les résultats obtenus à partir des trois méthodes élaborées.

4.1

Les données

4.1.1 Provenance des données

Afin de conduire notre analyse statistique, nous disposons de deux jeux de données. Le premier provient de la compagnie d’assurances ASSURE. L’unité d’observation est la RTA (Région de Tri d’Acheminement) qui représente un découpage géographique du marché de ASSURE en 417 unités. Nous disposons de données hebdomadaires concernant les dépenses publicitaires et des soumissions recueillies par RTA pour l’année 2018. Nous disposons d’une ligne par semaine par RTA donc 21 684 lignes (417 RTA × 52 semaines). Pour chaque RTA, on possède 68 variables, pour un total de 3 536 observations par RTA (68 variables × 52 semaines). Pour avoir la signification de chaque variable, nous référons à l’annexe A.1. Le deuxième jeu de données à notre disposition est en provenance de Statistique Canada (STATCAN) suite à un recensement qui date de 2016. Il décrit les caractéristiques socio-démographiques de chaque RTA. On dispose de 46 variables pour 417 RTA, donc un total de 19 182 observations.

Ces variables décrivent la nature socio-démographique de la population de chaque RTA en quantifiant la distribution de l’âge, du statut marital, du statut de citoyenneté, du niveau de vie, du statut du logement, du niveau d’éducation et de la langue maternelle dans les RTA. Pour avoir la signification de chaque variable, nous référons à l’annexe A.2.

4.1.2 Variables d’intérêt

Dans la base de données ASSURE, on s’intéresse à la variable Soum, qui décrit le nombre de soumissions reçues par semaine dans chaque RTA. On s’intéresse aux variables d’investisse- ment, qui représentent les coûts et volumes dépensés en efforts marketing dans les 11 véhicules publicitaires que cette compagnie adopte pour commercialiser ses produits d’assurance. Par souci de confidentialité, on réfère à ces véhicules publicitaires par les lettres A à K et aux variables d’investissement correspondantes Media_COST_l, l = A, . . . , K. Dans la base de données STATCAN, on s’intéresse à toute variable qui permet de bien cerner la condition socio-démographique des différentes RTA.

Disposant d’un grand nombre de véhicules publicitaires et étant donné la présence d’une forte saisonnalité, il serait difficile d’étudier l’effet causal de tous les médias et pour toutes les semaines à la fois. Ainsi, dans le présent projet et faisant suite à Sriti (2019), on concentre notre étude sur un seul véhicule publicitaire noté A. On veut ainsi quantifier l’effet causal du média A sur le nombre de soumissions que la compagnie reçoit. On restreint notre étude sur une période précise de l’année 2018, à savoir les semaines 8 à 16. Ce sont les semaines de l’année où l’on observe la plus grande évolution du nombre de soumissions et où se concentre tout l’effort publicitaire. On considère qu’il serait intéressant de mesurer l’effet causal sur le nombre de soumissions qu’engendre le média A en période intensive de ventes et d’investissement. Il est à noter que suite à l’essai de Sriti(2019), toutes les variables d’investissement (nombre de soumissions, et tous les montants investis dans les différents véhicules publicitaires) qu’on utilise sont standardisées par une mesure approximative de la population dans une RTA, notée GEO_NBF. À partir de ce point, toutes les analyses qui viennnent seront conduites sur les données d’investissement standardisées, voir l’annexe A.2.

4.1.3 Structures des données

On dispose d’une structure longitudinale de telle sorte que la variable SOUM_ij décrit le nombre de soumissions reçues dans la RTA i= 1, . . . , 417, par semaine j= 8, . . . , 16. Les montants investis dans le véhicule publicitaire l = A, . . . , K, dans la RTA i par semaine j sont représentés par la variable MEDIA_COST_lij.

Par ailleurs, et dans une partie de notre analyse statistique, on va agréger nos données, c’est à dire que toutes les variables d’investissement qu’on utilise (nombre de soumissions, et tous les montants investis dans les différents véhicules publicitaires) vont être moyennées sur les 9

semaines en question (8 à 16). On identifie les variables agrégées par une étoile *. Ainsi, la variable SOUM*_i décrit le nombre moyen de soumissions reçues sur les 9 semaines dans la RTA i= 1, . . . , 417. La variable MEDIA_COST*_li représente la moyenne des dépenses sur 9 semaines dans le média l = A, . . . , K et dans la RTA i = 1, . . . , 417 .

Dans la même optique que celle deSriti(2019), celle d’identifier des groupes de RTA homogènes sur le plan socio-démographique et sur le niveau d’investissement dans tout autre média que A, nous optons pour une analyse de regroupement basée sur la classification k-means avec k = 5. En effet, on choisit de classifier les RTA en se basant sur les mêmes variables utilisées parSriti

(2019) et qui influencent le plus l’investissement dans le média A, à savoir : MEDIA_COST_B, P_marie, P_immigr et P_mater_fr. À partir de ce moment, toute l’analyse qui vient portera sur le groupe contenant les 136 RTA homogènes selon ces variables de classification en vue de voir l’impact du média A sur le nombre de soumissions reçues. On mentionne que ces 136 RTA sont localisées majoritairement dans les zones urbaines de Montréal et Québec.

Documents relatifs