• Aucun résultat trouvé

Estimation bootstrap de la variance d’un estimateur

Considérons un échantillon bootstrap X∗ = (X1∗, X2∗, . . . , Xn∗). Les Xi∗ (i = 1, 2, . . . , n) sont indépendantes et identiquement distribuées de fonction de répartition ˆF . La variance s’écrit :

vboot = V arFˆ(ˆθ)

= EFˆn ˆθ(X1∗, . . . , Xn∗) − EFˆ(ˆθ(X1∗, . . . , Xn∗))

o2 .

L’estimation de la variance du paramètre d’intéret θ se fait selon les étapes suivantes : 1. Sélection de B échantillons bootstrap

2. Calcul de l’estimation du paramètre θ, pour chaque échantillon bootstrap. Cette esti- mation sera notée ˆθ∗(b) pour l’échantillon b, b = 1, 2, . . . , B

3. On calcule la variance des estimations obtenues avec l’équation 3.1

vboot = PB b=1(θ∗(b) − θ∗(.))2 B (3.1) où θ∗(.) = PB b=1θ∗(b) B 3.2.1 Le bootstrap paramétrique

Jusqu’ici, nous n’avions pas supposé de loi pour les données. Ainsi, nous avons appliqué un bootstrap non paramétrique. Une autre approche est de considérer les données comme étant issues d’une certaine distribution connue qu’on notera ˆFpar. De ce fait, l’échantillonnage se

fait à partir de cette distribution et pas sur les données. L’estimation bootstrap se fait comme dans le cas non paramétrique. Par exemple, si la loi considérée est celle d’une distribution normale, on tire B échantillon à partir de cette loi normale dont les paramètres sont estimés à partir des données, on calcule une estimation du paramètre pour chaque échantillon et, enfin, on calcule la variance des estimations obtenues.

3.2.2 Nombre de réplications

L’idéal serait d’utiliser tous ces échantillons (nn) pour l’estimation bootstrap. Toutefois, ce nombre grimpe très rapidement lorsque la taille de l’échantillon original augmente, rendant ainsi presque impossible d’exploiter tous ces échantillons bootstrap. Par conséquent, on se

contentera de faire une estimation avec B réplications. Mais quelle valeur de B ?

Selon Efron (7), B = 200 devrait suffir dans la plupart des cas. La valeur de B dépend en partie de la présence de valeurs extrêmes dans l’échantillon. Leur fréquence devrait pousser à choisir B plus grand. Lorsqu’on s’intéresse à la construction d’intervalles de confiance, on devrait également réaliser plus de réplications.

Chapitre 4

A test for the correct specification of

marginal structural models

Authors

Alioune Sall, Karine Aubé, Xavier Trudel, Chantal Brisson, Denis Talbot

Avant-propos

Cet article est rédigé dans le cadre d’une maitrise en statistique. L’auteur principal est Alioune Sall qui y a contribué approximativement à hauteur de 65%. Il a notamment élaboré la mé- thode présentée dans l’article, l’a implantée dans le logiciel R, a conçu et réalisé les études de simulation, a réalisé les analyses concernant l’application illustrée à la section4.5, a effectué la recherche bibliographique et a produit la première ébauche de l’article. L’article a été soumis à Statistics in Medicine le 25/05/2018. La version de l’article soumise ne comprend pas le dernier paragraphe de la section 4.6.

Denis Talbot a identifié la problématique étudiée dans l’article, a participé à la recherche bibliographique ainsi qu’à la conception des scénarios de simulation et a dirigé le travail réa- lisé, sa contribution est à hauteur de 30%. Karine Aubé, Xavier Trudel et Chantal Brisson ont contribué à la conception de l’analyse illustrative présentée à la section 4.5 ainsi qu’à la rédaction de cette section.

Tous les auteurs ont participé à la révision critique de l’ensemble du manuscrit et ont approuvé la version finale.

Abstract

Marginal structural models allow estimating the causal effect of a time-varying exposure on an outcome in the presence of time-dependent confounding. The parameters of marginal structural models can be estimated utilizing an inverse probability of treatment weight estimator under certain assumptions. One of these assumptions is that the proposed causal model relating the outcome to exposure history is correctly specified. However, in practice, the true model is unknown. We propose a test that employs the observed data to attempt validating the assumption that the model is correctly specified. The performance of the proposed test is investigated with a simulation study. We illustrate our approach by estimating the effect of repeated exposure to psychosocial stressors at work on ambulatory blood pressure in a large cohort of white-collar workers in Quebec City (Canada).

Keywords : Causal inference ; marginal structural models ; model specification

4.1

Introduction

Marginal structural models (MSMs) (22) are a class of causal models that are becoming increasingly popular for the estimation of causal effects when one deals with time varying exposures in the presence of time-dependent confounding. The causal parameters are often estimated using an inverse probability of treatment weight (IPTW) estimator (5). When using this estimator, the analyst must specify an outcome model that relates the outcome to the exposure history, as well as a weighting model relating the exposure at each time point to previous potential confounders. This estimator is unbiased under the assumptions of absence of i) unmeasured confounders and ii) misspecification of both the weighting model and the outcome model.

The specification of the structural outcome model, that links the outcome to the exposure history, has been the subject of much methodological work during the last few years. For instance, it has been observed that biased inferences may be obtained when the model considers only a part of the exposure history.(28) It has also been suggested that employing a basic stabilized weight IPTW estimator may provide some robustness to misspecifications in this instance.(28;26) Platt et al (21) have proposed an information criterion for MSMs (QICw)

inspired by Akaike’s information criterion to help in selecting a best fitting model among a set of candidate specifications for the structural outcome model. However, the performance of the QICwis mitigated in so far as, in some cases, the QICwselects the true model with a relatively

small probability in simulation studies (21; 27). Based on the QICw, Taguri and Matsuyuka (27) have presented a corrected QICw (cQICw) which also compares different models based

on the value of the criterion. The ability of this cQICw in selecting the correct specification

was also variable in simulation studies (27). More recently, Baba et al (1) proposed a CP criterion. In simulations, CP was observed to perform generally better than the cQICw. The

QICw, cQICw and CP are all comparative criteria. So far, there exists no absolute criterion

to validate the proposed specification of a marginal structural model.

In this paper, we thus introduce a test based on non-parametric bootstrap that seeks to detect when the proposed specification of the structural outcome model is incorrect. The paper is structured as follows. In the second section, we introduce the concepts that underlie MSMs and present the notation. Section 3 introduces our test for the correct specification of the outcome model. In Section 4, we present a simulation study that investigates the empirical properties of our test. Section 5 presents an application of our new test in which we investigate the effect of psychosocial stressors at work on ambulatory systolic and diastolic blood pressure. Finally, in Section 6, we conclude with a discussion.

Documents relatifs