HAL Id: hal-02507494
https://hal-cnam.archives-ouvertes.fr/hal-02507494
Submitted on 13 Mar 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
L’effet de visites manquantes sur l’estimateur des GEE, une étude par simulation
Julia Geronimi, Gilbert Saporta
To cite this version:
Julia Geronimi, Gilbert Saporta. L’effet de visites manquantes sur l’estimateur des GEE, une étude
par simulation. 47èmes journées de statistique, Jun 2015, Lille, France. �hal-02507494�
L’effet de visites manquantes sur l’estimateur des gee, une ´ etude par simulation
Julia Geronimi
1,2& Gilbert Saporta
21
Institut de de Recherches Internationales SERVIER, 50 rue Carnot 92150 Suresnes [email protected]
2
Cedric-Cnam, 292 rue Saint Martin 75141 Paris Cedex 03 [email protected]
R´ esum´ e. La recherche clinique s’int´ eresse r´ eguli` erement au suivi longitudinal du patient au cours de plusieurs visites. Toutes les visites pr´ evues ne sont pas effectu´ ees et il n’est pas rare d’avoir un nombre de visites diff´ erent selon les individus. Les Generalized Estimating Equations permettent d’´ etudier une r´ eponse continue ou discr` ete autocorr´ el´ ee.
Cette m´ ethode permet un nombre de visites qui diff` ere selon les patients. Les GEE sont robustes aux donn´ ees manquantes compl` etement al´ eatoires. Cependant dans le cas o` u les visites de fin d’´ etude sont moins nombreuses, l’estimateur peut ˆ etre biais´ e. Nous proposons une ´ etude par simulation pour ´ etudier l’impact de visites non effectu´ ees sur les estimateurs obtenus par GEE sous divers sch´ ema de donn´ ees manquantes. Deux types de r´ eponses sont ´ etudi´ ees avec une structure ´ echangeable ou auto-r´ egressive d’ordre un. Le nombre de sujets touch´ es et le nombre de visites supprim´ ees varient afin d’´ evaluer leur impact. Nos simulations montrent que les estimateurs calcul´ es par GEE sont r´ esistants jusqu’` a un certain taux de donn´ ees manquantes. Les r´ esultats sont homog` enes quelle que soit la structure de donn´ ees manquantes impos´ ee.
Mots-cl´ es. Donn´ ees longitudinales, donn´ ees r´ ep´ et´ ees corr´ el´ ees, autocorr´ elation, donn´ ees manquantes, simulations, Generalized Estimating Equations
Abstract. Clinical research is regularly interested in longitudinal follow-up over sev- eral visits. All scheduled visits are not carried out and it is not unusual to have a different number of visits by patient. The Generalized Estimating Equations can handle continu- ous or discrete autocorrelated response. The method allows a different number of visits by patients. The GEE are robust to missing completely at random data. However when the last visits are fewer, the estimator may be biased. We propose a simulation study to investigate the impact of missing visits on the GEE estimators under different missing data pattern. Different types of responses are studied with an exchangeable or autore- gressive of order one structure. The number of subjects affected by the missing data and the number of visits removed vary in order to assess their impact. Our simulations show that the estimators obtained by GEE are resistant to a certain rate of missing data. The results are homogeneous regardless to the imposed missing data structure.
Keywords. Longitudinal data, repeated correlated data, correlation, missing data,
simulations, Generalized Estimating Equations
1 Introduction
Le suivi clinique de patients permet de r´ ecolter des information sur l’´ evolution des patholo- gies et donne ainsi la possibilit´ e de mettre en relation un crit` ere clinique avec certains param` etres biologiques. Dans ce contexte, les observations d’un mˆ eme patient ne peu- vent ˆ etre consid´ er´ ees comme ind´ ependantes et la corr´ elation entre les observations d’un mˆ eme sujet doit ˆ etre prise en compte. Les Generalized Estimating Equations de Liang and Zeger (1986) sont une m´ ethode marginale, sp´ ecifique ` a la population. Les GEE pren- nent en compte la corr´ elation intra-sujet en imposant la mˆ eme structure de corr´ elation ` a l’ensemble des patients. Nous utiliserons cette m´ ethode par la suite.
Le design des ´ etudes pr´ evoit un certain nombre de visites par patient qui n’est mal- heureusement pas toujours respect´ e. Il est possible que des ´ echantillons ne soient pas r´ ecolt´ es de fa¸con al´ eatoire ou qu’un patient soit trop malade pour venir ` a une visite.
Ce dernier sch´ ema implique que la donn´ ee manquante est informative. Ces absences ne peuvent ˆ etre imput´ ees par un mod` ele param´ etrique puisqu’aucune des informations du patient ne sera r´ ecolt´ ee ` a cette date. Une interpolation de la valeur ` a la date fix´ ee est envisageable mais le design implique souvent peu de visites tr` es espac´ ees dans le temps.
Les donn´ ees manquantes, comme d´ efinies par Rubin (1976), sont divis´ ees en 3 cat´ egories.
Les donn´ ees Missing Completely at Random, comme une visite supprim´ ee al´ eatoirement par perte de dossier, les donn´ ees Missing At Random comme une visite non effectu´ ee car l’´ etude est trop longue, et les donn´ ees Missing Not At Random comme la non pr´ esence d’un patient en raison de la gravit´ e de son ´ etat. L’estimateur par GEE est robuste au premier cas et biais´ e dans les deux autres Liang and Zeger (1986); Robins et al. (1995);
Robins and Rotnitzky (1995). Dans le cas de perte de suivi Robins et al. (1995); Robins and Rotnitzky (1995) ont mis en place une version pond´ er´ ee des GEE.
Deux questions se posent alors, ` a quel point l’estimateur des GEE est-il robuste aux visites manquantes? Quel biais doit on envisager en cas de donn´ ees MAR? Nous pro- posons une ´ etude par simulation afin d’´ evaluer l’effet de certains types de donn´ ees man- quantes sur les estimateurs obtenus par GEE.
La deuxi` eme partie pr´ esente quelques rappels sur la m´ ethode des GEE. Les plans de simulations et les r´ esultats sont d´ etaill´ es en partie 3 et 4.
2 GEE
Consid´ erons une ´ etude longitudinale dont la variable d’int´ erˆ et not´ ee y
itrepr´ esente la variable r´ eponse, discr` ete ou continue, pour l’individu i ` a la visite t pour i ∈ {1, .., K } et t ∈ {1, .., n
i}. Pour chaque individu un ensemble de p covariables est mesur´ e ` a chaque temps t not´ e x
it. Nous noterons alors Y
i, de taille n
i× 1, le vecteur de r´ eponses pour l’individu i et X
i, de taille n
i× p, la matrice des covariables mesur´ ees pour l’individu i.
Nous noterons µ
itl’esp´ erance de y
itconditionnellement ` a x
itet v(y
it) = V (µ
it), la variance
de y
it, pour une fonction V (.) donn´ ee. Pour une fonction de lien g (.) choisie l’esp´ erance
s’´ ecrit µ
it= E (y
it|x
it) = g(x
titβ). β repr´ esente le vecteur de param` etres ` a estimer. Les GEE utilisent une matrice de corr´ elation de travail R
i(α) ce qui induit une matrice de variance covariance de travail d´ efinie par :
V
i= A
1/2iR
i(α)A
1/2i(1)
o` u α est un vecteur de param` etre qui d´ efinit la structure de corr´ elation commune aux individus et A
iest une matrice diagonale compos´ ee des variances V (µ
it). Pour R
i(α) donn´ ee l’estimateur des GEE est solution de :
U (β) =
K
X
i=1
D
tiV
i−1(Y
i− µ
i) = 0 (2) D
iest la matrice des d´ eriv´ ees partielles dont le (t, k)-` eme ´ el´ ement est ∂µ
it/∂β
k. Il est alors possible d’estimer, par une m´ ethode consistante, le vecteur de param` etres α en utilisant l’estimateur ˆ β. Liang and Zeger (1986) proposent ainsi une m´ ethode d’estimation it´ erative jusqu’` a convergence o` u ˆ α est obtenu par la m´ ethode des moments. Le choix de la structure de R
i(α) est important. Les structures classiques sont de type ind´ ependante,
´ echangeable ou autor´ egressive d’ordre 1. Il existe des crit` eres similaires ` a l’AIC Pan (2001); Hin and Wang (2009) permettant de s´ electionner une matrice de corr´ elation de travail. Pour plus de clart´ e, nous supposerons la structure de corr´ elation connue, en imposant soit une structure ´ echangeable, soit une structure autor´ egressive d’ordre 1.
3 Plan des simulations
Deux types de variables r´ eponses ont ´ et´ e ´ etudi´ es, une continue gaussienne et une discr` ete binaire. Dans les deux cas, 4 covariables ont ´ et´ e simul´ ees selon une loi normale centr´ ee r´ eduite admettant pour structure de corr´ elation une autor´ egressive d’ordre 1 de coefficient ρ = 0.3 not´ ee Σ.
Nous avons simul´ e une variable r´ eponse Y
icontinue, gaussienne, admettant pour struc- ture de corr´ elation R
i(α) selon le mod` ele Y
i= X
iβ +
i, o` u la variable x
l∼ N (0, Σ) pour l ∈ {2, ..., 5}. Le vecteur
iest simul´ e selon une loi normale centr´ ee de variance σ
2et de matrice de corr´ elation R
i(α) grˆ ace ` a la d´ ecomposition de Choleski. Le vecteur de param` etre est impos´ e ´ egal ` a β = (1, 0.5, −0.2, 1, −1), la premi` ere composante correspon- dant ` a l’ordonn´ ee ` a l’origine. Le param` etre de variance σ
2est choisi pour avoir un rapport signal/bruit
V(xσ2tit), ´ egal ` a 0.5 comme utilis´ e par Fu (2003). Des rapports ´ egaux ` a 0.7 et 1.4 ont ´ et´ e test´ es.
Le deuxi` eme jeu de donn´ ees utilise le lien logit pour simuler une variable r´ eponse bi-
naire tout en imposant la structure de corr´ elation R
i(α) ` a l’aide la m´ ethode de Qaqish
(2003). La r´ eponse y
itest mod´ elis´ ee par le mod` ele logit( E (y
it)) = x
titβ o` u x
l∼ N (0, Σ)
pour l ∈ {2, ..., 5}. Le vecteur de param` etre est donn´ e par β = (1, 0.5, −0.2, 0.3, −0.4).
La premi` ere composante correspond ` a l’ordonn´ ee ` a l’origine.
Pour ces deux types de jeux de donn´ ees nous avons fait varier plusieurs param` etres :
• K, le nombre de sujets sur K = {50, 100, 200, 300}
• n, le nombre de visites sur N = {4, 6, 9}
• R
i(α), la structure de corr´ elation, soit ´ echangeable, soit autor´ egressive d’ordre 1
• α, l’unique param` etre de corr´ elation sur A = {0.1, 0.3, 0.5, 0.6}
Pour chacun de ces 96 sc´ enarios, 288 pour une r´ eponse continue, nous avons simul´ e 1000 jeux de donn´ ees que nous dirons complets. Pour tester l’effet de visites manquantes sur les estimateurs des param` etres, nous avons simul´ e 1000 autres jeux de donn´ ees que nous dirons incomplets ou d´ es´ equilibr´ es en supprimant chez quelques individus certaines visites. Nous avons fait varier le pourcentage, 10%, 20%, 30% ou 50%, d’individus qui manqueraient 1, 2 ou 3 visites.
Afin de tester la r´ esistance des estimateurs aux donn´ ees MCAR et MAR nous avons impos´ e deux types de sch´ emas de suppression de visites. Dans un premier temps, les visites sont choisies selon une loi uniforme sur l’ensemble des visites possibles ce qui implique des donn´ ees MCAR. Dans un second temps, la probabilit´ e est croissante en fonction du temps imposant ainsi des donn´ ees MAR. Nous parlerons alors de d´ es´ equilibre uniforme et croissant. Tous les calculs ont ´ et´ e r´ ealis´ es ` a l’aide du logiciel R Development Core Team (2008) et du package geepack de Hojsgaard et al. (2006).
4 R´ esultats
Un crit` ere utile pour mesurer la pr´ ecision d’un estimateur ˆ θ est le biais relatif absolu d´ efinit par
||E(ˆ||θ||θ)−θ||que nous pouvons estimer sur 1000 ´ echantillons ind´ ependant par :
BR(ˆ θ) = 1 1000
1000
X
b=1
|| θ ˆ
b− θ||
||θ|| (3)
||.|| repr´ esente la norme euclidienne et ˆ θ est le param` etre estim´ e sur le b-` eme ´ echantillon.
Ce crit` ere mesure la moyenne de l’´ ecart relatif absolu entre l’estimateur et sa cible sur 1000 ´ echantillons.
Le graphique (1) repr´ esente un boxplot des biais relatifs absolus de l’estimateur ˆ β
en fonction du d´ es´ equilibre impos´ e. Chaque colonne repr´ esente la r´ epartition du biais
relatif absolu sur les diff´ erents mod` eles test´ es, 96 pour une r´ eponse binaire, 288 pour une
0.10.20.30.40.5
Déséquilibre imposé
Biais relatif
0 1_0.10 1_0.20 1_0.30 1_0.50 2_0.10 2_0.20 2_0.30 2_0.50 3_0.10 3_0.20 3_0.30 3_0.50
Déséquilibre croissant
1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50
Déséquilibre uniforme
1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50
Répartition des biais relatifs de (β^)
0 0.1K/Kn 0.2K/Kn 0.2K/Kn 0.3K/Kn 0.3K/Kn 0.4K/Kn 0.5K/Kn 0.6K/Kn 0.6K/Kn 0.9K/Kn 1K/Kn 1.5K/Kn
(a) Variable r´ eponse binaire
●
●
●
●●
●● ●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●●
●●
●
●●
●
●●
●
●
●●
●
●
●●
●●
●
●
●●
●●
●●
●
●●
●
●
●
●
●●
●
●●
●●
●
●
●●
●●
●●
●
●●
●
●●
●
●
●
●●
●●
●
●●
●●
●
●
●
●
●
●●
●
●●
●
●
●●
●●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●●
●●
●
●
●
●●
●
0.050.100.150.200.250.30
Déséquilibre imposé
Biais relatif
0 1_0.10 1_0.20 1_0.30 1_0.50 2_0.10 2_0.20 2_0.30 2_0.50 3_0.10 3_0.20 3_0.30 3_0.50
Déséquilibre croissant
1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50
Déséquilibre uniforme
1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50
Répartition des biais relatifs de (β^)
0 0.1K/Kn 0.2K/Kn 0.2K/Kn 0.3K/Kn 0.3K/Kn 0.4K/Kn 0.5K/Kn 0.6K/Kn 0.6K/Kn 0.9K/Kn 1K/Kn 1.5K/Kn