L'effet de visites manquantes sur l'estimateur des GEE, une étude par simulation

(1)

HAL Id: hal-02507494

https://hal-cnam.archives-ouvertes.fr/hal-02507494

Submitted on 13 Mar 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

L’effet de visites manquantes sur l’estimateur des GEE, une étude par simulation

Julia Geronimi, Gilbert Saporta

To cite this version:

Julia Geronimi, Gilbert Saporta. L’effet de visites manquantes sur l’estimateur des GEE, une étude

par simulation. 47èmes journées de statistique, Jun 2015, Lille, France. �hal-02507494�

(2)

L’effet de visites manquantes sur l’estimateur des gee, une ´ etude par simulation

Julia Geronimi

^1,2

& Gilbert Saporta

²

1

Institut de de Recherches Internationales SERVIER, 50 rue Carnot 92150 Suresnes [email protected]

2

Cedric-Cnam, 292 rue Saint Martin 75141 Paris Cedex 03 [email protected]

R´ esum´ e. La recherche clinique s’int´ eresse r´ eguli` erement au suivi longitudinal du patient au cours de plusieurs visites. Toutes les visites pr´ evues ne sont pas effectu´ ees et il n’est pas rare d’avoir un nombre de visites diff´ erent selon les individus. Les Generalized Estimating Equations permettent d’´ etudier une r´ eponse continue ou discr` ete autocorr´ el´ ee.

Cette m´ ethode permet un nombre de visites qui diff` ere selon les patients. Les GEE sont robustes aux donn´ ees manquantes compl` etement al´ eatoires. Cependant dans le cas o` u les visites de fin d’´ etude sont moins nombreuses, l’estimateur peut ˆ etre biais´ e. Nous proposons une ´ etude par simulation pour ´ etudier l’impact de visites non effectu´ ees sur les estimateurs obtenus par GEE sous divers sch´ ema de donn´ ees manquantes. Deux types de r´ eponses sont ´ etudi´ ees avec une structure ´ echangeable ou auto-r´ egressive d’ordre un. Le nombre de sujets touch´ es et le nombre de visites supprim´ ees varient afin d’´ evaluer leur impact. Nos simulations montrent que les estimateurs calcul´ es par GEE sont r´ esistants jusqu’` a un certain taux de donn´ ees manquantes. Les r´ esultats sont homog` enes quelle que soit la structure de donn´ ees manquantes impos´ ee.

Mots-cl´ es. Donn´ ees longitudinales, donn´ ees r´ ep´ et´ ees corr´ el´ ees, autocorr´ elation, donn´ ees manquantes, simulations, Generalized Estimating Equations

Abstract. Clinical research is regularly interested in longitudinal follow-up over sev- eral visits. All scheduled visits are not carried out and it is not unusual to have a different number of visits by patient. The Generalized Estimating Equations can handle continu- ous or discrete autocorrelated response. The method allows a different number of visits by patients. The GEE are robust to missing completely at random data. However when the last visits are fewer, the estimator may be biased. We propose a simulation study to investigate the impact of missing visits on the GEE estimators under different missing data pattern. Different types of responses are studied with an exchangeable or autore- gressive of order one structure. The number of subjects affected by the missing data and the number of visits removed vary in order to assess their impact. Our simulations show that the estimators obtained by GEE are resistant to a certain rate of missing data. The results are homogeneous regardless to the imposed missing data structure.

Keywords. Longitudinal data, repeated correlated data, correlation, missing data,

simulations, Generalized Estimating Equations

(3)

1 Introduction

Le suivi clinique de patients permet de r´ ecolter des information sur l’´ evolution des patholo- gies et donne ainsi la possibilit´ e de mettre en relation un crit` ere clinique avec certains param` etres biologiques. Dans ce contexte, les observations d’un mˆ eme patient ne peu- vent ˆ etre consid´ er´ ees comme ind´ ependantes et la corr´ elation entre les observations d’un mˆ eme sujet doit ˆ etre prise en compte. Les Generalized Estimating Equations de Liang and Zeger (1986) sont une m´ ethode marginale, sp´ ecifique ` a la population. Les GEE pren- nent en compte la corr´ elation intra-sujet en imposant la mˆ eme structure de corr´ elation ` a l’ensemble des patients. Nous utiliserons cette m´ ethode par la suite.

Le design des ´ etudes pr´ evoit un certain nombre de visites par patient qui n’est mal- heureusement pas toujours respect´ e. Il est possible que des ´ echantillons ne soient pas r´ ecolt´ es de fa¸con al´ eatoire ou qu’un patient soit trop malade pour venir ` a une visite.

Ce dernier sch´ ema implique que la donn´ ee manquante est informative. Ces absences ne peuvent ˆ etre imput´ ees par un mod` ele param´ etrique puisqu’aucune des informations du patient ne sera r´ ecolt´ ee ` a cette date. Une interpolation de la valeur ` a la date fix´ ee est envisageable mais le design implique souvent peu de visites tr` es espac´ ees dans le temps.

Les donn´ ees manquantes, comme d´ efinies par Rubin (1976), sont divis´ ees en 3 cat´ egories.

Les donn´ ees Missing Completely at Random, comme une visite supprim´ ee al´ eatoirement par perte de dossier, les donn´ ees Missing At Random comme une visite non effectu´ ee car l’´ etude est trop longue, et les donn´ ees Missing Not At Random comme la non pr´ esence d’un patient en raison de la gravit´ e de son ´ etat. L’estimateur par GEE est robuste au premier cas et biais´ e dans les deux autres Liang and Zeger (1986); Robins et al. (1995);

Robins and Rotnitzky (1995). Dans le cas de perte de suivi Robins et al. (1995); Robins and Rotnitzky (1995) ont mis en place une version pond´ er´ ee des GEE.

Deux questions se posent alors, ` a quel point l’estimateur des GEE est-il robuste aux visites manquantes? Quel biais doit on envisager en cas de donn´ ees MAR? Nous pro- posons une ´ etude par simulation afin d’´ evaluer l’effet de certains types de donn´ ees man- quantes sur les estimateurs obtenus par GEE.

La deuxi` eme partie pr´ esente quelques rappels sur la m´ ethode des GEE. Les plans de simulations et les r´ esultats sont d´ etaill´ es en partie 3 et 4.

2 GEE

Consid´ erons une ´ etude longitudinale dont la variable d’int´ erˆ et not´ ee y

_it

repr´ esente la variable r´ eponse, discr` ete ou continue, pour l’individu i ` a la visite t pour i ∈ {1, .., K } et t ∈ {1, .., n

_i

}. Pour chaque individu un ensemble de p covariables est mesur´ e ` a chaque temps t not´ e x

_it

. Nous noterons alors Y

_i

, de taille n

_i

× 1, le vecteur de r´ eponses pour l’individu i et X

_i

, de taille n

_i

× p, la matrice des covariables mesur´ ees pour l’individu i.

Nous noterons µ

_it

l’esp´ erance de y

_it

conditionnellement ` a x

_it

et v(y

_it

) = V (µ

_it

), la variance

de y

_it

, pour une fonction V (.) donn´ ee. Pour une fonction de lien g (.) choisie l’esp´ erance

(4)

s’´ ecrit µ

_it

= E (y

_it

|x

_it

) = g(x

^t_it

β). β repr´ esente le vecteur de param` etres ` a estimer. Les GEE utilisent une matrice de corr´ elation de travail R

_i

(α) ce qui induit une matrice de variance covariance de travail d´ efinie par :

V

_i

= A

^1/2_i

R

_i

(α)A

^1/2_i

(1)

o` u α est un vecteur de param` etre qui d´ efinit la structure de corr´ elation commune aux individus et A

_i

est une matrice diagonale compos´ ee des variances V (µ

_it

). Pour R

_i

(α) donn´ ee l’estimateur des GEE est solution de :

U (β) =

K

X

i=1

D

^t_i

V

_i⁻¹

(Y

_i

− µ

_i

) = 0 (2) D

_i

est la matrice des d´ eriv´ ees partielles dont le (t, k)-` eme ´ el´ ement est ∂µ

_it

/∂β

_k

. Il est alors possible d’estimer, par une m´ ethode consistante, le vecteur de param` etres α en utilisant l’estimateur ˆ β. Liang and Zeger (1986) proposent ainsi une m´ ethode d’estimation it´ erative jusqu’` a convergence o` u ˆ α est obtenu par la m´ ethode des moments. Le choix de la structure de R

_i

(α) est important. Les structures classiques sont de type ind´ ependante,

´ echangeable ou autor´ egressive d’ordre 1. Il existe des crit` eres similaires ` a l’AIC Pan (2001); Hin and Wang (2009) permettant de s´ electionner une matrice de corr´ elation de travail. Pour plus de clart´ e, nous supposerons la structure de corr´ elation connue, en imposant soit une structure ´ echangeable, soit une structure autor´ egressive d’ordre 1.

3 Plan des simulations

Deux types de variables r´ eponses ont ´ et´ e ´ etudi´ es, une continue gaussienne et une discr` ete binaire. Dans les deux cas, 4 covariables ont ´ et´ e simul´ ees selon une loi normale centr´ ee r´ eduite admettant pour structure de corr´ elation une autor´ egressive d’ordre 1 de coefficient ρ = 0.3 not´ ee Σ.

Nous avons simul´ e une variable r´ eponse Y

i

continue, gaussienne, admettant pour struc- ture de corr´ elation R

_i

(α) selon le mod` ele Y

_i

= X

_i

β +

_i

, o` u la variable x

^l

∼ N (0, Σ) pour l ∈ {2, ..., 5}. Le vecteur

_i

est simul´ e selon une loi normale centr´ ee de variance σ

²

et de matrice de corr´ elation R

i

(α) grˆ ace ` a la d´ ecomposition de Choleski. Le vecteur de param` etre est impos´ e ´ egal ` a β = (1, 0.5, −0.2, 1, −1), la premi` ere composante correspon- dant ` a l’ordonn´ ee ` a l’origine. Le param` etre de variance σ

²

est choisi pour avoir un rapport signal/bruit

^V^(x_σ2^t^it⁾

, ´ egal ` a 0.5 comme utilis´ e par Fu (2003). Des rapports ´ egaux ` a 0.7 et 1.4 ont ´ et´ e test´ es.

Le deuxi` eme jeu de donn´ ees utilise le lien logit pour simuler une variable r´ eponse bi-

naire tout en imposant la structure de corr´ elation R

_i

(α) ` a l’aide la m´ ethode de Qaqish

(2003). La r´ eponse y

_it

est mod´ elis´ ee par le mod` ele logit( E (y

_it

)) = x

^t_it

β o` u x

^l

∼ N (0, Σ)

pour l ∈ {2, ..., 5}. Le vecteur de param` etre est donn´ e par β = (1, 0.5, −0.2, 0.3, −0.4).

(5)

La premi` ere composante correspond ` a l’ordonn´ ee ` a l’origine.

Pour ces deux types de jeux de donn´ ees nous avons fait varier plusieurs param` etres :

• K, le nombre de sujets sur K = {50, 100, 200, 300}

• n, le nombre de visites sur N = {4, 6, 9}

• R

_i

(α), la structure de corr´ elation, soit ´ echangeable, soit autor´ egressive d’ordre 1

• α, l’unique param` etre de corr´ elation sur A = {0.1, 0.3, 0.5, 0.6}

Pour chacun de ces 96 sc´ enarios, 288 pour une r´ eponse continue, nous avons simul´ e 1000 jeux de donn´ ees que nous dirons complets. Pour tester l’effet de visites manquantes sur les estimateurs des param` etres, nous avons simul´ e 1000 autres jeux de donn´ ees que nous dirons incomplets ou d´ es´ equilibr´ es en supprimant chez quelques individus certaines visites. Nous avons fait varier le pourcentage, 10%, 20%, 30% ou 50%, d’individus qui manqueraient 1, 2 ou 3 visites.

Afin de tester la r´ esistance des estimateurs aux donn´ ees MCAR et MAR nous avons impos´ e deux types de sch´ emas de suppression de visites. Dans un premier temps, les visites sont choisies selon une loi uniforme sur l’ensemble des visites possibles ce qui implique des donn´ ees MCAR. Dans un second temps, la probabilit´ e est croissante en fonction du temps imposant ainsi des donn´ ees MAR. Nous parlerons alors de d´ es´ equilibre uniforme et croissant. Tous les calculs ont ´ et´ e r´ ealis´ es ` a l’aide du logiciel R Development Core Team (2008) et du package geepack de Hojsgaard et al. (2006).

4 R´ esultats

Un crit` ere utile pour mesurer la pr´ ecision d’un estimateur ˆ θ est le biais relatif absolu d´ efinit par

^||^E(ˆ_||θ||^θ)−θ||

que nous pouvons estimer sur 1000 ´ echantillons ind´ ependant par :

BR(ˆ θ) = 1 1000

1000

X

b=1

|| θ ˆ

_b

− θ||

||θ|| (3)

||.|| repr´ esente la norme euclidienne et ˆ θ est le param` etre estim´ e sur le b-` eme ´ echantillon.

Ce crit` ere mesure la moyenne de l’´ ecart relatif absolu entre l’estimateur et sa cible sur 1000 ´ echantillons.

Le graphique (1) repr´ esente un boxplot des biais relatifs absolus de l’estimateur ˆ β

en fonction du d´ es´ equilibre impos´ e. Chaque colonne repr´ esente la r´ epartition du biais

relatif absolu sur les diff´ erents mod` eles test´ es, 96 pour une r´ eponse binaire, 288 pour une

(6)

0.10.20.30.40.5

Déséquilibre imposé

Biais relatif

0 1_0.10 1_0.20 1_0.30 1_0.50 2_0.10 2_0.20 2_0.30 2_0.50 3_0.10 3_0.20 3_0.30 3_0.50

Déséquilibre croissant

1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50

Déséquilibre uniforme

1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50

Répartition des biais relatifs de (β^)

0 0.1K/Kn 0.2K/Kn 0.2K/Kn 0.3K/Kn 0.3K/Kn 0.4K/Kn 0.5K/Kn 0.6K/Kn 0.6K/Kn 0.9K/Kn 1K/Kn 1.5K/Kn

(a) Variable r´ eponse binaire

●

●●

●● ●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

●●

●

0.050.100.150.200.250.30

Déséquilibre imposé

Biais relatif

0 1_0.10 1_0.20 1_0.30 1_0.50 2_0.10 2_0.20 2_0.30 2_0.50 3_0.10 3_0.20 3_0.30 3_0.50

Déséquilibre croissant

1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50

Déséquilibre uniforme

1_0.10 1_0.20 2_0.10 1_0.30 3_0.10 2_0.20 1_0.50 2_0.30 3_0.20 3_0.30 2_0.50 3_0.50

Répartition des biais relatifs de (β^)

0 0.1K/Kn 0.2K/Kn 0.2K/Kn 0.3K/Kn 0.3K/Kn 0.4K/Kn 0.5K/Kn 0.6K/Kn 0.6K/Kn 0.9K/Kn 1K/Kn 1.5K/Kn

(b) Variable r´ eponse continue

Figure 1: Comparaison de l’´ evolution du biais relatif de ˆ β en fonction du taux de donn´ ees manquantes pour deux types donn´ ees manquantes et deux types de variables r´ eponse.

r´ eponse continue. Ces deux graphiques mettent en parall` ele les r´ esultats dans le cas d’un d´ es´ equilibre uniforme et croissant.

Les r´ esultats montrent que le biais relatif augmente faiblement avec le taux de donn´ ees manquantes passant d’un biais relatif absolu m´ edian de 15.6% ` a 19.2% dans le cas d’une r´ eponse binaire et de 7.3% ` a 8.4% dans le cas d’une r´ eponse continue. On remarque un d´ ecrochement pour une r´ eponse binaire lorsque l’on supprime 3 visites chez 50% des patients. Dans l’ensemble les r´ esultats sont similaires pour les deux types de d´ es´ equilibre avec de tr` es faibles diff´ erences. L’estimateur obtenu par GEE est assez robuste aux taux de donn´ ees manquantes que nous avons impos´ e. Les biais relatifs ´ etant comparables entre les deux types de donn´ es manquantes, l’estimateur est robuste ` a notre sch´ ema de donn´ ees MAR.

5 Conclusion

Nos ´ etudes par simulation montrent que l’estimateur obtenu par GEE admet un biais

relatif constant jusqu’` a un certain taux de donn´ ees manquantes. De plus, cet estimateur

est robuste ` a notre sch´ ema de suppression de visites. Cet estimateur peut donc ˆ etre utilis´ e

pour des ´ etudes o` u le taux de donn´ ees manquantes reste raisonnable. Le cas o` u la donn´ ee

manquante n’est pas al´ eatoire n’est pas ici ´ etudi´ e. Une ´ etude compl´ ementaire avec ce

type de sch´ ema pourrait ˆ etre envisag´ ee.

(7)

Bibliographie

Fu, W. J. (2003). Penalized estimating equations. Biometrics, 59:126–132.

Hin, L.-Y. and Wang, Y.-G. (2009). Working-correlation-structure identification in gen- eralized estimating equations. Statistics in medicine, 28(4):642–658.

Hojsgaard, U. H. S., , and Yan, J. (2006). The r package geepack for generalized estiamtin equations. Journal of Statistical Software, 15(2).

Liang, K.-Y. and Zeger, S. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 38:13–22.

Pan, W. (2001). Akaike’s information criterion in generalized estimating equations. Bio- metrics, 57:120–125.

Qaqish, F. B. (2003). A family of multivariate binary distributions for simulating cor- related binary variables with specified marginal means and correlations. Biometrika, 90(2):455–463.

R Development Core Team (2008). R: A Language and Environment for Statistical Com- puting. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.

Robins, J. M. and Rotnitzky, A. (1995). Semiparametric efficiency in multivariate re- gression models with missing data. Journal of the American Statistical Association, 90(429):122–129.

Robins, J. M., Rotnitzky, A., and Zhao, L. P. (1995). Analysis of semiparametric re- gression models for repeated outcomes in the presence of missing data. Journal of the American Statistical Association, 90(429):106–121.