R EVUE DE STATISTIQUE APPLIQUÉE
A. G UÉGUEN M. Z INS
J. P. N AKACHE
Utilisation des modèles marginaux et des modèles mixtes dans l’analyse de données longitudinales (1992-1996) concernant mariage et consommation d’alcool des femmes de la cohorte GAZEL
Revue de statistique appliquée, tome 48, n
o3 (2000), p. 57-73
<http://www.numdam.org/item?id=RSA_2000__48_3_57_0>
© Société française de statistique, 2000, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UTILISATION DES MODÈLES MARGINAUX
ET DES MODÈLES MIXTES DANS L’ANALYSE DE DONNÉES
LONGITUDINALES (1992-1996) CONCERNANT
MARIAGE ET CONSOMMATION D’ALCOOL
DES FEMMES DE LA COHORTE GAZEL1
A.
Guéguen,
M.Zins,
JP. Nakache INSERM Unité 88,Hôpital
National de Saint-Maurice14, rue du Val d’Osne, 94410 Saint-Maurice.
Statistique Appliquée,
RÉSUMÉ
Les données
longitudinales
sontfréquentes
aussi bien enépidémiologie qu’en
rechercheclinique;
les deuxprincipales
méthodes pouranalyser
ce type de données sont les modèlesmarginaux
et les modèles mixtes. Ces deux méthodes sontprésentées
ici ens’appuyant
sur unexemple épidémiologique :
l’étude des consommations de boissons alcoolisées des femmes de la cohorte GAZEL au moment dumariage.
Mots-clés : Données
longitudinales,
modèlemarginal,
modèle linéaire mixte.ABSTRACT
Longitudinal
data arefrequently
encountered inepidemiology
and clinical research aswell; the main methods used to
analyze
such data aremarginal
models and mixed models which arepresented
here and illustratedusing epidemiological
data extracted from the cohort GAZEL andconcerning
therelationship
betweenweeding
and women alcoholconsumption.
Keywords : Longitudinal
data,marginal
model, linear mixed model.1. Introduction et
hypothèses préliminaires
En
épidémiologie
et en rechercheclinique,
laplupart
desproblèmes peuvent
se poser sous la forme de l’étude de la liaison entre une variable
«réponse»
ouphénomène d’intérêt,
et un ensemble de variablesexplicatives (covariables,
variablesexogènes, prédicteurs).
La construction de modèlesmathématiques permet d’explorer
la forme et l’intensité de cette liaison.
Cependant,
il estfréquent
de recueillir un l Ce travail a été réalisé en partie avec des crédits de l’ONIVINS, attribués par le Comité National Vin etSanté.
58 A.
GUÉGUEN,
M. ZINS, J.P. NAKACHEensemble de données
présentant
uneconfiguration
tellequ’elles
sont difficilementanalysables
au moyen des modèlesstatistiques «classiques».
C’est le cas des données dites«longitudinales» qui
constituent des données(variable
àexpliquer
et variablesexplicatives)
recueillies pourchaque sujet
à différentstemps.
Il en résulte que les observations réalisées sur un mêmesujet
sont, engénéral,
fortement corrélées. Onne peut donc utiliser les modèles
classiques, qui reposent
surl’indépendance
desobservations.
Il existe
principalement
deux méthodesd’analyse
des donnéeslongitudinales permettant
deprendre
encompte
la liaison entre les observations réalisées sur unmême
sujet : 1)
les modèlesmarginaux qui
sont utilisésquand l’objectif scientifique
est de caractériser la
population;
on modélise alors la moyenne duphénomène
àétudier,
et2)
les modèles mixtes où l’inférence est individuelle.L’objectif
de cet article est deprésenter
et de confronter les modèlesmarginaux
et les modèles mixtes dans une étude dont le but est d’étudier l’effet du
mariage
surla consommation d’alcool des femmes de la cohorte
GAZEL[4].
2. Matériel et méthodes 2.1. Les données
analysées
En
1989,
environ 20 000volontaires, âgés
de 35 à 50 ans, ontaccepté
departiciper
à une cohorte à viséeépidémiologique,
la cohorteGAZEL; chaque
annéeles volontaires
remplissent
unauto-questionnaire
sur leursproblèmes
de santé et leurshabitudes de consommation. Les observations dont on
dispose proviennent
des auto-questionnaires
de1992, 1993, 1994,
1995 et 1996 et concernent la consommationd’alcool, exprimée
en nombre de verres par semaine. Parmi les 5614 femmes de la cohorteGAZEL,
155 femmes se sont mariées entre 1992 et1996,
et ondispose
dedonnées sur leur consommation d’alcool au moment de leur
mariage
pour 148 d’entre elles.2.2. Les modèles utilisés 2.2.1. Les modèles
Marginaux
Les modèles
marginaux
ont été introduits parLiang
etZeger [6]
pouranalyser
les données
longitudinales normales,
non normales ou discrètes. Ils sontl’analogue
des modèles de
quasi-vraisemblance
pour observations nonindépendantes.
De mêmeque pour les modèles de
quasi-vraisemblance,
il est suffisant de donner les deuxpremiers
moments de la variableréponse,
paropposition
aux modèles linéairesgénéralisés
danslesquels
toute la distribution de la variableréponse
doit être définie.Par
ailleurs,
comme pour les modèles dequasi-vraisemblance,
il estpossible
d’obtenirune estimation consistante du vecteur des
paramètres,
mais avec uneperte d’efficacité,
même si la variance de la variableréponse
n’est pas correctementspécifiée.
L’utilisation des modèles
marginaux
nécessite que le nombre d’observations parsujet
soit faible et que le nombre desujets
soitimportant,
cequi
est souvent le cas59 dans les études
épidémiologiques.
Parailleurs,
s’il existe des donnéesmanquantes,
les estimations obtenues par le modèle
marginal
sont sans biais à condition que les données soient manquantescomplètement
au hasard selon laterminologie
de Littleet Rubin
[7].
L’intérêtprincipal
des modèlesmarginaux
repose sur la robustesse des estimations obtenues. Ceci est du au faitqu’il
n’est pas nécessaire que la matrice des variances-covariances soit correctementdéfinie;
il suffit de définir une matrice de corrélation de travail.Les modèles
marginaux
sont décrits dans l’annexe A.1 ens’inspirant
desprésentations
deDiggle
et al[2]
et de Fahrmeir et Tutz[3].
2.2.2. Les modèles mixtes
Les modèles mixtes linéaires
[5]
sont des extensions des modèles linéaires.Les modèles mixtes font intervenir des effets aléatoires
spécifiques
àchaque sujet
etc’est
l’espérance
de la variableréponse
conditionnellement à ces effets aléatoiresqui
est modélisée sous la forme d’une combinaison linéaire des variables
explicatives,
incluant à la fois des facteurs fixes et des facteurs aléatoires. Dans les modèles
mixtes,
contrairement aux modèlesmarginaux,
la moyenne et la variance de la variableréponse
sont modélisées en mêmetemps.
Les coefficients du modèle mesurent l’influence directe des variablesexplicatives
sur la variableréponse
pour des groupes desujets hétérogènes
et non pour lapopulation.
L’utilisation des modèles mixtes est conseillée si le nombre d’observations par
sujet
estélevé,
si on cherche à établir desprédictions
individuelles ou si on souhaiteappréhender
la structure de la matrice des variances-covariances. Parailleurs,
s’il existe des données manquantes, les estimations seront sans biais à condition que les données soientmanquantes
au hasard selon laterminologie
de Little et Rubin[7],
cequi
constitue une condition moinscontraignante
que cellerequise
pour les modèlesmarginaux.
Les modèles mixtes sont
présentés
dans l’annexeA.2,
ens’inspirant,
commepour les modèles
marginaux,
des ouvrages deDiggle
et al[2]
et de Fahrmeir et Tutz[3].
3.
Application
Les données sont constituées de 5 cohortes de femmes caractérisées par l’année de leur
mariage; 46, 41, 17,
24 et 20 femmes se sontrespectivement
mariées en1992, 1993, 1994,
1995 et 1996. Les moyennes de consommation d’alcool de ces 5 cohortes sontreprésentées
enfigure
1.On note yic la mesure de la consommation d’alcool du
sujet
i autemps
c, où creprésente
letemps
calendaire etprend
les 5 valeurs allant de 1992 à 1996. Etant donnéqu’on
s’intéresse à l’effet dumariage
sur la consommationd’alcool,
il est nécessairede
prendre
un autrerepère
pour letemps : l’origine
dutemps
est l’année dumariage.
Pour
chaque sujet
i etchaque
année c, on crée une variable ticreprésentant
le nombred’années
depuis
lemariage.
Cette variableprend
ses valeurs dans l’intervalle variant entre - 4 et 4. Parexemple,
les valeurs de tic pour une femmequi
s’est mariée en1994
sont : - 2, - 1, 0, 1, 2.
60 A. GUÉGUEN, M. ZINS, J.P. NAKACHE
FIGURE 1
Consommation moyenne de boissons alcoolisées 3.1. Modèle
marginal
3.1.1 Modélisation de la moyenne
L’examen de la
figure
1suggère
de modéliser la moyennemarginale
desconsommations d’alcool au moyen de 3
portions
dedroite,
leschangements
depente ayant
lieu un an avant et un anaprès
lemariage.
On note /-lie =
E(yic) l’espérance marginale
de la consommation d’alcool. Par la suite l’indice i est omis de manière àsimplifier
l’écriture. Le modèleproposé
estle suivant :
où te
représente
le nombre d’annéesdepuis
lemariage.
Ce modèle
s’écrit,
en fonction de 3 variables tl,t2
ett3
créées àpartir
de tesous la forme
équivalente
suivante :où les valeurs de
tl,
t2 ett3
en fonction de te sont données dans le tableau 1.{30 représente
la consommation d’alcool moyenne 4 ans avant lemariage, 03B21,
{32
et{33 représentent respectivement
lesaugmentations
moyennes(par année)
desTABLEAU 1
Valeurs de tl, t2 et
t3 en fonction
de tcconsommations d’alcool entre 4 ans et 1 an avant le
mariage,
entre 1 an avant et 1 anaprès
lemariage
et entre 1 an et 4 ansaprès
lemariage.
3.1.2. Modélisation de la variance
Dans les modèles
marginaux,
il n’est pas nécessaire de définir la matrice des variances-covariances : la définition d’une matrice de corrélation de travail laplus proche possible
de la réalité est suffisante. La matrice de corrélation de travail choisiedépend
de 4paramètres
pl, P2, P3 et p4. Cesparamètres représentent respectivement
les corrélations entre deux observations réalisées sur un même
sujet
et distantesrespectivement
d’un an, de deux ans, de trois ans et dequatre
ans.3.1.3. Résultats
Les résultats sont donnés dans les tableaux 2 et 3 et ont été obtenus à l’aide de la
procédure
GENMOD de SAS[8].
Le fichier de commande utilisé est le suivant :proc
genmod
data=donnees ;class obs tnum ;
model verres=tl t2 t3 ;
repeated subject=obs
/ within=tnumtype=mdep(4) ;
run ;
où donnees
représente
le fichier des données danslequel chaque ligne
contient 6variables : obs, tnum, verres, t 1, t2 et t3,
- obs
représente
le numéro d’identification dechaque femme,
- tnum
représente
le numéro de l’année calendaire(tnum
varie de 1 à5),
- verres
représente
le nombre de verres d’alcool consommés parsemaine,
- tl, t2 et t3 sont les trois variables créées selon la
correspondance
donnéedans le tableau 1.
62 A. G UÉG UEN, M. ZINS, J.P. NAKACHE
TABLEAU 2
Paramètres du modèle
marginal
modélisant la moyenneLa consommation moyenne
quatre
années avant lemariage
est de 4.20 verrespar semaine. Entre
quatre
ans et un an avant lemariage,
la consommation moyenne reste stable :1
n’est passignificativement
différent de 0(p - 0.74).
Entre un anavant et un an
après
lemariage,
la consommation d’alcoolaugmente significativement (p 0.001),
de 1.92 verres par semaine(203B22).
Entre un etquatre
ansaprès
lemariage,
la consommation d’alcool reste stable :
3
n’est passignificativement
différent de 0(p = 0.58).
TABLEAU 3
Paramètres du modèle
marginal
modélisant la varianceDans les modèles
marginaux,
lesparamètres permettant
de modéliser la variance sont desparamètres
de nuisance. D’autrestypes
de matrices des variances-covariances ont été utilisées et lesajustements
obtenus donnent des résultats semblables en cequi
concerne l’estimation des
paramètres /?.
3.2. Modèle mixte 3.2.1. Modèle mixte à deux
effets
aléatoiresEtant donné
qu’il
y a auplus
5 observations parfemme,
deux effets aléatoires seulement ont été introduits dans le modèle : lepremier
est associé à la constante{30
et traduit le fait que la consommation d’alcoolquatre
ans avant lemariage
estvariable d’une femme à
l’autre;
le second effet aléatoire est associé auparamètre {32
etindique
que l’évolution de la consommation d’alcool entre un an avant et unan
après
lemariage peut
être différente selon les femmes. Par contre, le modèle necomprend
pas d’effets aléatoires associés auxparamètres {31
et03B23 :
on considèreque l’évolution de la consommation d’alcool entre
quatre
ans avant et un an avantest
identique
pour toutes lesfemmes,
de même que l’évolution entre un an et quatreans
après
lemariage.
On suppose, d’autrepart, qu’il peut
exister une liaison entre la consommation initiale etl’augmentation
de la consommation d’alcool entre un an avant et un anaprès
lemariage.
Le modèle
ajusté
à la consommation d’alcool dusujet
i est le suivant :où
{30 représente
la consommation d’alcool d’une femme « standard » 4 ans avant lemariage; {30 représente également
la moyenne des consommations d’alcool 4 ans avant lemariage,
{32 représente l’augmentation
de la consommation d’alcool entre 1 an avant et 1 anaprès
lemariage
pour une femme«standard»; (32 représente également
lamoyenne de
l’augmentation
de la consommation d’alcool entre 1 an avant et 1 anaprès
lemariage,
03B21
et{33 représentent respectivement
les moyennes desaugmentations
desconsommations d’alcool entre 4 ans et 1 an avant le
mariage
et entre 1 an et 4 ansaprès
lemariage.
a5 représente
la variance des consommations d’alcool entresujets, quatre
ansavant le
mariage,
u 2 2 représente
la variance des modifications de consommation d’alcool entre un an avant et un anaprès
lemariage,
03C302
représente
la covariance entre la consommation initiale et la modification de consommation d’alcool entre un an avant et un anaprès
lemariage;
une valeur élevée de ceparamètre indiquerait
que les femmesqui
sont initialement lesplus
grosses consommatrices sontégalement
cellesqui augmentent
leplus
leur consommation au moment dumariage,
u e 2 représente
la variance de la consommation d’alcool d’unsujet
autour de saconsommation
théorique.
3.2.2. Résultats
Le modèle mixte à deux effets aléatoires
(modèle Ml )
a étéajusté
aux donnéesen utilisant la méthode
REML. 1 (Le
même modèle a étéajusté
aux données enutilisant la méthode
MLE 1
et donne sensiblement les mêmesrésultats).
Les résultatssont donnés dans les tableaux 4 et 5 et ont été obtenus à l’aide de la
procédure
MIXEDde SAS
[8].
Le fichier de commande utilisé est le suivant : proc mixed data=donnees ;class obs ;
l Cf. Annexe A.2.2.
64 A. GUÉGUEN, M. ZINS, J.P. NAKACHE
model verres=tl t2 t3 / solution ;
random
intercept
t2/subject=obs
type=un ;run ;
où donnees
représente
le fichier des données danslequel chaque ligne
contient5 variables : obs, verres, tl, t2 et t3.
TABLEAU 4
Estimation des
paramètres
du modèle mixte modélisant la moyenneTABLEAU 5
Estimation des
paramètres
du modèle mixte modélisant la varianceLa consommation moyenne
quatre
années avant lemariage
est de 4.06 verrespar semaine. Entre
quatre
ans et un an avant lemariage,
la consommation moyenne reste stable :1
n’est passignificativement
différent de 0(p
=0.63).
Entre un anavant et un an
après
lemariage,
la consommation d’alcool augmentesignificativement (p 0.001),
de 2.24 verres par semaine(203B22).
Entre un etquatre
ansaprès
lemariage,
la consommation d’alcool reste stable :
3
n’est passignificativement
différent de 0(p
=0.41).
Ces résultats sont trèsproches
de ceux obtenus par le modèlemarginal.
Par
ailleurs,
lesparamètres 0
et2
ont une deuxièmeinterprétation;
ilscorrespondent
aux valeurs
prises
par une femme «standard».D’autres modèles ont
également
étéajustés
auxdonnées;
ces modèles com-prennent
les mêmesparamètres /3
que ceux du modèleMl
mais destypes
d’effets aléatoires différents. Le modèleM2 comprend
2 effets aléatoiresboi
etb2i
mais sup- pose que leur covariance 03C302 est nulle. Le modèleM3 comprend
un seul effet aléatoireassocié à
03B20
et le modèleM4 comprend
4 effets aléatoires avec une matriceQ
as-sociée
qui comprend
10paramètres.
Le tableau 6 donne les valeurs de - 2log
de lavraisemblance,
du critère d’Akaike[ 1 ] et
du critère de Scharwz[9]
pour les modèlesMl
àM4.
TABLEAU 6
Valeurs de
plusieurs
critères : - 2log
de lavraisemblance(-2 log L),
critères d’Akaike
(AI C)
et de Scharwz(BIC)
pourdifférents
modèles.AIC = -2
log
L +2(p
+q)
et BIC = -2log
L +(p
+q) log(N - p),
où p et q
représentent
le nombre deparamètres
permettant de modéliser
respectivement
la moyenne et la variance et N le nombre d’observationsLes deux modèles
présentant
les meilleurs critères sont les modèlesMi
etM2.
Le modèle
M3
ne peut être retenu ; il est donc nécessaire d’introduire un effet aléatoire associé à{32
et les modifications de consommation d’alcool au moment dumariage
nesont donc pas les mêmes pour toutes les femmes. Le modèle
M4
nepeut
lui nonplus
être retenu. En
conclusion,
le modèleM2
est celuiqui présente
le meilleurajustement.
(Les
données ont étéajustées
à ce modèle et donnent des résultats trèsproches
de ceuxdu modèle
Ml ) :
il n’existe pas de liensignificatif
entre la consommation d’alcool d’une femme 4 ans avant lemariage
et la modification de sa consommation d’alcoolau moment du
mariage.
Effets
aléatoiresLes valeurs des estimations des facteurs aléatoires
{bi}
neprésentent
pas d’intérêtparticulier
enépidémiologie,
maispeuvent
en avoir en rechercheclinique
sion cherche à réaliser des
prédictions
individuelles. Leshistogrammes
des estimations des deux facteurs aléatoires sontreprésentés
enfigures
2 et 3 et montrent clairement des distributions non normales. La non normalité a uneimportance
moindre sion s’intéresse essentiellement aux
paramètres 03B2;
elle a, par contre, une influenceplus grande
si on s’intéresse aux effets aléatoires eux mêmes ou à l’estimation desparamètres qui permettent
de modéliser la variance. Cecisuggère
d’utiliser un autremodèle,
le modèle mixte de Poisson[2]
et[3].
Cemodèle,
utilisé engénéral
pour des données de
dénombrement,
suppose d’unepart,
que la consommation d’alcool vie conditionnellementà bi
suit une distribution de Poisson deparamètre
Mie =
E(yic/bi),
telle quelog(Mie)
est une combinaison linéaire des variablesexplicatives
et d’autrepart,
queles b2
suivent des lois multinormales de moyenne nulle et sontindépendants
entre eux.Appliqué
auxdonnées,
ce modèle conduit à des distributions observées des effets aléatoires dontl’ajustement
par des lois normalesest bien meilleur que celui obtenu par le modèle mixte linéaire.
66 A. GUÉGUEN, M. ZINS, J.P. NAKACHE
Nombre de verres par semaine FIGURE 2
Histogramme
des estimations des consommations d’alcool initialesNombre de verres par semaine FIGURE 3
Histogramme
des estimations desmodifications
de consommation d’alcoolau moment du
mariage
4. Discussion
En
général,
les modèlesmarginaux
sont recommandésquand l’objectif
estde réaliser des inférences sur la moyenne de la variable
réponse,
les corrélations entre observations n’étant que desparamètres
denuisance,
alors que les modèles mixtespermettent
d’étudierplus
finement lephénomène
étudié en fournissant uneconnaissance de la matrice des variances-covariances et de réaliser des
prédictions individuelles,
mais ceci auprix d’hypothèses plus contraignantes :
il faut que lemodèle,
aussi bien dans sapartie
fixe(qui
modélise lamoyenne)
que dans sapartie
aléatoire(qui
modélise lavariance),
soit correctementspécifié.
Parailleurs,
si le nombre d’observations réalisées sur un même
sujet
estimportant,
les modèlesmarginaux
sontparticulièrement
déconseillés : il est nécessaire d’utiliser les modèles mixtesqui permettent
deparamétriser
la matrice des variances-covariances et de diminuer ainsi le nombre deparamètres
à estimer.Enfin,
s’il existe des donnéesmanquantes,
les modèles mixtes sont moinscontraignants puisqu’ils reposent
surune
hypothèse plus faible,
à savoir que les données sontmanquantes
auhasard,
alorsqu’elles
doivent êtremanquantes complètement
au hasard si on veut utiliser un modèlemarginal.
Dans
l’application
sur les consommationsd’alcool,
l’utilisation d’un modèle mixte est délicate carl’hypothèse
de normalité des facteurs aléatoires n’est pas vérifiée.Cependant,
il est intéressant d’examiner et de confronter les résultatsapportés
par les deux
approches :
en cequi
concerne lesparamètres
relatifs à la moyenne, le modèle mixte et le modèlemarginal
donnent des résultats trèsproches.
Deplus,
le modèle mixte met en évidence le fait
qu’il
existe unegrande
variabilité entresujets :
les consommations initiales des femmes(quatre
ans avant lemariage)
sonttrès
variables,
et d’autrepart, l’augmentation
moyenne de la consommation d’alcool observée au moment dumariage (entre
un an avant et un anaprès) correspond
à desévolutions individuelles différentes selon les femmes. La mise en évidence de cette diversité conduit à de nouvelles
questions :
rechercher les facteurs déterminants d’uneaugmentation importante
de la consommation d’alcool au moment dumariage.
Bibliographie
[1]
AKAIKE H.(1974),
A New Look at the Statistical ModelIdentification,
IEEE Transaction on Automaticcontrol, AC-19,
pp. 716-723.[2]
DIGGLEP.J.,
LIANGK.,
ZEGER S.L.(1994), Analysis
ofLongitudinal Data,
OxfordUniversity Press,
Oxford.[3]
FAHRMEIRL.,
TUTZ G.(1994),
Multivariate statisticalmodelling
based ongeneralised
linearmodels, Springer,
Newyork.
[4]
GOLDBERGM.,
LECLERC A.(1994),
CohorteGAZEL,
20 000 volontaires d’EDF-GDF pour la recherchemédicale,
Bilan1989-1993,
Les Editions IN-SERM,
Paris.[5]
LAIRDN.M.,
WARE J.H.(1982),
Random-effects models forlongitudinal
data.Biometrics, 38,
pp. 963-974.68 A. GUÉGUEN, M. ZINS, J.P NAKACHE
[6]
LIANGK.-Y.,
ZEGER S.L.(1986), Longitudinal
dataanalysis using generali-
zed linear models.
Biometrika, 73,
pp. 13-22.[7]
LITTLER.J.A.,
RUBIN D.B.(1987),
Statisticalanalysis
withmissing data,
John
Wiley,
New York.[8]
SASInstitute,
Inc. SAS/STAT software :changes
and enhancementstrough
release
6.12, Cary,
NC :SAS InstituteInc,
1997.[9]
SCHWARZ G.(1978), Estimating
the dimension of amodel,
Annals ofStatistics, 6,
pp. 461-464.[10]
STRAMD.O.,
LEE J.W.(1994),
Variancecompononents testing
in thelongi-
tudinal mixed effects
model, Biometrics, 50,
pp. 1171-1177.[11]
VERBEKEG.,
MOLENBERGHS G.(1997),
Linear mixed models inpractice,
A SAS-oriented
approach. Springer,
Newyork.
Annexe A. 7. Modèle
marginal
A.1.1. Le modèle
Soit
Ti
le nombre d’observations réalisées sur lesujet i;
on note yi =(yi 1, ..., yiTi)
le vecteur desréponses
et xi =(xi1,...xiTi)
le vecteur des covariables pour l’individui,
i =1,...,
n, pourlequel
chacune desTi composantes
est elle-mêmeun vecteur de covariables. On note N =
ETi
le nombre total d’observations. Un modèlemarginal
repose sur leshypothèses
suivantes :1 )
la moyennemarginale
Mit de la variableréponse
est correctementspécifiée
à travers la relation :
où /lit =
E(yit/xit)
est la moyennemarginale
de la variableréponse,
h est une fonction connue, dont l’inverse est
appelée
fonction delien,
et zt =- zit
(xit),
est un vecteur de dimension p fonctionappropriée
du vecteur descovariables xit . Dans la
plupart
des cas, 1 est lapremière composante
de zit .2)
la variancemarginale
de la variableréponse
est fonction de la moyennemarginale :
où v est une fonction connue,
appelée
fonction devariance, et 0
est unparamètre
d’échelle à estimer.
3)
la covariance entre y2t et Yis est fonction des moyennesmarginales
Mit et Mis et de o;, vecteur deparamètres
inconnus à estimer :où c est une fonction connue.
MODÈLES A.1.2. Matrice de corrélation de travail
Il n’est pas nécessaire que la matrice des variances-covariances de la variable
réponse
soit correctementspécifiée. Aussi,
on suppose que la moyennemarginale
est correctement
spécifiée
et àpartir
des relations données en2)
et3)
on définit unematrice des variances- covariances de travail :
qui dépend
desparamètres 03B2,
a et0.
Cette matrice est engénéral
différente de la vraie matrice des variances-covariancescov(yi)
=Si.
On note
Ai
la matricediagonale
dont les élémentsdiagonaux
sontvarTR(yit);
les éléments de
Ai dépendent
desparamètres 03B2
et0.
On définit une matrice de corrélation de travailRi(03B1)
de dimensionTi
xTi.
La matrice des variances- covariances de travail s’écrit :Plusieurs choix sont
possibles
pour la matrice de corrélation de travailRi(03B1) :
2022 la matrice identité
correspond
à unehypothèse d’indépendance
pour lamatrice de travail : les observations réalisées sur un même
sujet
sont noncorrélées;
2022 la matrice de corrélation de travail est
complètement
nonspécifiée : Ri(03B1)
=R(03B1). (Ce
choix n’estpossible qu’à
la condition que tous lesTi
soientégaux);
2022 la matrice de corrélation de travail
correspond
à une structureéchangeable : (Ri)st
= a, pours
2022 La matrice de corrélation de travail est stationnaire :
(Ri)siti = 03B1(|ti - si
A.1.3. Estimation des
paramètres 03B2
/3
est solution del’équation
d’estimationgénéralisée :
où la matrice
Zil
est définie parZil
==(Zil, ...ziT)
et la matricediagonale Di(03B2)
estégale
àDi(03B2)
=diag(Dit(03B2)), où Dit(03B2) = ~h ~~ évalué à ~ = z’it03B2.
Quand
la matrice de corrélation de travail est la matriceidentité,
on retrouve la fonction de score obtenue dans le casd’indépendance
des observations. L’estimationde {3
se fait à l’aide d’un processus itératif :algorithme
de Fischer modifié. Etant données les estimations en cours desparamètres
a et0,
l’estimation à l’itération k + 1 estégale
à :70
où la matrice de travail de Fisher
F( k)
estégale
àet où la fonction de
quasi-score (k)
estégale
à :où «A»
signifie
évaluéà 03B2 = (k).
Etant donné l’estimation en cours de
03B2,
on estime lesparamètres
aet 0
à l’aidedes résidus de Pearson en cours :
Le
paramètre d’échelle ~
est estimé par :Les
paramètres
a sont estimés différemment selon la définition de la matrice de corrélation de travailRi(03B1) :
e dans le cas où la matrice de corrélation de travail est
complètement
nonspécifiée,
on estimeR(a)
par :e dans le cas où la structure de la matrice de corrélation est la corrélation
échangeable,
on estime a par :A.1.4. Distribution
asymptotique de
Sous des conditions de
régularité «faibles»,
estasymptotiquement
distribuéselon une loi multinormale :
Si la matrice des variances-covariances est correctement
spécifiée (i. e. 03A3i = Si),
alors V == F et on retrouve le résultat
classique :
et l’estimation de
{3
estasymptotiquement
efficace. Par contre, s’ils’agit juste
d’unematrice de
travail,
alors il y aura perte d’efficacité.A.2 Modèle mixte linéaire pour données normales A.2.1. Le modèle
Soit
Ti
le nombre d’observations réalisées sur lesujet i;
onnote Yi
=( yi 1, ... , yiT2 )
le vecteur desréponses
et xi =(xi 1, - - . xiT, )
le vecteur des covariables pourl’individu i,
i =1,...,
n, pourlequel
chacune desTi composantes
est elle-mêmeun vecteur de covariables. Le modèle mixte linéaire pour données normales est une
extension du modèle linéaire pour données normales :
où zit =
zit(xit)
est un vecteur de dimension p, fonctionappropriée
du vecteur descovariables Xit. Dans la
plupart
des cas, 1 est lapremière composante
de zit ;wit -
wit(xit)
est un vecteur de dimension q,également
fonction du vecteurdes covariables xit . Dans la
plupart
des cas, wit est un sous-vecteur de zit ;est
un vecteur de dimension preprésentant
les effets dans lapopulation, bi
est un vecteur dedimension q représentant
les effets pour lesujet i, bi
~N(0, Q),
ei =
(eil, ..., eiTi)
est un vecteur de dimensionTi,
ei ocN(0, Ri),
les{ei}
etles
{bi}
sontindépendants.
Le modèle
précédent peut
s’écrire sous forme matricielle :où
Zi’
est la matrice(zil,
...,ziTi)
etWil
est la matrice(Wil, ...wiT2).
En
regroupant
les deux derniers termes en unseul,
le modèle s’écrit :où e*i
ocN(0, 03C32Vi(03B1))
avec03C32Vi(03B1)
=W’QWi
+Ri,
a est un vecteur de dimension r
comprenant
les éléments deQ
et les élémentspermettant
deparamétriser
les matricesRi,
les
{e*i}
sontindépendants.
72 A. GUÉGUEN, M. ZINS, J.P. NAKACHE
A.2.2. Estimation des
paramètres 03B2
et aLes estimations des
paramètres peuvent
être obtenues soit par la méthode du maximum de vraisemblance(MLE)
soit par celle du maximum de vraisemblance restreint(REML).
Il est recommandé d’utiliser la méthode REML car les estimations obtenues par la méthode MLEpeuvent
êtrebiaisées,
le biais étant d’autantplus important
que p, la dimension du vecteur/3,
estimportante.
Pour une valeur de ce
donnée,
l’estimateur du maximum de vraisemblance de{3 est:
L’estimateur du maximum de vraisemblance de
(T 2est :
L’estimateur du maximum de vraisemblance de ex maximise :
Pour une valeur de a
donnée,
l’estimateur RMLE de/3
est la même que celle donnée en(A.2.4).
L’estimateur du RMLE dea2 est:
L’estimateur RMLE de Q maximise :
L’estimation de a se fait à l’aide de
procédures
itératives :algorithme
de Newton-Raphson
oualgorithme
d’Estimation-Maximisation. Une fois l’estimation a’ obtenueen maximisant
L(03B1)
ou L*(03B1),
on obtient les estimations de/3
et de0-2
enremplaçant
Q par a’ dans les
équations (A.2.4)
et(A.2.5)
ou(A.2.7)
selon la méthode utilisée MLE ou REML.A.2.3. Estimation des
effets
aléatoires individuelsbi
L’estimation des effets
aléatoires {i}
est basée sur la fonction de densité des{bi}
conditionnellement auxdonnées {yi}.
La distribution aposteriori
debi
nedépend
que
de yi
carles {bi}
etles f et 1
sontindépendants.
A.2.4.
Inférences
sur lesparamètres
du modèleEn utilisant
(A.2.4),
et enremplaçant
a par â et03C32 par &2,
on obtient :Soit
Ho l’hypothèse
nulle à tester :où L est une matrice de dimensions l x p et de rang l.
Sous
l’hypothèse nulle,
suit
approximativement
une distribution dux2
àl degrés
de liberté.En ce
qui
concerne lesparamètres
a définissant la structure de la matrice des variances-covariances,
il estpréférable
d’utiliser les tests durapport
de vraisem-blance,
la vraisemblance du modèle étant soit celle du MLE soit celle du REML.Stram et Lee
[10]
ont montré que le test durapport
de vraisemblance est un test conservateur; eneffet,
la distributionasymptotique
durapport
de vraisemblance sousl’hypothèse
nulle est en fait unmélange
de distributions dux2 plutôt qu’une
distri-bution du
X2.
D’autre
part,
le choix entre deux modèlespartageant
la mêmepartie fixe,
maisprésentant
des matrices des variances-covariances de structures différentespeut
se faire en utilisant le critère d’information d’Akaike[8]
ou le critère d’information de Schwarz[9].
Verbeke etMolenberghs [11 ] proposent
uneadaptation
de ces deuxcritères