• Aucun résultat trouvé

2.2 Analyse de donn´ ees longitudinales

2.2.1 Mod` eles mixtes pour donn´ ees longitudinales

Mod`ele lin´eaire mixte

Aujourd’hui, le mod`ele lin´eaire mixte, introduit par Harville (1977) et popularis´e par Laird et Ware (1982), apparaˆıt comme la m´ethode de r´ef´erence pour l’´etude d’un mar-queur Gaussien au cours du temps. Il permet de prendre en consid´eration la corr´elation des observations dans un contexte de donn´ees r´ep´et´ees et permet de d´ecrire l’´evolution moyenne au cours du temps pour la population ainsi que les ´evolutions individuelles par l’interm´ediaire d’effets al´eatoires individuels mesurant l’´ecart de chacun des individus par rapport `a l’´evolution moyenne de la population. L’id´ee sous-jacente au mod`ele lin´eaire `a effets al´eatoires est que la variable r´eponse suit un mod`ele de r´egression lin´eaire mais avec

2.2 : Analyse de donn´ees longitudinales 51

des coefficients de r´egression sp´ecifique `a chaque sujet. Dans une population de N sujets, le vecteur des observations du sujet i est not´e Yi = (Yi1, ..., Yini) o`u ni est le nombre de mesures r´ep´et´ees du marqueur pour le sujet i. Le mod`ele lin´eaire mixte est d´efini de la mani`ere suivante :

                   Yi = Xiβ + Ziui+ i ui ∼ N (0, G) i ∼ N (0, Σi) ui ⊥ i, ∀ i et ui ⊥ uj, ∀ i, j

o`u Xi est une matrice de variables explicatives de dimension ni∗ p (incluant notamment le temps) associ´ee au vecteur d’effets fixes β, Zi est une sous-matrice de Xi de dimension ni∗ q associ´ee au vecteur d’effets al´eatoires ui sp´ecifiques `a chaque individu (avec q ≤ p le nombre d’effets al´eatoires). Le vecteur d’erreur i est suppos´e ind´ependant du vecteur d’effets al´eatoires ui pour chaque sujet. Soit fi(Yi|ui) et fi(ui) les fonctions de densit´es respectives du vecteur des mesures r´ep´et´ees sachant les effets al´eatoires et du vecteur d’effets al´eatoires. Ces distributions d´efinissent la formulation hi´erarchique du mod`ele lin´eaire mixte. La densit´e marginale du vecteur des mesures s’´ecrit donc :

fi(Yi) = Z

fi(Yi|ui)fi(ui)dui

Il est alors facile de montrer que fi(Yi) est la densit´e d’une loi multivari´ee normale : Yi ∼ N (Xiβ, Vi = ZiGZi0+ Σi)

Cette formulation marginale du mod`ele est celle classiquement utilis´ee pour l’estimation du vecteur des param`etres du mod`ele θ = (β, α), incluant les param`etres de r´egression β et le vecteur de param`etres α des matrices de variance-covariance G et Σi. Cependant, la formulation marginale du mod`ele ne prend pas explicitement en consid´eration l’h´et´ ero-g´en´eit´e entre les sujets au travers des effets al´eatoires. La matrice de variance-covariance Vi = ZiGZi0 + Σi doit ˆetre d´efinie positive. Il est possible, selon la forme de Zi, que Vi soit d´efinie positive alors que G ne l’est pas. Dans ce cas, le mod`ele marginal est valide alors que le mod`ele hi´erarchique ne l’est pas. Pour avoir concordance entre la formulation marginale et la formulation hi´erarchique, il faut contraindre la matrice G `a ˆetre d´efinie positive, en reparam´etrant le mod`ele en utilisant la d´ecomposition de Cholesky de G.

Une approche classique pour l’estimation du vecteur de param`etres θ du mod`ele est la maximisation de la vraisemblance marginale :

L(θ) = N Y i=1  1 2π ni/2 |Vi|−1/2exp  −1 2(Yi− Xiβ)0Vi−1(Yi − Xiβ)  (2.1) La log-vraisemblance est plus souvent utilis´ee pour des raisons pratiques. Conditionnel-lement aux param`etres de variance α, l’estimateur du maximum de vraisemblance (MLE pour Maximum Likelihood Estimator) du vecteur de param`etres β est donn´e par Laird et Ware (1982) : ˆ β = N X i=1 Xi0Vˆi−1Xi !−1 N X i=1 Xi0Vˆi−1Yi

avec ˆVi = Vi( ˆα). L’estimateur des ´el´ements de la matrice de variance-covariance ˆα est connu pour ˆetre biais´e dans le cas d’une estimation par maximum de vraisemblance. Pat-terson et Thompson (1971) ont propos´e une approche alternative (REML pour REstric-tive Maximum Likelihood). Les diff´erences entre les estimateurs MLE et REML sont tr`es faibles sur de grands ´echantillons. Les applications d´evelopp´ees dans cette th`ese portent sur de grands ´echantillons, les estimateurs utilis´es sont ceux du maximum de vraisem-blance.

L’estimation des param`etres du mod`ele par maximum de vraisemblance peut se faire de plusieurs mani`eres. Pour l’approche marginale, Harville (1977) pr´econise l’utilisation des algorithmes it´eratifs comme l’algorithme EM (Dempster et al., 1977) ou l’algorithme de Newton-Raphson (Fletcher, 2000). Le principe de ces algorithmes sera d´evelopp´e dans la section 2.4. Une alternative `a l’approche par maximum de vraisemblance est l’approche bay´esienne. La formulation hi´erarchique du mod`ele mixte `a effets al´eatoires a ´et´e utili-s´ee dans un cadre bay´esien par Laird et Ware (1982) ou encore Verbeke et Molenberghs (2000). Un algorithme envisageable dans un cadre bay´esien peut ˆetre l’algorithme MCMC (Markov Chain Monte Carlo).

Mod`ele lin´eaire g´en´eralis´e `a effets mixtes

Les mod`eles lin´eaires g´en´eralis´es, introduits par McCullagh et Nelder (1989), sont une extension des mod`eles lin´eaires classiques pour des variables non-gaussiennes. L’intro-duction d’effets al´eatoires dans les mod`eles lin´eaires g´en´eralis´es permet de mod´eliser la corr´elation des donn´ees et d´efinit la classe des mod`eles lin´eaires g´en´eralis´es `a effets mixtes

2.2 : Analyse de donn´ees longitudinales 53

(Davidian et Giltinan, 1995; McCulloch et Searle, 2004). La variable r´eponse Yij est sup-pos´ee suivre une distribution de la famille exponentielle, conditionnellement aux vecteurs d’effets al´eatoires ui :

fYi|ui(yi|ui) = exp yiθi − g(θi)

τ2 − c(yi, τ ) 

et l’esp´erance conditionnelle de yi est d´efinie par E[yi|ui] = µi = ∂g(θi)

∂θi h(µi) = Xiβ + Ziui

o`u h est appel´ee fonction de lien associant l’esp´erance conditionnelle de yi au pr´edicteur lin´eaire. La variance conditionnelle de Yi s’´ecrit :

V ar(Yi|ui) = (τ−2)

2g(θi) ∂θ2

i