• Aucun résultat trouvé

1.4 Estimation dans les GL2M

1.4.2 L’algorithme Monte Carlo EM

persion au mˆeme titre que les composantes de la variance si cela est n´ecessaire.

1.4.2 L’algorithme Monte Carlo EM

1.4.2.1 Limites de l’algorithme EM dans les GL2M

Depuis sa mise en place par Dempster, Laird et Rubin [17] en 1977, l’algorithme EM a permis, dans des contextes vari´es, de r´esoudre de nombreux probl`emes li´es `a l’estimation des param`etres. En effet, cet algorithme constitue un outil conceptuellement simple pour obtenir des estimations du maximum de vraisemblance. Il permet, dans diverses situa-tions, de contourner la difficult´e d’obtention de la vraisemblance des observations lorsque la distribution marginale de ces observations est difficile `a sp´ecifier. Il r´ealise cela par l’introduction de donn´ees manquantes, que l’on n’observe pas directement au cours de l’exp´erience, mais dont on connait la vraisemblance jointe aux donn´ees observ´ees.

Dans les mod`eles `a effets al´eatoires, la distribution conditionnelle du vecteur r´eponse conditionnellement aux effets al´eatoires et la distribution marginale des effets al´eatoires sont connues. La distribution jointe du vecteur r´eponse Y et des effets al´eatoires ξ s’obtient donc facilement, ce qui est loin d’ˆetre le cas de la distribution marginale de Y .

Les effets al´eatoires n’´etant pas observ´ees, ils joueront logiquement le rˆole des donn´ees manquantes. La distribution jointe pr´ec´edente constitue alors la distribution des donn´ees compl`etes. En notant θ le vecteur des param`etres `a estimer, cela s’´ecrit :

f (Y, ξ|θ) = f(Y |ξ, θ).f(ξ|θ)

o`u on adopte la notation g´en´erique f comme fonction de densit´e des lois des variables

indiqu´ees.

L’algorithme est it´eratif et se d´ecompose, `a chaque it´eration, en deux ´etapes. Soit θ[t] la

valeur des param`etres `a l’it´eration [t]. Les deux ´etapes de l’algorithme EM peuvent se r´esumer de la fa¸con suivante :

– ´Etape E :

Les effets al´eatoires n’´etant pas observ´es, on remplace la log-vraisemblance des donn´ees compl`etes par son esp´erance selon la distribution conditionnelle des effets al´eatoires sachant les donn´ees observ´ees :

Q(θ|θ[t]) = E

– ´Etape M :

On maximise Q(θ|θ[t]) pour obtenir θ[t+1] :

θ[t+1]= argmax Q(θ|θ[t])

On it`ere ces deux ´etapes jusqu’`a convergence. De nombreux travaux ont ´et´e r´ealis´es pour ´etudier les conditions de convergence de cet algorithme (cf Wu [68]). Nous n’insistons pas ici sur ce point.

Comme nous l’avons d´ej`a vu, dans le cadre des L2M, cet algorithme permet d’obtenir des estimations du maximum de vraisemblance ou du maximum de vraisemblance res-treint. Par contre, dans le cadre des GL2M, le raisonnement EM n’est pas directement applicable : on butte sur l’obstacle du calcul de l’esp´erance `a l’´etape E, r´ealisable avec la loi normale grˆace aux propri´et´es de d´econditionnement mais plus difficile de fa¸con g´en´erale avec d’autres lois. Devant la difficult´e de ce calcul int´egral, McCulloch [39] propose un

algorithme o`u l’´etape E est r´ealis´ee par une m´ethode de Monte Carlo via l’algorithme de

Metropolis-Hastings. Apr`es une br`eve description de l’algorithme de Metropolis-Hastings, nous d´ecrivons plus pr´ecis´ement cette d´emarche dans la sous-section 1.4.2.3.

1.4.2.2 L’algorithme de Metropolis-Hastings

L’algorithme de Metropolis-Hastings, d´evelopp´e en premier lieu par des physiciens en 1940, a ´et´e adapt´e `a la simulation statistique en 1970 par Hastings [28]. Cet algorithme est, sans aucun doute, l’une des m´ethodes MCMC (Markov Chain Monte Carlo) les plus connues et les plus utilis´ees dans la litt´erature. L’objectif des m´ethodes MCMC est de g´en´erer des ´echantillons selon une densit´e de probabilit´e “cible” π non calculable de fa¸con explicite. Plus pr´ecis´ement, on appelle algorithme MCMC toute m´ethode produisant une chaˆıne de Markov ergodique de loi stationnaire la distribution d’int´erˆet π. Ainsi, `a partir d’un nombre important d’it´erations (on parle d’´etape de burn-in), les ´echantillons simul´es sont suppos´es distribu´es suivant la distribution d’int´erˆet.

Supposons que l’on sache g´en´erer ais´ement des ´echantillons selon une densit´e h que l’on appelle densit´e “instrumentale” ou “candidate”. L’algorithme de Metropolis-Hastings va alors permettre de s´electionner, parmi les ´echantillons fournis par h, des ´echantillons repr´esentatifs de π par une m´ethode d’acceptation/rejet. Nous en d´ecrivons ci-dessous le principe algorithmique (Robert et Casella [50]) :

1.4.2 L’algorithme Monte Carlo EM 37 Algorithme de Metropolis-Hastings ´ Etant donn´e x[t], 1. G´en´erer Yt∼ h(y|x[t]) 2. Prendre X[t+1] = ( Yt avec probabilit´e ρ(x[t], Yt) x[t] avec probabilit´e 1− ρ(x[t], Yt) o`u ρ(x, y) = minn 1,π(y)h(x|y) π(x)h(y|x) o

Une question naturelle se pose : quels choix possibles pour h. Plusieurs possibilit´es sont

envisageables. Nous retiendrons ici le cas o`u h est ind´ependante de l’´ev´enement x[t] : on

parle alors d’algorithme de Metropolis-Hastings ind´ependant.

1.4.2.3 Description de l’algorithme MCEM

Pour contourner le probl`eme du calcul de l’esp´erance de l’´etape E de l’algorithme EM, McCulloch [39] introduit une ´etape de Metropolis-Hastings afin de simuler des effets al´eatoires `a partir de la distribution conditionnelle des effets al´eatoires ξ sachant le vecteur r´eponse Y . Les effets al´eatoires ainsi simul´es permettront ensuite d’approcher l’esp´erance par une m´ethode de Monte Carlo.

L’algorithme de Metropolis-Hastings n´ecessite de choisir une distribution instrumentale h `a partir de laquelle seront g´en´er´ees des valeurs “potentielles” des effets al´eatoires. Mc-Culloch propose de prendre pour h la distribution marginale des effets al´eatoires. Notons

ici le vecteur de taille q des effets al´eatoires ξ = (ξ1, . . . , ξq) correspondant `a la derni`ere

valeur g´en´er´ee selon la distribution conditionnelle de ξ sachant Y et g´en´erons une nouvelle

valeur, ξ

k, pour la k`eme composante de ξ, `a partir de la distribution instrumentale. La

probabilit´e d’accepter la nouvelle valeur ξ = (ξ1, . . . , ξk−1, ξ

k, ξk+1, . . . , ξq) s’´ecrit :

ρ(ξ, ξ) = minn

1,f (ξ|y, θ)h(ξ) f (ξ|y, θ)h(ξ)

o`u le second terme se simplifie par : f (ξ|y, θ)h(ξ) f (ξ|y, θ)h(ξ) = f (ξ|y, θ)f(ξ|θ) f (ξ|y, θ)f(ξ|θ) = f (y, θ)f (ξ|θ)f(ξ|θ) f (y|ξ, θ)f(ξ|θ)f(ξ|θ) = f (y, θ) f (y|ξ, θ) = Qn i=1f (yi, θ) Qn i=1f (yi|ξ, θ).

Dans cette approche, cette simplification est essentielle. En effet, l’expression ci-dessus ne d´epend plus de la distribution conditionnelle des effets al´eatoires ξ sachant le vecteur r´eponse Y qui est inconnue. En fait, elle n´ecessite uniquement de connaˆıtre la distribution conditionnelle du vecteur r´eponse Y sachant les effets al´eatoires ξ.

L’algorithme MCEM propos´e par McCulloch peut se r´esumer, `a l’it´eration [t], de la fa¸con suivante :

1. G´en´erer M valeurs ξ[1], ξ[2], . . . , ξ[M ]`a partir de la distribution conditionnelle de ξ

sa-chant les donn´ees observ´ees et la valeur courante θ[t]des param`etres par l’algorithme

de Metropolis-Hastings pr´ec´edent,

2. Calculer θ[t+1]qui maximise l’approximation de Monte Carlo de E

ln f (y, ξ|θ)|y, θ[t] d´efinie par : 1 M M X m=1 ln f (y, ξ[m]|θ).

On it`ere ces deux ´etapes jusqu’`a convergence. Dans l’article de McCulloch [39], l’al-gorithme MCEM est test´e et illustr´e sur simulations mais aucun r´esultat th´eorique de convergence ne vient appuyer ces simulations. Les conditions de convergence de cet algo-rithme ont ´et´e ´etudi´ees par Sherman et al. [55]. Il est important de souligner que cette m´ethode est num´eriquement exigeante du fait qu’elle n´ecessite de r´ealiser un nombre important de simulations `a chaque ´etape de l’algorithme. Afin d’´eviter ce type d’algo-rithmes tr`es lourds d’un point de vue num´erique, d’autres m´ethodes d’estimation ont ´et´e d´evelopp´ees qui effectuent une lin´earisation du mod`ele. Ainsi replong´e dans un cadre lin´eaire, le probl`eme du calcul int´egral est alors contourn´e. Nous revenons ici sur un certain nombre de ces m´ethodes de lin´earisation.

Documents relatifs