L’algorithme Monte Carlo EM - Estimation dans les GL2M

1.4 Estimation dans les GL2M

1.4.2 L’algorithme Monte Carlo EM

persion au mˆeme titre que les composantes de la variance si cela est n´ecessaire.

1.4.2 L’algorithme Monte Carlo EM

1.4.2.1 Limites de l’algorithme EM dans les GL2M

Depuis sa mise en place par Dempster, Laird et Rubin [17] en 1977, l’algorithme EM a permis, dans des contextes variés, de résoudre de nombreux problèmes liés à l’estimation des paramètres. En effet, cet algorithme constitue un outil conceptuellement simple pour obtenir des estimations du maximum de vraisemblance. Il permet, dans diverses situa-tions, de contourner la difficulté d’obtention de la vraisemblance des observations lorsque la distribution marginale de ces observations est difficile à spécifier. Il réalise cela par l’introduction de données manquantes, que l’on n’observe pas directement au cours de l’expérience, mais dont on connait la vraisemblance jointe aux données observées.

Dans les modèles à effets aléatoires, la distribution conditionnelle du vecteur réponse conditionnellement aux effets aléatoires et la distribution marginale des effets aléatoires sont connues. La distribution jointe du vecteur réponse Y et des effets aléatoires ξ s’obtient donc facilement, ce qui est loin d’être le cas de la distribution marginale de Y .

Les effets aléatoires n’étant pas observées, ils joueront logiquement le rôle des données manquantes. La distribution jointe précédente constitue alors la distribution des données complètes. En notant θ le vecteur des paramètres à estimer, cela s’écrit :

f (Y, ξ|θ) = f(Y |ξ, θ).f(ξ|θ)

où on adopte la notation générique f comme fonction de densité des lois des variables

indiqu´ees.

L’algorithme est itératif et se décompose, à chaque itération, en deux étapes. Soit θ[t] la

valeur des paramètres à l’itération [t]. Les deux étapes de l’algorithme EM peuvent se résumer de la fa¸con suivante :

– ´Etape E :

Les effets aléatoires n’étant pas observés, on remplace la log-vraisemblance des données complètes par son espérance selon la distribution conditionnelle des effets aléatoires sachant les données observées :

Q(θ|θ[t]) = E

– ´Etape M :

On maximise Q(θ|θ[t]) pour obtenir θ[t+1] :

θ^[t+1]= argmax Q(θ|θ^[t])

On itère ces deux étapes jusqu’à convergence. De nombreux travaux ont été réalisés pour étudier les conditions de convergence de cet algorithme (cf Wu [68]). Nous n’insistons pas ici sur ce point.

Comme nous l’avons déjà vu, dans le cadre des L2M, cet algorithme permet d’obtenir des estimations du maximum de vraisemblance ou du maximum de vraisemblance res-treint. Par contre, dans le cadre des GL2M, le raisonnement EM n’est pas directement applicable : on butte sur l’obstacle du calcul de l’espérance à l’étape E, réalisable avec la loi normale grâce aux propriétés de déconditionnement mais plus difficile de fa¸con générale avec d’autres lois. Devant la difficulté de ce calcul intégral, McCulloch [39] propose un

algorithme où l’étape E est réalisée par une méthode de Monte Carlo via l’algorithme de

Metropolis-Hastings. Après une brève description de l’algorithme de Metropolis-Hastings, nous décrivons plus précisément cette démarche dans la sous-section 1.4.2.3.

1.4.2.2 L’algorithme de Metropolis-Hastings

L’algorithme de Metropolis-Hastings, développé en premier lieu par des physiciens en 1940, a été adapté à la simulation statistique en 1970 par Hastings [28]. Cet algorithme est, sans aucun doute, l’une des méthodes MCMC (Markov Chain Monte Carlo) les plus connues et les plus utilisées dans la littérature. L’objectif des méthodes MCMC est de générer des échantillons selon une densité de probabilité “cible” π non calculable de fa¸con explicite. Plus précisément, on appelle algorithme MCMC toute méthode produisant une chaˆıne de Markov ergodique de loi stationnaire la distribution d’intérêt π. Ainsi, à partir d’un nombre important d’itérations (on parle d’étape de burn-in), les échantillons simulés sont supposés distribués suivant la distribution d’intérêt.

Supposons que l’on sache générer aisément des échantillons selon une densité h que l’on appelle densité “instrumentale” ou “candidate”. L’algorithme de Metropolis-Hastings va alors permettre de sélectionner, parmi les échantillons fournis par h, des échantillons représentatifs de π par une méthode d’acceptation/rejet. Nous en décrivons ci-dessous le principe algorithmique (Robert et Casella [50]) :

1.4.2 L’algorithme Monte Carlo EM 37 Algorithme de Metropolis-Hastings ´ Etant donné x[t], 1. Générer Yt∼ h(y|x[t]) 2. Prendre X^[t+1] = ( Yt avec probabilité ρ(x[t], Yt) x[t] avec probabilité 1− ρ(x[t], Yt) où ρ(x, y) = minn 1,^π(y)h(x|y) π(x)h(y|x) o

Une question naturelle se pose : quels choix possibles pour h. Plusieurs possibilit´es sont

envisageables. Nous retiendrons ici le cas où h est indépendante de l’événement x[t] : on

parle alors d’algorithme de Metropolis-Hastings ind´ependant.

1.4.2.3 Description de l’algorithme MCEM

Pour contourner le problème du calcul de l’espérance de l’étape E de l’algorithme EM, McCulloch [39] introduit une étape de Metropolis-Hastings afin de simuler des effets aléatoires à partir de la distribution conditionnelle des effets aléatoires ξ sachant le vecteur réponse Y . Les effets aléatoires ainsi simulés permettront ensuite d’approcher l’espérance par une méthode de Monte Carlo.

L’algorithme de Metropolis-Hastings nécessite de choisir une distribution instrumentale h à partir de laquelle seront générées des valeurs “potentielles” des effets aléatoires. Mc-Culloch propose de prendre pour h la distribution marginale des effets aléatoires. Notons

ici le vecteur de taille q des effets aléatoires ξ = (ξ1, . . . , ξq) correspondant à la dernière

valeur générée selon la distribution conditionnelle de ξ sachant Y et générons une nouvelle

valeur, ξ∗

k, pour la k`eme composante de ξ, `a partir de la distribution instrumentale. La

probabilit´e d’accepter la nouvelle valeur ξ∗ = (ξ1, . . . , ξ_k−1, ξ∗

k, ξk+1, . . . , ξq) s’´ecrit :

ρ(ξ, ξ^∗) = minn

1,^{f (ξ}^∗|y, θ)h(ξ) f (ξ|y, θ)h(ξ∗)

o`u le second terme se simplifie par : f (ξ∗|y, θ)h(ξ) f (ξ|y, θ)h(ξ∗) ⁼ f (ξ∗|y, θ)f(ξ|θ) f (ξ|y, θ)f(ξ∗|θ) = ^{f (y}|ξ∗, θ)f (ξ∗|θ)f(ξ|θ) f (y|ξ, θ)f(ξ|θ)f(ξ∗|θ) = ^{f (y}|ξ∗, θ) f (y|ξ, θ) = Qn i=1f (yi|ξ∗, θ) Qn i=1f (yi|ξ, θ)^.

Dans cette approche, cette simplification est essentielle. En effet, l’expression ci-dessus ne dépend plus de la distribution conditionnelle des effets aléatoires ξ sachant le vecteur réponse Y qui est inconnue. En fait, elle nécessite uniquement de connaˆıtre la distribution conditionnelle du vecteur réponse Y sachant les effets aléatoires ξ.

L’algorithme MCEM proposé par McCulloch peut se résumer, à l’itération [t], de la fa¸con suivante :

1. Générer M valeurs ξ[1], ξ[2], . . . , ξ[M ]à partir de la distribution conditionnelle de ξ

sa-chant les données observées et la valeur courante θ[t]des paramètres par l’algorithme

de Metropolis-Hastings pr´ec´edent,

2. Calculer θ[t+1]qui maximise l’approximation de Monte Carlo de E

ln f (y, ξ|θ)|y, θ[t] d´efinie par : 1 M M X m=1 ln f (y, ξ^[m]|θ).

On itère ces deux étapes jusqu’à convergence. Dans l’article de McCulloch [39], l’al-gorithme MCEM est testé et illustré sur simulations mais aucun résultat théorique de convergence ne vient appuyer ces simulations. Les conditions de convergence de cet algo-rithme ont été étudiées par Sherman et al. [55]. Il est important de souligner que cette méthode est numériquement exigeante du fait qu’elle nécessite de réaliser un nombre important de simulations à chaque étape de l’algorithme. Afin d’éviter ce type d’algo-rithmes très lourds d’un point de vue numérique, d’autres méthodes d’estimation ont été développées qui effectuent une linéarisation du modèle. Ainsi replongé dans un cadre linéaire, le problème du calcul intégral est alors contourné. Nous revenons ici sur un certain nombre de ces méthodes de linéarisation.

Dans le document Modèles linéaires généralisés à effets aléatoires : contributions au choix de modèle et au modèle de mélange (Page 36-40)