Cours 3 : L’´echantillonneur de Gibbs
◮ 1) Principes g´en´eraux
◮ 2) Compl´etion
◮ 3) Convergence
◮ 4) Le th´eor`eme de Hammersley-Clifford
◮ 5) Mod`eles hi´erarchiques
◮ 6) Augmentation de donn´ees
◮ 7) Algorithme MCMC hybride
◮ 8) Dangers
Principes g´en´eraux
Pour simuler suivant une loif(θ) avecθ= (θ1, ..., θp), on peut utiliser l’id´ee suivante
◮ Initialisation: g´en´erer un vecteurθ= (θ1, ..., θp) suivant une loi de proposition initialeπ0
◮ Simuler suivantles lois conditionnelles Θi|θ1, θ2, . . . , θi−1, θi+1, . . . , θp
∼fi(θi|θ1, θ2, . . . , θi−1, θi+1, . . . , θp) fori= 1,2, . . . ,p.
L’´echantillonneur de Gibbs
Etant donn´e ´
θ(t)=
θ
1(t), ..., θ
p(t),
1.
G´en´erer θ
1(t+1) ∼f1(θ
1|θ2(t), ..., θ
(t)p),
2.G´en´erer θ
2(t+1) ∼f2(θ
2|θ1(t+1), θ
3(t), ..., θ
p(t)),
. . .
p.
G´en´erer θ
p(t+1) ∼fp(θ
p|θ(t+1)1, θ
2(t+1), ..., θ
(t+1)p−1),
Seules les lois conditionnelles
f1, . . . ,
fpsont utilis´ees pour la
simulation. Donc, mˆeme pour un probl`eme de grande dimension,
toutes les simulations sont univari´ees !
Propri´et´es
◮ Taux d’acceptation´egal `a 1
◮ Choix de laloi de propositionimpos´e par la m´ethode
◮ N´ecessite de connaˆıtre leslois conditionnellesdef
◮ Ne peut s’appliquer si le vecteur param`etre `a simuler est de dimension variable
◮ Algorithmemulti-dimensionnelpar construction
Cas bidimensionnel
Pour simuler suivant
(X,Y)∼f(x,y) l’´echantillonneur de Gibbs se r´eduit `a
Simulerx0 et pourt = 1,2, ...,g´en´erer (xt,yt) comme suit 1. yt ∼fy|x(·|xt−1),
2. xt ∼fx|y(·|yt),
o`ufy|x etfx|y sont les lois conditionnelles du couple (X,Y).
Remarque : (xt)t, (yt)t et (xt,yt)t sont des chaˆınes de Markov.
Cas Gaussien : X
i∼ N (m , σ
2)
◮ Vraisemblance
f(x|m, σ2)∝ σ2−n/2
exp − 1 2σ2
Xn i=1
(xi−m)2
!
◮ Lois a priori
◮ Moyenne
m∼ N m0, σ20
◮ Variance
σ2∼ IG(α, β)
Lois conditionnelles
◮ moyenne
m|σ2,x ∼ N M,Σ2 avec
M= nσ20 nσ02+σ2
1 n
Xn i=1
xi
! +
σ2 σ2+nσ02
m0 et Σ2= σ2σ20 σ2+nσ02
◮ variance
σ2|m,x ∼ IG n 2 +α,1
2 Xn
i=1
(xi−m)2+β
!
Donc,on peut simuler des couples (m, σ2) avec l’´echantillonneur de Gibbs
Compl´etion
◮ D´efinition: la densit´eg est unecompl´etionde f si Z
Z
g(θ,η)dη=f(θ), i.e. sif est une loi marginale deg.
◮ Int´erˆet: les lois conditionnelles deg sont parfois plus simples `a simuler que celles de f (e.g. analyse Bay´esienne hi´erarchique).
◮ Notations: pourp>1, soitY = (θ,η) de densit´e g(y) =g(y1, ...,yp) et de lois conditionnelles
Yi|y1, ...,yi−1,yi+1, ...,yp ∼gi(yi|y1, ...,yi−1,yi+1, ...,yp)
Echantillonneur de Gibbs apr`es compl´etion
Etant donn´e ´
y(t)=
y1(t)
, ...,
yp(t),
1.
G´en´erer
y1(t+1) ∼g1(y
1|y2(t), ...,
yp(t)),
2.G´en´erer
y2(t+1) ∼g2(y
2|y1(t+1),
y3(t), ...,
yp(t)),
. . .
p.
G´en´erer
yp(t+1) ∼gp(y
p|y1(t+1),
y2(t+1), ...,
yp(t+1)−1),
Exemple : loi Cauchy-Normale (1)
◮ Posterior
f(θ|θ0)∝ e−θ2/2 [1 + (θ−θ0)2]ν
◮ Compl´etion On a
f(θ|θ0)∝ Z ∞
0
e−θ
2/2
e−[1+(θ−θ0)2]η/2ην−1dη d’o`u
g(θ, η)∝e−θ2/2e−[1+(θ−θ0)2]η/2ην−1
Exemple : loi Cauchy-Normale (2)
◮ Lois conditionnelles
g1(η|θ) = Ga
ν,1 + (θ−θ0)2 2
,
g2(θ|η) = N θ0η
1 +η, 1 1 +η
.
Le param`etreη n’a pas d’int´erˆet physique et sert uniquement `a simplifier la simulationd’un ´echantillonθ(t).
Condition de positivit´e
◮
Positivit´e
g(i)
(y
i) > 0,
i= 1,
· · ·,
p ⇒ g(y
1, ...,
yp) > 0 o` u
g(i)est la loi marginale de
Yi(ou support de la loi cible
g´egal au produit cart´esien des supports des
g(i))
◮
Pour montrer la convergence de l’´echantillonneur de Gibbs, la loi cible doit v´erifier la condition de positivit´e.
◮
Contre-exemple
g
(y
1,
y2) = 1
2π [
Iǫ(y
1,
y2) +
Iǫ′(y
1,
y2)] ,
o` u ǫ et ǫ
′sont deux disques de rayons 1 centr´es sur (1, 1) et (−1,
−1)(autre exemple : vecteur non Gaussien dont les lois marginales sont Gaussiennes).
Illustration de la non-positivit´e
Initialisation Al´eatoire
−1 0 1 2 3 4
−101234
µ1 µ2
Illustration de la non-positivit´e
Gibbs coinc´e autour du mauvais mode
−1 0 1 2 3
−10123
µ1 µ2
Convergence de l’´echantillonneur de Gibbs
Si lacondition de positivit´eest v´erifi´ee et si le noyau de transition est absolument continu par rapport `ag, on a
◮ Ergodicit´e SiR
|h(y)|g(y)dy <∞, alors
T→∞lim 1 T
XT t=1
h(y(t)) = Z
h(y)g(y)dy
◮ Convergence en variation totale
n→∞lim Z
Kn(y,·)µ(dy)−g
TV
= 0 pour toute loi initialeµ.
Remarques
◮ L’´echantillonneur de Gibbs est lacomposition de palgorithmes de Metropolis-Hastingsavec des probabilit´es d’acceptation
uniform´ement ´egales `a 1.
◮ Echantillonneur de Gibbs `a´ balayage al´eatoire
Le th´eor`eme de Hammersley-Clifford
Une loi jointe est caract´eris´ee par l’ensemble de ses lois conditionnelles.
◮ Dimension 2
Si la densit´e jointeg(y1,y2) a des lois conditionnelles not´ees g1(y1|y2) etg2(y2|y1), alors (Hammersley and Clifford, 1970)
g(y1,y2) = g2(y2|y1)
R g2(v|y1)/g1(y1|v)dv.
G´en´eralisation
◮ Sous l’hypoth`ese depositivit´e, une loi jointeg peut s’´ecrire g(y1, . . . ,yp)∝
Yp j=1
gℓj(yℓj|yℓ1, . . . ,yℓj−1,yℓ′j+1, . . . ,yℓ′p) gℓj(yℓ′j|yℓ1, . . . ,yℓj−1,yℓ′j+1, . . . ,yℓ′p) pour toute permutation ld´efinie sur{1, ...,p} et touty′ ∈ Y.
◮ Exemple: p= 2 etl1= 1,l2= 2 g(y1,y2)∝ g1(y1|y2′)
g1(y1′|y2′)
g2(y2|y1) g1(y2′|y1) On retrouve Hammersley-Clifford !
Mod`eles hi´erarchiques
L’´echantillonneur de Gibbs est particuli`erement bien adapt´e auxmod`eles hi´erarchiques:
◮ Les param`etres inconnus sont munis de lois a priori ainsi que les hyperparam`etresassoci´es
◮ En g´en´eral, on introduit des loisnon informativesau dernier niveau de la hi´erarchie
Exemple
◮ Donn´ees Poissonniennes
Xi ∼ P(λ1) pour i= 1, . . . ,l1, Xi ∼ P(λ2) pour i=l1+ 1, . . . ,n, avec l1connu.
◮ Lois a priori sur les param`etres
λ1∼ Ga(α, β), λ2∼ Ga(α, β), α= 2.
◮ Loi a priori sur les hyperparam`etres f(β) = 1
βIR+(β)
◮ Loi jointe f (x,λ, β)∝ 1
β
l1
Y
i=1
λx1i xi!e−λ1
Yn i=l1+1
λx2i xi!e−λ2
Y2 i=1
βα
Γ (α)λα−1i e−βλi
◮ Loi conditionnelles
◮ pour les param`etresλi
λ1|β,x ∼ Ga
l1
X
i=1
xi+α, β+l1
!
λ2|β,x ∼ Ga Xn i=l1+1
xi+α, β+n−l1
! ,
◮ pourβ
β|x,λ∼ Ga(2α, λ1+λ2)
Donn´ees Poissonniennes cach´ees
Observations 0 1 2 3 4 ou plus
Nombre 139 128 55 25 13
◮ Donn´ees: observations du nombre de donn´ees ´egales `a 0, 1, 2, 3 et du nombre de donn´ees≥4.
◮ Vraisemblance
ℓ(x1, . . . ,x5;λ)∝e−347λλ128+55×2+25×3 1−e−λ X3
i=0
λi i!
!13 ,
◮ Id´ee: on munitλd’une loi a prioriπ(λ) = 1/λet on compl`ete ce param`etre pary = (y1, ...,y13).
◮ Loi a posteriori
ℓ(λ,y1:13|x1:5)∝e−347λλ128+55×2+25×3
Y13 i=1
λyie−λ yi!
!1 λ,
◮ Lois conditionnelles
◮ yi|λ∼ P(λ)Iyi≥4,i= 1, ...,13
◮ λ|y ∼ Ga
313 +P13
i=1yi,360
◮ Estimateur deλ
bλ= 1 360T
XT t=1
313 + X13
i=1
yi(t)
!
Rao-Blackwellization
Conditionnement - Rao-Blackwellization
◮ Esp´erances conditionnelles
E[h(Λ)] =E[E[h(Λ)|Y]]
◮ Estimateurs
Ici on sait calculerg(Y) =E[h(Λ)|Y]. On en d´eduit deux estimateurs
Ib1= 1 T
XT t=1
h(Λt)
Ib2= 1 T
XT t=1
g(Yt) = 1 T
XT t=1
E[h(Λ)|Yt] R´eduction de variance
R´esultats de simulation
0 100 200 300 400 500
1.0211.0221.0231.0241.025
0.9 1.0 1.1 1.2
010203040
lambda
Algorithme MCMC hybride
◮ Motivations
◮ La convergence de l’´echantillonneur de Gibbs peut ˆetrelente car on simule une seule composante `a chaque it´eration
◮ Pas de probl`eme avecla loi de propositioncomme avec l’algorithme de Metropolis-Hastings
◮ Certaines lois conditionnelles peuvent ˆetreimpossibles `a simuler
◮ D´efinition: un algorithme MCMChybrideest une m´ethode MCMC utilisant simultan´ement des ´etapes d’´echantillonneur de Gibbs et des
´etapes de Metropolis-Hastings
Algorithme MCMC hybride
Remplacer chaque ´etapei o`u une simulation suivant la loi conditionnelle gi(yi|)yj,j6=i est impossible par
1. Simuler yei ∼qi(yi|y1(t+1), ...,yi(t),yi+1(t), ...,yp(t)), 2. Prendre
yi(t+1)=
yei avec probabilit´eρ yi(t)avec probabilit´e 1−ρ
ρ= 1∧
gi
e
yi|y1(t+1), ...,yi(t),yi+1(t), ...,yp(t) gi
yi(t)|y1(t+1), ...,yi(t),yi+1(t), ...,yp(t) qi
yi(t)|y1(t+1), ...,eyi,yi+1(t), ...,yp(t) qi
e
yi|y(t)1 , ...,yi(t),yi+1(t), ...,yp(t)
Remarque: l’´etape de Metropolis-Hastings n’est utilis´eequ’une fois(et la convergence est assur´ee).
Dangers
◮ Mod`ele `a effets al´eatoires
Yij=µ+αi+εij, i = 1, . . . ,I, j= 1, . . . ,J, avec
αi∼ N(0, σ2) etεij∼ N(0, τ2),
◮ Lois a priori
La loi a priori de Jeffreys (impropre) pour les param`etresµ, σetτ est
π(µ, σ2, τ2) = 1 σ2τ2 .
Lois conditionnelles
Les lois conditionnellessont d´efinies par αi|y, µ, σ2, τ2 ∼ N
J(¯yi−µ)
J+τ2σ−2,(Jτ−2+σ−2)−1
, µ|α,y, σ2, τ2 ∼ N(¯y−α, τ¯ 2/JI),
σ2|α, µ,y, τ2 ∼ IG I 2,1
2 X
i
α2i
! ,
τ2|α, µ,y, σ2 ∼ IG
IJ 2,1
2 X
i,j
(yij−αi−µ)2
,
et sontfaciles `a simuler. Mais laloi jointe n’existe pas!
Simulations
Evolution de´ µ(t) et histogramme pour 1000 it´erations
-4 -3 -2 -1 0
051015202530
(1000 iterations)
freq. -8-6-4-20 observations