Cours 3 : L’´echantillonneur de Gibbs

(1)

Cours 3 : L’´echantillonneur de Gibbs

◮ 1) Principes g´en´eraux

◮ 2) Compl´etion

◮ 3) Convergence

◮ 4) Le th´eor`eme de Hammersley-Clifford

◮ 5) Mod`eles hi´erarchiques

◮ 6) Augmentation de donn´ees

◮ 7) Algorithme MCMC hybride

◮ 8) Dangers

(2)

Principes g´en´eraux

Pour simuler suivant une loif(θ) avecθ= (θ1, ..., θp), on peut utiliser l’id´ee suivante

◮ Initialisation: g´en´erer un vecteurθ= (θ1, ..., θp) suivant une loi de proposition initialeπ0

◮ Simuler suivantles lois conditionnelles Θi|θ1, θ2, . . . , θi−1, θi+1, . . . , θp

∼fi(θi|θ1, θ2, . . . , θi−1, θi+1, . . . , θp) fori= 1,2, . . . ,p.

(3)

L’´echantillonneur de Gibbs

Etant donn´e ´

θ^(t)

=

θ

₁^(t)

, ..., θ

p^(t)

,

1.

G´en´erer θ

₁^(t+1) ∼f₁

(θ

₁|θ₂^(t)

, ..., θ

^(t)p

),

2.

G´en´erer θ

₂^(t+1) ∼f₂

(θ

2|θ₁^(t+1)

, θ

₃^(t)

, ..., θ

p^(t)

),

. . .

p.

G´en´erer θ

p^(t+1) ∼f_p

(θ

p|θ^(t+1)₁

, θ

₂^(t+1)

, ..., θ

^(t+1)_p−1

),

Seules les lois conditionnelles

f₁

, . . . ,

f_p

sont utilis´ees pour la

simulation. Donc, mˆeme pour un probl`eme de grande dimension,

toutes les simulations sont univari´ees !

(4)

Propri´et´es

◮ Taux d’acceptation´egal `a 1

◮ Choix de laloi de propositionimpos´e par la m´ethode

◮ N´ecessite de connaˆıtre leslois conditionnellesdef

◮ Ne peut s’appliquer si le vecteur param`etre `a simuler est de dimension variable

◮ Algorithmemulti-dimensionnelpar construction

(5)

Cas bidimensionnel

Pour simuler suivant

(X,Y)∼f(x,y) l’échantillonneur de Gibbs se réduit à

Simulerx0 et pourt = 1,2, ...,g´en´erer (xt,yt) comme suit 1. yt ∼f_y|x(·|xt−1),

2. xt ∼f_x|y(·|yt),

o`ufy|x etfx|y sont les lois conditionnelles du couple (X,Y).

Remarque : (xt)t, (yt)t et (xt,yt)t sont des chaˆınes de Markov.

(6)

Cas Gaussien : X

i

∼ N (m , σ

²

)

◮ Vraisemblance

f(x|m, σ²)∝ σ²−n/2

exp − 1 2σ²

Xn i=1

(xi−m)²

!

◮ Lois a priori

◮ Moyenne

m∼ N m0, σ²₀

◮ Variance

σ²∼ IG(α, β)

(7)

Lois conditionnelles

◮ moyenne

m|σ²,x ∼ N M,Σ² avec

M= nσ²₀ nσ₀²+σ²

1 n

Xn i=1

xi

! +

σ² σ²+nσ₀²

m0 et Σ²= σ²σ²₀ σ²+nσ₀²

◮ variance

σ²|m,x ∼ IG n 2 +α,1

2 Xn

i=1

(xi−m)²+β

!

Donc,on peut simuler des couples (m, σ²) avec l’´echantillonneur de Gibbs

(8)

Compl´etion

◮ Définition: la densitég est unecomplétionde f si Z

Z

g(θ,η)dη=f(θ), i.e. sif est une loi marginale deg.

◮ Intérêt: les lois conditionnelles deg sont parfois plus simples à simuler que celles de f (e.g. analyse Bayésienne hiérarchique).

◮ Notations: pourp>1, soitY = (θ,η) de densit´e g(y) =g(y1, ...,yp) et de lois conditionnelles

Yi|y1, ...,yi−1,yi+1, ...,yp ∼gi(yi|y1, ...,yi−1,yi+1, ...,yp)

(9)

Echantillonneur de Gibbs apr`es compl´etion

Etant donn´e ´

y^(t)

=

y₁^(t)

, ...,

yp^(t)

,

1.

G´en´erer

y₁^(t+1) ∼g₁

(y

₁|y₂^(t)

, ...,

yp^(t)

),

2.

G´en´erer

y₂^(t+1) ∼g₂

(y

2|y₁^(t+1)

,

y₃^(t)

, ...,

y_p^(t)

),

. . .

p.

G´en´erer

y_p^(t+1) ∼g_p

(y

p|y₁^(t+1)

,

y₂^(t+1)

, ...,

y_p^(t+1)₋₁

),

(10)

Exemple : loi Cauchy-Normale (1)

◮ Posterior

f(θ|θ0)∝ e^−θ²^/2 [1 + (θ−θ0)²]^ν

◮ Compl´etion On a

f(θ|θ0)∝ Z ∞

0

e^−θ

2/2

e^{−[1+(θ−θ}⁰⁾²^]^η/2η^ν−1dη d’o`u

g(θ, η)∝e^−θ²^/2e^{−[1+(θ−θ}⁰⁾²^]^η/2η^ν−1

(11)

Exemple : loi Cauchy-Normale (2)

◮ Lois conditionnelles

g1(η|θ) = Ga

ν,1 + (θ−θ0)² 2

,

g2(θ|η) = N θ0η

1 +η, 1 1 +η

.

Le paramètreη n’a pas d’intérêt physique et sert uniquement à simplifier la simulationd’un échantillonθ^(t).

(12)

Condition de positivit´e

◮

Positivit´e

g⁽ⁱ⁾

(y

_i

) > 0,

i

= 1,

· · ·

,

p ⇒ g

(y

₁

, ...,

y_p

) > 0 o` u

g⁽ⁱ⁾

est la loi marginale de

Y_i

(ou support de la loi cible

g

´egal au produit cart´esien des supports des

g⁽ⁱ⁾

)

◮

Pour montrer la convergence de l’échantillonneur de Gibbs, la loi cible doit vérifier la condition de positivité.

◮

Contre-exemple

g

(y

₁

,

y₂

) = 1

2π [

I^ǫ

(y

₁

,

y₂

) +

I^ǫ^′

(y

₁

,

y₂

)] ,

o` u ǫ et ǫ

^′

sont deux disques de rayons 1 centr´es sur (1, 1) et (−1,

−1)

(autre exemple : vecteur non Gaussien dont les lois marginales sont Gaussiennes).

(13)

Illustration de la non-positivit´e

Initialisation Al´eatoire

−1 0 1 2 3 4

−101234

µ1 µ2

(14)

Illustration de la non-positivit´e

Gibbs coinc´e autour du mauvais mode

−1 0 1 2 3

−10123

µ1 µ2

(15)

Convergence de l’´echantillonneur de Gibbs

Si lacondition de positivitéest vérifiée et si le noyau de transition est absolument continu par rapport àg, on a

◮ Ergodicit´e SiR

|h(y)|g(y)dy <∞, alors

T→∞lim 1 T

XT t=1

h(y^(t)) = Z

h(y)g(y)dy

◮ Convergence en variation totale

n→∞lim Z

Kⁿ(y,·)µ(dy)−g

TV

= 0 pour toute loi initialeµ.

(16)

Remarques

◮ L’´echantillonneur de Gibbs est lacomposition de palgorithmes de Metropolis-Hastingsavec des probabilit´es d’acceptation

uniformément égales à 1.

◮ Echantillonneur de Gibbs `a´ balayage al´eatoire

(17)

Le th´eor`eme de Hammersley-Clifford

Une loi jointe est caract´eris´ee par l’ensemble de ses lois conditionnelles.

◮ Dimension 2

Si la densit´e jointeg(y1,y2) a des lois conditionnelles not´ees g1(y1|y2) etg2(y2|y1), alors (Hammersley and Clifford, 1970)

g(y1,y2) = g2(y2|y1)

R g2(v|y1)/g1(y1|v)dv.

(18)

G´en´eralisation

◮ Sous l’hypothèse depositivité, une loi jointeg peut s’écrire g(y1, . . . ,yp)∝

Yp j=1

gℓj(yℓj|yℓ1, . . . ,yℓj−1,y_ℓ^′_j+1, . . . ,y_ℓ^′_p) gℓj(y_ℓ^′_j|yℓ1, . . . ,yℓj−1,y_ℓ^′_j+1, . . . ,y_ℓ^′_p) pour toute permutation ld´efinie sur{1, ...,p} et touty^′ ∈ Y.

◮ Exemple: p= 2 etl1= 1,l2= 2 g(y1,y2)∝ g1(y1|y₂^′)

g1(y₁^′|y₂^′)

g2(y2|y1) g1(y₂^′|y1) On retrouve Hammersley-Clifford !

(19)

Mod`eles hi´erarchiques

L’échantillonneur de Gibbs est particulièrement bien adapté auxmodèles hiérarchiques:

◮ Les paramètres inconnus sont munis de lois a priori ainsi que les hyperparamètresassociés

◮ En général, on introduit des loisnon informativesau dernier niveau de la hiérarchie

(20)

Exemple

◮ Donn´ees Poissonniennes

Xi ∼ P(λ1) pour i= 1, . . . ,l1, Xi ∼ P(λ2) pour i=l1+ 1, . . . ,n, avec l1connu.

◮ Lois a priori sur les param`etres

λ1∼ Ga(α, β), λ2∼ Ga(α, β), α= 2.

◮ Loi a priori sur les hyperparam`etres f(β) = 1

βI_R⁺(β)

(21)

◮ Loi jointe f (x,λ, β)∝ 1

β

l₁

Y

i=1

λ^x₁ⁱ xi!e^−λ¹

Yn i=l1+1

λ^x₂ⁱ xi!e^−λ²

Y2 i=1

β^α

Γ (α)λ^α−1_i e^−βλⁱ

◮ Loi conditionnelles

◮ pour les param`etresλi

λ1|β,x ∼ Ga

l₁

X

i=1

xi+α, β+l1

!

λ2|β,x ∼ Ga Xn i=l1+1

xi+α, β+n−l1

! ,

◮ pourβ

β|x,λ∼ Ga(2α, λ1+λ2)

(22)

Donn´ees Poissonniennes cach´ees

Observations 0 1 2 3 4 ou plus

Nombre 139 128 55 25 13

◮ Données: observations du nombre de données égales à 0, 1, 2, 3 et du nombre de données≥4.

◮ Vraisemblance

ℓ(x1, . . . ,x5;λ)∝e^−347λλ128+55×2+25×3 1−e^−λ X3

i=0

λⁱ i!

!¹³ ,

◮ Idée: on munitλd’une loi a prioriπ(λ) = 1/λet on complète ce paramètre pary = (y1, ...,y13).

(23)

◮ Loi a posteriori

ℓ(λ,y1:13|x1:5)∝e^−347λλ128+55×2+25×3

Y13 i=1

λ^yⁱe^−λ yi!

!1 λ,

◮ Lois conditionnelles

◮ yi|λ∼ P(λ)Iy_i≥4,i= 1, ...,13

◮ λ|y ∼ Ga

313 +P13

i=1yi,360

◮ Estimateur deλ

bλ= 1 360T

XT t=1

313 + X13

i=1

y_i^(t)

!

Rao-Blackwellization

(24)

Conditionnement - Rao-Blackwellization

◮ Esp´erances conditionnelles

E[h(Λ)] =E[E[h(Λ)|Y]]

◮ Estimateurs

Ici on sait calculerg(Y) =E[h(Λ)|Y]. On en d´eduit deux estimateurs

Ib1= 1 T

XT t=1

h(Λt)

Ib2= 1 T

XT t=1

g(Yt) = 1 T

XT t=1

E[h(Λ)|Yt] R´eduction de variance

(25)

R´esultats de simulation

0 100 200 300 400 500

1.0211.0221.0231.0241.025

0.9 1.0 1.1 1.2

010203040

lambda

(26)

Algorithme MCMC hybride

◮ Motivations

◮ La convergence de l’échantillonneur de Gibbs peut êtrelente car on simule une seule composante à chaque itération

◮ Pas de probl`eme avecla loi de propositioncomme avec l’algorithme de Metropolis-Hastings

◮ Certaines lois conditionnelles peuvent ˆetreimpossibles `a simuler

◮ Définition: un algorithme MCMChybrideest une méthode MCMC utilisant simultanément des étapes d’échantillonneur de Gibbs et des

´etapes de Metropolis-Hastings

(27)

Algorithme MCMC hybride

Remplacer chaque ´etapei o`u une simulation suivant la loi conditionnelle gi(yi|)yj,j6=i est impossible par

1. Simuler yei ∼qi(yi|y₁^(t+1), ...,y_i^(t),y_i+1^(t), ...,yp^(t)), 2. Prendre

y_i^(t+1)=

yei avec probabilit´eρ y_i^(t)avec probabilit´e 1−ρ

ρ= 1∧



 g_i

e

y_i|y₁^(t+1), ...,y_i^(t),y_i+1^(t), ...,y_p^(t) g_i

y_i^(t)|y₁^(t+1), ...,y_i^(t),y_i+1^(t), ...,y_p^(t) q_i

y_i^(t)|y₁^(t+1), ...,ey_i,y_i+1^(t), ...,y_p^(t) q_i

e

y_i|y^(t)₁ , ...,y_i^(t),y_i+1^(t), ...,y_p^(t)





Remarque: l’étape de Metropolis-Hastings n’est utiliséequ’une fois(et la convergence est assurée).

(28)

Dangers

◮ Modèle à effets aléatoires

Yij=µ+αi+εij, i = 1, . . . ,I, j= 1, . . . ,J, avec

αi∼ N(0, σ²) etεij∼ N(0, τ²),

◮ Lois a priori

La loi a priori de Jeffreys (impropre) pour les param`etresµ, σetτ est

π(µ, σ², τ²) = 1 σ²τ² .

(29)

Lois conditionnelles

Les lois conditionnellessont d´efinies par αi|y, µ, σ², τ² ∼ N

J(¯yi−µ)

J+τ²σ⁻²,(Jτ⁻²+σ⁻²)⁻¹

, µ|α,y, σ², τ² ∼ N(¯y−α, τ¯ ²/JI),

σ²|α, µ,y, τ² ∼ IG I 2,1

2 X

i

α²_i

! ,

τ²|α, µ,y, σ² ∼ IG



IJ 2,1

2 X

i,j

(yij−αi−µ)²



 ,

et sontfaciles `a simuler. Mais laloi jointe n’existe pas!

(30)

Simulations

Evolution de´ µ^(t) et histogramme pour 1000 it´erations

-4 -3 -2 -1 0

051015202530

(1000 iterations)

freq. -8-6-4-20 observations