Cours 2 : Metropolis - Hastings
◮ 1) Introduction: m´ethodes de Monte Carlo par chaˆınes de Markov (MCMC)
◮ 2) L’algorithme de Metropolis-Hastingsind´ependant
◮ 3) L’algorithme de Metropolis-Hastings`a marche al´eatoire
◮ 4) Algorithme de Green`a sauts r´eversibles
Introduction
Pour approcher l’int´egrale
ZP
h(θ)f
(θ)d θ,
il n’est pas n´ecessaire de simuler suivant
f(cf. ´echant.
d’importance). Le principe des m´ethodes MCMC est de construire une chaˆıne de Markov ergodique dont la loi stationnaire est
f:
◮ Id´ee
: on part d’une valeur θ
(0)et on construit θ
(t)` a l’aide d’un noyau de transition tel que la loi cible est
f◮
Pour
t0“grand”, θ
(t0)est distribu´e suivant
f◮ Remarque
: Les valeurs g´en´er´ees θ
(t0), θ
(t0+1), ... sont
d´ependantes car θ
(t)est une chaˆıne de Markov
Principes des m´ethodes MCMC
◮
Hypoth`eses
◮ On connaˆıt la loi ciblef `a une constante multiplicative pr`es
◮ On d´efinit uneloi de proposition(appel´ee aussiloi instrumentale)q(y|θ).
◮
Algorithme
◮ Initialisation: choix deθ(0)
◮ A partir de` θ(t), on g´en`erey(t) `a l’aide de la loi de proposition et on accepte ou rejette cette valeur dey(t) `a l’aide d’une proc´edure d’acceptation-rejet. La valeur retenue est not´ee θ(t+1).
◮ Les premi`eres valeurs g´en´er´ees par l’algorithme ne seront pas utilis´ees pour l’inf´erence (“burn-in”)
L’algorithme de Metropolis-Hastings
Etant donn´e ´ θ
(t),
1.
G´en´erer
yt ∼q(y|θ(t)).
2.
Acceptation-Rejet θ
(t+1)=
(yt
avec prob. ρ(θ
(t),
yt), θ
(t)avec prob. 1
−ρ(θ
(t),
yt), o` u
ρ(θ,
y) = min f(y)
f
(θ)
q(θ|y) q(y|θ)
, 1
.
Propri´et´es et commentaires
◮
Cas sym´etrique :
ρ(θ
(t),
yt) = min
f
(y
t)
f(θ
(t)) , 1
.
◮
On accepte toujours les valeurs de
ytaugmentant la
“vraisemblance”
◮
La loi cible
fpeut ˆetre connue ` a une constante multiplicative pr`es
◮
La chaˆıne (θ
(t))
tpeut prendre plusieurs fois la mˆeme valeur
⇒
´echantillon non iid
Convergence
◮
Hypoth`eses
◮ Probabilit´e d’acceptation
P
f(yt)q(θ(t)|yt) f(θ(t))q(yt|θ(t)) ≥1
<1. (1)
i.e., l’´ev´enement{θ(t+1)=θ(t)} est possible.
◮ Loi de proposition
q(y|θ)>0 pour tout (θ,y), (2).
En particulier, le support de la loi de proposition doit inclure le support de la loi cible !
Convergence
◮ Conclusions
◮ Ergodicit´e(la moyenne d’une fonctionf sur les instances de la chaˆıne de Markov est ´egale `a sa moyenne selon sa probabilit´e stationnaire)
Pourhtel queEf[|h(Θ)|]<∞,
T→∞lim 1 T
T
X
t=1
h(θ(t)) = Z
h(θ)f(θ)dθ
◮ Convergence en variation totale
n→∞lim Z
Kn(θ,·)µ(dθ)−f TV
= 0
pour toute loi initialeµ,Kn(θ,·) est le noyau de la chaˆıne apr`esntransitions.
En particulier
t→∞lim P[θ(t)∈A] = Z
A
f(θ)dθ
Def: Soientµetνdeux mesures de probabilit´e surE. On appelle distance en variationtotale entreµetνla quantit´ed(µ, ν) = sup{|µ(A)−ν(A)||,A⊂E}
Metropolis-Hastings - Cas ind´ependant
La loi de proposition
q(y|θ(t)) est ind´ependante de θ
(t)Etant donn´e ´ θ
(t),
1.
G´en´erer
yt ∼q(y).2.
Acceptation-Rejet
θ
(t+1)=
(yt
avec prob. min
n f(yt) f(θ(t))
q(θ(t)) q(yt)
, 1
o, θ
(t)sinon
Propri´et´es
◮ L’´echantillon g´en´er´e n’est pas iid
◮ Sif(θ)≤Mq(θ), ∀θ∈suppf, alorsk.k
TV≤
1−M1n
(ergodicit´e uniforme)
◮ La probabilit´e d’acceptation est≥1/M(i.e≥proba acceptation-rejet)
Exemple : Loi Gamma
Soitf la densit´e d’une loi gammaGa(α, β). Calcul de
I = Z ∞
−∞
θ2f(θ)dθ,
◮ Acceptation rejetavec q(θ)∼ Ga
[α],[αα]
,f(θ)<Mq(θ)
M= exp{α(ln(α)−1)−[α](ln([α])−1)}
◮ Algo deMetropolis-Hastingsavecq(θ)∼ Ga
[α],[α]α
ρ(θ(t),yt) = min ( yt
θ(t) exp
θ(t)−yt
α
α−[α] ,1
)
Acceptation-Rejet - Loi Gamma
1.
G´en´erer
y ∼ Ga[α],
[αα].
2.Acceptation-Rejet
θ
(t)=
yavec prob.
y
exp(−y /α) α
α−[α]
Metropolis-Hastings - Loi Gamma
Etant donn´e ´ θ
(t),
1.G´en´erer
yt ∼ Ga[α],
[αα].
2.Acceptation-Rejet
θ
(t+1)=
yt
avec prob. min
yt
θ(t)
exp
nθ(t)−yt
α
oα−[α]
, 1
θ
(t)sinon
Exemple : α = 2.43, β = 1
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
0 2 4 6 8 10 12 14 16 18 20
iterations
intégrale
acceptation−rejet valeur de l’intégrale Metropolis−Hastings
Zoom
1000 1500 2000 2500 3000 3500 4000 4500
6.5 7 7.5 8 8.5 9 9.5 10 10.5 11
iterations
intégrale
acceptation−rejet valeur de l’intégrale Metropolis−Hastings
Metropolis-Hastings - Marche Al´eatoire
La loi de proposition
qest telle que
yt= θ
(t)+ ǫ
t,
o` u ǫ
tind´ependant de θ
(t), i.e.
q(y|θ) =q(y−θ). Si
qest sym´etrique, on obtient l’algorithme suivant :
Etant donn´e ´ θ
(t),
1.
G´en´erer
yt ∼q(y−θ
(t)).
2.
Acceptation-Rejet θ
(t+1)=
(yt
avec prob. min
nf(yt) f(θ(t))
, 1
o,
θ
(t)sinon
Propri´et´es
◮
Pas d’ergodicit´e uniforme
◮
Conditions suffisantes d’ergodicit´e g´eom´etrique pour des densit´es sym´etriques log-concaves ... (Mengersen & Tweedie, 1996)
∀θ∈ P, Z
Kn
(θ,
·)µ(dθ)
−f TV≤ M rn
,
avec
M<
∞et
r> 1.
Exemple : Loi Normale
Simulation de donn´ees suivant la loi normale N(0,1).
◮ Metropolis-Hastings - Ind´ependantavec q(y)∼ U[−3,+3]
◮ Algo deMetropolis-Hastings - Marche Al´eatoireavec q(ǫt)∼ U[−δ,+δ] (Hastings, 1970)
Probabilit´e d’acceptation minn
expn
(θ2(t)−yt2)/2o ,1o
Matlab : loi-gauss et loi-gauss-delta pourd = 1 etd= 0.01
Lois cibles pour δ = 0.01 et δ = 1
−4 −3 −2 −1 0 1 2 3 4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
δ = 1
−2.50 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2
0.2 0.4 0.6 0.8 1
δ = 0.01
Calcul des moyennes pour δ ∈ {0.1, 0.5, 1, 5}
0 5000 10000 15000
−0.6
−0.4
−0.2 0 0.2 0.4
δ = 0.1
0 5000 10000 15000
−1
−0.5 0 0.5
δ = 0.5
0 5000 10000 15000
−0.5 0 0.5 1 1.5 2
δ = 1
0 5000 10000 15000
−1 0 1 2 3 4 5 6
δ = 5
Calcul des variances pour δ ∈ {0.1, 0.5, 1, 5}
0 5000 10000 15000
0 0.5 1 1.5 2
δ = 0.1
0 5000 10000 15000
0 0.2 0.4 0.6 0.8 1 1.2 1.4
δ = 0.5
0 5000 10000 15000
0 0.2 0.4 0.6 0.8 1 1.2 1.4
δ = 1
0 5000 10000 15000
0 2 4 6 8 10 12
δ = 5
Extensions
◮
Adaptive Rejection Metropolis Sampling (ARMS)
◮
Algorithme de Metropolis-Hastings ` a sauts r´eversibles
◮
Algorithmes de Langevin
◮
...
Optimisation du taux d’acceptation
◮ Un algorithm g´en´erique “Adaptive rejection Metropolis sampling (ARMS)”
◮ choix d’une loi instrumentaleq qui approchef de fa¸con `a ce que le rapportf/q soit born´e, de fa¸con `a avoir l’ergodicit´e uniforme
◮ Algorithme `amarche al´eatoire
Dans les deux derniers cas, le choix deq est critique !
Metropolis-Hastings Ind´ependant
ρ = E
min
f(Y)q(Θ) f(Θ)q(Y),1
= 2P f(Y)
q(Y) ≥ f(Θ) q(Θ)
, Θ∼f, Y ∼q,
Loi de propositionqparam`etr´ee parη et on chercheη quimaximise le taux d’acceptation moyen
ˆ ρ(η) = 2
m
m
X
i=1
I{f(yi)q(θi)>f(θi)q(yi)},
o`uθ1, . . . , θm ´echantillon de densit´ef ety1, . . . ,ym´echantillon iid de densit´eq.
Metropolis-Hastings ` a marche al´eatoire
◮ Un taux d’acceptation moyen´elev´en’indique pas n´ecessairement que l’algorithme ´evolue correctement car la marche al´eatoire peut
´evoluertrop lentement(exemple typique des densit´es multi-modales)
◮ Un taux d’acceptation moyenfaiblesignifie que le d´eplacement entre yt etθ(t) estrapide
◮ R`egle empirique(Gelman, Gilks et Robert, 1995) : taux
d’acceptation de 50% pour les mod`eles de dimension 1 et 2, et de 25% pour les mod`eles de dimension sup´erieure
Exemple d’une loi bimodale
Exemple d’une loi bimodale
M´elange de Gaussiennes
◮ Mod`ele:y1, ...,yni.i.d., r inconnu
f(y|θr) =
r
X
i=1
ωi
p2πσi2exp
−(y−mi)2 2σ2i
1 2 3 4 5 6 7 8 9 10 0
0.05 0.1 0.15 0.2 0.25
reversible jump sampler
−20 −1 0 1 2
0.5 1 1.5 2 2.5 3