Cours 2 : Metropolis - Hastings

(1)

Cours 2 : Metropolis - Hastings

◮ 1) Introduction: m´ethodes de Monte Carlo par chaˆınes de Markov (MCMC)

◮ 2) L’algorithme de Metropolis-Hastingsind´ependant

◮ 3) L’algorithme de Metropolis-Hastings`a marche al´eatoire

◮ 4) Algorithme de Green`a sauts r´eversibles

(2)

Introduction

Pour approcher l’int´egrale

Z

P

h(θ)f

(θ)d θ,

il n’est pas n´ecessaire de simuler suivant

f

(cf. ´echant.

d’importance). Le principe des m´ethodes MCMC est de construire une chaˆıne de Markov ergodique dont la loi stationnaire est

f

:

◮ Id´ee

: on part d’une valeur θ

⁽⁰⁾

et on construit θ

^(t)

` a l’aide d’un noyau de transition tel que la loi cible est

f

◮

Pour

t₀

“grand”, θ

^(t⁰⁾

est distribu´e suivant

f

◮ Remarque

: Les valeurs générées θ

^(t⁰⁾

, θ

^(t⁰⁺¹⁾

, ... sont

d´ependantes car θ

^(t)

est une chaˆıne de Markov

(3)

Principes des m´ethodes MCMC

◮

Hypoth`eses

◮ On connaˆıt la loi ciblef `a une constante multiplicative pr`es

◮ On d´efinit uneloi de proposition(appel´ee aussiloi instrumentale)q(y|θ).

◮

Algorithme

◮ Initialisation: choix deθ⁽⁰⁾

◮ A partir de` θ^(t), on génèrey^(t) à l’aide de la loi de proposition et on accepte ou rejette cette valeur dey^(t) à l’aide d’une procédure d’acceptation-rejet. La valeur retenue est notée θ^(t+1).

◮ Les premières valeurs générées par l’algorithme ne seront pas utilisées pour l’inférence (“burn-in”)

(4)

L’algorithme de Metropolis-Hastings

Etant donn´e ´ θ

^(t)

,

1.

G´en´erer

y_t ∼q(y|θ^(t)

).

2.

Acceptation-Rejet θ

^(t+1)

=

(yt

avec prob. ρ(θ

^(t)

,

yt

), θ

^(t)

avec prob. 1

−

ρ(θ

^(t)

,

yt

), o` u

ρ(θ,

y) = min f

(y)

f

(θ)

q(θ|y) q(y|θ)

, 1

.

(5)

Propri´et´es et commentaires

◮

Cas sym´etrique :

ρ(θ

^(t)

,

y_t

) = min

f

(y

t

)

f

(θ

^(t)

) , 1

.

◮

On accepte toujours les valeurs de

yt

augmentant la

“vraisemblance”

◮

La loi cible

f

peut ˆetre connue ` a une constante multiplicative pr`es

◮

La chaˆıne (θ

^(t)

)

_t

peut prendre plusieurs fois la mˆeme valeur

⇒

´echantillon non iid

(6)

Convergence

◮

Hypoth`eses

◮ Probabilit´e d’acceptation

P

f(yt)q(θ^(t)|yt) f(θ^(t))q(yt|θ^(t)) ≥1

<1. (1)

i.e., l’´ev´enement{θ^(t+1)=θ^(t)} est possible.

◮ Loi de proposition

q(y|θ)>0 pour tout (θ,y), (2).

En particulier, le support de la loi de proposition doit inclure le support de la loi cible !

(7)

Convergence

◮ Conclusions

◮ Ergodicité(la moyenne d’une fonctionf sur les instances de la chaˆıne de Markov est égale à sa moyenne selon sa probabilité stationnaire)

Pourhtel queEf[|h(Θ)|]<∞,

T→∞lim 1 T

T

X

t=1

h(θ^(t)) = Z

h(θ)f(θ)dθ

◮ Convergence en variation totale

n→∞lim Z

Kⁿ(θ,·)µ(dθ)−f _TV

= 0

pour toute loi initialeµ,Kⁿ(θ,·) est le noyau de la chaˆıne apr`esntransitions.

En particulier

t→∞lim P[θ^(t)∈A] = Z

A

f(θ)dθ

Def: Soientµetνdeux mesures de probabilit´e surE. On appelle distance en variationtotale entreµetνla quantit´ed(µ, ν) = sup{|µ(A)−ν(A)||,A⊂E}

(8)

Metropolis-Hastings - Cas ind´ependant

La loi de proposition

q(y|θ^(t)

) est ind´ependante de θ

^(t)

Etant donn´e ´ θ

^(t)

,

1.

G´en´erer

y_t ∼q(y).

2.

Acceptation-Rejet

θ

^(t+1)

=

(y_t

avec prob. min

n _f

(yt) f(θ(t))

q(θ^(t)) q(yt)

, 1

o

, θ

^(t)

sinon

Propri´et´es

◮ _L’échantillon généré n’est pas iid

◮ _Si_f_(θ)_≤_Mq(θ), _∀θ_∈_supp_f_{, alors}_k.k

TV≤

1−_M¹n

(ergodicit´e uniforme)

◮ La probabilit´e d’acceptation est≥1/M(i.e≥proba acceptation-rejet)

(9)

Exemple : Loi Gamma

Soitf la densit´e d’une loi gammaGa(α, β). Calcul de

I = Z ∞

−∞

θ²f(θ)dθ,

◮ Acceptation rejetavec q(θ)∼ Ga

[α],^[^α_α^]

,f(θ)<Mq(θ)

M= exp{α(ln(α)−1)−[α](ln([α])−1)}

◮ Algo deMetropolis-Hastingsavecq(θ)∼ Ga

[α],^[α]_α

ρ(θ^(t),yt) = min ( yt

θ^(t) exp

θ^(t)−yt

α

^α^−[^α^] ,1

)

(10)

Acceptation-Rejet - Loi Gamma

1.

G´en´erer

y ∼ Ga

[α],

^[^α_α^]

.

2.

Acceptation-Rejet

θ

^(t)

=

y

avec prob.

y

exp(−y /α) α

^α−[α]

(11)

Metropolis-Hastings - Loi Gamma

Etant donn´e ´ θ

^(t)

,

1.

G´en´erer

y_t ∼ Ga

[α],

^[^α_α^]

.

2.

Acceptation-Rejet

θ

^(t+1)

=







y_t

avec prob. min

yt

θ^(t⁾

exp

n_θ_(t)₋

yt

α

o^α−[α]

, 1

θ

^(t)

sinon

(12)

Exemple : α = 2.43, β = 1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

0 2 4 6 8 10 12 14 16 18 20

iterations

intégrale

acceptation−rejet valeur de l’intégrale Metropolis−Hastings

(13)

Zoom

1000 1500 2000 2500 3000 3500 4000 4500

6.5 7 7.5 8 8.5 9 9.5 10 10.5 11

iterations

intégrale

acceptation−rejet valeur de l’intégrale Metropolis−Hastings

(14)

Metropolis-Hastings - Marche Al´eatoire

La loi de proposition

q

est telle que

y_t

= θ

^(t)

+ ǫ

_t

,

o` u ǫ

t

ind´ependant de θ

^(t)

, i.e.

q(y|θ) =q(y−

θ). Si

q

est sym´etrique, on obtient l’algorithme suivant :

Etant donn´e ´ θ

^(t)

,

1.

G´en´erer

y_t ∼q(y−

θ

^(t)

).

2.

Acceptation-Rejet θ

^(t+1)

=

(yt

avec prob. min

n

f(yt) f(θ^(t))

, 1

o

,

θ

^(t)

sinon

(15)

Propri´et´es

◮

Pas d’ergodicit´e uniforme

◮

Conditions suffisantes d’ergodicité géométrique pour des densités symétriques log-concaves ... (Mengersen & Tweedie, 1996)

∀θ∈ P, Z

Kⁿ

(θ,

·)µ(d

θ)

−f _TV

≤ M rⁿ

,

avec

M

<

∞

et

r

> 1.

(16)

Exemple : Loi Normale

Simulation de donn´ees suivant la loi normale N(0,1).

◮ Metropolis-Hastings - Ind´ependantavec q(y)∼ U[−3,+3]

◮ Algo deMetropolis-Hastings - Marche Al´eatoireavec q(ǫt)∼ U[−δ,+δ] (Hastings, 1970)

Probabilit´e d’acceptation minn

expn

(θ²_(t)−y_t²)/2o ,1o

Matlab : loi-gauss et loi-gauss-delta pourd = 1 etd= 0.01

(17)

Lois cibles pour δ = 0.01 et δ = 1

−4 −3 −2 −1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

δ = 1

−2.50 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2

0.2 0.4 0.6 0.8 1

δ = 0.01

(18)

Calcul des moyennes pour δ ∈ {0.1, 0.5, 1, 5}

0 5000 10000 15000

−0.6

−0.4

−0.2 0 0.2 0.4

δ = 0.1

0 5000 10000 15000

−1

−0.5 0 0.5

δ = 0.5

0 5000 10000 15000

−0.5 0 0.5 1 1.5 2

δ = 1

0 5000 10000 15000

−1 0 1 2 3 4 5 6

δ = 5

(19)

Calcul des variances pour δ ∈ {0.1, 0.5, 1, 5}

0 5000 10000 15000

0 0.5 1 1.5 2

δ = 0.1

0 5000 10000 15000

0 0.2 0.4 0.6 0.8 1 1.2 1.4

δ = 0.5

0 5000 10000 15000

0 0.2 0.4 0.6 0.8 1 1.2 1.4

δ = 1

0 5000 10000 15000

0 2 4 6 8 10 12

δ = 5

(20)

Extensions

◮

Adaptive Rejection Metropolis Sampling (ARMS)

◮

Algorithme de Metropolis-Hastings ` a sauts r´eversibles

◮

Algorithmes de Langevin

◮

...

(21)

Optimisation du taux d’acceptation

◮ Un algorithm g´en´erique “Adaptive rejection Metropolis sampling (ARMS)”

◮ choix d’une loi instrumentaleq qui approchef de fa¸con à ce que le rapportf/q soit borné, de fa¸con à avoir l’ergodicité uniforme

◮ Algorithme `amarche al´eatoire

Dans les deux derniers cas, le choix deq est critique !

(22)

Metropolis-Hastings Ind´ependant

ρ = E

min

f(Y)q(Θ) f(Θ)q(Y),1

= 2P f(Y)

q(Y) ≥ f(Θ) q(Θ)

, Θ∼f, Y ∼q,

Loi de propositionqparam`etr´ee parη et on chercheη quimaximise le taux d’acceptation moyen

ˆ ρ(η) = 2

m

X

i=1

I{f(yi)q(θi)>f(θi)q(yi)},

oùθ1, . . . , θm échantillon de densitéf ety1, . . . ,yméchantillon iid de densitéq.

(23)

Metropolis-Hastings ` a marche al´eatoire

◮ Un taux d’acceptation moyenélevén’indique pas nécessairement que l’algorithme évolue correctement car la marche aléatoire peut

´evoluertrop lentement(exemple typique des densit´es multi-modales)

◮ Un taux d’acceptation moyenfaiblesignifie que le d´eplacement entre yt etθ^(t) estrapide

◮ R`egle empirique(Gelman, Gilks et Robert, 1995) : taux

d’acceptation de 50% pour les modèles de dimension 1 et 2, et de 25% pour les modèles de dimension supérieure

(24)

Exemple d’une loi bimodale

(25)

Exemple d’une loi bimodale

(26)

M´elange de Gaussiennes

◮ Mod`ele:y1, ...,yni.i.d., r inconnu

f(y|θr) =

r

X

i=1

ωi

p2πσ_i²exp

−(y−mi)² 2σ²_i

1 2 3 4 5 6 7 8 9 10 0

0.05 0.1 0.15 0.2 0.25

reversible jump sampler

−20 −1 0 1 2

0.5 1 1.5 2 2.5 3