Convergence vers la loi cible

(1)

Cours 4 : Diagnostic de Convergence

I 1) Principes g´en´eraux

I 2) Convergence vers la loi stationnaire

I M´ethodes graphiques

I Distance `a la loi stationnaire

I Autres m´ethodes

I 3) Convergence des moyennes

I M´ethodes graphiques (CUSUM, ...)

I Variance intra/inter chaˆınes (Gelman et Rubin, 1992)

(2)

Principes g´ en´ eraux

On doit en pratique r´egler deux probl`emes

I Comment doit-on règler le nombre d’itérations dechauffage (burn-in) nécessaire pour queθ^(t) soit distribué suivant la loi cible ?

I Quand doit-on arrêter l’algorithme pour que les données générées permettent d’avoirune bonne estimation des paramètres inconnus?

(3)

Types de convergence

I Convergence vers la loistationnaire

I Convergence desmoyennes empiriques

1 T

T

X

t=1

h θ^(t)

→Ef[h(θ)]

Quelle valeur deT doit-on choisir ? (Convergence importante pour l’estimateur MMSE).

I Ind´ependanceentre les valeurs simul´ees

(4)

Une ou plusieurs chaˆınes ?

M chaˆınes ind´ependantes en parall`ele θ^(t)m

,m= 1, ...,M ou une seule chaˆıne ?

I Motivations pour la simulation de chaˆınes en parall`ele

I D´ependance aux valeursinitialesde la chaˆıne r´eduite

I On obtientdiff´erentes estimationsdes param`etres

I mais

I Convergence gouvern´ee par la chaˆıne la plus lente

I Comparer des chaˆınes devitesses de cv diff´erentes

I Loi initiale bas´ee sur desinfos partiellessur la loi cible

Le débat “une seule chaˆıne” contre “plusieurs chaˆınes en parallèle” est loin d’être clos ! !

(5)

Convergence vers la loi cible

I L’idée la plus simple est de représenter la valeurs des éléments de la chaˆıneθ^(t)m en fonction det pour plusieurs chaˆınes⇒très utile pour détecter desnon-stationarités fortes

I Evaluation d’une´ distanceentre la loi obtenue à l’itérationk et la loi cible (obtenue avec un grand nombre d’itérations)

(6)

La distribution du chapeau de sorci` ere

I Un exemple classique π(θ|y)∝

(1−δ)σ^−de⁻^kθ−yk

2

2σ2 +δ

IC(θ), y ∈R^d, θ∈[0,1]^d Un mode tr`es concentr´e autour dey pourδetσ “petits”.

Monte Carlo Statistical Methods/October 29, 2001 286

0 0.2

0.4 0.6

0.8 1

0 0.2 0.4 0.6 0.8 400003000020000110000 0

(7)

El´ ´ ements de la chaˆıne

initial value 0.0217

0 200 400 600 800 1000

0.00.20.40.60.81.0

initial value 0.9098

0 200 400 600 800 1000

0.00.20.40.60.81.0

Chain(θ^(t)₁ )for two initial values,0.0217(top)and0.9098 (bottom)

(8)

Distance ` a la loi cible

I Principes

I On choisit unedistanceentre lois de probabilit´es

I On fait tourner l’algorithme avec ungrand nombre d’it´erations

⇒obtention d’uneloi de r´ef´erence

I On calcule la distance entre la loi estimée à l’instantt et la loi de référence

(9)

Exemple

0 500 1000 1500 2000

−80

−70

−60

−50

−40

−30

−20

−10 0

Mean−square error for estimation of M p

Number of iterations

dB

Nbi=2000

(10)

Distance en ligne avec plusieurs chaˆınes

I Estimation de ladistance entref etf^(t) en ligne, o`uf^(t) est la loi marginale deθ⁽^t⁾ etf est la loi cible.

kf −f^(t)k ' −1 + 1 M(M−1)

X

1≤l6=s≤M

K₋ θe⁽⁰⁾_l , θ^(t)s

f(θ^(t)s ) ,

oùθe^(t)est obtenue à l’aide d’un échantillonneur de Gibbs construit à partir des lois conditionnelles f_k, ...,f₁etK₋est le noyau de transition de cette nouvelle chaˆıne

I Probl`emes

I on doit construire deux ´echantillonneurs de Gibbs

I Calcul de la cste de normalisation deK₋ peut ˆetre coˆuteux

(11)

Contrˆ ole binaire de Raftery et Lewis (1992)

Idée: tester certains quantiles de la loi a posterioriP[U<u|Données], où U est une fonction du vecteur paramètre inconnu θ(e.g.U =θou U=|θ|en dimension 1).

I Indicatrices Z_t=

1 siUt <u, 0 sinon

I Sous-Chaˆıne Z_t⁽^k⁾ =Z_1+(t−1)k

I Quantile q=P[U <u|Donn´ees] (e.g.q= 0.025)

Rq :u(associé àq= 0.025) sera estimé à partir d’une chaˆıne “pilote”. On pourra tester plusieurs valeurs deuet garder le max des burn-in (Brooks, Roberts, 1999)

(12)

Nombre d’it´ erations de chauffage n

₀

I Matrice de transitiondeZ_t^(k) :

1−α α

β 1−β

I Matrice de transition apr`esl it´erations π0 π1

π0 π1

+ λ^l

α+β

α −α

−β β ,

avec π0=β/(α+β),λ= 1−α−β etπ1= 1−π0.

I Condition|P[Zm⁽^k⁾=i|Z₀⁽^k⁾=j]−πi|< (e.g.= 0.0125) :

λ^m< (α+β)

max(α, β) ⇒m=m^?=

logh _(α+β)

max(α,β)

i

log(λ) ⇒n₀=km^?

Rq :α_uetβ_uestim´es `a l’aide de la chaˆıne “pilote”

(13)

Nombre d’it´ erations de calcul N

I Estimation du quantile:

Z^(k)_n =1 n

n

X

t=1

Z_t⁽^k⁾

I Th´eor`eme de la limite centrale

Z^(k)_n −q pν²/n →

n→∞N(0,1), ν²=αβ(2−α−β) (α+β)³

I ConditionPh

Z^(k)_n −q <ri

=s(e.g.s= 0.95andr= 0.0125):

n=n^?=(2−α−β)αβ (α+β)³

(Φ⁻¹ ¹₂(s+ 1) r

)2

⇒N=kn^?

(14)

Autres m´ ethodes

I Tests non param´etriques de stationarit´e

I Tests standards (Kolmogorov-Smirnov, ...)

I Lorsque la chaˆıne est stationnaire,θ⁽^t¹⁾ etθ⁽^t²⁾ ont la mˆeme loi pour tout couple (t₁,t₂)

(15)

Convergence des moyennes

On cherche les valeurs deT telles que

ST= 1 T

n₀+T

X

t=n₀+1

h θ^(t)

'Ef[h(θ)]

o`un₀ est le nombre d’it´erations de chauffage.

Repr´esentations graphiques des sommes cumul´ees (CUSUM) (Yu et Mykland, 1994)

D_Tⁱ =

n₀+i

X

t=n₀+1

[h(θ⁽^t⁾)−ST], i = 1, ...,T,

(16)

M´ elange de Gaussiennes (Yu, Mykland, 1998)

(17)

M´ elange de Gaussiennes (Yu, Mykland, 1998)

(18)

Estimateurs Multiples

I Moyenne empiriqueST

I VersionRao-Blackwelliz´eede la Moyenne empirique

S_T^C = 1 T

n₀+T

X

t=n0+1

E[h(θ⁽^t⁾)|η⁽^t⁾]

I Utilisation de l’´echantillonnage d’importance

S_T^P= 1 T

n₀+T

X

t=n0+1

ωth(θ⁽^t⁾),

o`uωt=f(θ⁽^t⁾)/g(θ⁽^t⁾) (f(.) est la loi cible et g(.) est la loi d’importance)

(19)

Exemple : Normal-Cauchy

I Loi a posteriori

π(θ|x1,x₂,x₃)∝e⁻^θ

2 2σ2

3

Y

i=1

1 1 + (θ−xi)²

I Compl´etion

π(θ, η1, η2, η3|x₁,x₂,x₃)∝e⁻^θ

2 2σ2

3

Y

i=1

e⁻

ηi

2[1+(θ−xi)²]

I Lois conditionnelles ηi|θ,x_i ∼ E

1 + (θ−xi)² 2

, θ|x,η ∼ N

P ηix_i

Pηi+σ⁻², 1 Pηi+σ⁻²

.

(20)

R´ esultats de simulation

-10 -5 0 5 10 15 20

0200400600800

(20 000 iterations)

Comparison of the normal-Cauchy density and of the histogram (20,000points)

(21)

Moyenne de h(θ) = exp(−θ/σ)

(thousand iterations)

0 100 200 300 400 500

0.800.810.820.830.840.85

Convergence ofS_T (full line),S_T^C(dotted line),S^R_T (mixed) andS_T^P (long dashes)

(22)

Variances intra et inter-chaˆınes

I Moyenne de la chaˆınem ψ_m= 1

T

n₀+T

X

t=n0+1

ψ_m^(t),

oùψm⁽^t⁾=h[θ⁽m^t⁾] etθ⁽m^t⁾ est l’élémentt de la chaˆınem.

I Moyenne des moyennesψ=_M¹

M

P

m=1

ψ_m

I Variance inter-chaˆınes

B_T = n M−1

M

X

m=1

ψ_m−ψ2 I Variance intra-chaˆınes

W_T = 1 M(T−1)

M

X

m=1 T

X

t=1

ψ_m^(t)−ψ_m2

(23)

Potential Scale Reduction Factor

I Estimateur de la variance a posteriori de ψ=h(θ) bσ_T² = T−1

T WT+

M+ 1 M

BT

T

I Potential Scale Reduction Factor RT = σb²_T

W_T = T−1 T + 1

T

M+ 1 M

BT

W_T

On compare alorsRT à 1 (une condition de convergence préconisée par Gelman et Rubin estRT<1.2).

(24)

R´ esultats de simulation

0 200 400 600 800

1.0001.0051.0101.015 34.634.835.035.235.4

Evolutions ofRT (solid lines and scale on the left) and ofWT

(dotted lines and scale on the right)

(25)

Commentaires

I Simplicitéde cette méthode⇒Succès

I N´ecessite de simuler plusieurs chaˆınes enparall`ele

I G´en´eralisation au casmultidimensionnel(Brooks and Gelman, 1998)

R_T =T −1 T +

M+ 1 M

λ1,

oùλ1est la plus grande valeur propre de la matrice symétrique définie positiveW_T⁻¹B_T/T.