Cours 4 : Diagnostic de Convergence
I 1) Principes g´en´eraux
I 2) Convergence vers la loi stationnaire
I M´ethodes graphiques
I Distance `a la loi stationnaire
I Autres m´ethodes
I 3) Convergence des moyennes
I M´ethodes graphiques (CUSUM, ...)
I Variance intra/inter chaˆınes (Gelman et Rubin, 1992)
Principes g´ en´ eraux
On doit en pratique r´egler deux probl`emes
I Comment doit-on r`egler le nombre d’it´erations dechauffage (burn-in) n´ecessaire pour queθ(t) soit distribu´e suivant la loi cible ?
I Quand doit-on arrˆeter l’algorithme pour que les donn´ees g´en´er´ees permettent d’avoirune bonne estimation des param`etres inconnus?
Types de convergence
I Convergence vers la loistationnaire
I Convergence desmoyennes empiriques
1 T
T
X
t=1
h θ(t)
→Ef[h(θ)]
Quelle valeur deT doit-on choisir ? (Convergence importante pour l’estimateur MMSE).
I Ind´ependanceentre les valeurs simul´ees
Une ou plusieurs chaˆınes ?
M chaˆınes ind´ependantes en parall`ele θ(t)m
,m= 1, ...,M ou une seule chaˆıne ?
I Motivations pour la simulation de chaˆınes en parall`ele
I D´ependance aux valeursinitialesde la chaˆıne r´eduite
I On obtientdiff´erentes estimationsdes param`etres
I mais
I Convergence gouvern´ee par la chaˆıne la plus lente
I Comparer des chaˆınes devitesses de cv diff´erentes
I Loi initiale bas´ee sur desinfos partiellessur la loi cible
Le d´ebat “une seule chaˆıne” contre “plusieurs chaˆınes en parall`ele” est loin d’ˆetre clos ! !
Convergence vers la loi cible
I M´ethodes graphiques
I L’id´ee la plus simple est de repr´esenter la valeurs des ´el´ements de la chaˆıneθ(t)m en fonction det pour plusieurs chaˆınes⇒tr`es utile pour d´etecter desnon-stationarit´es fortes
I Evaluation d’une´ distanceentre la loi obtenue `a l’it´erationk et la loi cible (obtenue avec un grand nombre d’it´erations)
La distribution du chapeau de sorci` ere
I Un exemple classique π(θ|y)∝
(1−δ)σ−de−kθ−yk
2
2σ2 +δ
IC(θ), y ∈Rd, θ∈[0,1]d Un mode tr`es concentr´e autour dey pourδetσ “petits”.
Monte Carlo Statistical Methods/October 29, 2001 286
0 0.2
0.4 0.6
0.8 1
0 0.2 0.4 0.6 0.8 400003000020000110000 0
El´ ´ ements de la chaˆıne
Monte Carlo Statistical Methods/October 29, 2001 287
initial value 0.0217
0 200 400 600 800 1000
0.00.20.40.60.81.0
initial value 0.9098
0 200 400 600 800 1000
0.00.20.40.60.81.0
Chain(θ(t)1 )for two initial values,0.0217(top)and0.9098 (bottom)
Distance ` a la loi cible
I Principes
I On choisit unedistanceentre lois de probabilit´es
I On fait tourner l’algorithme avec ungrand nombre d’it´erations
⇒obtention d’uneloi de r´ef´erence
I On calcule la distance entre la loi estim´ee `a l’instantt et la loi de r´ef´erence
Exemple
0 500 1000 1500 2000
−80
−70
−60
−50
−40
−30
−20
−10 0
Mean−square error for estimation of M p
Number of iterations
dB
Nbi=2000
Distance en ligne avec plusieurs chaˆınes
I Estimation de ladistance entref etf(t) en ligne, o`uf(t) est la loi marginale deθ(t) etf est la loi cible.
kf −f(t)k ' −1 + 1 M(M−1)
X
1≤l6=s≤M
K− θe(0)l , θ(t)s
f(θ(t)s ) ,
o`uθe(t)est obtenue `a l’aide d’un ´echantillonneur de Gibbs construit `a partir des lois conditionnelles fk, ...,f1etK−est le noyau de transition de cette nouvelle chaˆıne
I Probl`emes
I on doit construire deux ´echantillonneurs de Gibbs
I Calcul de la cste de normalisation deK− peut ˆetre coˆuteux
Contrˆ ole binaire de Raftery et Lewis (1992)
Id´ee: tester certains quantiles de la loi a posterioriP[U<u|Donn´ees], o`u U est une fonction du vecteur param`etre inconnu θ(e.g.U =θou U=|θ|en dimension 1).
I Indicatrices Zt=
1 siUt <u, 0 sinon
I Sous-Chaˆıne Zt(k) =Z1+(t−1)k
I Quantile q=P[U <u|Donn´ees] (e.g.q= 0.025)
Rq :u(associ´e `aq= 0.025) sera estim´e `a partir d’une chaˆıne “pilote”. On pourra tester plusieurs valeurs deuet garder le max des burn-in (Brooks, Roberts, 1999)
Nombre d’it´ erations de chauffage n
0I Matrice de transitiondeZt(k) :
1−α α
β 1−β
I Matrice de transition apr`esl it´erations π0 π1
π0 π1
+ λl
α+β
α −α
−β β ,
avec π0=β/(α+β),λ= 1−α−β etπ1= 1−π0.
I Condition|P[Zm(k)=i|Z0(k)=j]−πi|< (e.g.= 0.0125) :
λm< (α+β)
max(α, β) ⇒m=m?=
logh (α+β)
max(α,β)
i
log(λ) ⇒n0=km?
Rq :αuetβuestim´es `a l’aide de la chaˆıne “pilote”
Nombre d’it´ erations de calcul N
I Estimation du quantile:
Z(k)n =1 n
n
X
t=1
Zt(k)
I Th´eor`eme de la limite centrale
Z(k)n −q pν2/n →
n→∞N(0,1), ν2=αβ(2−α−β) (α+β)3
I ConditionPh
Z(k)n −q <ri
=s(e.g.s= 0.95andr= 0.0125):
n=n?=(2−α−β)αβ (α+β)3
(Φ−1 12(s+ 1) r
)2
⇒N=kn?
Autres m´ ethodes
I Tests non param´etriques de stationarit´e
I Tests standards (Kolmogorov-Smirnov, ...)
I Lorsque la chaˆıne est stationnaire,θ(t1) etθ(t2) ont la mˆeme loi pour tout couple (t1,t2)
Convergence des moyennes
On cherche les valeurs deT telles que
ST= 1 T
n0+T
X
t=n0+1
h θ(t)
'Ef[h(θ)]
o`un0 est le nombre d’it´erations de chauffage.
I M´ethodes graphiques
Repr´esentations graphiques des sommes cumul´ees (CUSUM) (Yu et Mykland, 1994)
DTi =
n0+i
X
t=n0+1
[h(θ(t))−ST], i = 1, ...,T,
M´ elange de Gaussiennes (Yu, Mykland, 1998)
M´ elange de Gaussiennes (Yu, Mykland, 1998)
Estimateurs Multiples
I Moyenne empiriqueST
I VersionRao-Blackwelliz´eede la Moyenne empirique
STC = 1 T
n0+T
X
t=n0+1
E[h(θ(t))|η(t)]
I Utilisation de l’´echantillonnage d’importance
STP= 1 T
n0+T
X
t=n0+1
ωth(θ(t)),
o`uωt=f(θ(t))/g(θ(t)) (f(.) est la loi cible et g(.) est la loi d’importance)
Exemple : Normal-Cauchy
I Loi a posteriori
π(θ|x1,x2,x3)∝e−θ
2 2σ2
3
Y
i=1
1 1 + (θ−xi)2
I Compl´etion
π(θ, η1, η2, η3|x1,x2,x3)∝e−θ
2 2σ2
3
Y
i=1
e−
ηi
2[1+(θ−xi)2]
I Lois conditionnelles ηi|θ,xi ∼ E
1 + (θ−xi)2 2
, θ|x,η ∼ N
P ηixi
Pηi+σ−2, 1 Pηi+σ−2
.
R´ esultats de simulation
Monte Carlo Statistical Methods/October 29, 2001 300
-10 -5 0 5 10 15 20
0200400600800
(20 000 iterations)
Comparison of the normal-Cauchy density and of the histogram (20,000points)
Moyenne de h(θ) = exp(−θ/σ)
Monte Carlo Statistical Methods/October 29, 2001 302
(thousand iterations)
0 100 200 300 400 500
0.800.810.820.830.840.85
Convergence ofST (full line),STC(dotted line),SRT (mixed) andSTP (long dashes)
Variances intra et inter-chaˆınes
I Moyenne de la chaˆınem ψm= 1
T
n0+T
X
t=n0+1
ψm(t),
o`uψm(t)=h[θ(mt)] etθ(mt) est l’´el´ementt de la chaˆınem.
I Moyenne des moyennesψ=M1
M
P
m=1
ψm
I Variance inter-chaˆınes
BT = n M−1
M
X
m=1
ψm−ψ2 I Variance intra-chaˆınes
WT = 1 M(T−1)
M
X
m=1 T
X
t=1
ψm(t)−ψm2
Potential Scale Reduction Factor
I Estimateur de la variance a posteriori de ψ=h(θ) bσT2 = T−1
T WT+
M+ 1 M
BT
T
I Potential Scale Reduction Factor RT = σb2T
WT = T−1 T + 1
T
M+ 1 M
BT
WT
On compare alorsRT `a 1 (une condition de convergence pr´econis´ee par Gelman et Rubin estRT<1.2).
R´ esultats de simulation
Monte Carlo Statistical Methods/October 29, 2001 312
0 200 400 600 800
1.0001.0051.0101.015 34.634.835.035.235.4
Evolutions ofRT (solid lines and scale on the left) and ofWT
(dotted lines and scale on the right)
Commentaires
I Simplicit´ede cette m´ethode⇒Succ`es
I N´ecessite de simuler plusieurs chaˆınes enparall`ele
I G´en´eralisation au casmultidimensionnel(Brooks and Gelman, 1998)
RT =T −1 T +
M+ 1 M
λ1,
o`uλ1est la plus grande valeur propre de la matrice sym´etrique d´efinie positiveWT−1BT/T.