• Aucun résultat trouvé

Convergence vers la loi cible

N/A
N/A
Protected

Academic year: 2022

Partager "Convergence vers la loi cible"

Copied!
25
0
0

Texte intégral

(1)

Cours 4 : Diagnostic de Convergence

I 1) Principes g´en´eraux

I 2) Convergence vers la loi stationnaire

I M´ethodes graphiques

I Distance `a la loi stationnaire

I Autres m´ethodes

I 3) Convergence des moyennes

I M´ethodes graphiques (CUSUM, ...)

I Variance intra/inter chaˆınes (Gelman et Rubin, 1992)

(2)

Principes g´ en´ eraux

On doit en pratique r´egler deux probl`emes

I Comment doit-on r`egler le nombre d’it´erations dechauffage (burn-in) n´ecessaire pour queθ(t) soit distribu´e suivant la loi cible ?

I Quand doit-on arrˆeter l’algorithme pour que les donn´ees g´en´er´ees permettent d’avoirune bonne estimation des param`etres inconnus?

(3)

Types de convergence

I Convergence vers la loistationnaire

I Convergence desmoyennes empiriques

1 T

T

X

t=1

h θ(t)

→Ef[h(θ)]

Quelle valeur deT doit-on choisir ? (Convergence importante pour l’estimateur MMSE).

I Ind´ependanceentre les valeurs simul´ees

(4)

Une ou plusieurs chaˆınes ?

M chaˆınes ind´ependantes en parall`ele θ(t)m

,m= 1, ...,M ou une seule chaˆıne ?

I Motivations pour la simulation de chaˆınes en parall`ele

I D´ependance aux valeursinitialesde la chaˆıne r´eduite

I On obtientdiff´erentes estimationsdes param`etres

I mais

I Convergence gouvern´ee par la chaˆıne la plus lente

I Comparer des chaˆınes devitesses de cv diff´erentes

I Loi initiale bas´ee sur desinfos partiellessur la loi cible

Le d´ebat “une seule chaˆıne” contre “plusieurs chaˆınes en parall`ele” est loin d’ˆetre clos ! !

(5)

Convergence vers la loi cible

I M´ethodes graphiques

I L’id´ee la plus simple est de repr´esenter la valeurs des ´el´ements de la chaˆıneθ(t)m en fonction det pour plusieurs chaˆınes⇒tr`es utile pour d´etecter desnon-stationarit´es fortes

I Evaluation d’une´ distanceentre la loi obtenue `a l’it´erationk et la loi cible (obtenue avec un grand nombre d’it´erations)

(6)

La distribution du chapeau de sorci` ere

I Un exemple classique π(θ|y)∝

(1−δ)σ−dekθ−yk

2

2

IC(θ), y ∈Rd, θ∈[0,1]d Un mode tr`es concentr´e autour dey pourδetσ “petits”.

Monte Carlo Statistical Methods/October 29, 2001 286

0 0.2

0.4 0.6

0.8 1

0 0.2 0.4 0.6 0.8 400003000020000110000 0

(7)

El´ ´ ements de la chaˆıne

Monte Carlo Statistical Methods/October 29, 2001 287

initial value 0.0217

0 200 400 600 800 1000

0.00.20.40.60.81.0

initial value 0.9098

0 200 400 600 800 1000

0.00.20.40.60.81.0

Chain(t)1 )for two initial values,0.0217(top)and0.9098 (bottom)

(8)

Distance ` a la loi cible

I Principes

I On choisit unedistanceentre lois de probabilit´es

I On fait tourner l’algorithme avec ungrand nombre d’it´erations

⇒obtention d’uneloi de r´ef´erence

I On calcule la distance entre la loi estim´ee `a l’instantt et la loi de r´ef´erence

(9)

Exemple

0 500 1000 1500 2000

−80

−70

−60

−50

−40

−30

−20

−10 0

Mean−square error for estimation of M p

Number of iterations

dB

Nbi=2000

(10)

Distance en ligne avec plusieurs chaˆınes

I Estimation de ladistance entref etf(t) en ligne, o`uf(t) est la loi marginale deθ(t) etf est la loi cible.

kf −f(t)k ' −1 + 1 M(M−1)

X

1≤l6=s≤M

K θe(0)l , θ(t)s

f(θ(t)s ) ,

o`uθe(t)est obtenue `a l’aide d’un ´echantillonneur de Gibbs construit `a partir des lois conditionnelles fk, ...,f1etKest le noyau de transition de cette nouvelle chaˆıne

I Probl`emes

I on doit construire deux ´echantillonneurs de Gibbs

I Calcul de la cste de normalisation deK peut ˆetre coˆuteux

(11)

Contrˆ ole binaire de Raftery et Lewis (1992)

Id´ee: tester certains quantiles de la loi a posterioriP[U<u|Donn´ees], o`u U est une fonction du vecteur param`etre inconnu θ(e.g.U =θou U=|θ|en dimension 1).

I Indicatrices Zt=

1 siUt <u, 0 sinon

I Sous-Chaˆıne Zt(k) =Z1+(t−1)k

I Quantile q=P[U <u|Donn´ees] (e.g.q= 0.025)

Rq :u(associ´e `aq= 0.025) sera estim´e `a partir d’une chaˆıne “pilote”. On pourra tester plusieurs valeurs deuet garder le max des burn-in (Brooks, Roberts, 1999)

(12)

Nombre d’it´ erations de chauffage n

0

I Matrice de transitiondeZt(k) :

1−α α

β 1−β

I Matrice de transition apr`esl it´erations π0 π1

π0 π1

+ λl

α+β

α −α

−β β ,

avec π0=β/(α+β),λ= 1−α−β etπ1= 1−π0.

I Condition|P[Zm(k)=i|Z0(k)=j]−πi|< (e.g.= 0.0125) :

λm< (α+β)

max(α, β) ⇒m=m?=

logh (α+β)

max(α,β)

i

log(λ) ⇒n0=km?

Rq :αuetβuestim´es `a l’aide de la chaˆıne “pilote”

(13)

Nombre d’it´ erations de calcul N

I Estimation du quantile:

Z(k)n =1 n

n

X

t=1

Zt(k)

I Th´eor`eme de la limite centrale

Z(k)n −q pν2/n →

n→∞N(0,1), ν2=αβ(2−α−β) (α+β)3

I ConditionPh

Z(k)n −q <ri

=s(e.g.s= 0.95andr= 0.0125):

n=n?=(2−α−β)αβ (α+β)3

−1 12(s+ 1) r

)2

⇒N=kn?

(14)

Autres m´ ethodes

I Tests non param´etriques de stationarit´e

I Tests standards (Kolmogorov-Smirnov, ...)

I Lorsque la chaˆıne est stationnaire,θ(t1) etθ(t2) ont la mˆeme loi pour tout couple (t1,t2)

(15)

Convergence des moyennes

On cherche les valeurs deT telles que

ST= 1 T

n0+T

X

t=n0+1

h θ(t)

'Ef[h(θ)]

o`un0 est le nombre d’it´erations de chauffage.

I M´ethodes graphiques

Repr´esentations graphiques des sommes cumul´ees (CUSUM) (Yu et Mykland, 1994)

DTi =

n0+i

X

t=n0+1

[h(θ(t))−ST], i = 1, ...,T,

(16)

M´ elange de Gaussiennes (Yu, Mykland, 1998)

(17)

M´ elange de Gaussiennes (Yu, Mykland, 1998)

(18)

Estimateurs Multiples

I Moyenne empiriqueST

I VersionRao-Blackwelliz´eede la Moyenne empirique

STC = 1 T

n0+T

X

t=n0+1

E[h(θ(t))|η(t)]

I Utilisation de l’´echantillonnage d’importance

STP= 1 T

n0+T

X

t=n0+1

ωth(θ(t)),

o`uωt=f(θ(t))/g(θ(t)) (f(.) est la loi cible et g(.) est la loi d’importance)

(19)

Exemple : Normal-Cauchy

I Loi a posteriori

π(θ|x1,x2,x3)∝eθ

2 2

3

Y

i=1

1 1 + (θ−xi)2

I Compl´etion

π(θ, η1, η2, η3|x1,x2,x3)∝eθ

2 2σ2

3

Y

i=1

e

ηi

2[1+(θ−xi)2]

I Lois conditionnelles ηi|θ,xi ∼ E

1 + (θ−xi)2 2

, θ|x,η ∼ N

P ηixi

i−2, 1 Pηi−2

.

(20)

R´ esultats de simulation

Monte Carlo Statistical Methods/October 29, 2001 300

-10 -5 0 5 10 15 20

0200400600800

(20 000 iterations)

Comparison of the normal-Cauchy density and of the histogram (20,000points)

(21)

Moyenne de h(θ) = exp(−θ/σ)

Monte Carlo Statistical Methods/October 29, 2001 302

(thousand iterations)

0 100 200 300 400 500

0.800.810.820.830.840.85

Convergence ofST (full line),STC(dotted line),SRT (mixed) andSTP (long dashes)

(22)

Variances intra et inter-chaˆınes

I Moyenne de la chaˆınem ψm= 1

T

n0+T

X

t=n0+1

ψm(t),

o`uψm(t)=h[θ(mt)] etθ(mt) est l’´el´ementt de la chaˆınem.

I Moyenne des moyennesψ=M1

M

P

m=1

ψm

I Variance inter-chaˆınes

BT = n M−1

M

X

m=1

ψm−ψ2 I Variance intra-chaˆınes

WT = 1 M(T−1)

M

X

m=1 T

X

t=1

ψm(t)−ψm2

(23)

Potential Scale Reduction Factor

I Estimateur de la variance a posteriori de ψ=h(θ) bσT2 = T−1

T WT+

M+ 1 M

BT

T

I Potential Scale Reduction Factor RT = σb2T

WT = T−1 T + 1

T

M+ 1 M

BT

WT

On compare alorsRT `a 1 (une condition de convergence pr´econis´ee par Gelman et Rubin estRT<1.2).

(24)

R´ esultats de simulation

Monte Carlo Statistical Methods/October 29, 2001 312

0 200 400 600 800

1.0001.0051.0101.015 34.634.835.035.235.4

Evolutions ofRT (solid lines and scale on the left) and ofWT

(dotted lines and scale on the right)

(25)

Commentaires

I Simplicit´ede cette m´ethode⇒Succ`es

I N´ecessite de simuler plusieurs chaˆınes enparall`ele

I G´en´eralisation au casmultidimensionnel(Brooks and Gelman, 1998)

RT =T −1 T +

M+ 1 M

λ1,

o`uλ1est la plus grande valeur propre de la matrice sym´etrique d´efinie positiveWT−1BT/T.

Références

Documents relatifs

On considère une expérience aléatoire qui consiste en une succession infinie d’épreuves indépendantes, chacune d’entre elles ayant deux issues : succès obtenu avec probabilité p

Condition spécifique d’accès pour les tireurs en situation de handicap : présenter, en sus aux conditions d’accès à la formation, une attestation de la Commission nationale

On appelle MULTIPLES d’un nombre entier tous les nombres obtenus en multipliant par cet entier. Donner pour chacun des nombres suivants ses dix

On d´ etermination ensuite, pour une courbe elliptique E sur un corps fini F q , le groupe (fini) E(F q ) ([W], Theorem 4.1, qui r´ esulte de l’ex- pos´ e pr´ ec´ edent ainsi

La loi des proportions définies est une loi pondérale énoncée par Joseph Proust, en 1797, selon laquelle « un composé chimique pur contient toujours les mêmes

Définition Un intervalle de confiance pour une proportion p au niveau de confiance 0,95 est la réalisation, à partir d’un échantillon, d’un intervalle aléatoire contenant

(Elle permet en effet d’affirmer que les deux lois v, x qui interviennent dans la démonstration de ce lemme sont concentrées Il suffit donc, pour prouver (a),. de

[r]