• Aucun résultat trouvé

La m´ethode d’´echantillonnage consiste `a construire une chaˆıne de Markov dont la distribution converge asymptotiquement vers la loi cible PX(·). Pour cela, plac¸ons nous dans le cadre des

m´ethodes MCMC `a saut r´eversibles (RJ-MCMC) [Green 95].

Dans ce sch´ema, une variable auxiliaire z∈ RL, est d’abord simul´ee `a partir d’une distribution

PZ(z|x) qui d´epend de la r´ealisation courante x ∈ RN. Ensuite, un mouvement deterministe est

r´ealis´e selon une transformation φ(·),

φ: RN × RL7→ RN × RL (x, z)7→ (x, s)

qui doit ˆetre r´eversible, c’est `a dire φ(x, s) = (x, z). Le nouvel ´echantillon ¯xest ensuite obtenu en soumettant x, r´esultant de la transformation, `a un test d’acceptation-rejet avec une probabilit´e d’acceptation α(x, x) = min  1,PX(x)PZ(s|x) PX(x)PZ(z|x)|Jφ (x, z)|  ,

o `u Jφ(x, z) est le determinant du jacobien de la transformation φ(·) en (x, z). En pratique, le choix

de la loi conditionnelle PZ(·) ansi que de la transformation φ(·) doit ˆetre adapt´e `a la distribution

cible PX(·).

4.2.1 Cas de l’´echantillonnage de vecteurs gaussiens

Pour ´echantillonner une distribution gaussienne x∼ N µ, Q−1, une g´en´eralisation du sch´ema

adopt´e dans [De Forcrand 99] consiste `a prendre L = N , et `a d´efinir une variable auxiliaire z∈ RN

distribu´ee selon

PZ(z|x) = N (Ax + b, B) , (4.4)

o `u A∈ RN×N, B∈ RN×N et b∈ RN sont des param`etres dont le choix sera discut´e plus loin. De

plus, la transformation d´eterministe φ(·) sera choisie telle que

x s ! = φ1(x, z) φ2(x, z) ! = −x + f(z) z ! , (4.5)

avec des fonctions f : RN 7→ RN, φ

1: (RN× RN)7→ RN



et φ2 : (RN × RN)7→ RN

 .

4.2. M ´ETHODE MCMC `A SAUTS R ´EVERSIBLES 59

Proposition 1([Gilavert 14]). Soit une variable auxiliaire z obtenue selon (4.4) et une proposition d’´echantillon xr´esultant de (4.5). Le probabilit´e d’acceptation de cet ´echantillon vaut

α(x, x|z) = min1, e−r(z)t(x−x), (4.6)

avec

r(z) = Qµ + AtB−1(z− b) −1

2 Q+ A

tB−1Af(z). (4.7)

En particulier, cette probabilit´e d’acceptation vaut 1 lorsque f (z) set d´efinie comme la solution exacte de 1

2 Q+ A

tB−1Af(z) = Qµ + AtB−1(z− b) . (4.8)

De plus, dans le cas d’une r´esolution exacte de ce syst`eme, la corr´elation entre deux ´echantillons cons´ecutifs vaut z´ero seulement et seulement si les matrices A et B sont choisies tel que

AtB−1A= Q. (4.9)

4.2.2 Algorithme RJPO

Consid´erons la variable auxiliaire z dont la distribution est d´efinie par (4.4) avec

A= B = Q and b = Qµ. (4.10)

Ce choix permet, d’une part, de respecter la condition (4.9) de la proposition 1 et, d’autre part, de r´eduire l’´equation (4.8) `a la r´esolution d’un syst`eme lin´eaire de la forme Qf (z) = z, ce qui permet d’´etablir le lien avec la m´ethode PO. En effet, d’apr`es une telle param´etrisation, la variable auxiliaire z aura comme distributionN (Qx + Qµ, Q) et peut ainsi ˆetre exprim´ee sous la forme z = Qx + η, avec η ∼ (Qµ, Q). Par cons´equent, la simulation de la variable z se r´eduit `a la simulation de η, ce qui correspond `a l’´etape de perturbation dans l’algorithme PO.

G´en´eration de la variable auxiliaire. Dans [Papandreou 10,Orieux 12], une m´ethode simple de simulation de η est propos´ee. Celle-ci consiste `a exploiter l’expression (4.3) et `a perturber chaque terme s´epar´ement

1. Simuler ηy ∼ N y − µy, Ry,

2. Simuler ηx ∼ N (µx, Rx),

3. D´efinir η = HtR−1y ηy+ R−1x ηx, un ´echantillon deN (Qµ, Q).

Il est important de noter qu’une telle astuce est tr`es int´eressante car les matrices Ryet Rxposs`edent

60 4.2. M ´ETHODE MCMC `A SAUTS R ´EVERSIBLES

En fait, l’´etape de perturbation peut ˆetre appliqu´ee pour la simulation de toute distribution gaussienne dont la matrice de pr´ecision Q est disponible sous une forme factoris´ee Q = FtF, avec une matrice F ∈ RN′×N

. Dans ce cas, η = Qµ + Ftw, o `u ω∼ N (0, IN′).

G´en´eration du nouvel ´echantillon. Dans le cas (4.10), l’´equation (4.7) se simplifie en

r(z) = z− Qf(z). (4.11)

Par cons´equent, une premi`ere version de l’algorithme RJPO est la suivante 1. Simuler η ∼ N (Qµ, Q),

2. Prendre z = Qx + η. R´esoudre le syst`eme lin´eaire Qu = z, de fac¸on approch´ee. Soit ub la solution retenue avec un r´esidu r(z) = z− Qbuet noterxb=−x + bu, l’´echantillon propos´e. 3. Avec une probabilit´e min1, e−r(z)t(x−bx)prendre ¯x=xb, ou retenir ¯x= x.

Remarques :

• Dans le cas d’une r´esolution tronqu´ee du syst`eme dans l’´etape 2, la solution retenue peut d´ependre du point initial u0. Or, f (z) ne doit pas d´ependre de x, pour que le mouvement

(4.5) soit toujours r´eversible. Donc le point initial u0 ne doit pas d´ependre de x. Un choix,

par d´efaut, est u0 = 0.

• Une version plus compacte de l’´echantillonneur peut ˆetre obtenue en substituant x = f(z) − xdans l’´equation (4.11). Celle-ci se r´eduit `a la r´esolution du syst`eme Qx = η. L’´etape2de l’algorithme RJPO se simplifie donc en :

2. R´esoudre le syst`eme lin´eaire Qx = η de fac¸on approch´ee. Soitxbla solution retenue et r(z) = η− Qbx.

4.2.3 Lien avec l’algorithme PO

D’apr`es la proposition1, la r´esolution exacte du syst`eme (4.8) conduit `a une probabilit´e d’ac- ceptation qui vaut 1. La proc´edure d’´echantillonnage r´esultante est comme suit

1. Simuler η ∼ N (Qµ, Q), 2. Calculer z = Qx + η, 3. Prendre ¯x=−x + Q−1z.

Notons que ¯x=−x + Q−1(Qx + η) = Q−1η. Par cons´equent, la variable auxilliarie z n’est plus

n´ecessaire car les ´etapes 2 et 3 de l’algorithme peuvent ˆetre fusionn´ees en une seule 2. Prendre ¯x= Q−1η.

4.2. M ´ETHODE MCMC `A SAUTS R ´EVERSIBLES 61

Discussion :

• Dans le cas de la r´esolution exacte, l’algorithme de simulation par RJMCMC co¨ıncide avec l’algorithme PO propos´e dans [Orieux 12].

• Pour les mˆemes raisons que pr´ec´edemment, le point initial x0 de r´esolution du syst`eme

lin´eaire doit ˆetre choisi de sorte `a ce que u0 = x0+ x soit ind´ependant de x. Par cons´equent,

des choix tels quel x0 = 0 ou x0 = x ne sont pas autoris´es, alors que x0 =−x est le choix

par d´efaut correspondant `a u0 = 0.

4.2.4 Illustration du comportement pathologique du PO tronqu´e

Consid´erons une distribution gaussienne multivari´ee en dimension N = 20, de moyenne µ et de matrice de covariance R d´efinis par

Rij = σ2ρ|i−j|, (∀i = 1, . . . , N; ∀j = 1, . . . , N), (4.12)

µi∼ U[0, 10], (∀i = 1, . . . , N), (4.13)

avec σ2= 1 et ρ = 0.8. Apr`es calcul de la matrice de pr´ecision Q et du produit Qµ, l’algorithme PO tronqu´e est appliqu´e pour g´en´erer 5000 ´echantillons avec plusieurs niveaux de troncature (nombre de sous-it´erations de gradient conjugu´e, not´e J).

On peut constater sur la figure 4.1 qu’une troncature pr´ematur´ee, avec J < 5, conduirait `a une distribution compl`etement diff´erente de la loi cible. Cependant, grˆace `a la formulation de l’´echantillonnage dans le cadre des RJMCMC, il est possible de d´eduire `a partir de la figure4.1(d)

qu’il faut augmenter le nombre de sous-it´erations de gradient conjugu´e pour obtenir une taux d’acceptation suffisant. On peut observer aussi qu’une r´esolution exacte n’est pas n´ecessaire car le taux d’acceptation est pratiquement ´egal `a un, d`es lors que J > 9.

Discussion.

• Ce r´esultat permet de conclure que l’id´ee de tronquer la r´esolution est judicieuse, mais une ´etape d’acceptation-rejet est n´ecessaire pour assurer un comportement sain de l’´echantillonneur. • Le choix du seuil de troncature doit permettre d’optimiser le co ˆut de calcul de l’´echantillonneur

en r´ealisant le meilleur compromis entre nombre d’it´erations par ´echantillon et convergence rapide de la chaˆıne. En effet, le seuil de troncature va d´ependre `a la fois de la dimension du probl`eme ainsi que du conditionnement de la matrice Q.

• Une analyse plus d´etaill´ee de l’influence du seuil de troncature sur le comportement de l’´echantillonneur est r´ealis´ee dans le papier [Gilavert 14], fourni dans l’annexeA.5de ce ma- nuscrit .

62 4.3. OPTIMISATION DU CO ˆUT DE CALCUL DES ´ECHANTILLONNEURS x1 x2 2 4 6 8 10 12 14 −6 −4 −2 0 2 4 6 (a) J = 3 it´erations x1 x2 2 4 6 8 10 12 14 −6 −4 −2 0 2 4 6 (b) J = 10 it´erations x1 x2 1 2 3 4 5 2 4 6 8 10 12 14 −6 −4 −2 0 2 4 6 (c) Moyenne empirique 1 5 10 15 20 0 0.2 0.4 0.6 0.8 1 Nombre d’it´erations de GC T a u x d ’a cc ep ta ti o n (d) Taux d’acceptation

FIGURE4.1 – Illustration du comportement pathologique du PO tronqu´e sur un probl`eme de petite taille. On peut constater que l’effet n´efaste de la troncature est perceptible pour un faible nombre d’it´erations de gradient conjugu´e.