Méthode MCMC à sauts réversibles - Contributions à la résolution de problèmes inverses de gr

La méthode d’échantillonnage consiste à construire une chaˆıne de Markov dont la distribution converge asymptotiquement vers la loi cible PX(·). Pour cela, plaçons nous dans le cadre des

méthodes MCMC à saut réversibles (RJ-MCMC) [Green 95].

Dans ce schéma, une variable auxiliaire z∈ RL_{, est d’abord simulée à partir d’une distribution}

PZ(z|x) qui d´epend de la r´ealisation courante x ∈ RN. Ensuite, un mouvement deterministe est

r´ealis´e selon une transformation φ(·),

φ_{: R}N _{× R}L_{7→ R}N _{× R}L (x, z)7→ (x, s)

qui doit être réversible, c’est à dire φ(x, s) = (x, z). Le nouvel échantillon ¯xest ensuite obtenu en soumettant x, résultant de la transformation, à un test d’acceptation-rejet avec une probabilité d’acceptation α(x, x) = min 1,PX(x)PZ(s|x) PX(x)PZ(z|x)|Jφ (x, z)| ,

o `u Jφ(x, z) est le determinant du jacobien de la transformation φ(·) en (x, z). En pratique, le choix

de la loi conditionnelle PZ(·) ansi que de la transformation φ(·) doit être adapté à la distribution

cible PX(·).

4.2.1 Cas de l’´echantillonnage de vecteurs gaussiens

Pour échantillonner une distribution gaussienne x∼ N µ, Q−1_{, une généralisation du schéma}

adopté dans [De Forcrand 99] consiste à prendre L = N , et à définir une variable auxiliaire z∈ RN

distribu´ee selon

PZ(z|x) = N (Ax + b, B) , (4.4)

o ù A∈ RN×N, B∈ RN×N et b∈ RN _{sont des paramètres dont le choix sera discuté plus loin. De}

plus, la transformation d´eterministe φ(·) sera choisie telle que

x s ! = φ1(x, z) φ₂(x, z) ! = −x + f(z) z ! , (4.5)

avec des fonctions f : RN 7→ RN_{, φ}

1: (RN× RN)7→ RN

et φ2 : (RN × RN)7→ RN

4.2. M ÉTHODE MCMC À SAUTS R ÉVERSIBLES 59

Proposition 1([Gilavert 14]). Soit une variable auxiliaire z obtenue selon (4.4) et une proposition d’échantillon xrésultant de (4.5). Le probabilité d’acceptation de cet échantillon vaut

α(x, x_{|z) = min}1, e−r(z)t(x−x), (4.6)

avec

r(z) = Qµ + AtB−1(z_{− b) −}1

2 Q+ A

t_B−1_A_f_(z). _(4.7)

En particulier, cette probabilit´e d’acceptation vaut 1 lorsque f (z) set d´efinie comme la solution exacte de 1

2 Q+ A

t_B−1_A_f_{(z) = Qµ + A}t_B−1_(z_{− b) .} _(4.8)

De plus, dans le cas d’une résolution exacte de ce système, la corrélation entre deux échantillons consécutifs vaut zéro seulement et seulement si les matrices A et B sont choisies tel que

AtB−1A= Q. (4.9)

4.2.2 Algorithme RJPO

Consid´erons la variable auxiliaire z dont la distribution est d´efinie par (4.4) avec

A= B = Q and b = Qµ. (4.10)

Ce choix permet, d’une part, de respecter la condition (4.9) de la proposition 1 et, d’autre part, de réduire l’équation (4.8) à la résolution d’un système linéaire de la forme Qf (z) = z, ce qui permet d’établir le lien avec la méthode PO. En effet, d’après une telle paramétrisation, la variable auxiliaire z aura comme distributionN (Qx + Qµ, Q) et peut ainsi être exprimée sous la forme z = Qx + η, avec η ∼ (Qµ, Q). Par conséquent, la simulation de la variable z se réduit à la simulation de η, ce qui correspond à l’étape de perturbation dans l’algorithme PO.

Génération de la variable auxiliaire. Dans [Papandreou 10,Orieux 12], une méthode simple de simulation de η est proposée. Celle-ci consiste à exploiter l’expression (4.3) et à perturber chaque terme séparément

1. Simuler ηy ∼ N y − µy, Ry,

2. Simuler ηx ∼ N (µx, Rx),

3. D´efinir η = HtR−1_y η_y+ R−1_x η_x, un ´echantillon deN (Qµ, Q).

Il est important de noter qu’une telle astuce est très intéressante car les matrices Ryet Rxpossèdent

60 4.2. M ÉTHODE MCMC À SAUTS R ÉVERSIBLES

En fait, l’étape de perturbation peut être appliquée pour la simulation de toute distribution gaussienne dont la matrice de précision Q est disponible sous une forme factorisée Q = FtF, avec une matrice F ∈ RN′_×N

. Dans ce cas, η = Qµ + Ftw, o `u ω∼ N (0, IN′).

Génération du nouvel échantillon. Dans le cas (4.10), l’équation (4.7) se simplifie en

r(z) = z_{− Qf(z).} (4.11)

Par cons´equent, une premi`ere version de l’algorithme RJPO est la suivante 1. Simuler η ∼ N (Qµ, Q),

2. Prendre z = Qx + η. Résoudre le système linéaire Qu = z, de façon approchée. Soit ub la solution retenue avec un résidu r(z) = z− Qbuet noterxb=_{−x + b}u, l’échantillon proposé. 3. Avec une probabilité min1, e−r(z)t(x−bx)prendre ¯x=xb, ou retenir ¯x= x.

Remarques :

• Dans le cas d’une résolution tronquée du système dans l’étape 2, la solution retenue peut dépendre du point initial u0. Or, f (z) ne doit pas dépendre de x, pour que le mouvement

(4.5) soit toujours r´eversible. Donc le point initial u0 ne doit pas d´ependre de x. Un choix,

par d´efaut, est u0 = 0.

• Une version plus compacte de l’échantillonneur peut être obtenue en substituant x = f(z) − xdans l’équation (4.11). Celle-ci se réduit à la résolution du système Qx = η. L’étape2de l’algorithme RJPO se simplifie donc en :

2. Résoudre le système linéaire Qx = η de façon approchée. Soitxbla solution retenue et r(z) = η− Qbx.

4.2.3 Lien avec l’algorithme PO

D’après la proposition1, la résolution exacte du système (4.8) conduit à une probabilité d’acceptation qui vaut 1. La procédure d’échantillonnage résultante est comme suit

1. Simuler η ∼ N (Qµ, Q), 2. Calculer z = Qx + η, 3. Prendre ¯x=_{−x + Q}−1_z_.

Notons que ¯x=−x + Q−1_{(Qx + η) = Q}−1_η_{. Par cons´equent, la variable auxilliarie z n’est plus}

nécessaire car les étapes 2 et 3 de l’algorithme peuvent être fusionnées en une seule 2. Prendre ¯x= Q−1_η_.

4.2. M ÉTHODE MCMC À SAUTS R ÉVERSIBLES 61

Discussion :

• Dans le cas de la r´esolution exacte, l’algorithme de simulation par RJMCMC co¨ıncide avec l’algorithme PO propos´e dans [Orieux 12].

• Pour les mêmes raisons que précédemment, le point initial x0 de résolution du système

linéaire doit être choisi de sorte à ce que u0 = x0+ x soit indépendant de x. Par conséquent,

des choix tels quel x0 = 0 ou x0 = x ne sont pas autoris´es, alors que x0 =−x est le choix

par d´efaut correspondant `a u0 = 0.

4.2.4 Illustration du comportement pathologique du PO tronqu´e

Considérons une distribution gaussienne multivariée en dimension N = 20, de moyenne µ et de matrice de covariance R définis par

Rij = σ2ρ|i−j|, (∀i = 1, . . . , N; ∀j = 1, . . . , N), (4.12)

µi∼ U[0, 10], (∀i = 1, . . . , N), (4.13)

avec σ2= 1 et ρ = 0.8. Après calcul de la matrice de précision Q et du produit Qµ, l’algorithme PO tronqué est appliqué pour générer 5000 échantillons avec plusieurs niveaux de troncature (nombre de sous-itérations de gradient conjugué, noté J).

On peut constater sur la figure 4.1 qu’une troncature prématurée, avec J < 5, conduirait à une distribution complètement différente de la loi cible. Cependant, grâce à la formulation de l’échantillonnage dans le cadre des RJMCMC, il est possible de déduire à partir de la figure4.1(d)

qu’il faut augmenter le nombre de sous-itérations de gradient conjugué pour obtenir une taux d’acceptation suffisant. On peut observer aussi qu’une résolution exacte n’est pas nécessaire car le taux d’acceptation est pratiquement égal à un, dès lors que J > 9.

Discussion.

• Ce résultat permet de conclure que l’idée de tronquer la résolution est judicieuse, mais une étape d’acceptation-rejet est nécessaire pour assurer un comportement sain de l’échantillonneur. • Le choix du seuil de troncature doit permettre d’optimiser le co ût de calcul de l’échantillonneur

en réalisant le meilleur compromis entre nombre d’itérations par échantillon et convergence rapide de la chaˆıne. En effet, le seuil de troncature va dépendre à la fois de la dimension du problème ainsi que du conditionnement de la matrice Q.

• Une analyse plus détaillée de l’influence du seuil de troncature sur le comportement de l’échantillonneur est réalisée dans le papier [Gilavert 14], fourni dans l’annexeA.5de ce ma- nuscrit .

62 4.3. OPTIMISATION DU CO ÛT DE CALCUL DES ÉCHANTILLONNEURS x1 x2 2 4 6 8 10 12 14 −6 −4 −2 0 2 4 6 (a) J = 3 itérations x1 x2 2 4 6 8 10 12 14 −6 −4 −2 0 2 4 6 (b) J = 10 itérations x1 x2 1 2 3 4 5 2 4 6 8 10 12 14 −6 −4 −2 0 2 4 6 (c) Moyenne empirique 1 5 10 15 20 0 0.2 0.4 0.6 0.8 1 Nombre d’itérations de GC T a u x d ’a cc ep ta ti o n (d) Taux d’acceptation

FIGURE4.1 – Illustration du comportement pathologique du PO tronqué sur un problème de petite taille. On peut constater que l’effet néfaste de la troncature est perceptible pour un faible nombre d’itérations de gradient conjugué.

Dans le document Contributions à la résolution de problèmes inverses de grande taille en traitement du signal et de l'image (Page 69-73)