MÉTHODE MCCM 91 avec bien sûr - Quelques algorithmes stochastiques

Quelques algorithmes stochastiques

3.1. MÉTHODE MCCM 91 avec bien sûr

Z(β) = X

x∈E⁺

e⁻^βH(x),

quand β → 0, π tend vers la mesure uniforme sur E⁺, alors que lorsque β → +∞, π tend vers la mesure uniforme sur les minima globaux de H, i.

e. ici la masse de Dirac au point dont toutes les coordonnées valent 1. Un résultat célèbre d’Onsager dit que si X est une v.a. à valeurs dans E, de loi π, alors

Nlim→∞IEX(0) = [(1−(sinh 2β)⁻⁴)⁺]^1/8.

lorsque sinh 2β ≤ 1, on obtient que pour N très grand, la loi de X(0) n’est guère influencée par la condition au bord choisie (i. e. le choix des valeurs de {x(m), m ∈ ∂Λ}), alors que l’inverse est vrai même à la limite N → ∞ si sinh 2β >1.

Les physiciens sont très intéressés à réaliser des simulations sous la pro-babilité π pour N grand (pour tenter d’observer des phénomènes, du type du résultat d’Onsager, mais que l’on ne sait pas encore démontrer concer-nant éventuellement des modèles plus compliqués et moins bien connus que le modèle d’Ising). Mais pour N vraiment grand, il est impossible de simuler directement selon la loi π. Il est même quasiment impossible de calculer la constante de normalisation Z(β). Nous allons décrire la méthode de Monte Carlo par chaîne de Markov dans une version parallélisable, qui exploite la forme particulière du modèle d’Ising.

Décrivons tout d’abordl’échantillonneur de Gibbs. Considérons une par-tition de Λ suivant la parité de la somme de deux coordonnées du point m considéré :

Λ⁺={(m₁, m₂)∈Λ;m₁+m₂ est pair} Λ⁻={(m1, m2)∈Λ;m1+m2 est impair} Pour x∈E, on note :

x⁺ = (x(m), m∈Λ⁺), x⁻ = (x(m), m∈Λ⁻)

Il résulte de la forme du modèle d’Ising que π+−(x⁺|x⁻), la probabilité que X⁺ =x⁺, sachant queX⁻=x⁻, siXest une v.a. de loiπ, est de la forme (on

utilise la notation∝pour dire que deux fonctions sont égales à une constante de normalisation près) :

π+−(x⁺|x⁻)∝ Y

m∈Λ⁺\∂Λ

e^βx(m)s(m), avec, si m∈Λ⁺\∂Λ,

s(m) = X

m⁰;|m⁰−m|=1

x⁻(m⁰).

On a une formule analogue pour π₋+(x⁻|x⁺).

La facilité de simuler suivant ces deux lois provient de leur forme produit, et la constante de normalisation pour chaque facteur est explicite.

La procédure est maintenant la suivante. On choisit une configuration arbitraire X0 dans E⁺. Ensuite, on utilise la procédure récurrente suivante.

Etant donnéX_n, on simule d’abordX_n+1⁺ suivant la loiπ₊₋(·|X_n⁻), puisX_n+1⁻ suivant la loiπ₋+(·|X_n+1⁺ ).

Cette procédure est exactement l’échantillonneur de Gibbs de la section précédente, où l’on visite alternativement tous les sites deΛ⁺\∂Λ, puis ceux deΛ⁻\∂Λ (avec une numérotation différente de la suiteXn). La convergence résulte de la discussion générale ci–dessus. Il n’est pas difficile de vérifier que l’on simule ici une chaîne de Markov irréductible dontπest bien la probabilité invariante.

Décrivons maintenant l’algorithme de Metropolis. Sachant que Xn = x, indépendamment pour chaquem ∈Λ⁺\∂Λ, on change le signe dex(m) avec la probabilité

p(m, x) = π(xm)

π(x) ∧1 =e⁻^2βx(m)s(m)∧1, avec xm

∼m x, xm(m) =−x(m), ets(m) = X

|m⁰−m|=1

x⁻(m⁰).

On a ainsi obtenuX_n+1⁺ (m). On simule ensuiteX_n+1⁻ (m)en conditionnant par la valeur de X_n+1⁺ (m). Le processus obtenu {Xn, n ∈ IN} est bien une chaîne de Markov irréductible, de probabilité invariante π.

3.1.3 Analyse bayésienne d’images

On peut utiliser le modèle d’Ising (ou d’autres modèles de ce type) comme loi a priori d’une image bidimensionnelle digitalisée. Chaque pointm∈Λ est

3.1. MÉTHODE MCCM 93 un “pixel” (en franglais ! pixel=picture element). x(m) est le niveau de gris du pixel m (ici avec le modèle d’Ising on n’a que deux niveaux de gris : blanc et noir). En faisant varier le paramètre β du modèle d’Ising, on varie la “texture” de l’image : plus β est grand, plus on favorise une image avec de grandes taches blanches et de grandes taches noires, alors que β plus petit favorise un mélange plus fin de couleurs.

On observe la couleur (blanche ou noire) de chaque pixel, et l’observation restitue la couleur effective de chaque pixel avec la probabilité p ∈]0,1[, les erreurs de mesures éventuelles sur les différents pixels étant indépendantes.

Alors la loi a posteriori, plus précisément la loi conditionnelle de l’événe-ment X =x, sachant que l’on a observé la configuration y , est

π(x|y)∝e⁻^βH(x)p^a(x,y)(1−p)^d(x,y),

où a(x, y) est le nombre de sites où les configurations x et y sont en accord (i.e. identiques) et d(x, y) le nombre de sites où elles sont en désaccord (i.e.

différentes).

On obtient une image “nettoyée des erreurs d’observation” en simulant selon la probabilité π(x|y). Bien qu’il ne s’agisse plus exactement du modèle d’Ising, les mêmes méthodes s’appliquent. Décrivons l’algorithme de Metro-polis. Sachant que Xn =x, indépendamment pour chaque site m ∈ Λ⁺\∂Λ on change le signe de X_n⁺(m) avec la probabilité

p(m, x, y) = π(xm|y) π(x|y) ∧1

=e⁻^2βx(m)s(m)

1−p p

x(m)y(m)

∧1,

obtenant ainsi X_n+1⁺ . On simule ensuite X_n+1⁻ en utilisant sur Λ⁺\∂Λ, les valeurs ainsi obtenues. On fabrique ainsi une chaîne de Markov irréductible, de probabilité invariante π(·|y).

3.1.4 Chaînes chauffées

La convergence de l’algorithme MCCM requiert que la chaîne simulée vi-site suffisament souvent tous les états. Or la forme de la probabilité de tran-sition peut être telle que la chaîne a tendance à rester piégée très longtemps dans certaines zones de l’espace des états. Supposons pour fixer les idées que

E = Z (ou un intervalle de Z, ou Z/N), et que Rx,x+1 = Rx,x−1 = 1/2.

Posons

H(x) =−log(π_x).

On peut choisir comme matrice de transition P de la chaîne à simuler la matrice

Pxy =







2exp[H(x)−H(y)], si y=x±1,

1− ¹₂exp[H(x)−H(x+ 1)− ¹₂exp[H(x)−H(x−1)], si y=x,

0, sinon.

Supposons que deux zones A etB de Z oùπ prend des valeurs significatives sont séparées par un intervalle où la valeur de π est très petite (i. e. où H prend des valeurs gigantesques). Alors la chaîne simulée aura tendance à passer trop rarement de A vers B (ainsi que de B vers A). Une solution est de définir d’autres matrices de transition telles que

Pβ,xy = 1

2exp[β(H(x)−H(y))], siy=x±1,

avec 0< β < 1. La chaîne correspondante est dite “chauffée” (β s’interprète comme l’inverse d’une température). On simule alors en parallèle la chaîne {Xn}correspondant àβ = 1, et les chaînes {X_n¹}, . . . ,{X_n^k}, correspondant à des valeurs1> β₁ > β₂ >· · ·> β_k>0. Clairement, ces chaînes ont d’autant moins tendance à rester piégées dans certaines zones de l’espace d’état queβ est petit. L’idée set alors de permuter de temps en temps de façon aléatoire les valeurs de (X_n, X_n¹, . . . , X_n^k), de façon à ce que X_n visite plus rapidement l’espace d’états E. Bien sûr, dans le calcul final, on ne retient que les valeurs de {Xn, n≥0} ainsi obtenues.

Dans le document Processus de Markov et applications (Page 91-94)