Algorithmes stochastiques - Modélisation de phénomènes aléatoires :

æ æ æ æ æ à à à à à 0 1 2 3 4 5 0.1 0.2 0.3 0.4 0.5 0.6 0.7

FIGURE6.2 –On considère l’espaceE = {1, . . . , 5}et la fonctionV(1) = 87,V(2) = 4,V(3) =

55,V(4) =99,V(5) =25. La distribution de la probabilitéµTest représentée par des cercles pour T=10⁴et des carrés pourT=2. QuandTest très grand la mesure est presque distribuée unifor-mément, par contre pourTplus petit les valeurs les plus basses deVdeviennent prépondérantes (cf. lemme 6.1).

Démonstration. SoitV^?le minimum deV, on peut réécrire la mesure de Gibbs (6.2)

∀x ∈E, µ_T(x) = ¹ ∑y∈Eexp −1 T[V(y)−V?]exp −_T¹[V(x)−V^?] .

Dès que x 6∈ M, on a V(x)−V^? > 0 et comme E est fini, seuls les termes dans M

contribuent quandTtend vers 0.

La figure 6.2 illustre ce lemme et montre que pour T proche de 0, la mesure µ_T se concentre sur les points oùVest minimum. Par conséquent en simulant des réalisations de la mesureµ_T pour Tproche de 0, on obtiendra avec une grande probabilité une ap-proximation de l’ensembleMoùVatteint son minimum. La simulation de la mesure de probabilitéµ_T sera l’objet de la section suivante.

6.2 Algorithmes stochastiques

6.2.1 Algorithme de Metropolis-Hastings

À première vue, la simulation de la mesure de Gibbs (6.2) suppose de calculer la dis-tribution µ_T et donc d’évaluerZ_T = ∑y∈Eexp −1

TV(y)

. Dans la pratique, ceci est im-possible à implémenter car il faudrait calculer toutes les valeurs deVpour un ensembleE de cardinal trop important. La méthode proposée en 1953 dans l’article [21] et améliorée par W. Hastings [15] en 1970 permet d’éviter cet écueil en simulant la mesure de Gibbs à l’aide d’une chaîne de Markov.

L’algorithme de Metropolis-Hastings permet de simuler une variable aléatoire sous une mesure de probabilité quelconque surE. On noteπcette mesure et on suppose que

π(x) > 0 pour tout xdeE. Pour réaliser la simulation, il faut se donner une matrice de transitionQirréductible surEsatisfaisant pour tousx,ydeE

98 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES et une fonction croissanteh:]0,∞[→]0, 1]vérifianth(u) =uh(1/u). Par exemple on peut choisir h(u) =inf{1,u} ou h(u) = ^u 1+u^. Pourx6=y, on pose R(x,y) = ( h π(y)Q(y,x) π(x)Q(x,y) si Q(x,y)6=0 0 sinon ^(6.3)

Ceci permet de construire la matrice de transitionPdéfinie par (

P(x,y) =Q(x,y)R(x,y) si x6= y

P(x,x) =1−∑y6=xP(x,y) ^(6.4) L’algorithme de Metropolis-Hastings , décrit ci-dessous, permet de simuler une chaîne de Markov{X_n}n>0de matrice de transitionP:

Étape 0.Initialiser X₀ Étapen+1.

Choisir y selon la loi Q(X_n,y)

Choisir Un+1 uniformément dans [0, 1] (et indépendamment du passé) Si U_n+1< R(Xn,y) poser X_n+1= y, sinon poser X_n+1= Xn

Supposons queπ(x)>0 pour tous les étatsxdeE, on montre alors

Théorème 6.2. La matrice de transition P définie en(6.4) est irréductible et réversible pour la mesureπqui est donc son unique mesure invariante. Si de plus h<1alors P est apériodique. Démonstration. L’irréductibilité deQimplique immédiatement celle deP. Pour montrer quePest réversible, il suffit d’utiliser l’identitéh(u) =uh(1/u)

x6=y, π(x)P(x,y) =π(x)Q(x,y)h π(y)Q(y,x) π(x)Q(x,y) =π(y)Q(y,x) ^π⁽^x⁾^Q⁽^x^,^y⁾ π(y)Q(y,x)^h π(y)Q(y,x) π(x)Q(x,y) =π(y)Q(y,x)h π(x)Q(x,y) π(y)Q(y,x) =π(y)P(y,x). Le théorème 3.12 permet d’en déduire queπest bien la mesure invariante.

Sih < 1, alorsP(x,x)> 0 pour toutxdeEet la matricePest bien apériodique. On peut aussi vérifier facilement que siQest apériodique alorsPle sera même sih61.

L’intérêt de l’algorithme de Métropolis est évident pour simuler la mesure de Gibbs

µ_T(6.2), en effet la matrice de transitionPs’écrit pourx6= y P(x,y) =Q(x,y)h exp 1 T V(x)−V(y) Q(y,x) Q(x,y)

6.2. ALGORITHMES STOCHASTIQUES 99 et la normalisation ZT n’a plus besoin d’être calculée. Comme h est une fonction crois-sante, la matrice de transitionPpondère les probabilités de transition et favorise les sauts dexversysiV(x)>V(y)c’est-à-dire si le potentielVdécroît après le saut. Considérons le potentiel représenté figure 6.1 indexé parE={1, . . . ,L}et supposons que la matriceQ corresponde à la marche aléatoire symétrique surE. SiTest très faible, la chaîne de Mar-kov aura tendance à évoluer vers les minima deV. Cependant, l’évolution étant aléatoire certaines transitions (assez rares) peuvent aller à l’encontre de cette tendance et éviter à la chaîne de Markov de rester bloquée dans un minimum local. Contrairement à l’approche déterministe de la descente de gradient, les fluctuations aléatoires permettent d’explorer le paysage de potentiel. Nous reviendrons sur le choix optimal du paramètre Tsection 6.4.

6.2.2 Modèle d’Ising

Les mesures de Gibbs (6.2) s’utilisent aussi dans des contextes très différents des mé-thodes d’optimisation. Elles ont été introduites initialement en physique statistique pour rendre compte de la statistique de systèmes microscopiques. La théorie de Gibbs est pré-sentée en détail dans le cours de physique statistique [12] et nous nous contenterons ici de l’illustrer dans le cas particulier du modèle d’Ising.

FIGURE 6.3 –Deux réalisations du modèle d’Ising (obtenues par l’algorithme de

Metropolis-Hastings) pour différentes températures sur le domaineΛ={1, . . . , 40}2. La simulation de droite montre un état très désordonné associé à une température très haute. Sur la simulation de gauche, les spins de même signe se regroupent dans des régions assez larges car la température est plus basse.

Le modèle d’Ising offre un cadre théorique très simple pour décrire les transitions de phase de l’aimantation d’un métal ferromagnétique. À chaque site idu réseau Λ =

{1, . . . ,L}d, on associe un spin s_i prenant les valeurs ±1 et on note S_Λ = {s_i}i∈Λ ^une

configuration de spins. Les spins interagissent avec leurs plus proches voisins et une énergie est attribuée à chaque configurationS_Λ

V(S_Λ) =−

∑

i,j∈Λ

i∼j

100 CHAPITRE 6. APPLICATION AUX ALGORITHMES STOCHASTIQUES oùi∼ jsignifie que les sitesietjsont à distance 1 sur le réseauΛ. Un système physique a tendance à minimiser son énergie ce qui permet de distinguer deux configurations pri-vilégiées (lesétats fondamentaux) : les spins sont tous égaux à 1 ou tous égaux à−1. Pour tenir compte des fluctuations thermiques, on définit la mesure de Gibbs qui attribue à la configurationS_Λla probabilité µ_T(S_Λ) = ¹ Z_T ^exp −_T¹V(S_Λ)

où lafonction de partition ZTsert à normaliser la mesure de Gibbs. Le paramètreT s’inter-prète comme une température : quandTest grand les fluctuations thermiques dominent et le système est désordonné, par contre pour Tproche de 0 les configurations de basse énergie sont privilégiées et les spins ont tendance à s’aligner (cf. figure 6.3).

Ce modèle très simple de spins en interaction permet de mettre en évidence l’exis-tence d’une transition de phase quand la taille du domaineLtend vers l’infini. Les tran-sitions de phase constituent une source de questions fascinantes dont certaines seront évoquées au chapitre 7. Pour le moment, contentons nous d’implémenter l’algorithme de Metropolis-Hasting afin de simuler le modèle d’Ising.

Retraduit dans le formalisme des chaînes de Markov, une configuration S_Λ corres-pond à un état et l’espace d’états est E = {−1, 1}^Λ. Pour un domaine bi-dimensionnel de taille L= 40 comme dans la figure 6.3, le cardinal deEest 2⁴⁰^×⁴⁰ ' 10⁴⁸¹. Il est donc impossible d’énumérer toutes les configurations pour calculer la distribution µ_T. Pour simplifier les notations, nous allons omettre la dépendance enΛet poserS = S_Λ. Pour toutidansΛ, on noteS⁽ⁱ⁾la configuration déduite deSen changeant simplement le signe du spin eni

∀j∈ Λ, S⁽_jⁱ⁾ = (

−s_i, si j=i s_j, si j6=i

La matrice de référenceQdécrit une évolution sur l’espace des configurations

∀i∈Λ, Q(S,S⁽ⁱ⁾) = ¹ Card(Λ)^.

Elle correspond au mécanisme suivant : un siteiest choisi au hasard dansΛet son spin est retourné. Ce sont les seules transitions autorisées. Ces transitions modifient les confi-gurations seulement localement, par conséquent la variation de l’énergie correspondant au changement du spin enine dépend que de la moyenne des spins autour dei

δV(i,S) =V(S⁽ⁱ⁾)−V(S) =2s_i

∑

j∼i s_j.

Étant donnée une fonction h satisfaisant h(u) = uh(1/u), l’algorithme de Metropolis-Hastings s’écrit

Étape 0.Initialiser X₀ avec une configuration S quelconque

Étapen+1.

Choisir i uniformément dans Λ

Choisir U_n+1 uniformément dans [0, 1] (et indépendamment du passé) Si U_n+1<h exp(−1

T^δV(i,X_n))

Dans le document Modélisation de phénomènes aléatoires : (Page 97-101)