Le recuit simulé - Quelques algorithmes stochastiques

Quelques algorithmes stochastiques

3.4 Le recuit simulé

La recherche des maxima globaux d’une fonction est un des problèmes importants en mathématiques appliquées.

Dans le cas d’une fonction différentiable surIR^d, on peut partir d’un point arbitraire, et se déplacer dans la direction du gradient, tant que la fonction décroît. Malheureusement une telle méthode conduit à trouver un minimum local, et non global. Dans le cas d’une fonction définie sur un ensemble fini E, on pourrait en principe calculer les valeursf(x)pour toutxdansE, mais dans les cas intéressants, une telle procédure n’est pas envisageable, en raison de la taille de l’ensemble E.

Nous allons présenter dans cette section la méthode du “recuit simulé”, qui par rapport à la méthode du gradient introduit des perturbations aléatoires qui permettent de sortir des bassins d’attraction des minima locaux.

Au cours des calculs, les perturbations aléatoires sont atténuées, de telle sorte que l’on espère finalement aboutir à un des minima globaux. La ter-minologie provient de l’analogie avec les procédés chimiques de fabrication de certains cristaux, qui si on les refroidit trop vite se figent dans un état différent de l’état désiré, lequel n’est atteint qu’à la suite d’un procédé im-pliquant un refroidissement très lent, avec éventuellement un réchauffement au cours du procédé.

Nous allons présenter l’algorithme du recuit dans le cas de la minimisation d’une fonction définie sur un ensemble fini E.

Commençons par présenter deux exemples de problème de minimisation d’une fonction sur un ensemble fini de cardinal gigantesque.

Exemple 3.4.1. Le voyageur de commerce. Soit {1, . . . , N} un ensemble de N villes. Le voyageur doit passer dans chacune de ces villes, en partant de 1 et en revenant en 1. E est l’ensemble de tous les itinéraires possibles (card E = (N −1)!). Un itinéraire est une suite

x= (x1, . . . , xN)

telle que x1 = 1, et (x2, . . . , xN) constitue une permutation de {2, . . . , N}. La fonction coût à minimiser est (avec xN+1 = 1) :

V(x) = XN

k=1

d(xk, xk+1),

où d(n, m) est la distance de la ville n à la ville m. La recherche des minima globaux de cette fonction V est un des problèmes classiques de la recherche opérationnelle.

Exemple 3.4.2. Restauration d’images. On reprend le modèle présenté à la section 3.1.3, et on souhaite, pour obtenir une image restaurée (i.e. dont on a supprimé les erreurs d’observation), trouver le maximum de la loi a posteriori, i.e. avec les notations du chapitre 2, à y fixé on cherche

x= arg max

x e⁻^βH(x)p^a(x,y)(1−p)^d(x,y). Supposons que l’on cherche à maximiser une fonction

U :E →IR₋, telle que, pour fixer les idées,

maxx∈E Ux = 0.

On cherche un des x tels que Ux = 0.

Pour tout β >0, on définit la probabilité π_β sur E par : π_β,x=Z_β⁻¹e^βU^x, x∈E

avec Z_β = X

x∈E

e^βU^x. Le paramètre β est destiné à tendre vers +∞. Quand β → +∞, la probabilité πβ converge vers la probabilité uniforme sur les maxima de U.

A chaque β > 0, on associe la matrice de transition d’une chaîne de Markov irréductible et apériodique, de probabilité invariante πβ. On peut la choisir par exemple comme suit. SoitGun graphe non orienté dansE, i.e. une collection de paires de points de E. On suppose que G possède la propriété suivante : pour tout x, y ∈ E, il existe n et x = x1, x2, . . . , xn =y ∈ E tels que(xk, xk+1)∈G, 1≤k ≤n−1. Posons

nx =|{y,(x, y)∈G}|.

Alors la matrice Pβ dont les éléments hors diagonaux sont donnés par Pβ,xy =1_(x,y)_∈_Gn⁻_x¹

e^β(U^y⁻^U^x⁾∧1 ,

3.5. EXERCICES 107 et convenablement complétée sur la diagonale, a les propriétés requises. No-tons que plus β est grand, plus les transitions qui diminuent la valeur de U sont rares. Pourvu que le choix du graphe G ne rende pas la chaîne pério-dique, si β est fixé et {X_n^β, n ≥ 0} est une chaîne de Markov de matrice de transition Pβ, la loi de X_n^β converge versπβ quand n→ ∞. L’idée de l’algo-rithme du recuit est de faire dépendre β de n, de telle sorte que β → +∞ quandn → ∞, avec l’espoir que alorsXn converge vers le (ou l’ensemble des) maximum de la fonction U. Ceci est vrai si β tend suffisamment lentement vers +∞ (d’où la terminologie“recuit”). Nous donnerons un résultat dans ce sens pour l’analogue d’une chaîne de Markov, mais en temps continu, à la section 7.10 ci–dessous.

3.5 Exercices

Exercice 3.5.1. SoitE un espace d’états dénombrable et pet q des densités de probabilité, avec 0 < p ≤ cq, q étant une densité facilement simulable.

On considère alors une suite Yn, n ≥1de variables aléatoires indépendantes et de même loi q, globalement indépendantes de la variable aléatoire X0. On définit par récurrence :

Xn+1 =

(Yn+1 avec probabilité _cq(Y^p(Yⁿ⁺¹⁾

n+1)

Xn avec probabilité 1− _cq(Y^p(Yⁿ⁺¹_n+1⁾₎

1. Ecrire X_n+1 sous la forme f(X_n, U_n+1, Y_n+1), où les U_n sont i. i. d. de loi commune la loi uniforme sur [0,1], et en déduire que Xn est une chaine de Markov.

2. Calculer la probabilité de transition Pij de Xn.

3. Calculer µP pour une probabilité µ et en déduire que la loi de X_n converge vers une unique probabilité invariante égale à p.

4. Quel rapport y-a-t-il entre cette chaîne et la méthode de rejet classique ? Exercice 3.5.2. Soit Pxy un noyau de transition d’une chaîne de Markov sur un espace d’état dénombrable E. On suppose que :

Pxy ≥αcy, pour tout x∈E, (3.2) où c est une mesure de probabilité et α > 0. On identifie l’ensemble des mesures bornées sur E à `¹(E) muni de la norme |ν|=P

x∈E|ν(x)|

1. Soit ν une mesure bornée de masse totale nulle. Montrer que |νP| ≤ (1−α)|ν|. En déduire que si µ etµ⁰ deux mesures de probabilité sur E on a :

|µP −µ⁰P| ≤(1−α)|µ−µ⁰|.

2. Montrer que s’il existe une mesure de probabilité invariante, elle est forcément unique et que pour toute probabilité µ la suite µPⁿ est de Cauchy.

3. Soit (Xn, n ≥ 0) une chaîne de Markov de matrice de transition P. Montrer que quelle que soit la loi initialeµdeX₀, la loi deX_n converge vers une unique loi de probabilité invariante ν et que de plus :

|µPⁿ−ν| ≤Cρⁿ où C est une constante finie et 0< ρ < 1.

4. Montrer que les résultats précédents sont conservés s’il existe ` ≥1 : P_xy^` ≥αcy, pour tout x, y ∈E. (3.3) 5. On considère maintenant l’algorithme de Métropolis sur un espace E fini. On suppose que P_xy =P_yx et que l’équation (3.2) est vérifiée. On cherche à simuler une loi µ donnée à une constante près par :

µx =Ce⁻^βH(x).

Écrire la probabilité de transition P˜_xy sur E qui permet de construire l’algorithme de Métropolis.

6. Vérifier que P˜ vérifie l’équation (3.2). Proposer une méthode de simu-lation approchée selon la loi µ.

Exercice 3.5.3. On veut résoudre dans IR^d l’équation

(I −A)x=b (3.4)

où A est une matrice de norme strictement inférieure à 1. Pour ceci on considère une chaîne de Markov Xn sur E = {1,2, . . . , d} de loi initiale µ strictement positive et de transition P(i, j) strictement positive sur E×E .

1. Pour n≥1 et y ∈IR^d on pose :

Wn=y(X0) A(X0, X1)· · ·A(Xn−1, Xn)

µ(X₀)P(X₀, X₁)· · ·P(X_n₋₁, X_n)b(Xn)

3.5. EXERCICES 109

Dans le document Processus de Markov et applications (Page 105-109)