1
Bases probabilistes de l’optimisation stochastique
Dr. Emmanuel Zenou
Associate Professor [email protected]
2
Introduction
Optimisation Stochastique
Mod´elisation probabiliste : chaˆınes de Markov
Recuit simul´e
3
Introduction
Objectifs
4I Pourquoi optimiser ?
Objectifs
5I Trouver l’incidence optimale de finesse maximale d’un planeur. . .
Objectifs
6I Estimer la trajectoire d’un ast´ero¨ıde `a partir d’observations partielles et/ou de mesures bruit´ees. . .
Objectifs
7I Reconnaˆıtre des objets dans une image. . .
Objectifs
8I L’objectif est de minimiser une fonction `a plusieurs param`etres :
J :E −→R
(x,y,z, . . .)−→J(x,y,z, . . .)
I En g´en´eralE ⊂Rn
I Il faut donc distinguer la fonction `a minimiser (J) des param`etres de minimisation (x,y,z, . . .)
Objectifs
9Exemple Param`etre(s) Fonctions `a minimiser (J)
α Coefficient de traˆın´ee / coeffi- cient de portance.
a,b,c,d,e,f Erreurs sur les distances
x,y, θ Erreur sur les formes / couleurs
Objectifs
10I Deux objectifs :
(Jmin, ~x∗)
I L’objectif 1erest de minimiser une fonction dans un espace d’´etat donn´e :
Jmin= min
~
x∈EJ(~x)
I L’objectif 2eest de trouver les param`etres optimaux,i.e. le lieudu minimum :
~
x∗= argmin
~x∈E
J(~x)
Exemple simple
11Exemple (un peu moins) simple
12Propri´ et´ es
13I Propri´et´es de la fonctionJ `a minimiser :
I continuit´e
I diff´erentiabilit´e
I convexit´e
I coercitivit´e
I . . .
I Propri´et´es de l’espace d’´etat :
I dimension
I taille
I . . .
Le choix d’un algorithme d´epend fortement des propri´et´es de J!
Propri´ et´ es
14I En g´en´eral, la fonction J n’est pas convexe
I Cependant, si l’on a une approximation initiale
suffisamment correcte, on peut consid´erer que la fonction est localement convexe ; on utilisera alors des techniques d’optimisation d´eterministe
I Si l’espace d’´etat est tr`es grand et/ou la fonction `a minimiser est irr´eguli`ere (non convexe), on utilisera des techniques d’optimisation stochastique
15
Optimisation Stochastique
Principe
16I Le principe est toujours le mˆeme : explorer de mani`ere al´eatoire l’espace d’´etat afin de converger vers le ou les optimaux locaux
I D´eroulement des algorithmes :
1. x0est une position initiale au hasard 2. tant que(crit`ere d’arrˆet non atteint)
2.1 On choisitxv ∈ V(xc) voisin de l’´etat courantxc
2.2 On ´evalue (mesure, calcule. . .) l’´energie du voisinU(xv) 2.3 On valide ou non le nouveau point courant :xc+∈ {xc,xv}
´
17Elements indispensables
Les ´el´ements indispensables `a la mise en œvre sont :
I Unespace d’´etat bien d´efini
I Unvoisinage(donc un graphe)
I Une politique d’exploration: Tous mes voisins sont-ils admissibles ? Sont-ils ´equiprobables ?
I Une´energie(oucoˆutouobjectif) `a minimiser
I Une politique de validation(ou dynamique) : le voisin choisi est-il s´electionn´e ?
I Uncrit`ere d’arrˆet
Principaux algorithmes
18I Tous les algorithmes d’optimisation stochastique sont fond´es sur ce principe
I Les principaux algorithmes sont :
I Recuit simul´e
I Algorithmes g´en´etiques
I Q-Learning
19
Mod´elisation probabiliste : chaˆınes de Markov
Chaˆıne de Markov
20Hyp : Espace d’´etat discret & fini.
D´efinition
Unechaˆıne de Markov`a valeurs dans un espace d’´etat E est une suite de variables al´eatoires (Xt)`a valeurs dans E telle que pour toute trajectoire finie d’´etats {x0,x1, . . . ,xt+1} on ait
π Xt+1 =xt+1|Xt =xt,Xt−1 =xt−1, . . . ,X0=x0
= π Xt+1 =xt+1|Xt =xt
,→ Toute information que peut contenir le pass´e pour pr´evoir le futur est contenue dans la connaissance de l’´etat actuel.
Repr´ esentations
21Une chaˆıne de Markov peut alors ˆetre repr´esent´ee de deux mani`eres compl´ementaires :
,2 ,1 0 . . . ,1
,1 ,05 ,07 . . . ,2
0 ,7 ,05 . . . 0
... ... . ..
0 0 ,25 . . . ,25
GrapheG= (E,P)
Matrice de transition pij =π Xt+1=xt+1|Xt =xt
πt+1=πt.Pt→t+1
Propri´ et´ es
22Mat. stochastique : la somme des ´el´ement sur une ligne (ou une colonne) est ´egale `a 1
Homog´en´e¨ıt´e : la chaˆıne de Markov est ind´ependante du temps : Pt→t+1=P =⇒πn=π0.Pn
Probabilit´e invariante : πinv.P =πinv
Probabilit´e limite : πlim(π0) = limt→∞(π0Pt) Graphe irr´eductible : tous les ´etats sont atteignables
Ergodicit´ e
23D´efinition
On dit qu’une chaˆıne de Markov(Xt)est ergodique si et
seulement si il existe une probabilit´e uniqueπ∗ telle que pour toute loi initialeπ0 la suite (Xt) converge en loi versπ∗ `a l’infini.
Dans ce cas,
∀π0, πlim=πinv =π∗
24
Recuit simul´e
Dynamique de Metropolis
25I Le recuit simul´e est un algorithme issu de la physique statistique
I Le principe g´en´eral est d’explorer l’espace d’´etat avec une dynamique particuli`ere : la dynamique de metropolis, dont on fait d´ecroˆıtre un param`etre appel´e, par analogie, temp´erature
I si l’´energie du voisin est plus petite (∆U <0), alors le voisin est s´electionn´e
I si l’´energie du voisin est plus grande (∆U >0), alors le voisin est s´electionn´e avec une probabilit´e
p=e−∆UT
Dynamique de Metropolis
26Position initiale : x0
x0 et 2 voisins potentiels
Voisin de gauche choisi. . .
∆U <0
. . . et s´electionn´e carp =e−∆UT >1
x0 et 2 voisins potentiels
Voisin de droite choisi. . .
∆U >0
. . . et s´electionn´e avec une probabilit´e p =e−∆UT
Dynamique de Metropolis
27pxy = 1
N(x)e−βmax(0,∆U) si x 6=y pxx = 1−X
y6=x
pxy
Cette dynamique markovienne est ergodigue. Elle est appel´ee dynamique de Metropolis
Dynamique de Metropolis
28I Avantage : sortir des minima locaux !
I Le param`etre de temp´erature est d´eterminant :p =e−∆UT
I Plus la temp´erature est ´elev´ee, plus la probabilit´e de remont´ee est importante
I Et r´eciproquement
Probabilit´ e de Gibbs
29Il existe une probabilit´e fondamentale issue de la physique statistique : laprobabilit´e de Gibbs.
Z(T) = X
x∈E
N(x)e−U(x)T
ωT(x) = N(x)e−U(x)T Z(T)
On montre que cette probabilit´e de Gibbs est la loi invariante sur l’espace des configuration par la dynamique de Metropolis.
Principe du recuit simul´ e
30I Principe du recuit simul´e : faire d´ecroˆıtre la temp´erature (sch´ema de refroidissement [”cooling schedule”])
suffisamment lentement pour converger vers le minimum absolu
I D´ecroissance algorithmique : on peut d´emontrer la
convergence par une variation logarithmique de la temp´erature [Hajek]
Exemple concret
31I Dans une usine de fabrication deN composants, chaque composant doit ˆetre test´e
I Il existe un test par composant
I Mais chaque test permet de tester les autres composant avec une probabilit´e p
I Ainsi on dispose de la matrice suivante :
C1 C2 C3 . . . Ci . . . CN
T1 1 1(p) 1(p) . . . 1(p) . . . 0
T2 1(p) 1 1(p) . . . 1(p) . . . 0
...
TN 1(p) 1(p) 1(p) . . . 1(p) . . . 1
Exemple concret
32I Dans la pratique, N= 100 et p = 0.04 donc on a une matrice creuse :
10000001000000000001000000...0 01000000000001000000001000...0 00100000001000000000000000...0
...
00000000000000010000000000...1
I Question : que est le jeu optimal de T tests pour tester un maximum de combinaisons ?
I Il y aCNT (=C10010) combinaisons possibles. . .
Exemple concret
33Algorithmes g´ en´ etiques
34,→ Pr´esentation de Jean-Marc Alliot