Bases probabilistes de l’optimisation stochastique

(1)

1

Bases probabilistes de l’optimisation stochastique

Dr. Emmanuel Zenou

Associate Professor [email protected]

(2)

2

Introduction

Optimisation Stochastique

Mod´elisation probabiliste : chaˆınes de Markov

Recuit simul´e

(3)

3

Introduction

(4)

Objectifs

4

I Pourquoi optimiser ?

(5)

Objectifs

5

I Trouver l’incidence optimale de finesse maximale d’un planeur. . .

(6)

Objectifs

6

I Estimer la trajectoire d’un astéro¨ıde à partir d’observations partielles et/ou de mesures bruitées. . .

(7)

Objectifs

7

I Reconnaˆıtre des objets dans une image. . .

(8)

Objectifs

8

I L’objectif est de minimiser une fonction `a plusieurs param`etres :

J :E −→R

(x,y,z, . . .)−→J(x,y,z, . . .)

I En g´en´eralE ⊂Rⁿ

I Il faut donc distinguer la fonction `a minimiser (J) des param`etres de minimisation (x,y,z, . . .)

(9)

Objectifs

9

Exemple Param`etre(s) Fonctions `a minimiser (J)

α Coefficient de traˆın´ee / coefficient de portance.

a,b,c,d,e,f Erreurs sur les distances

x,y, θ Erreur sur les formes / couleurs

(10)

Objectifs

10

I Deux objectifs :

(J_min, ~x^∗)

I L’objectif 1êrest de minimiser une fonction dans un espace d’état donné :

Jmin= min

~

x∈EJ(~x)

I L’objectif 2^eest de trouver les param`etres optimaux,i.e. le lieudu minimum :

~

x^∗= argmin

~x∈E

J(~x)

(11)

Exemple simple

11

(12)

Exemple (un peu moins) simple

12

(13)

Propri´ et´ es

13

I Propriétés de la fonctionJ à minimiser :

I continuit´e

I diff´erentiabilit´e

I convexit´e

I coercitivit´e

I . . .

I Propriétés de l’espace d’état :

I dimension

I taille

I . . .

Le choix d’un algorithme dépend fortement des propriétés de J!

(14)

Propri´ et´ es

14

I En g´en´eral, la fonction J n’est pas convexe

I Cependant, si l’on a une approximation initiale

suffisamment correcte, on peut consid´erer que la fonction est localement convexe ; on utilisera alors des techniques d’optimisation d´eterministe

I Si l’espace d’état est très grand et/ou la fonction à minimiser est irrégulière (non convexe), on utilisera des techniques d’optimisation stochastique

(15)

15

Optimisation Stochastique

(16)

Principe

16

I Le principe est toujours le même : explorer de manière aléatoire l’espace d’état afin de converger vers le ou les optimaux locaux

I D´eroulement des algorithmes :

1. x0est une position initiale au hasard 2. tant que(crit`ere d’arrˆet non atteint)

2.1 On choisitxv ∈ V(xc) voisin de l’´etat courantxc

2.2 On ´evalue (mesure, calcule. . .) l’´energie du voisinU(xv) 2.3 On valide ou non le nouveau point courant :xc⁺∈ {xc,xv}

(17)

´

17

Elements indispensables

Les éléments indispensables à la mise en œvre sont :

I Unespace d’´etat bien d´efini

I Unvoisinage(donc un graphe)

I Une politique d’exploration: Tous mes voisins sont-ils admissibles ? Sont-ils ´equiprobables ?

I Uneénergie(oucoûtouobjectif) à minimiser

I Une politique de validation(ou dynamique) : le voisin choisi est-il s´electionn´e ?

I Uncrit`ere d’arrˆet

(18)

Principaux algorithmes

18

I Tous les algorithmes d’optimisation stochastique sont fond´es sur ce principe

I Les principaux algorithmes sont :

I Recuit simul´e

I Algorithmes g´en´etiques

I Q-Learning

(19)

19

Mod´elisation probabiliste : chaˆınes de Markov

(20)

Chaˆıne de Markov

20

Hyp : Espace d’´etat discret & fini.

D´efinition

Unechaˆıne de Markovà valeurs dans un espace d’état E est une suite de variables aléatoires (X_t)à valeurs dans E telle que pour toute trajectoire finie d’états {x₀,x1, . . . ,xt+1} on ait

π X_t+1 =x_t+1|X_t =x_t,Xt−1 =xt−1, . . . ,X₀=x₀

= π X_t+1 =x_t+1|X_t =x_t

,→ Toute information que peut contenir le passé pour prévoir le futur est contenue dans la connaissance de l’état actuel.

(21)

Repr´ esentations

21

Une chaˆıne de Markov peut alors être représentée de deux manières complémentaires :







,2 ,1 0 . . . ,1

,1 ,05 ,07 . . . ,2

0 ,7 ,05 . . . 0

... ... . ..

0 0 ,25 . . . ,25







GrapheG= (E,P)

Matrice de transition pij =π Xt+1=xt+1|X_t =xt

π_t+1=π_t.Pt→t+1

(22)

Propri´ et´ es

22

Mat. stochastique : la somme des élément sur une ligne (ou une colonne) est égale à 1

Homogéné¨ıté : la chaˆıne de Markov est indépendante du temps : Pt→t+1=P =⇒πn=π0.Pⁿ

Probabilité invariante : πînv.P =πînv

Probabilité limite : π^lim(π₀) = limt→∞(π₀P^t) Graphe irréductible : tous les états sont atteignables

(23)

Ergodicit´ e

23

D´efinition

On dit qu’une chaˆıne de Markov(Xt)est ergodique si et

seulement si il existe une probabilit´e uniqueπ^∗ telle que pour toute loi initialeπ₀ la suite (X_t) converge en loi versπ^∗ `a l’infini.

Dans ce cas,

∀π₀, π^lim=π^inv =π^∗

(24)

24

Recuit simul´e

(25)

Dynamique de Metropolis

25

I Le recuit simul´e est un algorithme issu de la physique statistique

I Le principe général est d’explorer l’espace d’état avec une dynamique particulière : la dynamique de metropolis, dont on fait décroˆıtre un paramètre appelé, par analogie, température

I si l’énergie du voisin est plus petite (∆U <0), alors le voisin est sélectionné

I si l’énergie du voisin est plus grande (∆U >0), alors le voisin est sélectionné avec une probabilité

p=e^−∆U^T

(26)

Dynamique de Metropolis

26

Position initiale : x₀

x0 et 2 voisins potentiels

Voisin de gauche choisi. . .

∆U <0

. . . et s´electionn´e carp =e⁻^∆U^T >1

x0 et 2 voisins potentiels

Voisin de droite choisi. . .

∆U >0

. . . et sélectionné avec une probabilité p =e⁻^∆U^T

(27)

Dynamique de Metropolis

27

p_xy = 1

N(x)e^−β^max(0,∆U) si x 6=y pxx = 1−X

y6=x

pxy

Cette dynamique markovienne est ergodigue. Elle est appel´ee dynamique de Metropolis

(28)

Dynamique de Metropolis

28

I Avantage : sortir des minima locaux !

I Le paramètre de température est déterminant :p =e⁻^∆U^T

I Plus la température est élevée, plus la probabilité de remontée est importante

I Et r´eciproquement

(29)

Probabilit´ e de Gibbs

29

Il existe une probabilit´e fondamentale issue de la physique statistique : laprobabilit´e de Gibbs.

Z(T) = X

x∈E

N(x)e⁻^U(x)^T

ω_T(x) = N(x)e⁻^U(x)^T Z(T)

On montre que cette probabilit´e de Gibbs est la loi invariante sur l’espace des configuration par la dynamique de Metropolis.

(30)

Principe du recuit simul´ e

30

I Principe du recuit simulé : faire décroˆıtre la température (schéma de refroidissement [”cooling schedule”])

suffisamment lentement pour converger vers le minimum absolu

I D´ecroissance algorithmique : on peut d´emontrer la

convergence par une variation logarithmique de la temp´erature [Hajek]

(31)

Exemple concret

31

I Dans une usine de fabrication deN composants, chaque composant doit ˆetre test´e

I Il existe un test par composant

I Mais chaque test permet de tester les autres composant avec une probabilit´e p

I Ainsi on dispose de la matrice suivante :

C₁ C₂ C₃ . . . C_i . . . C_N

T₁ 1 1(p) 1(p) . . . 1(p) . . . 0

T₂ 1(p) 1 1(p) . . . 1(p) . . . 0

...

T_N 1(p) 1(p) 1(p) . . . 1(p) . . . 1

(32)

Exemple concret

32

I Dans la pratique, N= 100 et p = 0.04 donc on a une matrice creuse :

10000001000000000001000000...0 01000000000001000000001000...0 00100000001000000000000000...0

...

00000000000000010000000000...1

I Question : que est le jeu optimal de T tests pour tester un maximum de combinaisons ?

I Il y aC_N^T (=C₁₀₀¹⁰) combinaisons possibles. . .

(33)

Exemple concret

33

(34)

Algorithmes g´ en´ etiques

34

,→ Pr´esentation de Jean-Marc Alliot