Stratégie d’évolution Recherche Opérationnelle et Optimisation Master 1

(1)

Recherche Op´erationnelle et Optimisation Master 1

S´ebastien Verel verel@univ-littoral.fr

http://www-lisic.univ-littoral.fr/~verel

Universit´e du Littoral Cˆote d’Opale Laboratoire LISIC Equipe CAMOME

(2)

Optimisation num´ erique

Définition : Problème d’optimisation numérique

Espace de recherche : ensemble de toutes les solutions possibles,

X ⊂IRⁿ

Fonction objectif : crit`ere de cout (minimisation) f :IRⁿ→IR

But : Résoudre un problème d’optimisation numérique Trouver une des meilleures solution selon le critère :

x^? =argmin f

Mais, des fois, ensembles des meilleures solutions, bonne

approximation de la meilleure solution, bonne solution ’robuste’, etc.

(3)

Contexte Introduction stratégie d’évolution Stratégie d’évolution

M´ ethode de la descente du gradient

Algorithme de descente du gradient Choisir solution initialex ∈ X repeat

w ← −∇f(x)

Choisir un nombre r´eel σ >0 x ←x+σ w

until critère d’arrêt non verifié

Comment choisir le step size σ en fonction de f etx? Comment définir le critère d’arrêt ?

(4)

M´ ethode de la descente du gradient

Algorithme de descente du gradient Choisir solution initialex ∈ X repeat

w ← −∇f(x)

Choisir un nombre r´eel σ >0 x ←x+σ w

Questions l´egitimes :

Comment choisir le step size σ en fonction de f etx? Comment définir le critère d’arrêt ?

(5)

M´ ethode de Newton

Algorithme de Newton (dimension 1) Choisir solution initialex ∈ X repeat

w ← ⁻¹

f⁰⁰(x)f⁰(x) x ←x+w

Algorithme de Newton (dimension n) Choisir solution initialex ∈ X repeat

w ← −[H(f(x))]⁻¹∇f(x) x ←x+w

où H est la matrice Hersienne (matrice des dérivées secondes partielles)

(6)

Variantes des m´ ethodes de gradient

(Batch) gradient descent :

∇f(θ) =Ej∈1...p[^∂f_∂θ(θ;x^(j),y^(j⁾)] ; θ←θ+σ ∇f(θ) Stochastic gradient descent :

∇f(θ;j) = ^∂f_∂θ(θ;x^(j),y^(j⁾) ;

∀j rnd order, θ ←θ+σ ∇f(θ;j) Momentum gradient descent : vt =γvt−1+σ∇f(θ) ; θ←θ−vt

Nesterov accelerated gradient descent (NAG) : v_t =γvt−1+σ∇f(θ−γvt−1) ; θ←θ−v_t Adagrad gradient descent :

gt,i =∇_if(θ) ; Gt,ii =P

t⁰6tg_t²0,i; ∀i, θi ←θi −√ ^σ

Gt,ii+gt,i

AdaDelta gradient descent : E[g²]t =γE[g²]t−1+ (1−γ)g_t²; E[∆θ²]_t =γE[∆θ²]t−1+ (1−γ)∆θ²_t;

∆θt=−

√

E[∆θ²]t−1+

√

E[g²]t+ gt; θt←θt−1+ ∆θt

(7)

Variantes des m´ ethodes de gradient

Adam gradient descent :

mt =β1mt−1+ (1−β1)gt;vt =β2vt−1+ (1−β2)g_t²; ˆ

m_t =m_t/(1−β₁^t) ; ˆv_t =v_t/(1−β₂^t) ;θ_t+1 =θ_t− ^√_v^σ

t+mˆ_t AdaMax gradient descent :

m_t =β₁mt−1+ (1−β₁)g_t;v_t = max(β₂vt−1,|g_t|) ; ˆ

mt =mt/(1−β₁^t) ;θt+1=θt−_v^σ

tmˆt

Nadam gradient descent :

mt =β1mt−1+ (1−β1)gt;vt =β2vt−1+ (1−β2)g_t²; ˆ

m_t =m_t/(1−β₁^t) ; ˆv_t =v_t/(1−β₂^t) ; θ_t+1 =θ_t−^√_v^σ

t+(β₁mˆ_t+ ^(1−β_1−β¹^)gt ^t

1 )

(8)

Commentaires

Toutes ces m´ethodes utilisent la connaissance du gradient.

Ce n’est pas le cas dans le contexte d’optimisation boite noire, o`u l’on suppose le gradient inaccessible.

L’introduction de l’al´eatoire peut aider `a ”sortir” des points cols (saddle points).

(9)

Introduction aux strat´ egies d’´ evolution (evolution strategy)

Bibliographie :

Cours introductif de l’école d’été en évolution artificielle Anne Auger, juin 2012 :

https://sites.google.com/site/ecoleea2012/programme

(10)

Stochastic algorithms with unique solution (Local Search)

S set of solutions (search space) f :S →IRobjective function V(s) set of neighbor’s solutions of s

(11)

Recherche Locale (LS)

S ensemble des solutions (espace de recherche),

f :S →IRfonction objectif à maximiser (ou coût à minimiser) V(s) ensemble des solutions voisines des

Algorithme d’une Recherche Locale Choisir solution initiales ∈ S

repeat

choisirs⁰ ∈ V(s) if accept(s,s⁰)then

s ←s⁰ end if

(12)

Hill-Climber (HC)

Heuristique d’exploitation maximale.

Hill Climber (best-improvement) Choisir solution initiales ∈ S repeat

Choisirs⁰ ∈ V(s) telle que f(s⁰) est minimale

s ←s⁰

until s optimum local

Algorithme de comparaison Op´erateur local de base de

m´etaheuristique

(13)

Optimum local / global

Optimum local

Etant donn´e (S,f,V),f `a minimiser.

x^? est un optimum local ssi pour toutx ∈ V(x^?),f(x^?)6f(x)

Optimum local strict

Etant donn´e (S,f,V),f `a minimiser

x^? est un optimum local ssi pour toutx ∈ V(x^?),f(x^?)<f(x)

Optimum global

Etant donn´e (S,f,V),f `a minimiser.

x^? est un optimum global ssi pour toutx ∈ S,f(x^?)6f(x)

(14)

Hill-Climbing first-improvement

Hill-climber First-improvement (minimizer) Choisir solution initiales ∈ S

repeat

Choisirs⁰ ∈ V(s) al´eatoirement if f(s⁰)≤f(s)then

s ←s⁰ end if

until s optimum local OU nbr d’´eval. ≤maxNbEval

(15)

Contexte Introduction stratégie d’évolution Stratégie d’évolution

Evolution Strategy

Comment adapter au cas continue les algorithmes hill-climbers qui n’utilisent pas le gradient ?

(16)

Evolution Strategy

Comment adapter au cas continue les algorithmes hill-climbers qui n’utilisent pas le gradient ?

Rappel : loi normale, TP09

(17)

(1 + 1)-Evolution Strategy (basic version)

Dans cet algorithme, (1 + 1)-ES, le step sizeσ est constant, et le voisinage/d´eplacement est identique selon toutes les coordonn´ees.

Version basique de l’algorithme (1 + 1)-Evolution Strategy Choose initial meanm∈IRⁿ

repeat

x⁰ ←m+σ N_n(0,1)

if f(x⁰) is better than f(m) then m←x⁰

end if

σ∈IR (step size)

N_n(0,1) est la loi normale centr´ee r´eduite de dimensionn.

(18)

(1 + 1)-Evolution Strategy

(1 + 1)-ES

Choose randomly initial meanm∈IRⁿ repeat

x⁰ ←m+σ N_n(0,C) =N_n(m, σ.C) if f(x⁰) is better than f(m) then

m←x⁰ end if

σ∈IR (step size) et la matriceC ∈IR^n×n (covariance matrix) sont des param`etres de l’algorithme.

(19)

(1 + 1)-Evolution Strategy with One-fifth success rule

(1 + 1)-Evolution Strategy with 1/5 rule Choose randomly initial solutionm∈IRⁿ repeat

x⁰ ←m+σ N(0,C) if x⁰ is better thanm then

m←x⁰

σ←σ×exp(1/3) else

σ←σ/exp(1/3)^1/4 end if

La matriceC ∈IR^n×n (covariance matrix) est un param`etre de l’algorithme.

(20)

(1 + 1)-Evolution Strategy with path length control

(1 + 1)-Evolution Strategy with path length control Choose randomly initial solutionm∈IRⁿ

p ←0ⁿ repeat

x⁰ ←m+σ N(0,C) if x⁰ is better thanm then

y←x⁰ −m

p←(1−cσ)∗p+p

1−(1−cσ)²∗y m←x⁰

else

p←(1−cσ)∗p end if

σ ←σ×exp(^c_d^σ

σ ∗(_E[N^||p||_(0,1)]² −1)) until critère d’arrêt non verifié

avecE[N(0,1)] = 0.8,c_σ = 0.1,d_σ = 1.

(21)

(µ/µ, λ)-Evolution Strategy

(µ/µ, λ)-ES

Choose randomly initial meanm∈IRⁿ repeat

for i ∈ {1. . . λ} do x_i⁰ ←m+σ N(0,C) Evaluatex_i⁰ with f end for

Select the µbest solutions from{x₁⁰, . . . ,x_λ⁰}

Let bex_:j those solutions ranking by increasing order of f : f(x_:1)≤. . .≤f(x_:µ)

m←Pµ j=1w_jx_:j⁰

avec ˆwi = log(µ+ 0.5)−log(i) et wi = ˆwi/Pµ i=1wˆi