Méthodes d’optimisation avancées à base du gradient

(1)

`

a base du gradient

Recherche Op´erationnelle et Optimisation Master 1

S´ebastien Verel [email protected]

http://www-lisic.univ-littoral.fr/~verel

Universit´e du Littoral Cˆote d’Opale Laboratoire LISIC Equipe CAMOME

(2)

Contexte

Optimisation num´ erique

Définition : Problème d’optimisation numérique

Espace de recherche : ensemble de toutes les solutions possibles,

X ⊂IRⁿ

Fonction objectif : crit`ere de cout (minimisation) f :IRⁿ→IR

But : Résoudre un problème d’optimisation numérique Trouver une des meilleures solution selon le critère :

x^? =argmin f

Mais, des fois, ensembles des meilleures solutions, bonne

approximation de la meilleure solution, bonne solution ’robuste’, etc.

(3)

Contexte

M´ ethode de la descente du gradient

Algorithme de descente du gradient Choisir solution initialex ∈ X repeat

w ← −∇f(x)

Choisir un nombre r´eel σ >0 x ←x+σ w

until critère d’arrêt non verifié

Comment choisir le step size σ en fonction de f etx? Comment définir le critère d’arrêt ?

(4)

Contexte

M´ ethode de la descente du gradient

Algorithme de descente du gradient Choisir solution initialex ∈ X repeat

w ← −∇f(x)

Choisir un nombre r´eel σ >0 x ←x+σ w

Questions l´egitimes :

Comment choisir le step size σ en fonction de f etx? Comment définir le critère d’arrêt ?

(5)

M´ ethode de Newton

Algorithme de Newton (dimension 1) Choisir solution initialex ∈ X repeat

w ← ⁻¹

f⁰⁰(x)f⁰(x) x ←x+w

Algorithme de Newton (dimension n) Choisir solution initialex ∈ X repeat

w ← −[H(f(x))]⁻¹∇f(x) x ←x+w

où H est la matrice Hersienne (matrice des dérivées secondes partielles)

(6)

Contexte

M´ ethodes d’optimisation bas´ ees sur le gradient

Cours

Sebastian Ruder, An overview of gradient descent optimization algorithms, arXiv, 2017.

http://sebastianruder.com/

optimizing-gradient-descent/index.html

(7)

Variantes des m´ ethodes de gradient

(Batch) gradient descent :

∇f(θ) =Ej∈1...p[^∂f_∂θ(θ;x^(j),y^(j⁾)] ; θ←θ+σ ∇f(θ) Stochastic gradient descent :

∇f(θ;j) = ^∂f_∂θ(θ;x^(j),y^(j⁾) ;

∀j rnd order, θ ←θ+σ ∇f(θ;j) Momentum gradient descent : vt =γvt−1+σ∇f(θ) ; θ←θ−vt

Nesterov accelerated gradient descent (NAG) : v_t =γvt−1+σ∇f(θ−γvt−1) ; θ←θ−v_t Adagrad gradient descent :

gt,i =∇_if(θ) ; Gt,ii =P

t⁰6tg_t²0,i; ∀i, θi ←θi −√ ^σ

Gt,ii+gt,i

AdaDelta gradient descent : E[g²]t =γE[g²]t−1+ (1−γ)g_t²; E[∆θ²]_t =γE[∆θ²]t−1+ (1−γ)∆θ²_t;

∆θt=−

√

E[∆θ²]t−1+

√

E[g²]t+ gt; θt←θt−1+ ∆θt

(8)

Contexte

Variantes des m´ ethodes de gradient

Adam gradient descent :

mt =β1mt−1+ (1−β1)gt;vt =β2vt−1+ (1−β2)g_t²; ˆ

m_t =m_t/(1−β₁^t) ; ˆv_t =v_t/(1−β₂^t) ;θ_t+1 =θ_t− ^√_v^σ

t+mˆ_t AdaMax gradient descent :

m_t =β₁mt−1+ (1−β₁)g_t;v_t = max(β₂vt−1,|g_t|) ; ˆ

mt =mt/(1−β₁^t) ;θt+1=θt−_v^σ

tmˆt

Nadam gradient descent :

mt =β1mt−1+ (1−β1)gt;vt =β2vt−1+ (1−β2)g_t²; ˆ

m_t =m_t/(1−β₁^t) ; ˆv_t =v_t/(1−β₂^t) ; θ_t+1 =θ_t−^√_v^σ

t+(β₁mˆ_t+ ^(1−β_1−β¹^)gt ^t

1 )

(9)

Travaux pratiques

Exercice 1

Calculer le gradient d’un modèle de régression multi-linéaire.

Exercice 2

A partir du codetp08.zipde la page web, coder le gradient du modèle de régression multi-linéiare.

Exercice 3

Coder les m´ethodes de gradients d´ecrites par le document de Sebastian Ruder.