• Aucun résultat trouvé

M´ethodes d’optimisation avanc´ees `a base du gradient

N/A
N/A
Protected

Academic year: 2022

Partager "M´ethodes d’optimisation avanc´ees `a base du gradient"

Copied!
9
0
0

Texte intégral

(1)

`

a base du gradient

Recherche Op´erationnelle et Optimisation Master 1

S´ebastien Verel [email protected]

http://www-lisic.univ-littoral.fr/~verel

Universit´e du Littoral Cˆote d’Opale Laboratoire LISIC Equipe CAMOME

(2)

Contexte

Optimisation num´ erique

D´efinition : Probl`eme d’optimisation num´erique

Espace de recherche : ensemble de toutes les solutions possibles,

X ⊂IRn

Fonction objectif : crit`ere de cout (minimisation) f :IRn→IR

But : R´esoudre un probl`eme d’optimisation num´erique Trouver une des meilleures solution selon le crit`ere :

x? =argmin f

Mais, des fois, ensembles des meilleures solutions, bonne

approximation de la meilleure solution, bonne solution ’robuste’, etc.

(3)

Contexte

M´ ethode de la descente du gradient

Algorithme de descente du gradient Choisir solution initialex ∈ X repeat

w ← −∇f(x)

Choisir un nombre r´eel σ >0 x ←x+σ w

until crit`ere d’arrˆet non verifi´e

Comment choisir le step size σ en fonction de f etx? Comment d´efinir le crit`ere d’arrˆet ?

(4)

Contexte

M´ ethode de la descente du gradient

Algorithme de descente du gradient Choisir solution initialex ∈ X repeat

w ← −∇f(x)

Choisir un nombre r´eel σ >0 x ←x+σ w

until crit`ere d’arrˆet non verifi´e

Questions l´egitimes :

Comment choisir le step size σ en fonction de f etx? Comment d´efinir le crit`ere d’arrˆet ?

(5)

M´ ethode de Newton

Algorithme de Newton (dimension 1) Choisir solution initialex ∈ X repeat

w ← −1

f00(x)f0(x) x ←x+w

until crit`ere d’arrˆet non verifi´e

Algorithme de Newton (dimension n) Choisir solution initialex ∈ X repeat

w ← −[H(f(x))]−1∇f(x) x ←x+w

until crit`ere d’arrˆet non verifi´e

o`u H est la matrice Hersienne (matrice des d´eriv´ees secondes partielles)

(6)

Contexte

M´ ethodes d’optimisation bas´ ees sur le gradient

Cours

Sebastian Ruder, An overview of gradient descent optimization algorithms, arXiv, 2017.

http://sebastianruder.com/

optimizing-gradient-descent/index.html

(7)

Variantes des m´ ethodes de gradient

(Batch) gradient descent :

∇f(θ) =Ej∈1...p[∂f∂θ(θ;x(j),y(j))] ; θ←θ+σ ∇f(θ) Stochastic gradient descent :

∇f(θ;j) = ∂f∂θ(θ;x(j),y(j)) ;

∀j rnd order, θ ←θ+σ ∇f(θ;j) Momentum gradient descent : vt =γvt−1+σ∇f(θ) ; θ←θ−vt

Nesterov accelerated gradient descent (NAG) : vt =γvt−1+σ∇f(θ−γvt−1) ; θ←θ−vt Adagrad gradient descent :

gt,i =∇if(θ) ; Gt,ii =P

t06tgt20,i; ∀i, θi ←θi −√ σ

Gt,ii+gt,i

AdaDelta gradient descent : E[g2]t =γE[g2]t−1+ (1−γ)gt2; E[∆θ2]t =γE[∆θ2]t−1+ (1−γ)∆θ2t;

∆θt=−

E[∆θ2]t−1+

E[g2]t+ gt; θt←θt−1+ ∆θt

(8)

Contexte

Variantes des m´ ethodes de gradient

Adam gradient descent :

mt1mt−1+ (1−β1)gt;vt2vt−1+ (1−β2)gt2; ˆ

mt =mt/(1−β1t) ; ˆvt =vt/(1−β2t) ;θt+1tvσ

t+t AdaMax gradient descent :

mt1mt−1+ (1−β1)gt;vt = max(β2vt−1,|gt|) ; ˆ

mt =mt/(1−β1t) ;θt+1tvσ

tt

Nadam gradient descent :

mt1mt−1+ (1−β1)gt;vt2vt−1+ (1−β2)gt2; ˆ

mt =mt/(1−β1t) ; ˆvt =vt/(1−β2t) ; θt+1tvσ

t+1t+ (1−β1−β1)gt t

1 )

(9)

Travaux pratiques

Exercice 1

Calculer le gradient d’un mod`ele de r´egression multi-lin´eaire.

Exercice 2

A partir du codetp08.zipde la page web, coder le gradient du mod`ele de r´egression multi-lin´eiare.

Exercice 3

Coder les m´ethodes de gradients d´ecrites par le document de Sebastian Ruder.

Références

Documents relatifs

Universit´ e Paris-Dauphine et Institut Tunis-Dauphine L3 Math´ ematiques appliqu´ ees, 2012-2013.. Partiel de

But : R´ esoudre un probl` eme d’optimisation num´ erique Trouver une des meilleures solution selon le crit` ere :. =

On a montr´ e par ailleurs pr´ ec´ edemment que toutes les valeurs propres d’un ´ el´ ement de K ´ etaient dans l’intervalle [0, 1]... Diagonaliser M dans une base

A l’aide du Th´ eor` eme 10.2.8, montrer que les points de minimum de J sur la sph` ere unit´ e sont des vecteurs propres de A associ´ es ` a la plus petite valeur

Si T est inf´ erieur ` a la distance de K ` a la fronti` ere de Ω, la solution explicite donn´ ee par l’exercice pr´ ec´ edent est aussi solution de l’´ equation des ondes dans

Afin de comparer pr´ ecis´ ement les diff´ erentes formulations num´ eriques en 2D, montrer que pour f = 1, a = (1, 0) et avec des conditions aux limites diff´ erentes de celles

´evaluations en deux temps : (1) on r´esout d’abord le probl`eme elliptique (par la m´ethode des ´el´ements finis) pour un nombre relativement modeste de valeurs du param`etre,

Dans ces cas, et avec l’optique par exemple de rendre la m´ethode algorithmique (et donc d´eterministe) en vue de la program- mer sur un ordinateur, il faut y adjoindre un ou