Optimisation et optimisation numérique Chapitre 2 : Méthodes de descente et gradient à pas optimal

(1)

Optimisation et optimisation numérique Chapitre 2 : Méthodes de descente et gradient à pas

optimal

Lucie Le Briquer 4 février 2018

Table des matières

1 Gradient à pas optimal 2

2 Recherche linéaire 5

2.1 Recherche linéaire de Wolfe . . . 5 2.2 Convergence des méthodes de descente avec recherche linéaire de Wolfe . . . 7

(2)

Principe.(x_n), on chercheρ>0 tel quef(x_n+ρd_n)<

f(x_n),du est la direction.

On veutf⁰(xn)dn >0,h∇f(xn), dni>0. Par exemple si dn=−∇f(xn)alors :

h∇f(xn), dni=−|∇f(xn)|²<0 si∇f(xn)6= 0

→recherche deρpour optimiser la descente.

d_n

× xn

× x_n+1

d_n+1

Remarque.Le choix de dn=−∇f(xn)est arbitraire car le gradient dépend complètement du produit scalaire choisi.

Pas invariant.Pour f(x) =˜ f(Ax)avecAinversible, étudier∇f et∇f˜ne revient pas du tout au même.

1 Gradient à pas optimal

require: x_0, f,\nabla f, crit_arrêt x <- x_0

while crit_arrêt d <- -\nabla f(x)

\rho <- argmin f(x+td) pour t>0 x <- x+\rho d

end while

Sif:Rⁿ−→Rest elliptique (fortement convexe), alors(x_n)définie par :

x_n+1=x_n−ρ_n∇f(x_n)

avecρn= arg minf(xn−ρ∇f(xn)), converge vers l’unique minimum global ef. Théorème 1(convergence de GPO)

Preuve.L’existence et l’unicité du minimum global def sont laissées en exercice.

h∇f(x)− ∇f(y), x−yi>α|x−y|²

|∇f(x)||x−x∗|>h∇f(x)− ∇f(x∗), x−x∗i

>α|x−x_∗|²

Alors, pourx6=x_∗,

|x−x_∗|6 |∇f(x)|

α Il suffit de montrer que∇f(x_n)−−−−−→

n→+∞ 0. Or on a :

hdn+1, dni=h∇f(xn+1),∇f(xn)i= 0 carh∇f(xn+ρdn), dni= 0.

Les directions successives de descente sont donc orthogonales par rapport àh, i.

(3)

f est elliptique. Commef(xn)est décroissante et f minorée on a quef(xn)converge.

f(xn)−f(xn+1)>h∇f(xn+1), xn−xn+1i+α|xn−x_n+1|² 2 Ori∇f(x_n+1), x_n−x_n+1i= 0 (recherche exacte). Ainsi :

f(xn)−f(xn+1)

| {z }

−−−−−→

n→+∞

0

>α|xn−xn+1|² 2

Donc |xn −x_n+1| −−−−−→

n→+∞ 0. De plus f est C¹ (elliptique) et la suite (x_n) reste dans un compact (f est coercive car elliptique). Par suite, ∇f est uniformément continue sur ce compact donc|∇f(xn)− ∇f(xn+1)| −−−−−→

n→+∞ 0. Enfin,0←−−−−−

n→+∞ |∇f(xn+1)− ∇f(xn)|>|∇f(xn)|. D’où

∇f(x_n)−−−−−→

n→+∞ 0. On conclut que(x_n)converge.

SoitA⊂Mn(R), symétrique définie positive.

J(x) =1

2hAx, xi+hb, xi+c

Alors pour toute donnée initialex0 le GPO converge et de plus on a :

|xn−x_∗|6

ÅM −m M +m

ã^k… M

m|xn−x₀|

et

|xn−x_∗|A6

ÅM −m M +m

ã^k

|x0−x_∗|A

oùM et msont les plus grande et plus petite valeurs propres deAet|u|A=hAu, ui.

Théorème 2(vitesse de convergence, cas quadratique)

hAx, xihA⁻¹x, xi6 1 4

Ç…M m +

…m M

å²

|x|⁴ Lemme 1(de Kantorovitch)

Preuve.

4ab= Z

t>0

a t +tb²

(4)

Par suite,

4hAx, xihA⁻¹x, xi6inf

t

Å

thAx, xi+hA⁻¹x, xi t

ã²

= inf

t

Å

htA+A⁻¹ t x, xi

ã²

6inf

t sup

i

Å

tλ_i+ 1 tλ_i

ã²

|x|⁴

Pourt_∗=^√ ¹

λ₁λ_n, on a :

4hAx, xihA⁻¹x, xi6sup Å

t_∗λ_i+ 1 t∗λi

ã

u7→u+_u¹ est décroissante sur]0,1]et croissante sur [1,+∞[. Le sup_iÄ

t_∗λi+_t¹

∗λ_i

äest atteint pouri= 1eti=n, et on obtient alors comme borne :

λ1

λ_n + λn

λ₁

!

= Ç…M

m +

…m M

å

Preuve.(du Théorème 2)

SoientM =λ1> . . . > λn=mles valeurs propres deA. Quitte à faire la translationx7→x−x_∗, on peut supposerx_∗= 0 etb= 0, alors J(x) =¹₂hAx, xi. Par suitedk=−∇J(xk) =−Axk. De plus,

hdk, dk+1i= 0 =hdk, xk+1iA

De plusx_k+1=x_k+ρ_kd_k avecd_k =−Axk et ρ_k solution de :

hA(xk+ρkdk), dki= 0

i.e.

ρk = hAxk, dki

hAdk, dki =−|dk|²

|dk|²_A xk =xk+1−ρkdk.

|xk|²_A=|xk+1|²_A+ρ²_k|dk|²_A

Par suite,

|xk+1|²_A=|xk|²_A− |dk|⁴

|dk|²_A

|xk|²_A=hAA⁻¹dk, A⁻¹dki=|dk|²_A−1, d’où :

|xk+1|²_A=|xk|²_A Ç

1− |dk|²

|dk|²_A|dk|²_A−1

å

Ç

1− |dk|⁴

|d_k|²_A|d_k|²_A−1

å

61− 4

»M +pm² 61− 4M m 1 + ^M_m =

ÅM −m M +m

ã²

(5)

Par suite,

|xk+1|²_A6

ÅM +m M −m

ã2k

|xk|²_A Orm|x|²6|x|²_A6M|x|², d’où :

|x_k+1|²6

ÅM−m M+m

ã^2k M m|x_k|²_A

Remarque.|x−x∗|²_A= 2(J(x)−J(x∗))

(J(xk)−J(x∗))6

ÅM−m M+m

ã^k

(J(x0)−J(x∗)) (∗)

Remarque.(∗)est vraie pourJ melliptique, de gradientM−lipschitzienne (preuve de de Klerk en 2017).

Remarque.Pas améliorable. Prenons A = Diag(M, . . . , m), b = 0, et x0 = _M¹,0, . . . ,0,_m¹ . Alors :

∇J(x0) =Ax0= (1,0, . . . ,0,1) ρ0=_M²_+m.

x1=

ÅM−m M+m

ã Å

− 1

M,0, . . . ,0,−1 m

ã

De même,

x₂=

ÅM−m M+m

ã²Å 1

M,0, . . . ,0, 1 m

ã

2 Recherche linéaire

2.1 Recherche linéaire de Wolfe

Soitdune direction de descente enx:f⁰(x)d=h∇f(x), di<0. On poseq(t) =f(x+td).

Condition d’Armijo.

y=q(0) +tm1q⁰(0) avec0< m1<1 q(t)

On trace une droite et on cherche un point en-dessous (par exemple, pour une droite horizontale cela revient à chercher un point plus bas queq(0)). Il ne faut pas descendre trop rapidement : si on descend plus vite queq on ne peut pas trouver de point. D’où le coefficient0< m₁<1 qui assure une plus faible queq⁰(0).

(6)

La condition d’Armijo est :

q(t_∗)6q(0) +t_∗m1q⁰(0) avec0< m1<1 Condition de courbure.

q⁰(t_∗)>m₂q⁰(0)

| {z }

<0

avec0< m₂<1

q(t) y=m₂q⁰(0)t

La condition de Wolfe est la réunion des conditions d’Armijo et de courbure. Pour que tout se passe bien on doit choisir0< m₁< m₂<1.

Définition 1(condition de Wolfe)

On suppose queq est C¹, inf(q)> −∞et q⁰(0) < 0. Alors la recherche linéaire de Wolfe (algorithme 2 c.f. poly) termine en un nombre fini d’itérations.

Théorème 3

Preuve.

Par l’absurde, supposons que la boucle while ne s’arrête pas. Si on a toujours q(t) 6 q(0) + tm₁q⁰(0), on extrapole à chaque pas cart_d reste à 0. On a donct_n=aⁿt_init−−−−−→

n→+∞ +∞et : q(tn)6q0+tnm1

|{z}

>0

q⁰(0)

| {z }

<0

−−−−−→

n→+∞ −∞

ce qui contreditinf(q)>−∞.

Donc on atteint en un nombre fini d’étapes un pointttel queq(t)>q(0) +tm1q⁰(0).tdest alors affecté à ce point et ne peut plus revenir à 0, donc on arrête d’extrapoler. À ce moment,tq > tg

(car à chaque instantt < at). À partir de là, tant qu’une des conditions d’arrêt n’est pas vérifiée on interpole, i.e. :

® |td,n+1−tg,n+1|= ^|t^d,n^−t₂ ^g,n^|

∀n, td,n> tg,n

Or, on a toujours :







q(t^k_g)6q(0) +t^k_gm1q⁰(0) q⁰(t^k_g)< m2q⁰(0)

q(t^k_d)> q(0) +t^k_dm1q⁰(0) D’où :

q(t^k_d)−q(t^k_g)

t^k−t^k > m1q⁰(0) en passant à la limite,q⁰(t_∗)>m1q⁰(0)

(7)

Or, q⁰(t^k_g) < m2q⁰(0) donc en passant à la limite (car q est C¹), q⁰(t_∗) 6 m2q⁰(0). Ceci est contradictoire carm1< m2 etq⁰(0)<0.

2.2 Convergence des méthodes de descente avec recherche linéaire de Wolfe

On considère une suite xk+1 =xk+tkdk où dk est une direction de descente ettk est obtenu par Wolfe.

On suppose quef estC¹, bornée inférieurement, et que∇f estL−lipschitz sur l’ensemble de niveau{f 6f(x0)}. Alors :

f(xk)−f(xk+1)>m1(1−m2)

L |∇f(xk)|²c²_k>0 oùck=−_|∇f(x^h∇f(x^k^),d^kⁱ

k)||dk|i. De plus siPc²_k= +∞alorslim inf|∇f(xk)|= 0.

Théorème 4

Preuve.

Par la condition d’Armijo,f(x_k)−f(x_k+1)>m₁t_kh∇f(x_k),−d_ki>0. Peut-on minorert_k? Par la condition de courbure, on a :

h∇f(xk+1)− ∇f(xk), dki>(m2−1)h∇f(xk), dki Or, comme∇f estL−Lipschitz, par Cauchy-Schwarz on obtient :

h∇f(xk+1)− ∇f(xk), dki>L|xk+1−xk||dk|

Enfin,

t_k =|x_k+1−x_k|

|dk| = L|x_k+1−x_k||d_k|

L|dk|² > m₂−1

L|dk|²h∇f(x_k), d_ki Par suite,

f(xk)−f(xk+1)> m1(1−m2)

L|dk|² (h∇f(xk), dki)²= m1(1−m2)

L c²_k|∇f(xk)|²

Supposonslim inf|∇f(x_k)| >0, alors à partir d’un certain rang |∇f(x_k)| >a pour un certain a >0. En sommant l’inégalité précédente on obtient :

f(xk₀)−f(xk)>m1(1−m2)

L a²

k

X

i=k₀

c²_i

Doncf(xk)−−−−−→

k→+∞ −∞ce qui contredit l’hypothèse def bornée inférieurement.