Algorithme du gradient à pas optimal

(1)

Algorithme du gradient à pas optimal

Référence :Hiriart-UrrutyOptimisation et analyse convexe exercice II.8. p.52 etFGNal3 Leçons : 162,232,233

Soit A ∈ S_n⁺⁺(R) de valeurs propres minimale et maximale λmin et λmax. Alors en posant c(A) := λmin

λ_max le conditionnement deA,

∀x∈R, kxk⁴

hAx, xihA⁻¹x, xi >4

rλmax

λmin

+ rλmin

λmax

!−2

= 4 c(A) (c(A) + 1)² Lemme (Inégalité de Kantorovitch)

Preuve :

Il suffit de montrer cette inégalité pourxde norme 1, ce qu’on supposera dans la suite.Aest symétrique donc il existe une base (e1,· · · , en) orthonormale de vecteurs propres deA. On notex=X

xiei et 0< λ16· · ·6λn

les valeurs propres deA.

hAx, xihA⁻¹x, xi=

n

X

i=1

λix²_i

n

X

i=1

1

λ_ix²_i = λ1

λ_n

n

X

i=1

λi

λ_nx²_i

n

X

i=1

λ1

λ_ix²_i

6 λ₁ 4λn

n

X

i=1

λ_i λn

+λ₁ λi

x²_i

!² .

Après étude de la fonctionx7→ x λ1

+λ_n

x qui atteint son maximum 1 +λ_n λ1

enλ₁ et enλ_n, on en déduit que

hAx, xihA⁻¹x, xi6 λ₁ 4λn

1 +λ_n

λ1

ⁿ X

i=1

x²_i

!²

6 λ₁ 4λn

1 + λ_n

λ1

²

6 λ1

4λn

1 + 2λn

λ1

+λ²_n λ²₁

61 4

λ1

λn

+ 2 +λn

λ1

61 4

rλ1

λ_n + rλn

λ₁

!2

Il suffit d’inverser cette formule pour obtenir l’inégalité escomptée.

Laura Gay p.1 6 juin 2015

(2)

Problème :SoitA∈ S_n⁺+ (R) etb∈Rⁿ. On cherche à minimiserf :x7→ 1

2hAx, xi+hb, xiquand^a xparcourt Rⁿ.

Il existe une unique solution à ce problème, caractérisée par∇f(¯x) = 0.

De plus, l’algorithme défini par :x₀∈Rⁿ et pourk>0 :

(dk =−∇f(xk) =−Axk−b xk+1=xk+tkdk

oùtk est l’unique réel (positif) minimisantg:t7→f(xk+tdk) surR converge vers ¯x.

a. On enlève lecdu livre qui n’apporte rien

Théorème

Preuve :

Conditions de minimalité (question 1) Soit ¯xun point minimal, alors∇f(¯x) = 0.

Or

f(x+h) =1

2hA(x+h), x+hi+hb, x+hi

= 1

2hAx, xi+hb, xi+1

2(hAx, hi+hAh, xi) +hb, hi+1 2hAh, hi

= 1

2f(x) +hAx, hi+hb, hi+1

2hAh, hi carAsymétrique

= 1

2f(x) +hAx+b, hi+o(khk) Donc∇f(x) =Ax+bet donc ¯x=−A⁻¹b.

Minimiser f revient à inverser une matrice, de manière peut-être plus efficace.

D’autre part,

f¯:= min

x∈Rⁿf(x) =f(¯x) = 1

2hA¯x,xi¯ +hb, xi

= 1

2hA¯x,xi¯ +h−A¯x,xi¯

=−1 2hA¯x,xi¯

=−1

2hA(−A⁻¹b),−A⁻¹bi

=−1

2h−b,−A⁻¹bi

=−1

2hA⁻¹b, bi

De plus, ¯xest bien le minimum carf est strictement convexe¹, coercive² surRⁿ donc il existe un unique minimum pour f.

Dans toute la suite de la preuve, on supposedk 6= 0 car sinonAxk=−bet l’algorithme converge en temps fini.

1. car la matrice hessienne def estAqui est définie positive.

2.

|f(x)|>1

2|hAx, xi| − |hb, xi|

>1

2λminkxk²− kbk kxk

−→

kxk→∞

∞

(3)

Calcul detk (question 2) g(t) =f(xk+tdk) =1

2hA(xk+tdk), xk+tdki+hb, xk+tdki

=1

2hAxk, x_ki+1

2hAtdk, x_ki+1

2hAxk, td_ki+1

2hAtdk, td_ki+hb, xki+hb, tdki

=f(x_k) +hAx_k+b

| {z }

−d_k

, td_ki+1

2hAtd_k, td_ki

=f(xk)−tkdkk²+1

2t²hAdk, dki

Donc g⁰(t) =− kdkk²+thAdk, dkiet g⁰(t) = 0⇔t=tk = kdkk²

hAd_k, d_ki >0 (on peut diviser parhAdk, dki cardk 6= 0 etAdéfinie positive).

Calcul de l’erreur surf(xk)−f¯ (questions 2 et 3)

f(xk+1) =f(xk+tkdk) =f(xk)− kdkk²

hAdk, dkikdkk²+1 2

kdkk⁴

hAdk, dki²hAdk, dki

=f(xk)− kdkk⁴ hAd_k, d_ki+1

2

kdkk⁴ hAd_k, d_ki

=f(x_k)−1 2

kd_kk⁴ hAdk, dki Donc

f(xk+1)−f¯=f(xk)−f¯−1 2

kdkk⁴

hAdk, d_ki = f(xk)−f¯

1− kdkk⁴

2hAdk, dki f(xk)−f¯

!

Or :

hA⁻¹d_k, d_ki=hA⁻¹(Ax_k+b), Ax_k+bi

=hxk+A⁻¹b, Axk+bi

=hxk, Axki+hxk, bi+hA⁻¹b, Axki

| {z }

hb,xki

+hA⁻¹b, bi

| {z }

−2 ¯f

= 2





 1

2hxk, Axki+hxk, bi

| {z }

f(xk)

−f¯







= 2 f(xk)−f¯

Donc finalement

f(x_k+1)−f¯= f(x_k)−f¯

1− kd_kk⁴ hAdk, dkihA⁻¹dk, dki

!

L’inégalité de Kantorovitch donne,

kdkk⁴

hAdk, dkihA⁻¹dk, dki >4 c(A) (c(A) + 1)² Donc

f(xk+1)−f¯6 f(xk)−f¯

c(A)−1 c(A) + 1

²

6· · ·6 f(x₀)−f¯

c(A)−1 c(A) + 1

^2k

Calcul de l’erreur surkxk−xk¯ (question 3) Par ailleurs, on a

hA(xk−x), x¯ k−xi¯ =hAxk, xk−xi − hA¯¯ x, xk−xi¯

=hAxk, xki − hAxk,xi − hA¯ x, x¯ ki+hA¯x,xi¯

=hAxk, x_ki+hAxk, A⁻¹bi+hAA⁻¹b, x_ki+hAA⁻¹b, A⁻¹bi

=hAxk, xki+hxk, bi+hb, xki

| {z }

2f(xk)

+hb, A⁻¹bi

| {z }

−2 ¯f

(4)

Donc

f(xk)−f¯=1

2hA(xk−x), x¯ k−xi¯ > 1

2λminkxk−¯xk² Et finalement

kxk−xk¯ 6 s

2 f(x₀)−f¯ λmin

c(A)−1 c(A) + 1

k

Doncxk −→

n→+∞x.¯

Notes :

XA l’oral, on ne fait pas Kantorovitch. 14’36 allure normale (énoncer Kanto avec le conditionnement !) XLorsque n= 2x_k converge en zigzags vers ¯x.

X Plus c(A) est proche de 1, plus la méthode converge rapidement. A l’inverse lorsque c(A) est loin de 1, la méthode est très lente.

Le cas limite serait celui oùc(A) = 1 (doncAhomothétie), ce qui suppose 2(f(x)−f¯) =λkx−xk¯ ²auquel cas on atteint ¯xdès la première itération. En effet, d0=−Ax0−b=−λx0+λ¯x, donc t0 = 1

λ et on obtient bien x1= ¯x(ou sinon on utilise la dernière majoration...).