Algorithme du gradient à pas optimal

(1)

DÉVELOPPEMENTS POUR L’AGRÉGATION EXTERNE

Algorithme du gradient à pas optimal

Leçons : 232,215,219,226,229

[HU], exercice II.8 [X-ENS Al3], exercice 2.35 Théorème

SoientA∈ S_n⁺⁺(_R)etb∈_Rⁿ; on veut minimiser f :x 7→ ¹

2hAx,xi+hb,xi, quandxparcourtRⁿ. Il existe une unique solution à ce problème, et elle est caractérisée par∇f(x) =0.

De plus, l’algorithme défini par

x₀∈_Rⁿ

∀k∈_N,x_k₊₁= x_k+t_kd_k , oùd_k =−∇f(x_k)et oùt_kest l’unique réel minimisant la fonctiont7→ f(x_k+td_k), converge versx.

Démonstration :

1. Soitxun point minimal, alors nécessairement∇f(x) =0.

Or, pour tousx,h∈Rⁿ: f(x+h) = ¹

2hA(x+h),x+hi+hb,x+hi

= ¹

2hAx,xi+¹

2hAh,xi+¹

2hAx,hi+¹

2hAh,hi+hb,xi+hb,hi

= f(x) +hAx,hi+hb,hi+¹

2hAh,hi (carAest symétrique)

= _f(_x) +hAx+_b,_hi+_o(khk)

De ce calcul, il vient notamment que f est différentiable¹et que∀x∈Rⁿ,∇f(x) =Ax+b.

MaisAétant symétrique définie positive,f est strictement convexe et on en déduit :x=−A⁻¹b.

Procédons alors au calcul de la valeur optimale : f := f(x) =¹

2h−b,−A⁻¹bi+hb,−A⁻¹bi= ¹

2hA⁻¹b,bi − hA⁻¹b,bi=−¹

2hA⁻¹b,bi

2. Soitk∈ N; on suppose quedk 6= 0, car sinon Axk =−bet alors l’algorithme a convergé en temps fini, et on n’a plus rien à dire.

3. On va maintenant calculert_k.

Pourt∈_{R, on pose}g(t):= f(x_k+td_k) = f(x_k) +hAx_k+b

| {z }

=−d_k

,td_ki+¹

2hAtd_k,td_ki. Et donc,g(t) = f(x_k)−tkd_kk²+^t

2

2hAd_k,d_ki. Ainsi²,gatteint son minimum entk = kdkk²

hAd_k,d_ki(on rappelle quedk6=0, assurant quehAdk,dki 6=0, étant donné queAest symétrique définie positive).

4. Calculons l’erreur commise entre f(x_k)et f.

f(x_k+1) = f(x_k+t_kd_k) = f(x_k)− kd_kk⁴ hAd_k,d_ki+¹

2

kd_kk⁴

hAd_k,d_ki = f(x_k)−¹ 2

kd_kk⁴ hAd_k,d_ki f(x_k+1)−f =f(x_k)− f

−¹ 2

kd_kk⁴

hAd_k,d_ki =f (x_k)− f



1− ¹ 2

f(x_k)− f

kd_kk⁴ hAd_k,d_ki





Mais en fait,hA⁻¹dk,dki=hA⁻¹(Axk+b),Axk+bi=hxk,Axki+hxk,bi+hA⁻¹b,Axki

| {z }

=hb,x_ki

+hA⁻¹b,bi

=2 1

2hAxk,xki+hb,xki −f

=2

f(xk)− f

1. En même temps, fest polynomiale, donc la différentiabilité était déjà évidente.

2. Je trouvais que le fait d’invoquer directement la formule bien connue des polynômes du 2^nddegré était préférable à la dérivation, car cela permet d’aller plus vite, ce qui n’est pas négligeable sur ce développement.

Florian LEMONNIER 1

Diffusion à titre gratuit uniquement. ENS Rennes – Université Rennes 1

(2)

On en déduit alors que : f(x_k+1)−f =f(x_k)−f

1− kd_kk⁴ hA⁻¹dk,dkihAdk,dki

! . Lemme (Inégalité de Kantorovitch³)

SoitA∈ S_n⁺⁺(R), dontλ₁etλ_nsont les plus petite et grande valeurs propres.

Alors∀x∈Rⁿ,hAx,xihA⁻¹x,xi6 ¹ 4

s λ₁ λn

+ s

λ_n λ₁

! kxk⁴.⁴

Démonstration du lemme : En notantx =





 x1

... xn





dans une base orthonormée de vecteurs propres de A⁵, on fait les calculs suivants :

hAx,xihA⁻¹x,xi=

∑

n i=1

λ_ix²_i

! _n

i=1

∑

1 λ_ix²_i

!

>

Cauchy- Schwarz

∑

n i=1

√ λ_i

√ λ_ix²_i

!2

=

∑

n i=1

x²_i

!2

>0

Mais comme on sait⁶que√ ab6 ¹

2(a+b): q

hAx,xihA⁻¹x,xi= s

λ1

λn

v u u t

∑

n i=1

λi

λ₁x²_i

! _n

i=1

∑

λn

λ_ix²_i

! 6 ¹

2 s

λ1

λn

∑

n i=1

λi

λ₁ +^λⁿ λ_i

x²_i

On peut montrer queα:x7→ ^x λ₁+^λⁿ

x est décroissante sur λ1,√ λ1λn

et croissante sur √

λ1λn,λn .⁷ Toujours est-il queαadmet son maximum enλ₁ou enλn; maisα(λ₁) =α(λn) =1+^λⁿ

λ₁. D’où :

q

hAx,xihA⁻¹x,xi6 ¹ 2

s λ₁ λ_n

∑

n i=1

1+^λⁿ

λ₁

x²_i = ¹ 2

s λ₁ λ_n +

s λn

λ₁

! _n

i=1

∑

x²_i.

Ce qui donne finalement, en élevant au carré :hAx,xihA⁻¹x,xi6 ¹ 4

s λ₁ λ_n +

s λn

λ₁

!² kxk⁴. Utilisons l’inégalité de Kantorovitch :

f(xk+1)−f 6f(xk)−f







1− ⁴

pc(A) +√¹

c(A)

2







=f(xk)−f

1− ^4c(A) (c(A) +1)²

!

6f(x_k)−f

c(A)−1 c(A) +1

2

Et donc∀k∈N,f(xk)−f 6f(x0)−fc(A)−1 c(A) +1

2k

.

3. Dites juste que vous admettez l’inégalité de Kantorovitch et utilisez-la sans l’énoncer. Gardez un œil sur le chrono...

4. CommeA∈ S_n⁺⁺(_R),kAk₂=^pρ(^tAA) =ρ(A) =λn(dites “décomposition polaire”) et aussi A⁻¹

₂= ¹

λ₁. Ainsi, on fait apparaître le conditionnement en norme 2 deA: cond₂(A) = ^λⁿ

λ₁, qu’on notera par la suite (pour plus de simplicité)c(A). 5. Rappelez-vous le théorème spectral : toute matrice symétrique est diagonalisable dans une base orthonormée.

6. En fait, c’est une application toute bête des identités remarquables : comme(a−b)²>0, on sait quea²+b²>2ab. Ainsi, 1

2(a+b) 2

= ¹ 4

a²+b² +¹

2ab>^ab.

7. On peut, mais là, j’ai la flemme.

Florian LEMONNIER 2

(3)

5. Pour finir, on va calculer l’erreur surkx_k−xk. On a : kx_k−xk²6

8

1

λ₁hA(x_k−x),x_k−xi= ¹

λ₁(hAx_k,x_ki − hAx_k,xi − hAx,x_ki+hAx,xi)

= ¹ λ₁

hAx_k,x_ki −2hx_k,Axi −2f

= ¹ λ₁

2f(x_k)−2f

= ² λ1

f(xk)− f

En fin de compte,kx_k−xk6 s 2

λ₁ q

f(x_k)−f 6 s 2

λ₁

f(x₀)−f

c(A)−1 c(A) +1

k

. Comme

c(A)−1 c(A) +1

<1, on en déduit que la suite(x_k)_k∈_Nconverge versx.⁹

Références

[HU] J.-B. HIRIART-URRUTY–Optimisation et analyse convexe, EDP Sciences, 2009.

[X-ENS Al3] S. FRANCINOU, H. GIANELLAet S. NICOLAS–Oraux X-ENS Algèbre 3, 2^eéd., Cassini, 2013.

8. Vous souvenez-vous du quotient de Rayleigh ? 9. Ouf !

Florian LEMONNIER 3