Méthode du gradient à pas optimal

(1)

Méthode du gradient à pas optimal

Ce développement est extrait du Cours de mathématiques pures et appliquées, volume 1 de Ramis, Warusfel et Moulin. La preuve de l’inégalité de Kantorovitch se trouve dans les oraux X-ENS.

SoitAune matrice symétrique définie positive. On utilise sans démonstration le résultat suivant :xest la solution du systèmeAx=bsi et seulement s’il minimise la fonctionf :x7→ ¹₂hAx, xi − hb, xi. Il s’agit d’appliquer l’algorithme de minimisation du gradient à pas optimal à la fonctionf : on construit la suite (x_n)en posant

xn+1=xn+αn+1rn

oùrn=−∇f(xn) =b−Axn(direction de plus grande pente) etαn+1est le pas optimal, c’est-à-dire que f(x_n+α_n+1r_n) = min

α>0f(x_n+αr_n).

On vérifie queα_n+1=_hAr^krⁿ^k²

n,r_ni,défini tant que x_n6=x.

On rappelle l’algorithme :

Soitx₀donné et r₀=b−Ax₀. On se fixe un seuil de toléranceT OL.

Tant que ^kr_krⁿ^k

0k >T OL, faire

αn+1= krnk²

hArn, rni (1)

x_n+1=x_n+α_n+1r_n (2) rn+1=b−Axn+1. (3)

Théorème. L’algorithme du gradient converge vers la solutionxdu systèmeAx=bet, pour toutn∈N

kxn−xk6

Cond(A)−1 Cond(A) + 1

ⁿ

pCond(A)kx0−xk.

Démonstration.

Lemme. Inégalité de Kantorovitch Soit A ∈ M_N(R) symétique définie positive, de valeurs propres minimale et maximaleλ_m etλ_M. Alors

∀x∈R, kxk⁴

kxk²_A−1kxk²_A >4 λmλM

(λM +λm)² oùkxkA=p

hAx, xi.

Démonstration. Il suffit de montrer cette inégalité pourxde norme 1, ce qu’on supposera dans la suite.

A est symétrique donc il existe une base (e1,· · ·, en)orthonormale de vecteurs propres de A. On note x=P

xiei et 0< λ16· · ·6λn les valeurs propres deA.

hAx, xi

A⁻¹x, x

=

n

X

i=1

λ_ix²_i

n

X

i=1

1

λ_ix²_i = λ1

λ_n

n

X

i=1

λi

λ_nx²_i

n

X

i=1

λ1

λ_ix²_i

6 λ₁ 4λn

n

X

i=1

λ_i λn

+λ₁ λi

x²_i

!² .

1

(2)

Après étude de la fonctionx7→x+¹_x qui atteint son maximum1 +^λ_λⁿ

1 enλ1et enλn, on en déduit que hAx, xi

A⁻¹x, x 6 λ1

4λn

1 +λn

λ1

ⁿ X

i=1

x²_i

!2

=6 λ1

4λn

1 + λn

λ1

²

= (λ1+λn)² 4λ1λn

.

Il suffit d’inverser cette formule pour obtenir l’inégalité escomptée.

Pour la preuve générale, remarquons que f(x) =1

2hAx, xi − hb, xi= 1

2hAx, xi − hAx, xi= 1

2hA(x−x), x−xi −1

2hAx, xi,

c’est-à-diref(x) = ¹₂kx−xkA−¹₂hAx, xi. L’algorithme garantit la décroissance def à chaque itération.

Reste à voir qu’on a en fait une contractance def : kxn+1−xk²_A

kxn−xk²_A =kxn+αn+1rn−xk²_A

kxn−xk²_A = kxn−xk²_A+α²_n+1krnk²_A+ 2hA(xn−x), α_n+1r_ni

kxn−xk²_A (4)

= 1 +krnk⁴/krnk²_A+ 2αn+1hAxn−b, b−Axni

kx_n−xk²_A (5)

= 1−krnk⁴/krnk²_A

kx_n−xk²_A = 1− krnk⁴

kr_nk²_AkA⁻¹r_nk²_A = 1− krnk⁴

hAr_n, r_ni hA⁻¹r_n, r_ni. (6) On peut alors appliquer l’inégalité de Kantorovitch qui donne

kx_n+1−xk²_A6

1−4 λ₁λ_n (λ1+λn)²

kx_n−xk²_A (7)

6

λ1−λn

λ₁+λ_n ²

kx_n−xk²_A. (8)

6

1−Cond(A) 1 + Cond(A)

²

kxn−xk²_A. (9)

Ceci montre la convergence linéaire de(xn)versxpour k · kA. Or, pour toutx,6λ1kxk²hAx, xi=kxk²_A6λnkxk², c’est-à-dire

kxn−xk6

ⁿ

pλn/λ1kx0−xk=

ⁿ

pCond(A)kx0−xk,

ce qu’il fallait montrer.

2