Méthode de gradient conjugué

(1)

Deux méthodes de gradient

Leçons : 158,162, 219,226, 233(gradient conjugué) On considèreA∈ S_n⁺⁺(R).

Proposition 1

La résolution deAx =béquivaut à trouver le point qui minimise la fonctionnelle : Φ(y) = 1

2y^TAy−y^Tb.

Démonstration.Il est facile de voir que

∇Φ(y) = 1

2(A^T +A)y−b=Ay−b. (1)

Et si x est solution du système linéaire, alors Φ(y) = Φ(x + (y −x)) = Φ(x) + ¹₂(y − x)^TA(y−x)i.e 1

2ky−xk²_A=Φ(y)−Φ(x), oùkzk²_A=z^TAz est la norme associée àAque l’on utilisera toujours par la suite.

Définition 2

Uneméthode de gradientconsiste à partir d’un point x₀∈Rⁿ et à construire la suite

x_k+1=x_k+αkd_k (2)

oùd_k∈Rⁿ est unedirectionà choisir etαk∈R.

Une idée naturelle est de choisir αk de sorte à optimiser Φ(x_k₊₁) dans la direction d_k, c’est à dire tel que d

dαk

Φ(x_k+αkd_k) =−d_k^Tr_k+αkd_k^TAd_k=0, où−r_k:=∇Φ(x_k) =Ax_k−b.

On trouve :

αk=〈d_k,r_k〉

kd_kk²_A (3)

(c’est bien défini lorsqued_k6=0 car A∈ S_n⁺⁺(R)).

Méthode de gradient conjugué

Remarquons que pour toutk∈N:

r_k₊₁=r_k−αkAd_k (4)

etαk est choisi de sorte à ce que

〈r_k+1,d_k〉=0. (5)

Idée.Construire des directions(d_k)deux à deuxA-orthogonales ; ainsi,r_k₊₁sera orthogonal à Vect(d₀, . . . ,d_k).

Gabriel L^EPETIT 1 ENS Rennes - Université Rennes 1

(2)

Notations. Pour x,y ∈Rⁿ, on note x ⊥ y lorsque x et y sont orthogonaux pour le produit scalaire euclidien et x ⊥A y lorsque x et y sont orthogonaux pour le produit scalaire donné parA. On étend naturellement cette notation à des sous-espaces de Rⁿ.

On posed₀=r₀et pourk∈N, on construitd_k₊₁comme l’orthogonalisé de Gram-Schmidt pour le produit scalaire donné par Ade r_k+1 relativement à Vect(d_k):

d_k₊₁=r_k₊₁−βkd_k (6)

où

βk=〈r_k₊₁,Ad_k〉

kd_kk²_A si d_k6=0, βk=0 sinon. (7) Remarquons que si d_k=0 alorsr_k et d_k₋₁ sont colinéaires et comme ils sont aussi orthogonaux par (5), r_k=0.

Lemme 3

Avec le choix(7), les directions(6) vérifient pour tout k ∈Nla propriété suivante : si r₀, . . . ,r_k ne sont pas nuls alors,

1 Vect(r₀, . . . ,r_k) =Vect(d₀, . . . ,d_k) 2 r_k+1⊥Vect(d₀, . . . ,d_k)

3 d_k+1⊥AVect(d₀, . . . ,d_k)

Démonstration.On procède par récurrence sur k∈N. Lorsque k=0, 1, 2 et 3 sont vrais grâce aux relationsr₀=d₀, (5) et (6) et bien sûrr₀6=0 sinon il n’y a rien à faire. Supposons donc le résultat vrai au rangk−1,k∈N^∗.

1 Par (6), on a : d_k=r_k−β_k−1d_k−₁.

2 Par (5), on a déjàr_k₊₁⊥d_ket si j∈ {0, . . . ,k−1}, la relation (4) couplée à l’hypothèse de récurrence 2 et 3 donner_k+1⊥d_j.

3 Par (6), on a déjàd_k+1⊥Ad_k(c’est la définition) et si j∈ {0, . . . ,k−1}, la relation (6) couplée à l’hypothèse de récurrence 3 donne〈d_k+₁,Ad_j〉=〈r_k+₁,Ad_j〉.

Montrons queAd_j ∈Vect(r₀, . . . ,r_k), ce qui conclura grâce aux relations 1 et 2 que l’on vient de prouver. Grâce à la relation (4) aveck= j, il suffit de montrer queαj 6=0. Or, αj =0⇐⇒ 〈⁽³⁾ r_j,d_j〉=0⇐⇒⁽⁶⁾ r_j =0 puisque〈r_j,r_j〉=〈d_j,r_j〉+βj−1〈d_j₋₁,r_j〉=〈d_j,r_j〉 selon 2. Donc comme on a supposér_j6=0, on aαj6=0.

Théorème 4

La méthode de gradient associée aux directions (6)avec le choix (7)converge vers la solution x du problèmeAx=ben au plus nitérations.

Démonstration.Les conditions 1 et 2 du lemme précédent assurent que tant que r_l 6=0, la famille (r₀, . . . ,r_l) est une famille orthogonale donc libre. On est en dimension ndonc nécessairement l+1¶net sir_l =0, x_l est solution du système.

Méthode de gradient à pas optimal

On choisit pour direction la « plus grande pente » , c’est à dired_k=−∇Φ(x_k) =−Ax_k+ b=r_k.

(3)

Dans ce cas,d_k 6=0 tant que la solution n’est pas atteinte. La convergence découle es- sentiellement de l’inégalité de Kantorovich :

Lemme 5 (Inégalité de Kantorovich)

En notant0< λ1≤. . .≤λn les valeurs propres deA, on a pour tout y ∈Rⁿ, kyk⁴

kyk²_Akyk²_A−1

≥ 4λnλ1

(λn+λ1)².

Démonstration.On va montrer l’inégalité équivalente :

∀y ∈Rⁿ, kyk⁴≤1 4

v tλn

λ1

+ v tλ1

λn

² .

On peut même supposer quekyk=1 et commencer par remarquer : 1=kyk²=〈y,AA⁻¹y〉 ≤ kykAkA⁻¹ykA=kykAkykA⁻¹

Et dans une base orthonormale de vecteurs propres :

kykAkykA⁻¹= v u t

_n X

i=1

λiy_i²

_n X

i=1

1 λi

y_i²

= v u tλ1

λn

_n X

i=1

λi

λ1

y_i²

_n X

i=1

λn

λi

y_i²

≤ 1 2

v tλ1

λn

_n X

i=1

λi

λ1

y_i²

+

_n X

i=1

λn

λi

y_i²

≤ 1 2

v tλ1

λn

_n X

i=1

λi

λ1

+λn

λi

y_i²

La fonction x 7→ x λ1

+λn

x admet un maximum enλ1 ou enλn et il vaut dans les deux cas : 1+λn

λ1

. Ainsi,

kykAkykA⁻¹≤ 1 2

v tλ1

λn

_n X

i=1

1+λn

λ1

y_i²

≤1 2

v tλn

λ1

+ v tλ1

λn

, et le résultat suit en élevant au carré.

Et sachant que cond(A) =λn/λ1, on obtient le résultat suivant : Théorème 6

Avec les choix précédents etd_k=r_k, la suite(2)converge vers x avec : kx_k+1−xkA≤λn−λ1

λn+λ1

kx_k−xkA. Plus précisément,

kx_k−xk ≤Æ

cond(A)cond(A)−1 cond(A) +1

k

kx₀−xk.

(4)

Démonstration.La première inégalité découle directement de l’inégalité de Kantorovich.

Pour la seconde, on remarque que pour tout y ∈Rⁿ,λ1kyk²≤ kyk²_A≤λnkyk².

Avec la dernière inégalité, on voit que la convergence peut être lente lorsque la matrice est mal conditionnée.

Référence : Alfio QUARTERONI, Ricardo SACCO et Fausto SALERI (2007). Méthodes nu- mériques : Algorithmes, analyse et applications. Springer, pp. 138-145.

Merci à Antoine Diez pour ce développement.