It´eration dans les sous-espaces de Krylov

3.6.2 ´ Elimination gaussienne

3.7 M´ethodes it´eratives

3.7.2 It´eration dans les sous-espaces de Krylov

L’itération dans les sous-espaces de Krylov [89, 240] a donné un coup de vieux aux méthodes itératives classiques, qui peuvent se révéler très lentes ou même ne pas converger. Elle est qualifiée dans [55] de l’un des dix algorithmes qui ont eu la plus grande influence dans le développement et la pratique de la science et de l’ingénierie au 20-ème siècle.

3.7.2.1 De Jacobi `a Krylov

L’it´eration de Jacobi peut s’´ecrire

x^k+1=−D⁻¹(L + U)x^k+ D⁻¹b. (3.105) L’´equation (3.94) implique que L+ U = A− D, de sorte que

x^k+1= (I− D⁻¹A)xk+ D⁻¹b. (3.106) Puisque la vraie solution x^?= A−1b est inconnue, l’erreur

δ x^k= xk

− x^? (3.107) ne peut pas être calculée. Pour caractériser la qualité de la solution approximative obtenue jusqu’ici, on remplace donc cette erreur par le résidu

r^k= b− Axk=−A(xk

− x^?) =−Aδ xk. (3.108) Normalisons le système d’équations à résoudre pour le rendre tel que D= I. Alors

x^k+1 = (I− A)xk+ b

= xk+ rk. (3.109) Soustrayons x^?des deux membres de (3.109), et multiplions le r´esultat par−A pour obtenir

r^k+1= r^k− Ark. (3.110) L’équation de récurrence (3.110) implique que r^kest une combinaison linéaire des vecteurs r⁰, Ar0,··· ,Akr⁰:

r^k∈ Vect{r0, Ar⁰,··· ,Akr⁰}, (3.111) et (3.109) implique alors que

x^k− x0=

k−1

∑

i=0

On a donc

x^k∈ x0+ Vect{r0, Ar⁰,··· ,Ak−1_r0

}, (3.113) où Vect{r0, Ar0,··· ,Ak−1_r0} est le k-ème sous-espace de Krylov généré par A à partir de r0, notéKk(A, r0).

Remarque 3.17.La d´efinition des sous-espaces de Krylov implique que

Kk−1(A, r⁰)⊂ Kk(A, r⁰), (3.114) et que chaque it´eration augmente la dimension de l’espace de recherche au plus d’une unit´e. Supposons, par exemple, que x⁰= 0, ce qui implique que r0= b. Sup-posons de plus que b soit un vecteur propre de A tel que

Ab= λ b. (3.115) Alors

∀k > 1, Vect{r0, Ar0,··· ,Ak−1_r0

} = Vect{b}. (3.116) Ceci est bien adapté, puisque la solution est x= λ⁻¹b. Remarque 3.18.Soit P_n(λ ) le polynôme caractéristique de A,

P_n(λ ) = det(A− λ In). (3.117) D’après le théorème de Cayley-Hamilton, P_n(A) est la matrice n× n dont tous les éléments sont nuls. Aⁿest donc une combinaison linéaire de Aⁿ⁻¹, An−2,··· ,In, de sorte que

∀k > n, Kk(A, r⁰) =Kn(A, r⁰). (3.118) La dimension de l’espace dans lequel la recherche prend place ne peut donc plus croˆıtre après les n premières itérations.

Un point crucial, non prouv´e ici, est qu’il existe ν6 n tel que

x^?∈ x0+Kν(A, r0). (3.119) En principe, on peut donc espérer obtenir la solution en au plus n= dim x itérations dans les sous-espaces de Krylov, alors qu’une telle borne n’existe pas pour les itérations de Jacobi, Gauss-Seidel ou SOR. En pratique, avec des calculs à virgule flottante, on peut encore obtenir de meilleurs résultats en itérant jusqu’à ce que la solution soit jugée satisfaisante.

3.7.2.2 A est sym´etrique d´efinie positive

Quand A 0, la famille des méthodes de gradients conjugués [97], [78], [218] reste à ce jour la référence. La solution approximative est recherchée en minimisant

J(x) =¹ 2^x

TAx− bTx. (3.120) En utilisant les conditions théoriques d’optimalité présentées en section 9.1, il est facile de montrer que le seul minimiseur de cette fonction de coût est en effet b

x= A⁻¹b. Partant de xk, l’approximation de x^? à l’itération k, x^k+1est calculé par recherche à une dimension dans une direction d^kcomme

x^k+1(λ_k) = xk+ λ_kd^k. (3.121) Il est l`a aussi facile de montrer que J(xk+1(λ_k)) est minimal si

λk=^(d

k)T(b− Axk)

(dk)TAdk . (3.122) La direction de recherche d^kest choisie pour assurer que

(dⁱ)^TAd^k= 0, i= 0,··· ,k − 1, (3.123) ce qui veut dire qu’elle est conjuguée par rapport à A (ou A-orthogonale) avec toutes les directions de recherche précédentes. Si les calculs étaient exacts, ceci assurerait la convergence vers_bx en n itérations au plus. A cause de l’effet des erreurs d’arrondi, il peut s’avérer utile d’autoriser plus de n itérations, quoique n puisse être si large que n itérations soit en fait plus que ce qui est possible. (On obtient souvent une approximation utile de la solution en moins de n itérations.)

Apr`es n it´erations, xⁿ= x⁰+ n−1

∑

i=0 λ_idⁱ, (3.124) de sorte que xⁿ∈ x0+ Vect{d0,··· ,dn−1}. (3.125) Un solveur dans les espaces de Krylov est obtenu si les directions de recherche sont telles que

Vect{d0,··· ,di

} = Ki+1(A, r0) i= 0, 1,··· (3.126) Ceci peut être accompli avec un algorithme étonnamment simple [97], [218], résumé par le tableau 3.1. Voir aussi la section 9.3.4.6 et l’exemple 9.8.

Remarque 3.19.La notation := dans le tableau 3.1 signifie que la variable du membre de gauche se voit assigner la valeur qui résulte de l’évaluation du membre de droite. Elle ne doit pas être confondue avec le signe égal, et on peut écrire k:= k + 1 alors que k = k + 1 n’aurait aucun sens. Ceci dit, MATLAB, comme d’autres langages de programmation, utilise le signe = au lieu de :=.

Tableau 3.1 Solveur dans les espaces de Krylov r0:= b− Ax0, d0:= r0, δ⁰:=kr0k2 2, k:= 0. Tant que||rk||2> seuil, calculer

δ0 k:= (dk)TAdk, λk:= δk/δ0 k, x^k+1:= xk+ λkdk, r^k+1:= rk− λkAdk, δ_k+1:=krk+1k2 2, βk:= δk+1/δk, d^k+1:= r^k+1+ βkdk, k:= k + 1.

3.7.2.3 A n’est pas sym´etrique d´efinie positive

C’est une situation beaucoup plus compliquée et plus coûteuse. Des méthodes spécifiques, non détaillées ici, ont été développées pour les matrices symétriques qui ne sont pas définies positives [175], ainsi que pour des matrices non symétriques [203], [239].

3.7.2.4 Pr´econditionnement

La vitesse de convergence d’un solveur de Krylov dépend fortement du condi-tionnement de A. Une accélération spectaculaire peut être obtenue en remplaçant (3.1) par

MAx= Mb, (3.127) où M est une matrice de préconditionnement convenablement choisie, et de nom-breux travaux de recherche ont été consacrés à ce thème [11], [200]. Les méthodes de Krylov préconditionnées qui en résultent convergent beaucoup plus vite et pour des classes de matrices beaucoup plus générales que les méthodes itératives clas-siques de la section 3.7.1.

Une des approches possibles pour choisir M est de rechercher une approximation creuse de l’inverse de A en r´esolvant

M= arg min

M∈SkIn− AMkF, (3.128) où k · kF est la norme de Frobenius et S est un ensemble de matrices creuses à préciser. Puisque kIn− AMk2 F= n

∑

j=1 kej − Amj k2 2, (3.129)

où e^j est la j-ème colonne de I_net m^jla j-ème colonne de M, le calcul de M peut être décomposé en n problèmes de moindres carrés indépendants (un par colonne), sous des contraintes spécifiant le caractère creux de M. Les éléments non nuls de mj sont alors obtenus en résolvant un petit problème de moindres carrés linéaires sans contrainte(voir la section 9.2). Le calcul des colonnes de bM est donc facile à paralléliser. La difficulté principale est le choix d’un bon ensemble S, qui peut être mené avec une stratégie adaptative [86]. On peut commencer avec M diagonale, ou ayant la même répartition de ses éléments nuls que A.

Remarque 3.20.Le préconditionnement peut aussi être utilisé avec des méthodes

directes.

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 53-57)