M´ ethodes de Krylov - M´ ethodes it´ eratives pour la r´ esolution des syst` emes lin´ eaires

M´ ethodes it´ eratives pour la r´ esolution des syst` emes lin´ eaires

4.4 M´ ethodes de Krylov

Nous introduisons dans cette section les méthodes basées sur les sous-espaces de Krylov. Pour les démonstrations et pour plus de détails nous renvoyons à [Saa96], [Axe94] et [Hac94].

Considérons la méthode de Richardson (4.23) avec P=I ; la relation entre lek-ième résidu et le résidu initial est donnée par

r⁽^k⁾=

k−1 j=0

(I−αjA)r⁽⁰⁾. (4.49)

Autrement dit r⁽^k⁾=p_k(A)r⁽⁰⁾, où p_k(A) est un polynôme en A de degrék.

Si on d´eﬁnit l’espace

K_m(A;v) = vect

v,Av, . . . ,A^m⁻¹v

, (4.50)

il est immédiat d’après (4.49) que r⁽^k⁾ ∈ K_k₊₁(A;r⁽⁰⁾). L’espace (4.50) est appelésous-espace de Krylov d’ordrem. C’est un sous-espace de l’espace en-gendré par tous les vecteursu∈Rⁿ de la formeu=p_m₋₁(A)v, oùp_m₋₁ est un polynôme en A de degré≤m−1.

De manière analogue à (4.49), on montre que l’itérée x⁽^k⁾ de la méthode de Richardson est donnée par

x⁽^k⁾=x⁽⁰⁾+

k−1

j=0

αjr⁽^j⁾.

L’itérée x⁽^k⁾appartient donc à l’espace W_k=

v=x⁽⁰⁾+y, y∈K_k(A;r⁽⁰⁾) (

. (4.51)

Remarquer aussi que k−1

j=0α_jr⁽^j⁾ est un polynôme en A de degré inférieur

a k−1. Dans la méthode de Richardson non préconditionnée, on cherche donc une valeur approchée dexdans l’espaceW_k. Plus généralement, on peut imaginer des méthodes dans lesquelles on recherche des solutions approchées de la forme

x⁽^k⁾=x⁽⁰⁾+q_k₋₁(A)r⁽⁰⁾, (4.52) oùq_k₋₁est un polynôme choisi de manière à ce que x⁽^k⁾ soit, dans un sens à préciser, la meilleure approximation dexdansW_k. Une méthode dans laquelle on recherche une solution de la forme (4.52) avec W_k défini par (4.51) est appeléeméthode de Krylov.

On a le r´esultat suivant :

Propriété 4.6 SoitA∈Rⁿ^×ⁿetv∈Rⁿ. On définit le degré devpar rapport

a A, notédeg_A(v), comme étant le degré minimum des polynômes non nuls p tels que p(A)v = 0. Le sous-espace de Krylov Km(A;v) a une dimension

egale à m si et seulement si le degré de v par rapport à A est strictement supérieur àm.

La dimension deK_m(A;v) est donc égale au minimum entremet le degré de v par rapport à A. Par conséquent, la dimension des sous-espaces de Krylov est une fonction croissante dem. Remarquer que le degré devne peut pas être plus grand quend’après le théorème de Cayley-Hamilton (voir Section 1.7).

Exemple 4.7 Considérons la matrice A = tridiag₄(−1,2,−1). Le vecteur v = [1,1,1,1]^T est de degré 2 par rapport à A puisque p₂(A)v = 0 avec p₂(A) =

I₄−3A+A², et puisqu’il n’y a pas de polynômep₁de degré 1 tel quep₁(A)v=0. Par conséquent, tous les sous-espaces de Krylov à partir deK₂(A;v) sont de dimension 2. Le vecteurw= [1,1,−1,1]^T est de degré 4 par rapport à A. •

Pour un m ﬁx´e, il est possible de calculer une base orthonormale de K_m(A;v) en utilisant l’algorithme d’Arnoldi.

En posantv₁=v/ v ₂, cette méthode génère une base orthonormale{vi} de Km(A;v₁) en utilisant le procédé de Gram-Schmidt (voir Section 3.4.3).

Pour k= 1, . . . , m, l’algorithme d’Arnoldi consiste `a calculer : h_ik=v^T_i Av_k, i= 1,2, . . . , k, wk = Avk−

k i=1

hikvi, hk+1,k= wk 2.

(4.53)

Si wk =0, le processus s’interrompt (on parle debreakdown) ; autrement, on posev_k₊₁=w_k/ w_k ₂et on reprend l’algorithme en augmentantkde 1.

On peut montrer que si la méthode s’achève à l’étapem, alors les vecteurs v₁, . . . ,v_mforment une base deK_m(A;v). Dans ce cas, en notant V_m∈Rⁿ^×^m la matrice dont les colonnes sont les vecteurs v_i, on a

V_m^TAV_m= H_m, V^T_m₊₁AV_m=H_m, (4.54) où H_m ∈ R⁽^m^+1)×^m est la matrice de Hessenberg supérieure dont les coeffi-cientsh_ij sont donnés par (4.53) et H_m∈R^m^×^mest la restriction de H_maux mpremières lignes etmpremières colonnes.

L’algorithme s’interrompt à une étapek < msi et seulement si deg_A(v₁) = k. Pour ce qui de la stabilité, tout ce qui a été dit pour le procédé de Gram-Schmidt peut être repris ici. Pour des variantes plus efficaces et plus stables de (4.53), nous renvoyons à [Saa96].

Les fonctionsarnoldi_alget GSarnoldidu Programme 21, fournissent une implémentation MATLAB de l’algorithme d’Arnoldi. En sortie, les co-lonnes de V contiennent les vecteurs de la base construite, et la matrice H stocke les coefficients h_ik calculés par l’algorithme. Si m étapes sont effec-tuées, V= V_metH(1 :m,1 :m) = H_m.

Programme 21 - arnoldialg: M´ethode d’Arnoldi avec orthonormalisation de Gram-Schmidt

function [V,H]=arnoldialg(A,v,m)

% ARNOLDIALG Algorithme d’Arnoldi

% [B,H]=ARNOLDIALG(A,V,M) construit pour un M ﬁx´e une base orthonormale

% B de K M(A,V) telle que VˆT*A*V=H.

v=v/norm(v,2); V=v; H=[]; k=0;

while k<= m-1

[k,V,H] = GSarnoldi(A,m,k,V,H);

end return

function [k,V,H]=GSarnoldi(A,m,k,V,H)

% GSARNOLDI M´ethode de Gram-Schmidt pour l’algorithme d’Arnoldi k=k+1; H=[H,V(:,1:k)’*A*V(:,k)];

s=0;

for i=1:k

s=s+H(i,k)*V(:,i);

end

w=A*V(:,k)-s; H(k+1,k)=norm(w,2);

if H(k+1,k)>=eps & k<m V=[V,w/H(k+1,k)];

else k=m+1;

end return

Ayant décrit un algorithme pour construire la base d’un sous-espace de Krylov d’ordre quelconque, nous pouvons maintenant résoudre le système linéaire (3.2) par une méthode de Krylov. Pour toutes ces méthodes, le vecteur x⁽^k⁾ est toujours de la forme (4.52) et, pour unr⁽⁰⁾ donné,x⁽^k⁾est choisi comme

etant l’unique élément deW_k qui satisfait un critère de distance minimale à x. C’est la manière de choisirx⁽^k⁾ qui permet de distinguer deux méthodes de Krylov.

L’id´ee la plus naturelle est de chercher x⁽^k⁾∈ W_k comme le vecteur qui minimise la norme euclidienne de l’erreur. Mais cette approche n’est pas uti-lisable en pratique carx⁽^k⁾d´ependrait alors de l’inconnuex.

Voici deux strat´egies alternatives :

1. calculer x⁽^k⁾ ∈ W_k en imposant au résidu r⁽^k⁾ d’être orthogonal à tout vecteur deK_k(A;r⁽⁰⁾), autrement dit on cherche x⁽^k⁾∈W_k tel que

v^T(b−Ax⁽^k⁾) = 0 ∀v∈K_k(A;r⁽⁰⁾); (4.55) 2. calculerx⁽^k⁾∈W_k qui minimise la norme euclidienne du r´esidu r⁽^k⁾ ₂,

c’est-`a-dire

b−Ax⁽^k⁾ ₂= min

v∈W_k b−Av ₂. (4.56)

La relation (4.55) conduit à la méthode d’Arnoldi pour les systèmes linéaires (également connue sous le nom de FOM, pourfull orthogonalization method), tandis que (4.56) conduit à la méthode GMRES.

Dans les deux prochaines sections, nous supposerons quekétapes de l’algo-rithme d’Arnoldi auront été effectuées. Une base orthonormale deK_k(A;r⁽⁰⁾)

aura donc été construite et on la supposera stockée dans les vecteurs colonnes de la matrice V_k avecv₁ =r⁽⁰⁾/ r⁽⁰⁾ ₂. Dans ce cas, la nouvelle itérée x⁽^k⁾ peut toujours s’écrire comme

x⁽^k⁾=x⁽⁰⁾+ V_kz⁽^k⁾, (4.57) oùz⁽^k⁾doit être choisi selon un critère donné.

4.4.1 La méthode d’Arnoldi pour les systèmes linéaires

Imposons àr⁽^k⁾d’être orthogonal à K_k(A;r⁽⁰⁾) en imposant (4.55) pour tous les vecteurs de la base vi,i.e.

V_k^Tr⁽^k⁾= 0. (4.58)

Puisquer⁽^k⁾=b−Ax⁽^k⁾avecx⁽^k⁾de la forme (4.57), la relation (4.58) devient V^T_k(b−Ax⁽⁰⁾)−V^T_kAV_kz⁽^k⁾= V^T_kr⁽⁰⁾−V_k^TAV_kz⁽^k⁾= 0. (4.59) Grâce à l’orthonormalité de la base et au choix dev₁, on a V_k^Tr⁽⁰⁾= r⁽⁰⁾ ₂e₁, e₁ étant le premier vecteur unitaire deR^k. Avec (4.54), il découle de (4.59) quez⁽^k⁾ est la solution du système linéaire

H_kz⁽^k⁾= r⁽⁰⁾ ₂e₁. (4.60) Une fois z⁽^k⁾ connu, on peut calculerx⁽^k⁾ à partir de (4.57). Comme H_k est une matrice de Hessenberg supérieure, on peut facilement résoudre le système linéaire (4.60) en effectuant, par exemple, une factorisation LU de H_k.

Remarquons qu’en arithmétique exacte la méthode ne peut effectuer plus de n étapes et qu’elle s’achève en m < n étapes seulement si l’algorithme d’Arnoldi s’interrompt. Pour la convergence de la méthode, on a le résultat suivant.

Théorème 4.13 En arithmétique exacte, la méthode d’Arnoldi donne la so-lution de (3.2)après au plusnitérations.

Démonstration.Si la méthode s’arrête à lan-ième itération, alors nécessairement x⁽ⁿ⁾ =x puisque K_n(A;r⁽⁰⁾) =Rⁿ. Si la méthode s’arrête à la m-ième itération (breakdown), pour un m < n, alors x^(m) = x. En effet, on inversant la première relation de (4.54), on a

x^(m) =x⁽⁰⁾+ V_mz^(m)=x⁽⁰⁾+ V_mH⁻¹_mV^T_mr⁽⁰⁾= A⁻¹b.

3 L’algorithme d’Arnoldi ne peut être utilisé tel qu’on vient de le décrire, puisque la solution ne serait calculée qu’après avoir achevé l’ensemble du processus,

sans aucun contrôle de l’erreur. Néanmoins le résidu est disponible sans avoir

a calculer explicitement la solution ; en effet, à lak-ième étape, on a b−Ax⁽^k⁾ ₂=h_k₊₁_,k|e^T_kzk|,

et on peut d´ecider par cons´equent d’interrompre l’algorithme si

h_k₊₁_,k|e^T_kz_k|/ r⁽⁰⁾ ₂≤ε, (4.61) oùε >0 est une tolérance fixée.

La conséquence la plus importante du Théorème 4.13 est que la méthode d’Arnoldi peut être vue comme une méthode directe, puisqu’elle fournit la solution exacte après un nombre fini d’itérations. Ceci n’est cependant plus vrai en arithmétique à virgule flottante à cause de l’accumulation des erreurs d’arrondi. De plus, si on prend en compte le coût élevé du calcul (qui est de l’ordre de 2(n_z+mn)flopspourmétapes et une matrice creuse d’ordrenayant n_z coefficients non nuls) et la mémoire importante nécessaire au stockage de la matrice V_m, on comprend que la méthode d’Arnoldi ne peut être utilisée telle quelle en pratique, sauf pour de petites valeurs dem.

De nombreux rem`edes existent contre ce probl`eme. Un d’entre eux consiste

a préconditionner le système (en utilisant, par exemple, un des pr´ econdition-neurs de la Section 4.3.2). On peut aussi introduire des versions modifiées de la méthode d’Arnoldi en suivant deux approches :

1. on effectue au plus métapes consécutives, métant un nombre petit fixé (habituellementm10). Si la méthode ne converge pas, on posex⁽⁰⁾ = x⁽^m⁾ et on recommence l’algorithme d’Arnoldi pourm nouvelles étapes.

La procédure est répétée jusqu’à convergence. Cette méthode, appelée FOM(m) ou méthode d’Arnoldi avec redémarrage (ourestart), permet de réduire l’occupation mémoire puisqu’elle ne nécessite de stocker que des matrices d’au plusmcolonnes ;

2. on impose une limitation dans le nombre de directions qui entrent en jeu dans le procédé d’orthogonalisation d’Arnoldi. On obtient alors la méthode d’orthogonalisation incomplète ou IOM. En pratique, lak-ième

etape de l’algorithme d’Arnoldi génère un vecteur vk+1qui est orthonor-mal aux q vecteurs précédents, où q est fixé en fonction de la mémoire disponible.

Il est important de noter que ces deux stratégies n’ont plus la propriété de donner la solution exacte après un nombre fini d’itérations.

Le Programme 22 donne une implémentation de l’algorithme d’Arnoldi (FOM) avec un critère d’arrêt basé sur le résidu (4.61). Le paramètre d’en-tréemest la taille maximale admissible des sous-espaces de Krylov. C’est par conséquent le nombre maximum d’itérations.

Programme 22 - arnoldimet: Méthode d’Arnoldi pour la résolution des systèmes linéaires

function [x,iter]=arnoldimet(A,b,x0,m,tol)

%ARNOLDIMET M´ethode d’Arnoldi.

% [X,ITER]=ARNOLDIMET(A,B,X0,M,TOL) tente de r´esoudre le syst`eme

% A*X=B avec la méthode d’Arnoldi. TOL est la tolérance de la méthode.

% M est la taille maximale de l’espace de Krylov. X0 est la donn´ee

% initiale. ITER est l’itération à laquelle la solution X a été calculée.

r0=b-A*x0; nr0=norm(r0,2);

if nr0 ˜= 0

v1=r0/nr0; V=[v1]; H=[]; iter=0; istop=0;

while (iter<=m-1) & (istop == 0) [iter,V,H] = GSarnoldi(A,m,iter,V,H);

[nr,nc]=size(H); e1=eye(nc);

y=(e1(:,1)’*nr0)/H(1:nc,:);

residual = H(nr,nc)*abs(y*e1(:,nc));

if residual<=tol istop = 1; y=y’;

end end if istop==0

[nr,nc]=size(H); e1=eye(nc);

y=(e1(:,1)’*nr0)/H(1:nc,:); y=y’;

end

x=x0+V(:,1:nc)*y;

else x=x0;

end

0 10 20 30 40 50 60

10⁻¹⁶ 10⁻¹⁴ 10⁻¹² 10⁻¹⁰ 10⁻⁸ 10⁻⁶ 10⁻⁴ 10⁻² 10⁰ 10²

Fig. 4.9.Comportement du résidu en fonction du nombre d’itérations de la méthode d’Arnoldi appliquée au système linéaire de l’Exemple 4.8

Exemple 4.8 Résolvons le système linéaire Ax=bavec A = tridiag₁₀₀(−1,2,−1) et btel que la solution soitx =1. Le vecteur initial est x⁽⁰⁾ =0et tol=10⁻¹⁰. La méthode converge en 50 itérations et la Figure 4.9 montre le comportement de la norme euclidienne du résidu normalisée par celle du résidu initial en fonction du nombre d’itérations. Remarquer la réduction brutale du résidu : c’est le signal typique du fait que le dernier sous-espaceW_kconstruit est assez riche pour contenir

la solution exacte du syst`eme. •

4.4.2 La m´ethode GMRES

Dans cette méthode, on choisit x⁽^k⁾ de manière à minimiser la norme eucli-dienne du résidu à chaque itérationk. On a d’après (4.57)

r⁽^k⁾=r⁽⁰⁾−AV_kz⁽^k⁾. (4.62) Or, puisquer⁽⁰⁾ =v₁ r⁽⁰⁾ ₂, la relation (4.62) devient, d’apr`es (4.54),

r⁽^k⁾= Vk+1( r⁽⁰⁾ ₂e₁−Hkz⁽^k⁾), (4.63) o`ue₁est le premier vecteur unitaire deR^k⁺¹. Ainsi, dans GMRES, la solution

a l’étapekpeut être calculée avec (4.57) et

z⁽^k⁾choisi de manière à minimiser r⁽⁰⁾ ₂e₁−H_kz⁽^k⁾ ₂. (4.64) Noter que la matrice V_k₊₁intervenant dans (4.63) ne modifie pas la valeur de · 2car elle est orthogonale. Comme on doit résoudre à chaque étape un pro-blème de moindres carrés de taillek, GMRES est d’autant plus efficace que le nombre d’itérations est petit. Exactement comme pour la méthode d’Arnoldi, GMRES s’achève en donnant la solution exacte après au plusnitérations. Un arrêt prématuré est dû à une interruption dans le procédé d’orthonormalisa-tion d’Arnoldi. Plus précisément, on a le résultat suivant :

Propriété 4.7 La méthode GMRES s’arrête à l’étape m (avec m < n) si et seulement si la solution calculée x⁽^m⁾ co¨ıncide avec la solution exacte du système.

Une implémentation MATLAB élémentaire de GMRES est proposée dans le Programme 23. Ce dernier demande en entrée la taille maximale admissible mdes sous-espaces de Krylov et la tolérancetolsur la norme euclidienne du résidu normalisée par celle du résidu initial. Dans cette implémentation, on calcule la solutionx⁽^k⁾à chaque pas pour calculer le résidu, ce qui induit une augmentation du coût de calcul.

Programme 23 - gmres : Méthode GMRES pour la résolution des systèmes linéaires

function [x,iter]=gmres(A,b,x0,m,tol)

%GMRES M´ethode GMRES.

% [X,ITER]=GMRES(A,B,X0,M,TOL) tente de r´esoudre le syst`eme

% A*X=B avec la méthode GMRES. TOL est la tolérance de la méthode.

% M est la taille maximale de l’espace de Krylov. X0 est la donn´ee

% initiale. ITER est l’itération à laquelle la solution X a été calculée.

r0=b-A*x0; nr0=norm(r0,2);

if nr0 ˜= 0

v1=r0/nr0; V=[v1]; H=[]; iter=0; residual=1;

while iter<=m-1 & residual>tol, [iter,V,H] = GSarnoldi(A,m,iter,V,H);

[nr,nc]=size(H); y=(H’*H)\ (H’*nr0*[1;zeros(nr-1,1)]);

x=x0+V(:,1:nc)*y; residual = norm(b-A*x,2)/nr0;

end else

x=x0;

end

Pour améliorer l’efficacité de l’implémentation de GMRES, il est nécessaire de définir un critère d’arrêt qui ne requiert pas le calcul explicite du résidu

a chaque pas. Ceci est possible si on résout de fa¸con appropriée le système associé à la matrice de Hessenberg Hk.

En pratique, Hk est transformé en une matrice triangulaire supérieure R_k ∈R⁽^k^+1)×^k avecr_k₊₁_,k= 0 telle que Q^T_kR_k =H_k, où Q_k est le résultat du produit dek rotations de Givens (voir Section 5.6.3). On peut alors montrer que, Q_k étant orthogonale, minimiser r⁽⁰⁾ ₂e₁−H_kz⁽^k⁾ ₂ est équivalent à minimiser fk−R_kz⁽^k⁾ ₂, avec fk= Q_k r⁽⁰⁾ ₂e₁. On peut aussi montrer que la valeur absolue de la k+ 1-ième composante de fk est égale à la norme euclidienne du résidu à l’itérationk.

Tout comme la méthode d’Arnoldi, GMRES est coûteuse en calcul et en mémoire à moins que la convergence ne survienne qu’après peu d’itérations.

Pour cette raison, on dispose à nouveau de deux variantes de l’algorithme : la première, GMRES(m), basée sur un redémarrage après m itérations, la seconde, Quasi-GMRES ou QGMRES, sur l’arrêt du procédé d’orthogonalisa-tion d’Arnoldi. Dans les deux cas, on perd la propriété de GMRES d’obtenir la solution exacte en un nombre fini d’itérations.

Remarque 4.4 (méthodes de projection) Les itérations de Krylov peu-vent être vues comme des méthodes de projection. En notant Y_k etL_k deux sous-espaces quelconques de Rⁿ de dimensionm, on appelleméthode de pro-jection un procédé qui construit une solution approchée x⁽^k⁾ à l’étapek, en

imposant que x⁽^k⁾ ∈ Y_k et que le r´esidu r⁽^k⁾= b−Ax⁽^k⁾ soit orthogonal `a L_k. SiY_k =L_k, la projection est diteorthogonale; sinon, elle est diteoblique.

Par exemple, la méthode d’Arnoldi est une méthode de projection ortho-gonale où L_k = Y_k = K_k(A;r⁽⁰⁾), tandis que GMRES est une méthode de projection oblique avecY_k =K_k(A;r⁽⁰⁾) etL_k = AY_k. Remarquons d’ailleurs que certaines méthodes classiques introduites dans les sections précédentes ap-partiennent aussi à cette catégorie. Par exemple, la méthode de Gauss-Seidel est une projection orthogonale où K_k(A;r⁽⁰⁾) = vect(e_k), pourk= 1, . . . , n.

Les projections sont effectuées de manière cyclique de 1 à njusqu’à

conver-gence.

Dans le document Méthodes Numériques (Page 159-168)