M´ ETHODESIT ERATIVESDER ESOLUTIONDESYST EMESLIN EAIRES ´ ´ ` ´

(1)

M ´ ETHODES IT ERATIVES DE R ´ ESOLUTION DE SYST ´ EMES LIN ` EAIRES ´

David Ryckelynck

Centre des Mat ´eriaux, Mines ParisTech

8 octobre 2015

(2)

Plan du cours

1

Motivations

2

La m ´ethode de Gauss Seidel

3

Les m ´ethodes de descente

4

M ´ethodes multigrilles

5

Exercice

Mast ère DMS 2015, Sch émas d’int égration temporelle 2/16

(3)

Motivations

Le passage à l’ échelle pour le calcul parall èle est plus facile avec les m éthodes it ératives qu’avec les m éthodes directes.

Pas de probl ème de num érotation des inconnues à optimiser.

Mais :

La convergence en un nombre

raisonnable

d’it érations, n’est pas toujours acquise, elle d épend de la structure de la matrice, du point de d épart, du crit ère d’arr êt... A étudier au cas par cas.

Peu adapt é à la r ésolution de probl èmes à second membres multiples, si ceux-ci sont tr ès diff érents les uns des autres.

Il existe des m ´ethodes de factorisation L.U multifrontales tr `es performantes en calcul

parall `ele (voir MUMPS http://mumps.enseeiht.fr/index.php?page=doc).

(4)

La m ´ethode de Gauss Seidel

On cherche q ∈ R

^N

tel que :

K.q = F

avec la s éparation de K en sa diagonale D, sa partie inf érieure L et sa partie sup érieure U : K = L + D + U

On choisit q

^(o)

et on construit l’it ´er ´e q

⁽ⁱ⁺¹⁾

tel que :

(L + D).q

⁽ⁱ⁺¹⁾

= F − U.q

⁽ⁱ⁾

Il s’agit d’un syst ème lin éaire à matrice triangulaire inf érieure. Sa r ésolution se fait progressivement de l’indice 1 à l’indice N. c’est une op ération dite de descente.

Le nombre d’op érations que l’on peut traiter en parall èle n’est pas tr ès important. Surtout au d ébut du calcul de q

⁽ⁱ⁺¹⁾

. Il y a peu d’additions et de multiplications à r éaliser en parall èle.

C’est une m éthode de point fixe associ ée au probl ème x = (L + D)

⁻¹

.(F − U.x). Il faut que le rayon spectral de (L + D)

⁻¹

.U soit inf érieur à 1 pour qu’il y ait convergence. Si K est sym étrique d éfinie positive, ou strictement à diagonale dominante (|K

_ii

| > P

j6=i

|K

_ij

|), la m ´ethode converge.

Mast ère DMS 2015, La m éthode de Gauss Seidel Sch émas d’int égration temporelle 4/16

(5)

Les m ´ethodes de descente

On cherche q ∈ R

^N

tel que :

K.q = F On suppose K sym ´etrique d ´efinie positive (SPD en Anglais).

K.q = F ⇔ q = arg min

q^?

J(q

^?

) avec

J(q

^?

) = 1

2 q

^?T

.K.q

^?

− q

^?T

.F

Convexit ´e :

J(q

^b

) ≥ J(q

^a

) + (q

^b

− q

^a

)

^T

.∇J(q

^a

)

∇J(q

^a

) = K.q

^a

− F Preuve :

J(q

^b

) = J(q

^a

) + (q

^b

− q

^a

)

^T

.∇J(q

^a

) + 1

2 (q

^b

− q

^a

)

^T

.K.(q

^b

− q

^a

) Donc le minimum local est le minimum global :

∇J(q) = 0

(6)

La plus forte pente (Steepest Descent)

En q

^a

la plus forte pente est dans la direction du gradient : r = −∇J(q

^a

)

donc r = F − K.q

^a

, c’est le r ésidu du syst ème lin éaire à r ésoudre.

Le probl `eme de minimisation dans la direction r s’ ´ecrit : trouver α ∈ R tel que α = arg min

α^?

J(q

^a

+ α

^?

r)

On obtient :

α = r

^T

.r r

^T

.K.r

Mast ère DMS 2015, Les m éthodes de descente Sch émas d’int égration temporelle 6/16

(7)

M ´ethode de la plus forte pente

A chaque ´etape on minimise J dans la direction de la plus forte pente :

Initialisation avec q

^(o)

donn ´e. On en d ´eduit r

^(o)

= F − K.q

^(o)

. y

⁽ⁱ⁾

= K.r

⁽ⁱ⁾

α

⁽ⁱ⁾

=

^r⁽ⁱ⁾^T^.r⁽ⁱ⁾

r⁽ⁱ⁾^T.y⁽ⁱ⁾

q

⁽ⁱ⁺¹⁾

= q

⁽ⁱ⁾

+ α

⁽ⁱ⁾

r

⁽ⁱ⁾

r

⁽ⁱ⁺¹⁾

= r

⁽ⁱ⁾

− α

⁽ⁱ⁾

y

⁽ⁱ⁾

Arr ˆet des it ´erations si kr

⁽ⁱ⁺¹⁾

k <

tol

.

P ériodiquement, le r ésidu exacte est recalcul é pour r éduire la propagation d’erreurs d’arrondi.

Toutes ces op ´erations sont facilement parall ´elisables sur plusieurs coeurs de processeurs.

(8)

Propri ét é de la m éthode de la plus forte pente

Les directions de descente successives sont orthogonales : r

⁽ⁱ⁺¹⁾^T

.r

⁽ⁱ⁾

= r

⁽ⁱ⁾^T

.r

⁽ⁱ⁾

− r

⁽ⁱ⁾^T

.r

⁽ⁱ⁾

r

⁽ⁱ⁾^T

.y

⁽ⁱ⁾

.y

⁽ⁱ⁾^T

.r

⁽ⁱ⁾

= 0

(9)

M ´ethode du gradient conjugu ´e

On souhaite une orthogonalit é des directions de descente au sens de la matrice K (directions K-conjugu ées) pour éviter des effets zig-zag lors de la convergence.

Initialisation avec q

^(o)

donn ´e. On en d ´eduit r

^(o)

= F − K.q

^(o)

, d

^(o)

= r

^(o)

. y

⁽ⁱ⁾

= K.d

⁽ⁱ⁾

α

⁽ⁱ⁾

=

^d⁽ⁱ⁾^T^.r⁽ⁱ⁾

d⁽ⁱ⁾^T.y⁽ⁱ⁾

q

⁽ⁱ⁺¹⁾

= q

⁽ⁱ⁾

+ α

⁽ⁱ⁾

d

⁽ⁱ⁾

r

⁽ⁱ⁺¹⁾

= r

⁽ⁱ⁾

− α

⁽ⁱ⁾

y

⁽ⁱ⁾

β

⁽ⁱ⁺¹⁾

=

^kr_kr⁽ⁱ⁺¹⁾_(i)_k^k₂²

d

⁽ⁱ⁺¹⁾

= r

⁽ⁱ⁺¹⁾

+ β

⁽ⁱ⁺¹⁾

d

⁽ⁱ⁾

Arr ˆet des it ´erations si kr

⁽ⁱ⁺¹⁾

k <

tol

.

Propri ´et ´e :

r

^(i+1)T

.d

⁽ⁱ⁾

= 0

(10)

Propri ét é de convergence de la m éthode du gradient conjugu é

Apr ès N it érations, deux cas de figure se pr ésentent : Soit le r ésidu est nul r

^(N)

= 0, donc il y a convergence.

Soit il est orthogonal aux N directions de descente d

^(o)

, . . . , d

^(N⁻¹⁾

. Or ces directions sont K-orthogonales. Elles constituent une base de R

^N

. Donc le r ´esidu est nul. Il y a convergence.

La convergence est plus rapide selon les modes ”locaux” que selon les modes ”globaux” ( `a grande longueur de variation).

(11)

M éthode du gradient conjugu é pr éconditionn é

Initialisation avec q

^o

donn ´e. On en d ´eduit r

^(o)

= F − K.q

^(o)

, d

^(o)

= M

⁻¹

r

^(o)

, g

^(o)

= d

^(o)

. z

⁽ⁱ⁾

= K.d

⁽ⁱ⁾

α

⁽ⁱ⁾

=

^r⁽ⁱ⁾^T^.g⁽ⁱ⁾

d⁽ⁱ⁾^T.z⁽ⁱ⁾

q

⁽ⁱ⁺¹⁾

= q

⁽ⁱ⁾

+ α

⁽ⁱ⁾

d

⁽ⁱ⁾

r

⁽ⁱ⁺¹⁾

= r

⁽ⁱ⁾

− α

⁽ⁱ⁾

z

⁽ⁱ⁾

g

⁽ⁱ⁺¹⁾

= M

⁻¹

.r

⁽ⁱ⁺¹⁾

β

⁽ⁱ⁺¹⁾

=

^r⁽ⁱ⁺¹⁾^T^.g⁽ⁱ⁺¹⁾

r⁽ⁱ⁾^T.g⁽ⁱ⁾

d

⁽ⁱ⁺¹⁾

= g

⁽ⁱ⁺¹⁾

+ β

⁽ⁱ⁺¹⁾

d

⁽ⁱ⁾

Arr ˆet des it ´erations si kr

⁽ⁱ⁺¹⁾

k <

tol

. Pr ´econditionneur de Jacobi : M = diag(K

ii

).

Pr éconditionneur par factorisation incompl ète de Cholesky : On cherche G triangulaire inf érieure aussi creuse que possible tel que :

kK − G.G

^T

k < ∆

tol

, M = G.G

^T

On peut choisir G

⁻¹

tel que la structure creuse de cette matrice soit celle de la matrice M.

(12)

La m ´ethode GMRES (Generalized Minimum Residual Saad & Schultz 1986)

L’objectif est d’ étendre l’algorithme de gradient conjugu é au traitement des syst èmes à matrice non sym étrique.

La solution approch ée donn ée par l’algorithme du Gradient Conjugu é appartient à un sous-espace de Krylov :

e q − q

^(o)

∈ span{r

^(o)

, K.r

^(o)

, K

²

.r

^(o)

, . . . , K

^m

.r

^(o)

}

Pour GMRES, on cherche le minimum de la norme des r ´esidus dans un sous-espace : e q = arg min

q^?∈q^(o)+

span

^{v⁽¹⁾,v⁽²⁾,...,v^(m)}

kF − K.q

^?

k

o `u (v

^(k)

)

^m_k₌₁

est une base orthogonale du sous-espace de Krylov

span{r

^(o)

, K.r

^(o)

, K

²

.r

^(o)

, . . . , K

^m−1

.r

^(o)

}. Cette base est construite par la m ´ethode d’Arnoldi : v

⁽¹⁾

= r

^(o)

/kr

^(o)

k. Puis, de j = 1 `a m − 1

H

ij

= (K.v

^(j)

)

^T

.v

⁽ⁱ⁾

, i = 1, . . . , j b v

^(j+1)

= K.v

^(j)

− P

j

i=1

v

⁽ⁱ⁾

H

_ij

H

j+1j

= k b v

^(j+1)

k

Si H

j+1j

= 0 alors on arr ˆete les it ´erations, sinon v

^(j+1)

= b v

^(j+1)

/H

j+1j

Propri ´et ´e :

K.[v

⁽¹⁾

, . . . , v

^(m)

] = [v

⁽¹⁾

, . . . , v

^(m+1)

].H

(13)

Quelques remarques sur la convergence des modes propres `a grande valeur propre

Consid ´erons le cas d’une matrice exprim ´ee dans la base de ses modes propres :

K =







λ

1

0 0

0 . . . 0

0 0 λ

N







Soit q la solution exacte de K.q = F.

Alors

r

^(o)

=







λ

1

0 0

0 . . . 0

0 0 λ

N





 .(q − q

^(o)

)

et

α

⁽¹⁾

= P

N

i=1

λ

²_i

(q

_i

− q

_i^(o)

)

²

P

N

i=1

λ

³_i

(q

_i

− q

_i^(o)

)

²

Les modes aux valeurs propres élev ées jouent un r ôle plus important que les autres dans le calcul de α. On constate que la vitesse de convergence de la solution est plus rapide pour les

composantes port ´ees par ces modes.

(14)

M ´ethodes multigrilles

On associe au probl ème à r ésoudre un probl ème à grille grossi ère, ne contenant pas les modes à valeurs propres élev ées du probl ème d’origine. On note K, b b q et b F, la matrice, la solution et le second membre du probl ème grossier. Ce probl ème a N b inconnues, avec N b < N.

On d ´efinit un op ´erateur de restriction R ∈ R

^N×N^b

tel que : b F = R.F On d ´efinit un op ´erateur de prolongement P ∈ R

^N×b^N

tel que :

e q = P.b q avec, pour F et b q quelconques :

e q

^T

.F = b q

^T

. F b ⇒ R = P

^T

Dans le cadre de la m éthode des él éments finis P est construit par une m éthode d’interpolation.

Mast ère DMS 2015, M éthodes multigrilles Sch émas d’int égration temporelle 14/16

(15)

M ´ethodes multigrilles

Apr ès quelques étapes du gradient conjugu é on peut am éliorer la convergence sur les modes à valeurs propres basses en traitant un probl ème directe à l’ échelle grossi ère :

r = F − K.q

^(ν)

K.δb b q = R.r q

^(ν+1)

= q

^(ν)

+ P.δb q Puis refaire ν ´etapes de gradient conjugu ´e. Il s’agit d’un cycle en V.

On peut aussi commencer par une ´etape directe sur le probl `eme grossier. Il s’agit alors d’une

approche Full-Multigrid.

(16)

Exercice

D ´ecouverte de :

scipy.sparse.linalg.cg(A, b, x0=None, tol=1e-05) scipy.sparse.linalg.gmres(A, b, x0=None, tol=1e-05)

http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.sparse.

linalg.cg.html

Sur quel type de matrice peut-on comparer ces deux m ´ethodes ?

Comparer la pr écision pour un nombre d’it érations fix ées ( à l’aide du maximum d’it ération).

Comparer le temps d’ex écution pour une pr écision donn ée.

Comparer la forme des r ésidus pour une pr écision donn ée.

Retrouver dans le code source

Mast ère DMS 2015, Exercice Sch émas d’int égration temporelle 16/16