M ´ ETHODE A DEUX NIVEAUX AVEC ` GMRES - M ´ ETHODES PARALL ELES ` A DEUX `

M ´ ETHODES PARALL ELES ` A DEUX `

5.2/ M ´ ETHODE A DEUX NIVEAUX AVEC ` GMRES

Dans cette section, nous nous int éressons à la r ésolution de syst èmes lin éaires creux par une m éthode de multi-d écomposition à deux niveaux. Pour cela, nous proposons des mises en œuvre CPU et GPU des algorithmes à deux niveaux, synchrones et asyn-chrones, utilisant la m éthode it érative GMRES pour la r ésolution des sous-syst èmes lin éaires issus de la multi-d écomposition. De plus, à la diff érence de ce qui est men-tionn é dans la section 5.1, la r ésolution de chaque sous-syst ème lin éaire est effectu ée en parall èle par un ensemble de processeurs.

5.2.1/ FORMALISME MATHEMATIQUE´

Nous appliquons la m éthode de multi-d écomposition Jacobi par blocs (multi-d écomposition sans recouvrement) sur la matrice creuse A (multi-du syst ème lin éaire à r ésoudre (5.1). Soient n la taille du syst ème lin éaire creux et L le nombre de calculateurs parall èles (chacun compos é d’un ou plusieurs processeurs). La multi-d écomposition du syst ème lin éaire est d éfinie comme suit :

         A = [A1, . . . , A_L], A ∈ R^n×n, x = [X1, . . . , XL], x ∈ Rⁿ, b = [B1, . . . , BL], b ∈ Rⁿ, (5.2)

o `u, pour tout l ∈ {1, . . . , L}, Al est un bloc rectangulaire de taille (nl × n) et Xl et Bl sont des blocs de vecteurs de taille n_l, tel queP

ln_l = n. Dans ce cas, nous utilisons un parti-tionnement de donn ées ligne par ligne sans recouvrement, de façon à ce que des lignes successives de la matrice creuse A et des deux vecteurs x et b soient attribu ées à un calculateur parall èle. Donc, le format par blocs du syst ème lin éaire (5.1) peut être d éfini

comme suit : ∀l ∈ {1, . . . , L}, l−1 X i=1 AliXi+ AllXl+ L X i=l+1 AliXi = Bl, (5.3) o `u Ali est un bloc de taille (nl × n_i) de la matrice rectangulaire Al, Xi ^, Xl est un sous-vecteur de taille ni du vecteur solution x etP

i<lni+P

i>lni+ nl = n, pour tout l ∈ {1, . . . , L} et i ∈ {1, . . . , l − 1, l + 1, . . . , L}. Par cons équent, chacun des L calculateurs parall èles est responsable de la r ésolution du syst ème lin éaire creux suivant :

             AllXl = Yl, tel que Yl = Bl− L X i=1,i,l AliXi, (5.4)

o ù X_i, i ∈ {1, . . . , L} et i , l, repr ésentent les d épendances de donn ées entre le calculateur parall èle l et ses voisins.

5.2.2/ MISE EN ŒUVRE PARALLELE`

La r ésolution parall èle du syst ème lin éaire par blocs (5.4), pour tout l ∈ {1, . . . , L}, est effectu ée par une m éthode à deux niveaux utilisant la m éthode it érative de Krylov GMRES. En effet, chaque syst ème lin éaire issu de la multi-d écomposition est r ésolu en parall èle avec la m éthode GMRES par l’ensemble des processeurs d’un calculateur parall èle. Avant de commencer la r ésolution, les donn ées de chaque syst ème lin éaire l sont partitionn ées entre les processeurs du calculateur parall èle comme suit :

– (Ali)_j un bloc rectangulaire de taille (ⁿl

p × n_i)de la matrice Ali, pour tout i ∈ {1, . . . , L}, – (X_l)_jun sous-vecteur solution de taille ⁿl

– (Bl)_jun sous-vecteur second membre de taille ⁿl

o `u j ∈ {1, . . . , p} et p est le nombre de processeurs sur le calculateur parall `ele l.

Dans l’algorithme 15, nous d écrivons les principaux points cl és de la m éthode à deux niveaux avec GMRES. Cet algorithme est ex écut é en parall èle par tous les processeurs des L calculateurs parall èles. Tout d’abord, chaque processeur calcule le vecteur se-cond membre Y du syst ème lin éaire locale à r ésoudre (ligne 6 de l’algorithme 15) en fonction du sous-vecteur local B, des blocs de matrice hors diagonaux A_{o f f diag}et le sous-vecteur Xextern partag é avec les processeurs des calculateurs parall èles distants (voir la formule (5.4)), tels que pour tout i ∈ {1, . . . , L} et i , l :

             B ∈ R^nlp, Ao f f diag= [Ali], Ali∈ R^nlp×ni, Xextern= [Xi], Xi ∈ R^nlp.

Ensuite, chaque calculateur parall èle l proc ède à la r ésolution it érative de son sous-syst ème lin éaire creux local A_llX_l = Yl (ligne 7), issu de l’op ération de multi-d écomposition, inmulti-d épenmulti-damment multi-de celles multi-des autres sous-syst èmes lin éaires. Pour cela, l’ensemble des p processeurs d’un calculateur l ex écutent l’algorithme parall èle de la m éthode GMRES pr éconditionn ée (voir section 3.3.1). Enfin, apr ès chaque it ération ex-terne (ou à la fin de la r ésolution du syst ème lin éaire local), les p processeurs échangent les valeurs de leurs solutions locales Xlocavec les processeurs des calculateurs parall èles distants (ligne 8). Les échanges de donn ées sont effectu és par passage de messages

Algorithme 15 : Algorithme de la m éthode à deux niveaux avec GMRES pr éconditionn ée Entr ées : Adiag(matrice diagonale),

A_{o f f diag} (matrice hors diagonale),

B(vecteur second membre),

Xintern (vecteur solution partag ´e au sein du m ˆeme calculateur),

X_extern (vecteur solution partag ´e avec les calculateurs distants),

M(matrice de pr ´econditionnement),

εintern(seuil de tol ´erance pour les it ´erations internes),

εextern(seuil de tol ´erance pour les it ´erations externes),

MaxIter_intern(nombre maximum d’it érations internes), MaxIterextern(nombre maximum d’it érations externes), m(nombre d’it érations pour le processus d’Arnoldi)

Sorties : X_loc(vecteur solution local) Initialiser les valeurs du vecteur Xloc;

conv ← f aux;

k ← 0;

tant que ¬conv faire 4

Z ← X_loc;

Y ← M⁻¹(B − A_{o f f diag}× X_extern);

GMRES Parallele(Adiag, Y, Xloc, Xintern, M, εintern, MaxIterextern, m);

Echanger Donnees Externes(X_loc, X_extern);

Err ← kZ − X_lock_∞;

k ← k + 1;

conv ←Convergence(Err, εextern, k, MaxIterextern);

11 ﬁn 12

en utilisant les routines de communication MPI non-bloquantes : MPI_Isend() pour les envois et MPI_Irecv() pour les r éceptions. De plus, dans la version synchrone, nous utilisons la barri ère de synchronisation MPI_Waitall(). Par contre, dans la version asyn-chrone, nous utilisons la routine MPI_Test() qui permet à un processeur de tester la terminaison de l’op ération d’envoi ou de r éception d’un message sans qu’il soit mis en état bloquant.

La convergence de l’algorithme 15 est calcul ´ee en fonction du nombre des it ´erations externes k et la valeur maximale de l’erreur absolue entre deux solutions Xk et Xk+1

trouv ées à des it érations successives k et k + 1 : Err = kX^k− X^k+1k_∞.

Dans la version synchrone, la convergence globale est d étect ée lorsque l’erreur maxi-male, MaxErr, est suffisamment petite et/ou le nombre maximum des it érations externe est atteint :

AllReduce(err, MaxErr, MAX)

si (MaxErr < εextern) ou (k ≥ MaxIterextern) alors conv ← vrai

o `u la fonction AllReduce() est mise en œuvre avec la routine MPI de r ´eduction MPI_Allreduce() qui permet de trouver la valeur maximale MaxErr parmi toutes les

P1 P2 P3 P4 P5 P1 P2 P3 P2 Calculateur 1 Calculateur 3 Calculateur 2 P3 P1

FIGURE5.2 – Exemple de connexion de trois calculateurs parall `eles.

valeurs Err calcul ées par les calculateurs parall èles. Par contre, dans la version asyn-chrone, la convergence globale est d étect ée lorsque les calculateurs parall èles ont tous converg é localement. En fait, un processeur maˆıtre est d ésign é sur chaque calculateur parall èle, par exemple le processeur de rang 1. De plus, tous les maˆıtres des L cal-culateurs parall èles sont reli és entre eux par une architecture en anneau fictive (voir fi-gure 5.2). Ensuite, durant la r ésolution du syst ème lin éaire (5.1), un jeton de type bool éen circule autour de cette architecture, dans une seule direction, d’un processeur maˆıtre à un autre, tant que la convergence globale n’est pas atteinte. Donc, en d émarrant du pro-cesseur maˆıtre du calculateur 1, chaque propro-cesseur maˆıtre i met le jeton à vrai si la convergence locale est atteinte sinon à faux puis, il le transmet à son voisin i + 1 dans l’anneau. Enfin, la convergence globale est d étect ée lorsque le processeur maˆıtre 1 reçoit de son voisin L − 1 un jeton initialis é à vrai. Dans ce cas, le processeur maˆıtre 1 envoie un message d’arr êt à tous les processeurs maˆıtres des autres calculateurs.

Dans la version GPU de l’algorithme 15, nous utilisons la programmation parall èle h ét érog ène MPI/CUDA. Chaque sous-syst ème lin éaire est r ésolu par un calculateur pa-rall èle en appliquant l’algorithme papa-rall èle de la m éthode GMRES adapt é aux GPUs (voir section 3.3.1). De plus, nous utilisons les routines de la biblioth èque CUBLAS suivantes :

– cublasDcopy() pour des copies m ´emoires dans la m ´emoire globale GPU,

– cublaSetVector() et cublasGetVector() pour les transferts de donn ées entre de la m émoire CPU et la m émoire GPU.

5.2.3/ EXPERIMENTATIONS´

Les tests de performances ont ét é effectu és sur une grappe de dix Quad-Core Xeon E5530, chacun équip é de deux GPUs Tasla C1060. Nous avons utilis é la m éthode à deux niveaux avec GMRES pour la r ésolution de syst èmes lin éaires creux de 25 millions de valeurs inconnues. Ces syst èmes lin éaires sont associ és à des matrices creuses à cinq bandes pr ésent ées dans la section 3.3.3.2. Les param ètres de r ésolution sont initialis és comme suit : la matrice de pr éconditionnement M est équivalente à la diagonale princi-pale de la matrice creuse A, les seuils de tol érance pour les it érations internes et externes sont fix és, respectivement, à εintern = 10⁻¹² et εextern = 10⁻¹², le nombre maximum des

Matrice

GMRES M ´ethode `a deux niveaux avec GMRES

T iter.

Architecture Synchrone Asynchrone

(nb. grappes ×

T_sync iter. ∆sync G_sync T_async iter. ∆async G_async nb. gpus/grappe) cage9 3, 173s 27 2 × 5 3, 080s 19 2e-13 1, 03 2, 030s 23 2e-13 1, 56 5 × 2 3, 872s 24 3e-13 0, 82 2, 563s 43 6e-13 1, 24 10 × 1 4, 133s 26 1e-12 0, 77 3, 784s 65 3e-13 0, 84 cage13 3, 701s 26 2 × 5 4, 028s 19 1e-12 0, 92 2, 820s 22 7e-13 1, 31 5 × 2 4, 391s 22 1e-12 0, 84 3, 348s 36 1e-12 1, 10 10 × 1 4, 307s 22 1e-12 0, 85 7, 404s 71 7e-13 0, 50 ecology2 2, 579s 21 2 × 5 2, 131s 13 5e-13 1, 21 1, 651s 24 3e-13 1, 56 5 × 2 2, 366s 15 7e-13 1, 10 1, 736s 23 9e-13 1, 48 10 × 1 2, 357s 15 7e-13 1, 09 2, 392s 43 2e-13 1, 08 shallow 1, 878s 17 2 × 5 0, 804s 3 1e-12 2, 33 0, 800s 9 1e-12 2, 35

water2 ^{5 × 2} ^{0, 803s} ³ ^1e-12 ^{2, 34} ^{1, 004s} ¹⁰ ^8e-13 ^{1, 87}

10 × 1 0, 800s 3 1e-12 2, 35 2, 001s 41 5e-12 0, 94 TABLE 5.1 – Performances des algorithmes synchrone et asynchrone de la m ´ethode `a deux

ni-veaux avec GMRES sur diff ´erentes architectures de grappes de GPUs

it érations internes et celui des it érations externes sont, respectivement, MaxIter_intern = 3 et MaxIterextern = 500, le processus d’Arnoldi est limit é à m = 2 it érations, les vecteurs solution et second membre sont initialis és, respectivement, à 0 et 1.

Le tableau 5.1 illustre les performances des algorithmes parall èles, synchrone et asynchrone, de la m éthode de multi-d écomposition avec GMRES. Les colonnes 2 et 3 montrent, respectivement, le temps d’ex écution en secondes T et le nombre d’it érations effectu és par la m éthode parall èle GMRES ex écut ée sur une grappe de dix GPUs. La colonne 4 d éfinit l’architecture (x × y) de la plateforme parall èle de calcul sur laquelle est ex écut ée la m éthode à deux niveaux. En effet, x repr ésente le nombre de grappes (calcu-lateurs parall èles) et y repr ésente le nombre de GPUs par grappe. Pour chaque version parall èle, synchrone et asynchrone, nous donnons le temps d’ex écution en secondes

(Tsync et Tasync), le nombre des it ´erations externes (iter), la diff ´erence entre la solution

calcul ée avec la m éthode parall èle GMRES et celle calcul ée avec la m éthode à deux niveaux (∆sync et ∆async) et les gains relatifs obtenus par rapport à la m éthode parall èle GMRES (Gsyncet Gasync) :

∆sync = max|X − Xsync| et ∆async= max|X − Xasync|, Gsync = ^T

Tsync

et Gasync= ^T

Tasync

o ù X est la solution calcul ée par l’algorithme parall èle de la m éthode GMRES et Xsync

et Xasync sont, respectivement, les solutions calcul ´ees par les algorithmes parall `eles

syn-chrone et asynsyn-chrone de la m ´ethode `a deux niveaux avec GMRES.

Dans les diff érents cas de figure pr ésent és dans le tableau 5.1, l’architecture 2 × 5 (deux grappes de cinq GPUs chacune) est la meilleure configuration pour l’ex écution de la m éthode à deux niveaux avec GMRES. En fait, la multi-d écomposition du syst ème lin éaire sur plusieurs grappes augmente le rayon spectral de la matrice associ ée, ce

qui ralentit la convergence. De plus, nous pouvons remarquer que l’algorithme en mode asynchrone de la m éthode à deux niveaux est sensiblement plus performant que celui en mode synchrone ainsi que celui de la m éthode GMRES adapt é aux grappes GPUs. En effet, la puissance de calcul des GPUs grappe permet de r éduire les temps de calcul des algorithmes parall èles et, ainsi, le rapport entre le temps de calcul et celui de com-munications. Dans ce cas, les algorithmes à it érations synchrones sont p énalis és par les co ûts de communications. Donc, les it érations asynchrones peuvent être une solution pour am éliorer les temps d’ex écution des algorithmes it ératifs parall èles, surtout sur des grappes GPUs à grande échelle et/ou g éographiquement distantes.

5.3/ C

ONCLUSION

Dans ce chapitre, nous nous sommes int éress és aux m éthodes parall èles de multi-d écomposition pour la r ésolution multi-de syst èmes lin éaires creux multi-de granmulti-des tailles. Ces m éthodes sont destin ées aux plateformes de calcul parall èle distribu ées. Elles sont bas ées sur les calculs à gros grains qui permettent de rem édier aux co ûts des com-munications à haute latence entre nœuds de calcul g éographiquement distants.

Nous avons pr ésent é une m éthode de multi-d écomposition à deux niveaux utilisant la m éthode it érative GMRES. Nous avons mis en œuvre les algorithmes synchrone et asynchrone de cette m éthode it érative sur une grappe de dix GPUs. Ceci nous a permis de remarquer, pour les diff érents exemples étudi és, que la version asynchrone est sen-siblement meilleure que la version synchrone et que l’algorithme parall èle de la m éthode GMRES adapt é aux grappes GPUs. En effet, la multi-d écomposition du syst ème lin éaire de grande taille en sous-syst èmes de petites tailles permet de diminuer le rayon spectral de la matrice associ ée. De plus, la puissance de calcul des GPUs permet de r éduire le rapport entre le temps de calcul et celui de communication, ce qui est un facteur favori-sant pour l’utilisation des it érations asynchrones (voir section 2.3.3).

De plus, nous avons test é les performances de la m éthode à deux niveaux avec GMRES sur des petites grappes GPU locales. Pour cette raison, nous n’avons pas pu avoir des gains relatifs plus significatifs par rapport à la m éthode GMRES adapt ée aux grappes GPUs. Prochainement, nous pr évoyons de r éaliser des tests exp érimentaux à grande échelle sur des grappes CPU g éographiquement distantes de la grille exp érimentale Grid’5000, et sur le supercalculateur hypride CURIE du Tr ès Grand Centre de Calcul (TGCC) de la CEA compos é de plusieurs GPUs (288 nVIDIA M2090). Dans ce contexte, nous pensons que la m éthode à deux niveaux sera plus rapide et suppor-tera mieux le passage à l’ échelle. Par ailleurs, nous étudierons aussi les m éthodes de multi-d écomposition avec recouvrement de donn ées entre les processeurs dans le but d’acc él érer la convergence. Dans ce cas, la matrice associ ée au syst ème lin éaire creux à r ésoudre sera d écompos ée en sous-matrices rectangulaires non disjointes. Ensuite, le principe sera de calculer simultan ément certaines composantes de vecteur par les processeurs et de mixer les r ésultats afin d’obtenir une solution pr écise plus rapidement.

D

ANS cette th èse, nous nous sommes int éress és à l’exploitation de la puissance de calcul des grappes GPU pour la r ésolution de syst èmes lin éaires et non lin éaires creux de tr ès grandes tailles. Nous avons conçu des algorithmes it ératifs parall èles tirant partie de la capacit é de calcul des GPUs, en tenant compte des propri ét és des matrices creuses et des sp écificit és de l’architecture mat érielle et logicielle des GPUs. Nous avons utilis é une programmation parall èle h ét érog ène bas ée sur le langage de programmation CUDA pour les GPUs et le standard de communication MPI. En effet, les GPUs sont dot és d’une architecture massivement parall èle dont la programmation est diff érente de celle des processeurs classiques CPUs. Dans notre cas, un syst ème lin éaire ou non lin éaire creux de tr ès grande taille est r ésolu it érativement en parall èle par l’ensemble des nœuds d’une grappe GPU. Ceci signifie que la mise en œuvre d’une m éthode it érative sur une grappe GPU impose la parall élisation de son algorithme et la gestion des interactions entre les diff érents nœuds GPU de la grappe. La plupart des op érations parall èles de l’algorithme it ératif sont r é écrites en CUDA et ex écut ées par les GPUs, tandis que la synchronisation des calculs locaux des diff érents nœuds est assur ée par les CPUs via les routines de communications MPI. Ainsi, nous avons deux niveaux de parall élisme : parall élisation MPI entre les diff érents nœuds GPUs de la grappe et calcul multithread é avec CUDA à l’int érieur de chaque nœud.

Nos contributions de recherche, dans cette th èse, ont ét é pr ésent ées dans les cha-pitres suivants.

Dans le Chapitre 3, nous avons pr ´esent ´e les mises œuvre des algorithmes

pa-rall èles des m éthodes it ératives de Krylov CG et GMRES, pour la r ésolution de syst èmes lin éaires creux de tr ès grandes tailles. Les tests d’exp érimentation r éalis és dans cette th èse ont montr é qu’une grappe de GPUs est plus performante qu’une grappe de CPUs pour la r ésolution de syst èmes lin éaires creux de plusieurs millions d’inconnues. Ce-pendant, elle est moins performante, voire inefficace, lorsque la r ésolution parall èle d’un syst ème lin éaire creux n écessite un nombre important de communications entre les nœuds GPUs. Pour minimiser le co ût de ces communications, nous avons r éorganiser les colonnes de la matrice creuse au niveau de chaque nœud de façon à ce que les vecteurs de donn ées partag ées soient utilis és sous un format de stockage compress é. De plus, nous avons appliqu é un partitionnement de donn ées hypergraphe qui permet de d écouper la matrice creuse de façon à r éduire au mieux les d épendances de donn ées tout en équilibrant le volume de donn ées échang ées entre les GPUs de la grappe.

Dans le Chapitre 4, nous nous sommes int éress és à la r ésolution de syst èmes non

lin éaires creux issus des probl èmes de l’obstacle sur une grappe GPU. Nous avons utilis é les m éthodes it ératives Richardson et relaxation par blocs projet ées. Pour chacune de ces m éthodes, nous avons conçu deux algorithmes parall èles synchrone et asynchrone adapt és aux grappes GPUs. Les r ésultats exp érimentaux obtenus sur une grappe GPU ont montr é que la m éthode Richardson projet ée est, largement, plus performante que de la m éthode de relaxation par blocs projet ée. Par contre, ceux obtenus sur une grappe

CPU ont montr é le contraire. En effet, la m éthode Richardson est tr ès facile à parall éliser sur les GPUs mais converge lentement, tandis que la m éthode de relaxation par blocs est caract éris ée par une convergence rapide et une parall élisation innefficace sur GPUs, en raison des calculs qui ne sont pas adapt és à l’architecture des GPUs.

Afin d’am éliorer la convergence de la m éthode Richardson projet ée, ainsi que ses performances de r ésolution, nous avons appliqu é à ses algorithmes parall èles une tech-nique de num érotation rouge-noir facile à mettre en œuvre sur les GPUs. Les tests de simulation effectu és sur une grappe GPU ont montr é que l’algorithme asynchrone de la m éthode Richardson rouge-noir projet ée supporte mieux le passage à l’ échelle que son homologue synchrone. Ceci gr âce à la puissance de calcul des GPUs qui permet de r éduire le ratio entre le temps de calcul et celui de communication.

Dans le Chapitre 5, nous avons d ´evelopp ´e les algorithmes synchrone et

asyn-chrone d’une m éthode de multi-d écomposition à deux niveaux, pour la r ésolution de syst èmes lin éaires creux de tr ès grandes tailles sur des grappes GPUs distinctes. Nous avons utilis é une m éthode de multi-d écomposition sans recouvrement sur le syst ème lin éaire creux à r ésoudre et l’algorithme parall èle GMRES adapt é aux GPUs au sein de chaque grappe GPU. Les tests exp érimentaux ont montr é que l’algorithme de multi-d écomposition à multi-deux niveaux asynchrone est plus performant que son homologue syn-chrone et que celui de la m éthode parall èle GMRES ex écut ée sur une seule grappe GPU. Ceci est d û au fait que la puissance de calcul des GPUs permet de r éduire le temps de calcul d’un algorithme parall èle, tandis que le temps de communications reste inchang é. Dans ce contexte, les algorithmes it ératifs synchrones sont p énalis és par les co ûts de communications.

P

ERSPECTIVES

Actuellement, les architectures mat érielles et logicielles des GPUs sont en constante évolution. En effet, les constructeurs r éussissent à concevoir des GPUs moins co ûteux et de plus en plus performants, avec des puissances de calcul plus élev ées et des consom-mations d’ énergie r éduites. De plus, gr âce aux nouvelles versions du langage de

Dans le document Résolution de systèmes linéaires et non linéaires creux sur grappes de GPUs (Page 128-147)