U TILISATION DE LA M ETHODE DE NUM ´ EROTATION ROUGE ´ -

LIN EAIRES CREUX DES PROBL ´ EMES DE `

Algorithme 13 : Algorithme global de la fonction Resoudre

4.5/ U TILISATION DE LA M ETHODE DE NUM ´ EROTATION ROUGE ´ -

-NOIR

Dans cette section, nous pr ésentons quelques solutions pour r éduire le temps d’ex écution et le nombre de relaxations de la m éthode parall èle Richardson projet ée sur les grappes GPU. Pour cela, nous utilisons la m éthode de num érotation rouge-noir pour acc él érer la convergence de cette m éthode.

4.5.1/ MISE ŒUVRE SUR UNE GRAPPE GPU

Soit t la somme des trois coordonn ées naturelles x, y et z d’un él ément de vecteur sur un domaine tridimensionnel : t = x + y + z. Comme le montre la figure 4.9-(a), la m éthode de num érotation rouge-noir consiste à calculer en parall èle, à chaque it ération, d’abord les él éments de vecteur rouges ayant une valeur t paire en fonction de ceux qui sont en noir puis, les él éments de vecteur noirs ayant une valeur t impaire en fonction de ceux qui sont en rouge. Les it érations de ce processus s’arr êtent lorsque la convergence est atteinte.

La m éthode de num érotation rouge-noir peut être mise en œuvre sur le GPU de deux façons :

– Parmi tous les threads ex écut és, un seul thread sur deux calcule son él ément de vecteur rouge ou noir à la fois ou,

– tous les threads ex écut és calculent d’abord les él éments de vecteur en rouge puis ceux en noir.

Cependant dans les deux mises en œuvre, pour chaque transaction m émoire effectu ée par un demi-warp, seule la moiti é du segment m émoire requis est utilis ée. Donc, le calcul

z x y z x y

(a) Num ´erotation rouge-noir sur (b) Num ´erotation rouge-noir sur

les axes x, y et z l’axe y

FIGURE 4.9 – Num érotation rouge-noir pour le calcul des él éments de vecteur dans un domaine tridimensionnel

de tous les él éments de vecteur rouges et noirs n écessite deux fois le nombre de tran-sactions m émoires initial. Par cons équent, nous proposons d’appliquer la num érotation rouge-noir, seulement, sur l’axe y comme le montre la figure 4.9-(b). En effet, dans ce cas, cette m éthode permet de calculer en parall èle d’abord les él éments de vecteur rouges ayant une coordonn ée y paire, en fonction des él éments de vecteur noirs ayant une coor-donn ée y impaire, puis vice versa.

En outre, dans la mise en œuvre de la m éthode Richardson projet ée sur un GPU pro-pos ée dans la section 4.3, un probl ème de l’obstacle de taille (nx × ny × nz) est d écompro-pos é en nz grilles de taille nx × ny. Puis, chaque kernel de la m éthode est ex écut é en parall èle par nx × ny threads, de sorte que chaque thread soit en charge de nz él éments de vecteur le long de l’axe z (un él ément de chaque grille du probl ème). Donc, nous exploitons cette propri ét é de mise en œuvre dans la fonction de mise à jour des él éments du vecteur it ér é. En effet, le calcul des nouvelles valeurs des él éments de vecteur dans la grille i utilise celles des él éments de vecteur calcul ées dans la grille i − 1. La figure 4.10 d écrit les nouvelles mises en œuvre des kernels du solveur Richardson projet ée, bas ées sur la m éthode de num érotation rouge-noir.

Enfin, les architectures mat érielle et logicielle des GPUs de la grappe de calcul per-mettent d’effectuer des ex écutions simultan ées entre les fonctions CPU et les kernels GPU. En fait, le lancement d’une ex écution de kernel dans un programme CPU est asyn-chrone (lorsque cette variable d’environnement n’est pas d ésactiv ée dans le GPU). Ceci signifie que le contr ôle d’ex écution est rendu au processus CPU avant que l’ex écution du kernel par le GPU soit termin ée (voir [28]). Nous utilisons cette propri ét é des GPUs pour am éliorer la mise en œuvre parall èle de la fonction Calculer Nouveaux Elements Vecteur() (pr ésent ée dans la section 4.3.2). Par cons équent, chaque nœud de la grappe proc ède d’abord au calcul des él éments de vecteur locaux, u(x, y, z) o ù 0 < y < ny−1 et 0 < z < nz−1, en ex écutant les nouveaux kernels bas és sur la m éthode de num érotation rouge-noir (voir figure 4.10). Puis, il effectue des échanges de donn ées (valeurs des points associ és aux fronti ères) avec les nœuds voisins. Enfin, il calcule les nouvelles valeurs des él éments de vecteur associ és aux fronti ères du sous-probl ème local. Dans ce cas, les calculs des

/* Kernel de la multiplication matrice-vecteur */

__global__ void Multiplication_MV(..., double* U, double* Y) {

//Charger dans des registres les coefficients de la matrice: //centre, ouest, est et avant

...

for(int tz=0; tz<nz; tz++){

if((tx<nx) && (ty<ny) && (tid<n)){

double sum = centre * fetch_double(U, tid);

if(tx != 0) sum += ouest * fetch_double(U, tid-1); if(tx != nx-1) sum += est * fetch_double(U, tid+1); if(tz != nz-1) sum += avant * fetch_double(U, tid+nx*ny); Y[tid] = sum;

}

tid += pas; }

}

/* Kernel de mise `a jour */

__global__ void Mise_A_Jour_Vecteur(..., int rn, double* G, double* Y, double* U) {

//Charger dans des registres le coefficient de la matrice: //centre, sud, nord, arriere

double valeur = 0.0; ...

for(int tz=0; tz<nz; tz++){

if((tx<nx) && (ty<ny) && (tid<n) && ((ty&1)==rn)){

double var = G[tid] - Y[tid] - sud * fetch_double(U, tid-nx) - nord * fetch_double(U, tid+nx);

if(tz != 0) var -= avant * valeur; //utiliser l’élément de la grille précédente var = (var / centre) + fetch_double(U, tid);

if(var < 0) var = 0; //projection U[tid] = valeur = var;

}

tid += pas; }

}

/* Fonction CPU*/

void Calculer_Nouveaux_Elements_Vecteur(double* A, double* G, double* U) {

double *Y;

int rouge=0; int noir=1;

//Configurer l’exécution des kernels: Grille et Bloc //Charger le vecteur U dans la mémoire texture //Allouer un espace mémoire GPU pour le vecteur Y Multiplication_MV<<<Grille,Bloc>>>(..., U, Y);

Mise_A_Jour_Vecteur<<<Grille,Bloc>>>(..., rouge, G, Y, U); Mise_A_Jour_Vecteur<<<Grille,Bloc>>>(..., noir, G, Y, U); }

FIGURE4.10 – Kernels GPU modifi és du solveur Richardson projet ée

él éments de vecteur locaux par les GPUs de la grappe sont effectu és en parall èle avec les échanges de donn ées entre les CPUs.

4.5.2/ EXPERIMENTATIONS´

Le tableau 4.4 illustre les temps d’ex écution en secondes et le nombre de relaxations effectu ées sur une grappe de 12 GPUs, par les algorithmes synchrone et asynchrone de la m éthode Richardson projet ée utilisant la num érotation rouge-noir. De plus, il pr ésente les nouvelles valeurs du ratio τmax d éfini ici comme : le rapport entre le temps d’ex écution de la m éthode de relaxation par blocs sur 24 cœurs CPU et celui de la m éthode de Richardson projet ée utilisant la num érotation rouge-noir sur 12 GPUs.

M ´ethode Taille du pb. ^Synchrone ^Asynchrone

T empsgpu # relax. τmax T empsgpu # relax. τmax

Rouge-noir

256³ 18, 37 71.988 7, 48 12, 58 67.638 10, 47

512³ 349, 23 271.188 13, 79 289, 41 246.036 15, 10 768³ 2.773, 65 590.652 14, 87 2.222, 22 532.806 16, 73 800³ 2.748, 23 638.916 15, 87 2.502, 61 592.525 15, 75 TABLE 4.4 – Temps d’ex écution en secondes du solveur parall èle Richardson projet ée utilisant la num érotation rouge-noir sur une grappe de 12 GPUs

Nous pouvons remarquer que la m éthode de num érotation rouge-noir permet au sol-veur Richardson projet é, synchrone et asynchrone, de r éduire le nombre de relaxations par rapport à celui donn é dans le tableau 4.2. Ceci signifie que le solveur Richardson pro-jet é converge plus rapidement en utilisant la m éthode de num érotation rouge-noir pour la mise à jour du vecteur it ér é. En effet, cette m éthode lui permet d’utiliser les valeurs des él éments de vecteur rouges r écemment calcul ées pour mettre à jour celles des él éments de vecteur noirs. Par cons équent, nous pouvons remarquer que les temps d’ex écution du solveur Richardson projet é pr ésent és dans le tableau 4.4 sont diminu és, en moyenne, de 32% par rapport à ceux pr ésent és dans le tableau 4.2. Bien évidemment, les ratios τ_max sont aussi sensiblement meilleurs, compar és à ceux pr ésent és dans le tableau 4.2. Ils montrent que la r ésolution des probl èmes de l’obstacle avec la m éthode Richardson projet ée mise en œuvre sur la grappe GPU est jusqu’ à 16 fois plus rapide (dans ces exemples) qu’avec la m éthode de relaxation par blocs mise en œuvre sur la grappe CPU. La figure 4.11 illustre le passage à l’ échelle faible des algorithmes parall èles, syn-chrone et asynsyn-chrone, de la m éthode Richardson projet ée utilisant la technique de num érotation rouge-noir. Les tests exp érimentaux sont r éalis és sur une grappe de dix GPUs Tesla. Nous avons fix é la taille d’un sous-probl ème à 2563 par nœud GPU (un cœur CPU et un GPU). Dans la figure 4.11, nous pr ésentons le nombre de relaxations par seconde effectu ées, en moyenne, par un nœud GPU. Nous pouvons remarquer que l’efficacit é de l’algorithme asynchrone est plus ou moins stable, tandis que celle de l’al-gorithme synchrone diminue (jusqu’ à 81% dans cet exemple) avec l’augmentation du nombre de nœuds GPU sur la grappe. Ceci est d û au fait que l’utilisation des GPUs permet de r éduire le rapport entre le temps de calcul et celui de communications. En effet, la puissance de calcul des GPUs permet d’acc él érer les calculs, ainsi de r éduire les temps de calcul, alors que les temps de communications restent inchang és et de-viennent importants. Dans ce contexte, les algorithmes asynchrones supportent mieux le passage à l’ échelle que leurs homologues synchrones. Dans le cas des grappes GPU à grande échelle ou g éographiquement distantes, les algorithmes synchrones peuvent être p énalis és par les communications. C’est pourquoi nous pensons que les algorithmes asynchrones seraient d’autant plus int éressants dans ce type de plateformes de calcul

30 35 40 45 50 55 0 1 2 4 6 8 10

Nombre de relaxation par seconde

Nombre de GPUs 80.81% 84.05% 85.30% 88.33% 95.92% 100% 96.90% 98.13% 98.13% 98.28% 100% 100% 80.81% 84.05% 85.30% 88.33% 95.92% ^96.90% 98.13% 98.13% 98.28% 100% 100% 80.81% 84.05% 85.30% 88.33% 95.92% ^96.90% 98.13% 98.13% 98.28% 100% 100% 80.81% 84.05% 85.30% 88.33% 95.92% ^96.90% 80.81% 84.05% 85.30% 88.33% 95.92% ^96.90% 98.13% 98.13% 98.28% 100% 100% 80.81% 84.05% 85.30% 88.33% 95.92% ^96.90% 98.13% 98.13% 98.28% 100% 100% "Synchrone" "Asynchrone"

FIGURE4.11 – Passage à l’ échelle des algorithmes parall èles synchrone et asynchrone de la m éthode Richardson rouge-noir projet ée

pour am éliorer les temps d’ex écution des m éthodes it ératives parall èles.

4.6/ C

ONCLUSION

Dans ce chapitre, nous avons pour objectif d’exploiter la puissance de calcul d’une grappe GPU pour la r ésolution des probl èmes de l’obstacle de grandes tailles qui inter-viennent, par exemple, dans la physique ou les math ématiques des finances. Pour cela, nous avons utilis é deux m éthodes it ératives, à savoir : la m éthode Richardson projet ée et celle de relaxation par blocs projet ée, pour la r ésolution des syst èmes non lin éaires issus de la discr étisation spatiale d’un probl ème de l’obstacle.

Vu les grandes tailles des probl èmes à r ésoudre, nous nous sommes int éress és, plus particuli èrement, aux algorithmes parall èles synchrones et asynchrones des deux m éthodes it ératives sur une grappe GPU. Toutefois, leurs mises en œuvre diff èrent dans la façon dont les él éments du vecteur it ér é sont calcul és. En effet, le solveur Richardson projet é est bas é sur les it érations par points de la m éthode Jacobi, tandis que celui de relaxation par blocs projet é est bas é sur les it érations par blocs de la m éthode Gauss-Seidel. A cet effet, nous avons remarqu é que le solveur Richardson projet é est, large-ment, plus performant que celui de relaxation par blocs projet é sur une grappe GPU, m ême s’il effectue plus de relaxations que ce dernier pour atteindre la convergence.

Par cons équent, nous pouvons conclure que les meilleures m éthodes de r ésolution d évelopp ées pour les grappes CPU ne sont pas forc ément adapt ées aux grappes GPU, car sur la grappe CPU de tests le solveur de relaxation par blocs projet é a ét é plus performant que celui de Richardson projet é. En effet, les it érations par blocs et les mises à jour de la m éthode Gauss-Seidel assurent aux solveurs it ératifs une convergence rapide sur une grappe CPU mais elles sont difficiles à mettre en œuvre sur des GPUs. Par contre, les it érations par points et les mises à jour de la m éthode Jacobi permettent de

bien exploiter les ressources GPUs et, ainsi, une r ésolution rapide des probl èmes de l’obstacle sur une grappe GPU, m ême si leur taux de convergence est faible par rapport

`a celui des it ´erations Gauss-Seidel par blocs.

Ensuite, nous avons utilis é une technique de num érotation rouge-noir dans la mise en œuvre des algorithmes synchrone et asynchrone de la m éthode Richardson projet ée sur une grappe GPU. Cette technique permet à ces solveurs parall èles de r éduire le nombre de relaxations n écessaires pour atteindre la convergence et, ainsi, d’acc él érer leurs ex écutions sur une grappe GPU. En fait, elle est appliqu ée au processus de mise à jour du vecteur it ér é de telle façon qu’ à chaque it ération, les valeurs des él éments de vec-teur rouges r écemment calcul ées sont utilis ées pour mettre à jour celles des él éments de vecteur noirs puis vice-versa. Par cons équent, nous avons remarqu é que l’utilisation de cette technique de mise à jour a permis aux solveurs parall èles de la m éthode Richard-son projet ée d’am éliorer leurs temps d’ex écution en moyenne de 32% sur une grappe de 12GPUs ce qui n’est pas n égligeable.

Enfin, les tests d’exp érimentation, effectu és sur les deux grappes CPU et GPU, ont montr é que les algorithmes parall èles asynchrones des deux m éthodes sont plus per-formants que leurs homologues synchrones. Plus pr écis ément, nous avons montr é que l’utilisation des GPUs permet de r éduire le ratio entre le temps de calcul et celui de com-munications. Ceci gr âce à la puissance de calcul des GPUs qui permet de r éduire les temps de calcul. N éanmoins, cette performance n’est pas si évidente car la grappe de tests utilis ée est compos ée de nœuds de calcul homog ènes interconnect és par des liens de communication à faible latence. Par ailleurs, les algorithmes asynchrones seraient plus performants sur des grappes g éographiquement distantes et à ressources h ét érog ènes.

5

Dans le document Résolution de systèmes linéaires et non linéaires creux sur grappes de GPUs (Page 120-126)