Bilan - Vers des noyaux de calcul intensif pérennes

Dans les deux exemples qui suivent, nous allons résoudre un système linéaire AX = B, avec deux structures de matrices différentes pour A, impliquant deux algorithmes de résolution distincts. La matrice A est dans les deux cas une matrice diagonale par blocs. Elle présentera deux niveaux dans le premier exemple et trois dans le second exemple. Dans le premier cas, les blocs auront la structure de type bande symétrique présentée dans les chapitres 2 et 4 (cf.

figure 6.1). Dans le second exemple, la structure sera plus complexe : la structure d’un bloc comportera deux niveaux, chacun de type bande symétrique (cf. figure 6.19). Dans les deux cas, les sous-problèmes A_iiX_i = B_i peuvent être traités indépendamment et parallèlement aux autres. Le problème AX = B peut en effet être considéré comme une collection43 vis à vis de la fonction de résolution d’un problème A_iiXi= B_i.

6.1 Premier cas : les blocs ont une structure bande symétrique

Le premier exemple que nous allons traiter est issu du solveur de neutronique SP_N et cor-respond à l’exemple introduit dans la section 2.2. Les blocs de A ont une structure bande symétrique. Comme dans la section 2.2, l’algorithme utilisé pour résoudre un sous-problème A_iiX_i = B_i consiste à décomposer le bloc A_ii selon une forme LDL^T de la factorisation de Cholesky puis à effectuer une opération dite de « descente-remontée ». Seule cette dernière opération nous intéresse pour effectuer nos analyses de performances. Il est en effet classique de ré-utiliser plusieurs fois le résultat de la décomposition pour résoudre des problèmes possé-dant des seconds membres différents. Ce sera le cas pour résoudre le problème présenté dans la

section 6.2.

Dans cette section, nous allons tout d’abord présenter la structure de la matrice A ainsi que les différents paramètres permettant de la définir précisément. Nous déterminerons ensuite les performances maximales théoriques attendues en fonction des caractéristiques des machines de tests. Finalement, nous comparerons les performances obtenues par les différentes approches avec les performances théoriques.

6.1.1 Structure de la matrice A et paramètres du problème

La matrice A est une matrice diagonale par bloc dont les blocs possèdent une structure bande symétrique. Trois paramètres permettent de caractériser cette structure de matrice :

– le nombre de blocs n_b, – la taille des blocs t_b,

– la demi largeur de bande des blocs hbw.

La matrice représentée sur lefigure 6.1 est caractérisée par les valeurs suivantes : n_b t_b hbw

3 20 6

Dans le solveur SP_N, n_b est généralement compris entre 1 × 10⁴ et 3 × 10⁵. La figure 6.2

représente le nombre d’opérations réalisées par seconde sur_2×4³²Nehalem en fonction de n_blorsque t_b et hbw valent respectivement 25 et 2. Nous avons utilisé l’implémentation séquentielle présen-tée section 2.2. Nous pouvons constater que pour un nombre de blocs compris entre 1 × 10⁴ et 1 × 10⁵ les performances ne dépendent pas du nombre de blocs. Le même constat peut se généraliser aux autres valeurs des ces deux paramètres, aux autres implémentations (parallèles et vectorisées) et aux autres machines de tests. Par conséquent, nous ignorerons ce paramètre dans la suite.

43. voir définitionsection 4.1.4.1

hbw

Figure 6.1 : Structure de la matrice A utilisée dans le premier cas test.

0 0.2 0.4 0.6 10 20 30 40 50 75 100 Puissance de c a lc ul (GFLOPS) Nombre de blocs (×103)

Figure 6.2 : Performances de la descente-remontée séquentielle en fonction du nombre de blocs de la

matrice A sur la machine 32

2×4Nehalem.

La section suivante présente un modèle donnant les performances d’une implémentation idéale de la descente-remontée sur les différentes architectures.

6.1.2 Performances d’une implémentation idéale

Une unité de calcul ne peut effectuer une opération que sur des données disponibles en registres. Si le débit de données n’est pas suffisant pour alimenter les unités de calcul, ces dernières seront inactives une partie du temps. Dans ce cas, les performances sont limitées par la bande passante de la RAM.

À l’inverse, les transferts de données ne peuvent être initiés que si des instructions de trans-ferts sont exécutées. S’il s’écoule trop de temps entre deux instructions d’accès à la mémoire, le réseau d’interconnexion RAM/processeur sera sous-exploité. Les performances sont alors limitées par la puissance de calcul du processeur.

Partant de ce constat, nous établissons un modèle de performance simplifié. Ce modèle repose sur les notions d’intensité arithmétique et d’intensité arithmétique critique .

Definition 10. L’intensité arithmétique i_a est définie par NVIDIA comme le ratio entre le nombre d’opérations et le nombre d’accès mémoire d’une portion d’application [133].

Definition 11. L’intensité arithmétique critique ic caractérise l’équilibre entre la puis-sance de calcul d’un processeur et la bande passante de la RAM. Cette intensité correspond au ratio entre le nombre d’opérations réalisables en une seconde et la quantité de données trans-férables entre la RAM et le processeur durant ce même temps.

Afin de déterminer l’élément limitant les performances d’un noyau de calcul pour une machine de calcul donnée, il suffit alors de comparer l’intensité arithmétique du noyau de calcul avec l’intensité arithmétique critique de la machine de calcul.

– Si i_a est inférieur à i_c, alors les performances sont limitées par la bande passante mémoire. L’obtention de meilleures performances nécessite alors de minimiser le nombre d’accès à la mémoire RAM. Pour cela, il est possible de choisir des algorithmes permettant une meilleure réutilisation des données. Une autre approche consiste à recalculer à la volée des éléments plutôt que de les lire en mémoire. C’est dans ce but que la possibilité de ne pas stocker les matrices Legolas++ a été offerte.

– Si au contraire i_a est supérieur à i_c, les performances de l’application sont limitées par la puissance de calcul. Notons que dans ce cas, des efforts supplémentaires d’implémenta-tion sont requis pour garantir une utilisad’implémenta-tion optimale du processeur. En effet, l’utilisad’implémenta-tion d’algorithmes maximisant l’intensité arithmétique (comme les algorithmes dits « cache oblivious » [250]) n’est pas suffisant pour garantir des performances optimales. La bib-liothèque MTL4 [251] permet l’utilisation d’un algorithme récursif minimisant le nombre d’accès à la mémoire et maximisant donc l’intensité arithmétique. Cependant, cela n’est pas suffisant pour garantir des performances optimales [252]. Dans son article détaillant les choix mis en œuvre dans son implémentation des BLAS, Kazushige GOTO donne divers éléments à prendre en compte pour exploiter pleinement les processeurs [54]. Par exemple, notre modèle de performance ne prend en compte qu’un seul des trois niveaux de cache, il est donc optimiste par nature. De plus, notre implémentation ne prend pas en compte ni le TLB⁴⁴ni l’ordre de parcours des données. Ces deux éléments induisent des latences non prises en compte par notre modèle lors des accès aux données. De plus, au contraire des opérations mettant en œuvre des matrices denses, l’algorithme que nous étudions nécessite plusieurs boucles imbriquées ; ce qui implique des ruptures du pipeline d’instructions⁴⁵et donc une augmentation de la latence dans l’exécution des opérations de calcul.

Nous allons donc maintenant calculer l’intensité arithmétique de la descente-remontée. Pour cela, nous devons distinguer l’architecture X86_64 de l’architecture GF100. En effet, la présence d’un cache de grande capacité sur l’architecture X86_64 permet d’éviter certains accès mémoire. Nous allons donc distinguer ces deux cas pour le nombre d’accès à la mémoire. Pour l’architecture X86_64, nous supposons que l’ensemble des données pour un bloc tient en cache et ne comptabilisons donc que les accès correspondants à une seule lecture du couple matrice-vecteur⁴⁶ et à l’ecriture du résultat dans le même vecteur. Pour l’architecture GF100, tous les accès sont comptabilisés car les différents niveaux de mémoire cache sont trop petits pour avoir un impact.

44. Le Translation Lookaside Buffer, ou TLB, est une mémoire cache du processeur utilisé par l’unité de gestion mémoire dans le but d’accélérer la traduction des adresses virtuelles en adresses physiques.

Source :http://fr.wikipedia.org/wiki/Translation_Lookaside_Buffer

45. Un pipeline est un élément d’un circuit électronique dans lequel les données avancent les unes derrière les autres, au rythme du signal d’horloge. Dans la microarchitecture d’un microprocesseur, c’est plus précisément l’élément dans lequel l’exécution des instructions est découpée en étapes. Ce découpage permet d’exécuter la première étape d’une instruction avant que l’instruction précédente ait fini de s’exécuter. Le premier ordinateur à utiliser cette technique fut l’IBM Stretch, conçu en 1958.

Source :http://fr.wikipedia.org/wiki/Pipeline_(informatique)

46. Nous comptabilisons dans ce cadre les accès non explicites correspondant aux éléments fantômes de la matrice. Ces éléments permettent de simplifier les calculs d’indices mais entraînent quelques accès supplémentaires.

Notons nOps le nombre d’opérations flottantes et n_a,architecture le nombre d’accès à la RAM. nOps= n_b(4t_bhbw − 2hbw²− 3t_b+ 2hbw) na,X86_64= n_b(t_bhbw + 2t_b) n_a,GF100= n_b(6t_bhbw − 3hbw²− 4t_b+ 3hbw) ia,X86_64= ^4t^b^{hbw − 3t}^b− 2hbw²+ hbw t_bhbw + 2t_b ia,GF100= ^4t^b^{hbw − 3t}^b− 2hbw²+ 2hbw 6t_bhbw − 4t_b− 3hbw2+ 3hbw

Nous pouvons aisément démontrer que i_a,X86_64 et i_a,GF100 croissent avec t_b et hbw. De plus, lorsque ces grandeurs tendent vers l’infini et que t_b est grand devant hbw, i_a,X86_64 et i_a,GF100

tendent respectivement vers 4 et 2/3. Lafigure 6.3représente i_a,_{X86_64}et i_a,_GF100 pour différentes valeurs de t_b et hbw. 0 1 2 3 4 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 ia 2 3 4 6 8 10 15 Taille des blocs 20 hbw ia,X86_64 ia,GF100

Figure 6.3 : Intensité arithmétique sur CPU pour différentes configurations du problème.

Les figures 6.4 à 6.6 comparent i_a et i_c pour chaque architecture testée. Pour le calcul de i_c, nous avons utilisé les meilleures performances de calcul et de débit de données mesurées sur la machine selon la méthodologie détailléesection 2.3. Ces mesures sont présentées dans les tableaux 2.2 et2.3. Pour les deux machines à base d’architecture X86_64 (figures 6.4 et 6.5), deux valeurs de i_c sont présentées. La plus petite, tracée en bleu clair, correspond à la valeur de i_c calculée pour une exécution séquentielle tandis que la seconde correspond à la valeur de i_c calculée pour une exécution complètement parallélisée (multicœur et SIMD). Pour ces deux machines, la valeur de i_ccorrespondant à une exécution séquentielle de la descente-remontée est inférieure ou très proche de i_a. Dans ce cas, c’est donc la puissance de calcul du processeur qui limite les performances. Lorsque la descente-remontée est parallélisée, i_c est supérieure à i_a et les performances sont limitées par la bande passante mémoire. Sur la figure 6.6, nous n’avons représenté i_cque pour une exécution parallèle (sur GPU, le faire pour une exécution séquentielle n’a aucun sens). Sur cette architecture, i_c est supérieure à i_a et les performances sont limitées par la bande passante mémoire.

Nous pouvons déduire de cette analyse des performances atteignables sur chaque architecture par une implémentation idéale. Notons F_architecture et D_architecture la puissance de calcul maximale et le débit de données maximal mesurés sur une architecture donnée. Le temps d’exécution théorique tarchitecture peut alors être calculé par :

tarchitecture =

( n_Ops

Farchitecture si i_a> i_c na,architecture

Darchitecture si i_a< ic

0 6 12 18 24 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 2 3 4 6 8 10 15 Taille des blocs 20 hbw icséquentiel icparallèle ia,X86_64

Figure 6.4 : Comparaison entre i_a et les intensités arithmétiques critiques de 32

2×4Nehalem. 0 15 30 45 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 2 3 4 6 8 10 15 Taille des blocs 20 hbw icséquentiel icparallèle ia,X86_64

Figure 6.5 : Comparaison entre i_a et les intensités arithmétiques critiques de 32

1×4SandyBridge. 0 10 20 30 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 2 3 4 6 8 10 15 Taille des blocs 20 hbw ic i_a,GF100

Figure 6.6 : Comparaison entre ia et les intensités arithmétiques critiques de Fermi.

Ce modèle permet donc d’estimer le temps requis pour résoudre le problème pour une implé-mentation idéale aussi bien optimisée que les bibliothèques constructeur utilisées pour effectuer nos mesures de performances maximales (cf. section 2.3). Nous utiliserons ce modèle de perfor-mances dans la prochaine section afin d’estimer l’optimalité de notre implémentation optimisée « à la main ».

6.1.2.1 Performances de l’implémentation optimisée « à la main »

Dans cette section, nous étudierons les performances obtenues avec l’implémentation présen-tée dans lasection 2.2. L’implémentation X86_64 utilise OpenMP pour le parallélisme multicœur et les fonctions intrinsèques du compilateur pour générer des instructions SIMD (SSE ou AVX). L’implémentation GF100 utilise CUDA C/C++.

Les figures 6.7et6.8représentent les performances séquentielles obtenues sur nos différentes machines. Les performances sont exprimées en GFlops et obtenus d’après la formule suivante :

performances = ¹

10243.^{nombre d’opérations} temps d’exécution

Dans les deux cas, les performances de l’implémentation idéale sont supposées limitées par la puissance de calcul quand hbw est supérieur à 2 (et par la bande passante de la mémoire RAM si hbw vaut 2). Notre modèle ne prend en compte que deux facteurs de limitation des performances (la bande passante de la RAM et la puissance de calcul du processeur). À cause de l’ignorance des autres facteurs de limitation des performances (latence des accès mémoire, indisponibilité de registres, suite d’instructions mal prise en charge par le pipeline, défauts des niveaux inférieurs du cache ou du TLB. . . ) les performances mesurées sont comprises entre 20% et 60% des performances attendues, ce qui est très satisfaisant : ces résultats sont à comparer aux 67% obtenus par MTL4 dans sa comparaison par rapport à une implémentation optimale pour un produit de matrices denses [252].

0 2 4 6 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 GFlops 2 3 4 6 8 10 Taille des blocs 15 hbw