Cadre, architectures et param`etres - Parall´elisation des noyaux

4.2 Parall´elisation des noyaux

4.3.1 Cadre, architectures et param`etres

résumé. En bref, nous avons proposé une approche de parallélisation des noyaux adaptatifs dédié aux architectures multicore et manycore. Elle concilie les contraintes relatives à l’irrégularité⁴⁹ des noyaux avec celles du hardware, et toutes ses briques internes sontlock-free. Elle s’appuie sur :

• uneextraction du parall´elisme amorphepour chaque noyau par le biais d’heuristiques degraphes.

Afin d’alimenter suffisamment les cores, nous ne considérons que les conflits relatifs à la confor-mitéde la topologie ce qui maximise le nombre de tâches extraites.

• uneapproche de restructuration des accès-mémoire irréguliers qui atténue la latence. Pour cela,

les noyaux sont structurés en vagues afin de réduire la fréquence des échanges de données.

les emplacements des mailles sont précalculés au moment de leur création afin d’éviter les recopies de données locales et pour préserver au mieux la proximité de mailles voisines.

les réductions de données se font de manière asynchrone ounuma-aware selon le contexte.

• unesynchronisation à grain finpour les mises à jour du graphe d’incidence. Elle est peu coûteuse et minimise les transferts et copies de données comparé à l’état de l’art.

Maintenant le but est de montrer expérimentalement l’efficacité de l’approche et des features proposées.

Pour cela, elle a été implémentée enC++11et utiliseOpenMP4pour le multithreading. Elle fait l’objet d’une bibliothèque baptisée trigen qui sera bientôt disponible en open-source. En fait nous avons initialement implémenté une versionplanairedetrigenavant de l’étendre au cas surfacique. Notons que l’approche est parfaitement adaptée aux deux cas, même si le profil de performances peut sensiblement varier car les noyaux surfaciques ont une intensité arithmétique un peu plus importante que leurs variantes planaires. À ce titre, nous tenons à présenter les deux cas ici.

plan. Pour commencer, nous fixons le cadre de nos benchmarks en décrivant les architectures et paramètres de tests. Ensuite nous évaluons l’efficience des briques que nous avons con¸cus pour l’extraction du parallélisme amorphe pour les noyaux de simplification et de relaxation. En parti-culier, nous montrons l’évolution du nombre de tâches extraites au fur et à mesure des itérés ainsi que leurs surcoûts sur le temps de restitution des noyaux. De même, nous évaluons notre schéma de synchronisation à grain fin pour la mise à jour des données d’incidence, en nous comparant avec celui de rokos en termes de surcoût induit. Après nous évaluons le scaling du remailleur et de chaque noyau sur des cas-tests planaires et surfaciques, et cela sur toutes les architectures. En particulier, nous montrons le surcoût induit par la parallélisation, et la manière dont il évolue quand le nombre

49de leurs aspectsdata-drivenetdata-intensiveplus pr´ecis´ement, voir section4.1.2

c2018.HOBYRAKOTOARIVELO

118 4.3. ´Evaluation num´erique

de cores utilisés augmente exponentiellement. Pour finir, nous profilons le débit de tâches traitées et la quantité de calcul utile pour chaque noyau.

Table 4.3: Caract´eristiques des machines de tests.

code puces NUMA cores GHz threads GB/core référence complète

HSW 2 4 32 2.5 64 4.0 Intel Xeon Haswell E5-2698 v3

SKL 2 2 48 2.7 96 7.9 Intel Xeon Skylake Platinum 8168

KNL 1 4 72 1.4 288 1.5 Intel Xeon-Phi Knights Landing 7250

architectures. Le profiling a été effectué sur deux machines multicore et une machine manycore, dont les caractéristiques sont résumées à la table4.3. Elles sont représentatives des nœuds de calcul que l’on trouve sur les clusters récents.

• multicore: on a deux machines dual-socket(HSW, SKL)basées sur des processeurs Intel Xeon cadencés à 2.5 Ghz (turbo-boost à 3.4 Ghz) avec 3 niveaux de cache. HSW est une machine 32-core (avec16cores par puce) dont mémoire est structurée enquatre nœudsNUMA reliés en anneau, tandis queSKLest un noeud 48-core structuré endeuxnœudsNUMA. Les deux machines disposent d’un cacheL3commun de33 Mo par nœudNUMA.

• manycore : on a une machine dual-memory (KNL) basée sur un processeur Intel Xeon-Phi cadencé à 1.4 Ghz. KNL a la particularité d’intégrer une mémoire on-chip MCDRAM avec une bande passante de320 Go/set une capacité fixe de16 Go, ainsi qu’une mémoire classiqueDDR4à 60 Go/s. Notons que laMCDRAMpeut être utilisée en tant que cache supplémentaire ou comme une mémoire à part entière, en spécifiant le mode utilisé (cache/flat) au moment du boot. Afin d’optimiser l’utilisation des caches pour adapter au mieux avec les patterns d’accès-mémoire, les cores peuvent être logiquement regroupés en quadrant, en hémisphère (deux groupes de cores) ou en 4 domainesNUMA(modesubnuma). Ce mode devrait être privilégié afin de tirer profit du caractèreNUMA-awaredes noyaux⁵⁰. Néanmoins, ne disposant pas de privilèges administrateurs sur le nœud de calcul, nous n’avons pu utiliser que le couple de modes quadrant/flat, ce qui revient à utiliser la machine en modeSymmetric Multiprocessing.

Shared L3 Cache

Figure 1: Block diagram of the Intel Nehalem.

lines in the Shared state remain silent, reducing coherency traffic. For further architectural details on the Nehalem, see, for example, the paper [29].

2.2 The Sun Niagara 2

The Sun UltraSPARC T2 platform, Niagara 2, has two 8-core sockets with each core supporting 8 hardware threads. Figure 2 shows a block diagram. Similar to the Nehalem, multithreading on the Niagara 2 is simultaneous. The system has a shallow instruction pipeline (in contrast to the XMT), and each core has two integer execution units, a load/store unit, and a floating-point unit. The pipeline is capable of issuing two instructions per cycle, either from the same thread or from di↵erent threads. Threads are divided into two groups of four, and one instruction from each group may be selected based on theleast-recently fetched policy on ready threads. The clock frequency of the processor is 1.165 GHz.

The total size of the memory system is 32 GB. Each core has an 8 KB, 4-way associative L1 cache for data and a 16 KB, 8-way associative I1 cache for instructions. Unlike Nehalem, where L2 cache is private, Niagara 2 has a shared, 16-way associative L2 cache of size 4 MB . The cache is arranged in 8 banks and is shared using a crossbar switch between CPUs. The latency is 129 cycles for local memory accesses and 193 cycles for remote memory accesses. The peak memory bandwidth is 50 GB/s for reads and 26 GB/s for writes. See [32] for additional details.

2.3 The Cray XMT

The Cray XMT platform used in this study is comprised of 128 Cray Threadstorm (MTA-2) processors interconnected via a 3D torus. Figure 3 shows a block diagram of the platform from a programmer’s point of view. Each processor has 128 hardware thread-streams and one instruction pipeline. Each thread-stream is equipped with 32 general purpose registers, 8 target registers, a status word, and a program counter.

Consequently, each processor can maintain up to 128 separate software threads. In every cycle, a processor context switches among threads with ready instructions in a fair manner choosing one of the threads to issue its next instruction. In other words, the multithreading variant on the XMT, in contrast to Nehalem and Niagara 2, isinterleaved. A processor stalls only if no thread has a ready instruction. There are three functional units, M, A, and C for executing the instructions. On every cycle, the M-unit can issue a read or write operation, the A-unit can execute a fused multiply-add, and the C-unit can execute either a control or an add operation. Instruction execution on the XMT is deeply pipelined, with a 21-stage pipeline. The

(1)hi´erarchie de caches surHSWetSKL

- un tile : deux cores et un cache-L2 partag´e.

- un quadrant de six tiles : un noeudNUMA.

DDR4

(2)clustering en quadrants surKNL

Figure 4.13: Architecture m´emoire de nos machines de tests.

50En effet laMCDRAMest répartie enquatresur la puce, et les cores sont regroupés de sorte qu’ils soient physiquement plus proches de laMCDRAMintégrée au nœudNUMA. Ici les adresses physiques sont mappées auxtag directoryde sorte que les transferts mémoire restent au maximum au sein du quadrant. Cela permet ainsi de réduire la latence en cas de défaut de cache tant que la donnée reste au sein du même nœudNUMA.

c2018.HOBYRAKOTOARIVELO

Afin de déterminer l’impact réel des défauts du dernier niveau de cache du processeur, nous avons profilé le débit et la latence mémoire effective sur les deux architectures (HSWetKNL) à la figure4.14.

• pour la bande-passante, nous utilisons le c´el`ebre benchmarkstream [165] disponible surhttp://

www.cs.virginia.edu/stream/dont les r´esultats sont illustr´es pour le noyautriad;

• pour la latence, nous utilisons le benchmarklmbench[175] disponible sur http://www.bitmover.

com/lmbench/dont les résultats sont donnés pour les accès en lecture.

PourKNL, le débit varie sensiblement selon qu’on utilise laMCDRAMou laDDR4(320 Go/set64 Go/s) mais la latence reste quasi-identique (30 nset28 ns). À l’inverse, le débit est identique pour l’accès à une mémoire locale ou distante pourHSW, mais la latence varie fortement selon que l’on accède à un bloc en cache (4.7et 6.4 nsen cache L2-L3), à une mémoire locale (18 ns) ou distante (40 nspour le noeud#4).

8 16 32 64 128 256

1 2 4 8 16 32 64

(GB/s)

cores Bandwidth [stream TRIAD]

HSW KNL: ddr4 KNL: mcdram

0 10 20 30 40 50

0 0 0 1 32 1024 32768

(ns)

array size in MB Latency

HSW : remote:1 HSW : remote:2 HSW : remote:3

HSW : local KNL : mcdram KNL : ddr4

Figure 4.14: D´ebit et latence m´emoire sur les deux architectures.

paramètres. Le code detrigena été compilé avec le compilateur d’Intelicpcavec le flag d’optimisation -O3et qopt-prefetch=5 incluant l’auto-vectorisation et le prefetching logiciel. Afin de tirer profit des features spécifiques au hardware, nous activons les flags -march=native lors de la compilation sur HSW-SKLetxmic-avx-512surKNL. Ici les threads sont explicitement punaisés sur les cores de manière compacte à raison d’un thread par core. Concrètement, cela est réalisé en positionnant la variable d’environnementKMP AFFINITY=compact, granularity=unitavecunit=core|fineen mode normal ou hy-perthreading. En fait c’est le mode par défaut que nous utilisons surKNLavec 4 htpar core comme recommandé par Intel. Pour les instances de tests, nous avons considéré les cas :

• ^2D. Nous utilisons trois champs de solution à différents degré d’anisotropies pour nos tests, tels qu’illustrés à la figure 4.16. Pour chaque cas, nous utilisons une grille triangulée de 504 100 points et1 005,362mailles. Pour chaque run, une seule adaptation est effectuée surtroisitérés, et le facteur de résolution est fixé à0.9⁵¹.

• surfacique. Nous considérons deux cas-tests : (1) une adaptation isotrope basées sur les courburesd’une pièce mécanique (engine) avec1 826 000points et3 652 058mailles, ainsi qu’(2) une adaptation anisotrope basée sur lahessienned’une solution numérique (shock) avec1 014 890 points et2 029 772mailles et une résolution ciblen_max=250 000pour ce dernier cas. Pour chaque run, une seule adaptation est effectuée surquatreitérés.

Aucune gradation n’est effectuée. Enfin les points sont initialement réordonnés afin d’obtenir un placement mémoire initial optimal, mais aucune rénumérotation n’est effectuée en cours de calcul.

51Le nombre cible de pointsnmaxest donc `a90%de500Kpoints.

c2018.HOBYRAKOTOARIVELO

120 4.3. ´Evaluation num´erique

shock n=504 100

gauss n=504 100

waves n=504 100

Figure 4.15: Champs de solutions planaires utilis´es.

engine n=1 826 000

solut n=1 014 890

Figure 4.16: Cas-tests surfaciques utilis´es.

Dans le document The DART-Europe E-theses Portal (Page 118-121)