Restructuration des accès-mémoire - Parallélisation des noyaux

4.2 Parall´elisation des noyaux

4.2.2 Restructuration des acc`es-m´emoire

problème. A ce point, nous disposons d’algorithmes pour extraire le parallélisme amorphe inhérent` à chaque noyau. Les tâches extraites sont suffisamment fines pour laisser à l’ordonnanceur la latitude nécessaire au rééquilibrage dynamique de charges33_{. Ainsi il nous reste à gérer l’aspect data-intensive.}

Pour améliorer la réutilisation des données en cache et minimiser la latence des accès-mémoire, il faudrait restructurer les insertions et suppressions de données de chaque noyau. En fait ces indirections mémoire peuvent impacter de manière significative les performances de ces noyaux34 _{surtout s’ils}

ont une faible intensité arithmétique35_{. Le problème est qu’il nous est impossible de les inférer}

puisque les dépendances de données varient selon la manière dont la topologie évolue36_{. Dans ce}

cas, comment allons nous débrouiller pour restructurer nos accès-mémoire de manière à atténuer les pénalités relatives à ces indirections ?

4.2.2.1 Refonte en vagues synchrones

principe. Afin d’atténuer leur irrégularité, nous restructurons les noyaux en vagues synchrones en nous inspirant du paradigme multi-bsp37_[₁₇₀_{]. Ici les instructions d’un noyau sont structurés en une}

séquence de vagues de tâches, chaque vague étant constituée d’une phase de calcul local, d’une phase de communication et d’une barrière de synchronisation comme montré à la table4.2. Ici l’avantage est triple :

• coalescence : les communications des threads sont regroupées en vagues de manière à atténuer la latence mémoire38. Les écritures en mémoire partagée sont ainsi effectués de manière coalescente, ce qui est un aspect crucial sur les architectures massivement multithread39_.

33_`_{a condition d’ajuster la granularit´}_e

34_{C’est particuli`}_{erement vrai pour la simplification comme illustr´}_{e sur la courbe de la figure}_B.9_{en annexe.} 35_{L’intensit´}_{e arithm´}_{etique est le ratio de calcul utile sur le nombre d’acc`}_{es de donn´}_{ees. Elle est mesur´}_{ee en flop/byte} 36_{Du coup, nous ne pouvons pas recourir aux techniques usuelles de cache blocking, ni pr´}_{eserver un placement de}

donn´ees cache-aware, comme ce qui se fait en visualisation haute performance [57,58]

37_{Il s’agit d’un bridging-model entre le mat´}_{eriel et l’algorithme : il permet de concevoir des algorithmes tenant compte}

des paramètres hardware liés à la communication (bande-passante et latence à chaque niveau de la hiérarchie mémoire) tout en restant suffisamment générique pour la portabilité de l’application.

38_{Plus pr´}_ecis´_{ement, elles sont coalesc´}_{ees par thread et effectu´}_{es dans une seule phase d’une vague synchrone.} 39_{C’est particuli`}_{erement vrai pour le gpgpu.}

c 2018. HOBY RA K OTO ARIVELO

112 4.2. Parall´elisation des noyaux

• moins de communications : elle permet de réduire la fréquence de mise à jour de données entre threads ainsi que les synchronisations associées40_.

• portabilité : elle offre un juste milieu entre prise en compte des contraintes hardware et généricité pour la portabilité des performances. De plus, elle fournit un modèle de coût lié aux paramètres hardware, ce qui peut-être utile pour le rééquilibrage de charges41

Table 4.2: Structuration des noyaux.

vagues

noyau 1 2 3 4 5

raffinement : filter steiner apply repair –

simplification : filter graph indep apply repair

relaxation : filter graph match apply repair

lissage : graph color qualit apply –

Contributions

Approach

Main idea

explicit parallelism extraction.

- express data dependencies into a graph. - extract a subset of compatible stencils.

- kernel granularity related to its graph size/structure.

synchronization for topology consistency.

noyaux extraire topologie extraire normales extraire metriques gradation. repeat raffinement contraction relaxation lissage until convergence

phases d’un noyau repeat filtrer tâches construire graphe extraire taches appliquer patterns réparer topologie until plus de tâches

´etapes BSP cores 1 2 · · · p · · · · · · barrier 1 _{data fetch}2 p · · · · · · data write barrier SLIDE 5/13

synthèse. Les vagues synchrones relatives à chaque noyau sont résumées à la table4.2. Les détails de décomposition des noyaux ainsi que leurs complexités théoriques42 _{sont expliqués dans}_[RLP16]43_.

Sur cette table, les vagues

• filter correspond au filtrage des points ou mailles actives selon un critère numérique. • graph correspond à la construction du graphe de conflits ou mailles à appairer. • apply correspond à l’application proprement dite du noyau.

• repair correspond à l’épuration des listes d’incidence inconsistantes. • steiner correspond au calcul et résolution des indices de points de steiner.

En fait tout l’intérêt de ce formalisme réside dans la coalescence des communications44 _{des threads,}

ce qui permet de minimiser les synchronisations tout en atténuant la latence des accès-mémoire. Bon nombre de bibliothèques existent pour rendre ces communications transparentes [171–174]. Néanmoins cela est inadapté dans notre cas, puisque nous voulons contrôler finement la manière dont les transferts de données sont effectués en mémoire partagée.

4.2.2.2 Insertions de mailles

Pour le raffinement, nous disposons de plusieurs patterns de découpage selon le nombre d’arêtes ”longues” conformément à une métrique donnée. Ainsi il est a priori impossible de prédire en amont le nombre de cellules à insérer. Pour y remédier, une manière simple serait de les stocker localement jusqu’à ce que chaque thread ait terminé de traiter toutes les mailles qui lui ont été assignées, puis de les copier de manière synchronisée au sein du conteneur partagé dans une seule vague, comme ce qui est implémenté dans Pragmatic [199,167]. Le problème est que cela induit un nombre important d’accès-mémoire, ce qui peut être rédhibitoire en contexte numa.

principe. Pour contourner le problème précédent, nous scindons le noyau en deux phases synchrones relatives au filtrage et à l’application, de sorte à pouvoir inférer explicitement le nombre de cellules à insérer. Ainsi cela va nous permettre de trouver le bon offset d’indices par thread.

Concrètement, nous stockons le pattern par maille à appliquer dans un tableau pattern durant la phase de filtrage. Ensuite, chaque thread ti effectue une réduction sur pattern dans son espace

d’itérations _{dn/pe[i, i + 1], avec n le nombre de tâches et p le nombre de threads. Le résultat est}

40_{Elle minimise ainsi les contentions d’acc`}_{es aux conteneurs partag´}_{es, typiquement les files de taches associ´}_{e `}_{a chaque}

noyau et la structure de donn´ees topologiques

41_{Dans ce cas, elle permet de d´}_{ecider s’il faut migrer les mailles ou non selon le coˆ}_{ut estim´}_{e du prochain it´}_er´_e. 42_`_{a l’aide du mod`}_{ele de pont Queuing Shared Memory.}

43_{dans le cas planaire mais c’est exactement pareil en surfacique} 44_{par mise `}_{a jour synchronis´}_{ee de variables en m´}_{emoire partag´}_ee.

c 2018. HOBY RA K OTO ARIVELO

pour t de 0 `a dlog2ne − 1 faire

pour i de 0 à n − 1 faire en parallèle si i < 2t_alors off[t+1]i ← off [t] i sinon off[t+1]i ← off [t] i + off [t] i−2t fin si barrière fin 3 2 1 2 3 2 1 3 3 2 3 1 3 2 3 2 pattern n tasks 10 10 45 0 8 9 9 off 0 8 17 18 0 8 17 35

Figure 4.10: Précalcul des références par thread pour l’insertion de mailles. Les motifs de raffinement associés à chaque maille sont explicitement référencés dans un tableau, et chaque thread détermine la quantité de mailles qu’il doit créer par une réduction partielle. Enfin un prefix-sum est effectué pour déterminer les offsets associés à chaque thread.

Open issue

Data placement

Spatial locality: geometric proximity

_{) memory locations proximity.}

7 index reordering

(Hilbert, Reverse Cuthill-Mckee)

: difficult to parallelize, huge overhead.

7 octree, cache-oblivious

(Packed-memory, Van Emde Boas)

: rebalance and memory costs.

workaround: memory block o↵sets precomputation, and asynchronous writes.

cells to be stored

(1 thread per core)

fully asynchronous: 7remote accesses

cells 1 8 2 11 12 3 4 13 14 7 9 6 10 5 16 15

DRAM 1 (close to core 1)

1 8 2 11 12 3 4 13

DRAM 2 (close to core 2)

14 7 9 6 10 5 16 15

block precomputing: 1remote access

cells 1 2 3 4 7 6 5 8 11 12 13 14 9 10 16 15

DRAM 1 (close to core 1)

1 2 3 4 7 6 5 8

DRAM 2 (close to core 2)

11 12 13 14 9 10 16 15

SLIDE 9/13

Figure 4.11: Impact des patterns d’insertion de mailles sur le placement m´emoire en contexteNUMA.

ensuite stocké dans un tableau offset[i] de taille p. Finalement, un prefix-sum est effectué sur offset[i] afin de déterminer les plages d’indices [ki, ki+1] par thread.

L’exemple de la figure 4.11 illustre l’impact du pattern d’insertion de mailles sur le placement mémoire. Ici on a deux threads punaisés sur deux cores situés sur deux sockets distincts. Dans le premier cas, les indices des mailles sont obtenus de manière asynchrone et les threads insèrent directement dans le conteneur partagé. Dans le second cas, les plages de blocs-mémoires sont prédéterminés dans une première vague, et les insertions sont réalisées de manière coalescente dans une vague à part. Dans ce cas, les blocs de données associés à chaque thread sont réellement stockés dans la mémoire la plus proche du core d’une part, et les mailles voisines géométriquement le sont également en mémoire.

4.2.2.3 R´eduction de donn´ees `

A ce point, chaque noyau est structuré de manière à ce que la communication des threads se fasse de manière coalescente. De manière concrète, elle consiste en une mise à jour synchronisée de données en mémoire partagée. En fait les points et mailles ainsi que les données afférentes sont stockées dans des tableaux unidimensionnels de sorte qu’elles sont référencées par des adresses contigües en mémoire. Dans ce cas, les primitives d’insertion, de suppression ou de mise à jour des conteneurs

c 2018. HOBY RA K OTO ARIVELO

114 4.2. Parall´elisation des noyaux

partagés doivent être synchronisées. Ici le but est de montrer comment les réductions45 _{de données}

sont r´eellement effectu´es par les threads.

réductions. Les boucles de work-sharing impliquées dans chaque vague synchrone nécessitent le recours à un mécanisme de réduction de données au sein d’une file de taches ou d’un conteneur partagé. Ici les deux points critiques concernent la minimisation des points de synchronisations et la préservation du placement mémoire initial. En fait il est compliqué de concilier les deux : l’asynchronisme implique l’insertion non déterministe des données tandis que le placement fin des données implique nécessairement plus de points de synchronisations. Partant de constat, nous pro- posons deux stratégies de réduction. Elles sont basées sur la prédétermination des offsets off[tid] à partir desquels chaque thread tid peut initier sa copie de données dans le conteneur partagé R. Ces deux stratégies sont :

• asynchrone : ici off[tid] est calculé de manière non-déterministe à partir de la taille nR du

conteneur partagé R. À l’instant t, n[t]_R est incrémenté de manière atomique tout en récupérant en cache son ancienne valeur n[t−1] _{qui sera assignée `}_{a off[tid] : ce mécanisme s’appelle la cap-}

ture atomique. Ainsi le thread tid sait exactement qu’il doit copier ses données aux indices [n[k_R−1], n[k_R−1]+_|`tid|], où `tid désigne sa liste locale de données. Notons qu’on a bien un asyn-

chronisme puisque le thread tid n’attend pas que la réduction se termine pour faire du calcul local. Par contre, la plage d’adresses associée à tid est complètement arbitraire et varie d’une exécution à une autre.

• numa-aware : cette fois off[tid] est mis à jour par le biais d’un prefix-sum de sorte que les plages d’adresses soient assignées de manière déterministe aux threads. En fait elles dépendent de l’indice tid du thread qui lui est punaisé statiquement sur un core : cela permet ainsi d’allouer une plage d’adresses la plus proche possible de ce core. Notons qu’ici on a log(p) réductions et donc autant de points de synchronisation.

Listing 4.1: quasi-asynchrone void trigen::fast reduce(int tid,

std::vector<int>* heap, int* shared, int* off, int* size) { int nb = heap[tid].size();

off[tid] = sync fetch and add(size,nb);

// tasks:null si on veut juste calculer les offsets

if(shared != nullptr) memcpy(shared+off[tid],

heap+tid,nb*sizeof(int)); }

Listing 4.2: NUMA-aware void trigen::numa reduce(int tid,

std::vector<int>* heap, int* shared,

int* off) {

int nxt = (tid+1)%n cores; off[nxt] = heap[tid].size(); #pragma omp barrier prefix sum(heap,off); if(shared != nullptr)

memcpy(shared+off[tid],

heap+tid,off[nxt]*sizeof(int)); }

Notons que ces mécanismes de réduction n’impliquent que des variables entières (heap, shared). Pour minimiser le volume de données transférées en mémoire partagée, les réductions ne sont utilisées que pour la copie d’indices. Ainsi les cellules et les données qui leur sont associées (normales, tenseurs etc.) sont directement créés et initialisées à leur emplacement final, contrairement à l’approche de Rokos [199]. Étant donné leur caractère data-intensive, ces multiples transferts de données impactent les performances des noyaux de manière significative, notamment en 2D (sec4.2.3).

4.2.3 Consistance des donn´ees d’incidence

A ce point nous disposons de moyens pour extraire le parallélisme amorphe inhérent à chaque noyau. En fait nous n’avons géré que les conflits de tâches relatives à la conformité de la topologie,

Dans le document Contributions au co-design de noyaux irréguliers sur architectures manycore : cas du remaillage anisotrope multi-échelle en mécanique des fluides numérique. (Page 112-115)