Restructuration des accès-mémoire - Parallélisation des noyaux

4.2 Parall´elisation des noyaux

4.2.2 Restructuration des acc`es-m´emoire

problème. A ce point, nous disposons d’algorithmes pour extraire le parallélisme amorphe inhérent`

à chaque noyau. Les tâches extraites sont suffisamment fines pour laisser à l’ordonnanceur la latitude nécessaire au rééquilibrage dynamique de charges³³. Ainsi il nous reste à gérer l’aspectdata-intensive.

Pour améliorer la réutilisation des données en cache et minimiser la latence des accès-mémoire, il faudrait restructurer les insertions et suppressions de données de chaque noyau. En fait ces indirections mémoire peuvent impacter de manière significative les performances de ces noyaux³⁴ surtout s’ils ont une faible intensité arithmétique³⁵. Le problème est qu’il nous est impossible de les inférer puisque les dépendances de données varient selon la manière dont la topologie évolue³⁶. Dans ce cas, comment allons nous débrouiller pour restructurer nos accès-mémoire de manière à atténuer les pénalités relatives à ces indirections ?

4.2.2.1 Refonte en vagues synchrones

principe. Afin d’atténuer leur irrégularité, nous restructurons les noyaux en vagues synchrones en nous inspirant du paradigmemulti-bsp³⁷[170]. Ici les instructions d’un noyau sont structurés en une séquence de vagues de tâches, chaque vague étant constituée d’une phase decalcul local, d’une phase decommunicationet d’unebarrière de synchronisationcomme montré à la table4.2. Ici l’avantage est triple :

• coalescence: les communications des threads sont regroupées en vagues de manière à atténuer la latence mémoire³⁸. Les écritures en mémoire partagée sont ainsi effectués de manière coalescente, ce qui est un aspect crucial sur les architectures massivement multithread³⁹.

33`a condition d’ajuster la granularit´e

34C’est particuli`erement vrai pour la simplification comme illustr´e sur la courbe de la figureB.9en annexe.

35L’intensité arithmétique est le ratio de calcul utile sur le nombre d’accès de données. Elle est mesurée enflop/byte

36Du coup, nous ne pouvons pas recourir aux techniques usuelles decache blocking, ni pr´eserver un placement de donn´eescache-aware, comme ce qui se fait en visualisation haute performance [57,58]

37Il s’agit d’unbridging-modelentre le matériel et l’algorithme : il permet de concevoir des algorithmes tenant compte des paramètres hardware liés à la communication (bande-passante et latence à chaque niveau de la hiérarchie mémoire) tout en restant suffisamment générique pour la portabilité de l’application.

38Plus précisément, elles sont coalescées par thread et effectués dans une seule phase d’une vague synchrone.

39C’est particuli`erement vrai pour legpgpu.

c2018.HOBYRAKOTOARIVELO

112 4.2. Parall´elisation des noyaux

• moins de communications: elle permet de réduire la fréquence de mise à jour de données entre threads ainsi que les synchronisations associées⁴⁰.

• portabilité: elle offre un juste milieu entre prise en compte descontraintes hardwareetgénéricité pour la portabilité des performances. De plus, elle fournit un modèle de coût lié aux paramètres hardware, ce qui peut-être utile pour le rééquilibrage de charges⁴¹

Table 4.2: Structuration des noyaux.

vagues

noyau 1 2 3 4 5

raffinement : filter steiner apply repair – simplification : filter graph indep apply repair relaxation : filter graph match apply repair lissage : graph color qualit apply –

Contributions

Approach

Main idea

I explicit parallelism extraction.

- express data dependencies into a graph.

- extract a subset of compatible stencils.

- kernel granularity related to its graph size/structure.

I synchronization for topology consistency.

synthèse. Les vagues synchrones relatives à chaque noyau sont résumées à la table4.2. Les détails de décomposition des noyaux ainsi que leurs complexités théoriques⁴² sont expliqués dans[RLP16]⁴³. Sur cette table, les vagues

• filtercorrespond au filtrage des points ou mailles actives selon un crit`ere num´erique.

• graphcorrespond `a la construction du graphe de conflits ou mailles `a appairer.

• applycorrespond `a l’application proprement dite du noyau.

• repaircorrespond `a l’´epuration des listes d’incidence inconsistantes.

• steinercorrespond au calcul et r´esolution des indices de points desteiner.

En fait tout l’intérêt de ce formalisme réside dans la coalescence des communications⁴⁴ des threads, ce qui permet de minimiser les synchronisations tout en atténuant la latence des accès-mémoire. Bon nombre de bibliothèques existent pour rendre ces communications transparentes [171–174]. Néanmoins cela est inadapté dans notre cas, puisque nous voulons contrôler finement la manière dont les transferts de données sont effectués en mémoire partagée.

4.2.2.2 Insertions de mailles

Pour le raffinement, nous disposons de plusieurs patterns de d´ecoupage selon le nombre d’arˆetes

”longues” conformément à une métrique donnée. Ainsi il est a priori impossible de prédire en amont le nombre de cellules à insérer. Pour y remédier, une manière simple serait de les stocker localement jusqu’à ce que chaque thread ait terminé de traiter toutes les mailles qui lui ont été assignées, puis de les copier de manière synchronisée au sein du conteneur partagé dans une seule vague, comme ce qui est implémenté dansPragmatic[199,167]. Le problème est que cela induit un nombre important d’accès-mémoire, ce qui peut être rédhibitoire en contextenuma.

principe. Pour contourner le problème précédent, nous scindons le noyau en deux phases synchrones relatives au filtrage et à l’application, de sorte à pouvoir inférer explicitement le nombre de cellules à insérer. Ainsi cela va nous permettre de trouver le bonoffsetd’indices par thread.

Concrètement, nous stockons le pattern par maille à appliquer dans un tableau pattern durant la phase de filtrage. Ensuite, chaque thread ti effectue une réduction sur pattern dans son espace d’itérations dn/pe[i, i+ 1], avec n le nombre de tâches et p le nombre de threads. Le résultat est

40Elle minimise ainsi les contentions d’accès aux conteneurs partagés, typiquement les files de taches associé à chaque noyau et la structure de données topologiques

41Dans ce cas, elle permet de décider s’il faut migrer les mailles ou non selon le coût estimé du prochain itéré.

42`a l’aide du mod`ele de pontQueuing Shared Memory.

43dans le cas planaire mais c’est exactement pareil en surfacique

44par mise à jour synchronisée de variables en mémoire partagée.

c2018.HOBYRAKOTOARIVELO

pourtde0`adlog₂ne −1faire

pouride0`an−1faire en parall`ele sii <2^talors

off^[t+1]_i ←off^[t]_i sinon

off^[t+1]_i ←off^[t]_i +off^[t]_i−2t

fin si barri`ere fin

3 2 1 2 3 2 1 3 3 2 3 1 3 2 3 2 pattern

n tasks 10 10 45

0 8 9 9

off

0 8 17 18 0 8 17 35

Figure 4.10: Précalcul des références par thread pour l’insertion de mailles. Les motifs de raffinement associés à chaque maille sont explicitement référencés dans un tableau, et chaque thread détermine la quantité de mailles qu’il doit créer par une réduction partielle.

Enfin unprefix-sumest effectué pour déterminer les offsets associés à chaque thread.

Open issue

Data placement

Spatial locality: geometric proximity ) memory locations proximity.

7 index reordering (Hilbert, Reverse Cuthill-Mckee): difficult to parallelize, huge overhead.

7 octree, cache-oblivious (Packed-memory, Van Emde Boas): rebalance and memory costs.

I workaround: memory block o↵sets precomputation, and asynchronous writes.

cells to be stored (1 thread per core)

fully asynchronous: 7remote accesses

cells 1 8 2 11 12 3 4 13 14 7 9 6 10 5 16 15

DRAM 1 (close to core 1) 1 8 2 11 12 3 4 13

DRAM 2 (close to core 2)

14 7 9 6 10 5 16 15

block precomputing: 1remote access

cells 1 2 3 4 7 6 5 8 11 12 13 14 9 10 16 15

DRAM 1 (close to core 1)

1 2 3 4 7 6 5 8

DRAM 2 (close to core 2)

11 12 13 14 9 10 16 15

SLIDE 9/13

Figure 4.11: Impact des patterns d’insertion de mailles sur le placement m´emoire en contexteNUMA.

ensuite stock´e dans un tableauoffset[i] de taillep. Finalement, un prefix-sumest effectu´e suroffset[i]

afin de d´eterminer les plages d’indices [ki, ki+1] par thread.

L’exemple de la figure 4.11 illustre l’impact du pattern d’insertion de mailles sur le placement mémoire. Ici on a deux threads punaisés sur deux cores situés sur deux sockets distincts. Dans le premier cas, les indices des mailles sont obtenus de manière asynchrone et les threads insèrent directe-ment dans le conteneur partagé. Dans le second cas, les plages de blocs-mémoires sont prédéterminés dans une première vague, et les insertions sont réalisées de manière coalescente dans une vague à part.

Dans ce cas, les blocs de données associés à chaque thread sont réellement stockés dans la mémoire la plus proche du core d’une part, et les mailles voisines géométriquement le sont également en mémoire.

4.2.2.3 R´eduction de donn´ees

A ce point, chaque noyau est structuré de manière `` a ce que la communication des threads se fasse de manière coalescente. De manière concrète, elle consiste en une mise à jour synchronisée de données en mémoire partagée. En fait les points et mailles ainsi que les données afférentes sont stockées dans des tableaux unidimensionnels de sorte qu’elles sont référencées par des adresses contigües en mémoire. Dans ce cas, les primitives d’insertion, de suppression ou de mise à jour des conteneurs

c2018.HOBYRAKOTOARIVELO

114 4.2. Parall´elisation des noyaux

partagés doivent être synchronisées. Ici le but est de montrer comment les réductions⁴⁵ de données sont réellement effectués par les threads.

réductions. Les boucles de work-sharing impliquées dans chaque vague synchrone nécessitent le recours à un mécanisme de réduction de données au sein d’une file de taches ou d’un conteneur partagé. Ici les deux points critiques concernent la minimisation des points de synchronisations et la préservation du placement mémoire initial. En fait il est compliqué de concilier les deux : l’asynchronisme implique l’insertion non déterministe des données tandis que le placement fin des données implique nécessairement plus de points de synchronisations. Partant de constat, nous pro-posons deux stratégies de réduction. Elles sont basées sur la prédétermination des offsets off[tid] à partir desquels chaque thread tidpeut initier sa copie de données dans le conteneur partagé R. Ces deux stratégies sont :

• asynchrone : ici off[tid] est calculé de manière non-déterministe à partir de la taille nR du conteneur partagéR. À l’instantt,n^[t]_R est incrémenté de manière atomique tout en récupérant en cache son ancienne valeurn^[t⁻^1] qui sera assignée à off[tid] : ce mécanisme s’appelle la cap-ture atomique. Ainsi le thread tid sait exactement qu’il doit copier ses données aux indices [n^[k_R⁻^1], n^[k_R⁻^1]+|`_tid|], où `_tid désigne sa liste locale de données. Notons qu’on a bien un asyn-chronisme puisque le thread tid n’attend pas que la réduction se termine pour faire du calcul local. Par contre, la plage d’adresses associée à tid est complètement arbitraire et varie d’une exécution à une autre.

• numa-aware : cette fois off[tid] est mis à jour par le biais d’un prefix-sum de sorte que les plages d’adresses soient assignées de manière déterministe aux threads. En fait elles dépendent de l’indicetiddu thread qui lui est punaisé statiquement sur un core : cela permet ainsi d’allouer une plage d’adresses la plus proche possible de ce core. Notons qu’ici on a log(p) réductions et donc autant de points de synchronisation.

Listing 4.1: quasi-asynchrone

off[tid] = sync fetch and add(size,nb);

// tasks:null si on veut juste calculer les offsets if(shared != nullptr)

Notons que ces mécanismes de réduction n’impliquent que des variables entières (heap, shared).

Pour minimiser le volume de données transférées en mémoire partagée, les réductions ne sont utilisées que pour la copie d’indices. Ainsi les cellules et les données qui leur sont associées (normales, tenseurs etc.) sont directement créés et initialisées à leur emplacement final, contrairement à l’approche de Rokos [199]. Étant donné leur caractère data-intensive, ces multiples transferts de données impactent les performances des noyaux de manière significative, notamment en2D(sec4.2.3).

Dans le document The DART-Europe E-theses Portal (Page 112-115)