Architectures de calcul - Notions de parall´elisme

1.2 Notions de parall´elisme

1.2.1 Architectures de calcul

classification. Bien qu’ils soient relativement génériques, les modèles de programmation parallèle sont liés aux architectures de calcul. En effet, la manière dont on parallélise un algorithme dépendra du type de parallélisme supporté par le hardware. Ainsi il est nécessaire de connaitre sa topologie avant de réaliser le portage de l’algorithme. Dans ce cadre, la classification de Flynn, décrite à la table 1.1, permet de caractériser les architectures en fonction des flots de données et de contrôle.

Table 1.1: Classification de Flynn.

instructions single multi single SISD MISD data multi SIMD MIMD

Dans cette taxonomie,SISDcorrespond aux machines séquentiels : une seule instructionest exécutée sur une seule donnée, à tout instant. D’un autre côté, une machineMISD(très rare) permet l’exécution de plusieurs instructionssurune même donnée, et est utilisé dans certains équipements critiques. Par ailleurs, une machine SIMDpermet l’exécution d’une même instruction sur plusieurs données simul-tanément (par pipelining ou vectorisation). Enfin,MIMDcorrespond aux machines multi-processeurs : chaque processeur peut exécuter des instructions différentes sur des données différentes. Ces machines peuvent être classées selon leur topologie mémoire ainsi que leur espace d’adressage qui peuvent être (virtuellement) partagés ou distribués.

c2018.HOBYRAKOTOARIVELO

mémoire. Dans notre cas, nos architectures cibles correspondent aux machines MIMD à plusieurs cores et à mémoire partagée (multicore, manycore ou gpu). Ainsi l’espace d’adressage virtuel est commun à tous les cores, ce qui est adapté pour du multithreading. Selon le mode d’accès-mémoire supporté par ces machines, on distingue trois classes d’architectures : COMA (mémoire locale se comportant comme un cache, pas de replication de données en cas d’accès distants),UMA(uniforme), cc-NUMA(non uniforme avec protocole de cohérence de caches). Ici, laRAMpeut être physiquement ou virtuellement partagée par le biais d’unDSM¹¹. Les threads communiquent par le biais de variables globales ou segments de mémoire partagée, tandis que les processus peuvent communiquer directement via un protocoleRDMA¹². Dans les deux cas, la consistance des données doit être gérée explicitement.

Ici, le coût des accès de données sont relatives à la latence mémoire qui peut être uniforme dans le cas des machinesUMA, ou inégale dans le cas des machinesNUMA.

caches. Afin de réduire le coût des accès-mémoire, les machines multicore ou manycore récents intègrent plusieurs niveaux de caches (deux ou trois en général). Ce sont des mémoires intermédiaires entre leCPUet la RAM, avec une capacité et une latence nettement réduites comparées à la RAM. À cette fin, un cache fournit de manière transparente les données qui ont été chargées dans un passé proche. Notons toutefois que les politiques de chargement et remplacement de blocs de données au sein d’un cache obéissent à un principe dit delocalitéau sens de la définition17.

Définition 17 (localité).Le principe de localité stipule que les données d’un programme ne sont pas accédées de manière statistiquement uniforme. Il y a plusieurs types de localités dont :

• temporelle: les données récemment accédées seront très probablement bientôt réutilisées;

• spatiale: les données voisines seront très probablement bientôt accédées.

Afin de réduire le coût des accès-mémoire et obtenir un bon rendement d’utilisation des caches, il est donc nécessaire de structurer les instructions de l’algorithme de manière à maximiser la réutilisation de données et le référencement de données voisines. Cela peut être fait par la renumérotation de maillages ou de matrices creuses en calcul numérique, des techniques decache blocking, ou encore le prefetching. Notons toutefois que n’est pas toujours possible si les accès-mémoire sont non prédictibles.

Listing (1.1) sans blocking 1 for(i=0; i < N; i++)

2 for(j=0; j < N; j++) 3 for(k=0; k < N; k++) 4 C[i,j] = A[i,k]*B[k,j]

Listing (1.2) avec blocking 1 for(ii=0; ii < N; i+=R)

2 for(jj=0; jj < N; j+=R) 3 for(k=0; k < N; k++)

4 for(i=ii; i < min(ii+R,N); i++) 5 for(j=jj; j < min(jj+R,N); j++) 6 C[i,j] = A[i,k]*B[k,j]

Figure 1.13: Multiplication matricielle efficace en cache[Intel].

exemple. Un cas concret de restructuration d’instructions par cache-blocking est donné à la figure 1.13pour la multiplication de matrices denses (de tailleN). Il consiste à découper les deux matrices carrées enmblocs de tailleR, avecRla taille d’une ligne de cache de la machine cible. Pour chaque

11DSMpourDistributed-Shared Memory: couche logicielle permettant d’émuler un espace d’adressage global sur un machine à mémoire distribuée.

12RDMA pourRemote Direct Memory Access : protocole réseau permettant un accès direct des processus à une mémoire distante (zéro copie), sans intervention ducpuou du noyau.

c2018.HOBYRAKOTOARIVELO

30 1.2. Notions de parall´elisme

ligne d’une matrice, le fait d’itérer sur les Ncolonnes va induire un nombre important de défaut de cache. En effet celui-ci va systématiquement être purgé dans ce cas. Par contre, on va mieux réutiliser les coefficients de chaque matrice en organisant le calcul par bloc. Notons que cela est possible car on sait exactement quelle donnée on va accéder à un instantt de l’exécution : ici les motifs d’accès-mémoire sont prévisibles. Ce n’est malheureusement pas le cas pour nos noyaux de remaillage.

multithreading. Nos architectures cibles intègrent une forme de parallélisme très fin au niveau des instructions d’un core du processeur. Rappelons qu’une instruction est traitée en plusieurs phases (fetch,decode,memaccess,execute,writeetc.) par lecpu. Au sein d’un core d’uncpusuperscalaire¹³, on dispose d’un pipeline d’instructions qui permet de traiter chaque phase sur plusieurs instructions en même temps¹⁴. Dans ce type de core, un cycle¹⁵ peut comporter des périodes d’inactivités (ou bulles) dans le pipeline, dûes à des facteurs divers comme les dépendances d’instructions, une mau-vaise prédiction de branchements, ou encore la latence due à un accès-mémoire. Une manière d’y remédier consiste à permettre plusieurs threads d’utiliser ces slots inoccupés. Notons néanmoins que remplir efficacement le pipeline est un problème réellement complexe car on doit gérer les dépendances d’instructions de plusieurs threads cette fois.

Selon la manière dont on remplit ces bulles, on dispose de plusieurs niveaux de parallélisme décrits

a la figure1.14. En(1)les unités fonctionnelles (ALU, FPU, etc.) sont réservées à un seul thread, tandis qu’en(2)elles sont disponibles à plusieurs threads mais sur des blocs de cyclescpu distincts. En(3), ces unités sont disponibles à plusieurs threads sur des cyclescpudifférents (pas forcément des blocs), tandis qu’en(4)elles peuvent carrément être allouées à plusieurs threads sur le même cyclecpu.

cycles

phases sequential

(1)

phases coarse-grained

(2)

phases fine-grained

(3)

phases simultaneous

(4)

thread 1 thread 2 thread 3

Figure 1.14: Pipeline d’instructions d’un core d’un processeur superscalaire et multithreading.

Définition 18 (simultaneous multithreading).Il s’agit d’une forme de parallélisme au niveau des instructions d’un core d’un processeur superscalaire. Il désigne le fait de partager les ressources du core (unités de calcul et caches)entre plusieurs threads sur un même cycle cpu.

Ainsi, il permet de r´eduire lesbulles horizontales^aetverticales^bau sein du pipeline d’instructions.

aOn a une bullehorizontalequand un slot dédié à une phase n’est pas occupé pour un cyclecpudonné.

bOn a une bulleverticaledans le pipeline quand lecpune peut traiter aucune instruction dans un cycle entier

Le recours auSIMULTANEOUS MULTITHREADING(ouhyperthreadingsur les pucesintel, cf. définition18) permet de remplir les slots inoccupés du pipeline (dues à un accès-mémoire ou l’attente d’un résultat

13Il s’agit d’un core de processeur permettant l’exécution de plusieurs instructions simultanément grâce à un pipeline, et capable de détecter les dépendances d’instructions.

14Pour faire simple, on peut faire unfetchsur plusieurs instructions sur un même cyclecpu. Néanmoins, on ne peut pas faire unfetchet undecodesimultanément sur une même instruction

15Un cycle correspond `a la terminaison de toutes les phases de traitement d’une instruction par lecpu:fetch,decode, memaccess,execute,writeetc.

c2018.HOBYRAKOTOARIVELO

d’une instruction précédente par exemple) en permettant à d’autres threads d’exploiter les unités fonctionnelles du core (ALU, FPU etc.). Ainsi il permet de masquer les pénalités liés à la latence, ce qui est très intéressant pour les processeurs manycore à large bande-passante mais à forte latence mémoire. Notons néanmoins que le gain de performances qu’il procure n’est pas toujours garanti. En effet, comme chaque thread doit charger ses propres données, cela peut entrainer une perte de localité en cache (voir définition17), ainsi qu’une forte contention et/ou une saturation du cache partagé. Par conséquent, cela peut engendrer un nombre plus important de défauts de cache qu’en séquentiel.

Dans le document The DART-Europe E-theses Portal (Page 29-32)