Evolution des nœuds de calcul au sein des grappes ´

Evolution des architectures parall`eles ´

1.2 Evolution des nœuds de calcul au sein des grappes ´

Bien que les grappes de calcul s’appuient sur du matériel standard, les ordinateurs utilisés sont généralement des modèles haut de gamme en termes de puissance et de performance. Les premières grappes de calcul historiques étaient constituées de simples stations de travail monoprocesseurs, mais les grappes ont très vite intégré des architectures composées de plusieurs processeurs. Ces machines multiprocesseurs offraient ainsi une augmentation notable de la puissance de calcul tout en conservant un rapport performance/prix intéressant. Par exemple, la grappe du LLNL⁴ cons-truite par LINUX NETWORX et QUADRICSet classée en cinquième place du Top500 en 2002,

était composée de 1152 machines bi-processeurs INTELXEONcadencés à 2.4 GHz.

Ces architectures, dites SMPs (Symmetric MultiProcessing) intègrent plusieurs processeurs con-nectés à la mémoire via un même bus comme illustré sur la figure 1.7. Elles augmentent ainsi le nombre de ressources de calcul par nœud, mais insèrent un second niveau de parallélisme au sein des grappes, qui disposent ainsi de parallélisme externe et interne. Sur ces architectures, les accès mémoire effectués par les différents processeurs peuvent être source de contention au niveau du bus qui devient alors un véritable goulot d’étranglement. Les machines SMP possèdent ainsi un nombre restreint de processeurs, le plus souvent deux ou quatre et rarement plus de seize.

cache

CPU

cache

CPU

cache

CPU

cache

CPU Mémoire

FIGURE1.7 –Architecture SMP.

Le calcul haute performance a également profité des innovations apportées au sein des processeurs par les fondeurs, offrant toujours plus de puissance grâce à l’augmentation de la fréquence. La technologie se heurte aujourd’hui à une barrière thermique qui limite cette fréquence, contraignant les constructeurs à déployer de nouvelles méthodes pour accroˆıtre l’efficacité des ordinateurs.

Alors que les progrès de miniaturisation libèrent de l’espace sur les puces, la solution choisie par les constructeurs s’est orientée vers le parallélisme. Avec l’ajout ou la duplication de composants, les processeurs ont ainsi gagné en performance mais aussi en complexité. Le développement et la

4. Lawrence Livermore National Laboratory

1.2. ´Evolution des nœuds de calcul au sein des grappes 17

recherche dans ce domaine ont abouti à la généralisation du parallélisme interne aux processeurs dont les dernières générations équipant les PCs de bureau disposent ainsi de plusieurs “cœurs”.

1.2.1 La r´evolution du multicœur

Fr´equence et miniaturisation : des machines monoprocesseurs au multicœur

Les conjectures de Moore annonçaient une multiplication par deux de la densité des transistors sur les microprocesseurs tous les deux ans. Grâce à l’amélioration de la finesse de gravure, cette prédiction s’est révélée exacte pendant de nombreuses années et s’est traduite par une augmenta-tion de la fréquence et de la puissance des processeurs. Alors que celle-ci semblait compromise par les problèmes de dissipation thermique qui plafonnent les fréquences des processeurs autour de 4 GHz, les progrès de miniaturisation ont relancé l’évolution des processeurs et de leurs perfor-mances. En une trentaine d’années, nous sommes passés de microprocesseurs de quelques milliers de transistors, 29000 par exemple pour le 8086 d’INTEL(1979), à plusieurs milliards de transistors avec 2,3 milliards pour le Nehalem-EX Xeon octo-cœur sorti en mars 2010.

Dans un premier temps, le gain de place a permis aux constructeurs d’ajouter des composants à leurs processeurs (registres, pipelines, prédiction de branchement, réordonnancement d’instruc-tions, etc) produisant des processeurs de plus en plus riches et sophistiqués. Parmi les évolutions marquantes, on pourra noter la naissance des processeurssuperscalairesqui permettent l’exécution simultanée de plusieurs instructions d’un programme séquentiel lorsque la dépendance des données le permet, chacune dans un pipeline différent.

Dans la recherche au perfectionnement, les constructeurs ont mis en place des techniques telles que leSimultaneous MultiThreading (SMT, appelé HyperThreading chez INTEL), pour alimen-ter aux mieux les multiples unités fonctionnelles. Cette technologie autorise l’utilisation concur-rente d’un pipeline par plusieurs flots d’exécution (threads). Elle offre un premier niveau de pa-rallélisme perçu comme desprocesseurs virtuels (processeurs logiques). En pratique, si le gain de performances apparaˆıt notable dans certains cas, il semble discutable dans d’autres [45]. Une détérioration est même possible, par exemple lorsque les threads concurrents utilisent le même type d’instructions (flottantes, entières,...). Ces résultats incertains poussent généralement les scienti-fiques à désactiver ce mécanisme pour le calcul intensif.

Aujourd’hui, plutôt que de complexifier davantage les processeurs déjà très sophistiqués, la mi-niaturisation permet de graver directement plusieurs processeurs sur une même puce (Figure 1.9), on parle alors de processeursmulticœurs.Les puces multicœurs sont la voie de développement choisie par les fondeurs et constituent le noyau des architectures actuelles.

cache

CPU

FIGURE1.8 –Processeur sans cœur.

Cœur1 cache

Cœur2

cache cache

FIGURE1.9 –Puce bi-cœur.

Une organisation hi´erarchique

Tous les grands constructeurs proposent désormais des déclinaisons multicœurs de leur proces-seurs. Ces dernières années ont marqué une diffusion des puces bi-cœurs et quadri-cœurs, qui sont devenues le standard du marché grand public. Les processeurscore i, dernière génération de puces proposées par le constructeur INTEL, sont par exemple composées de 2 ou 4 cœurs hyper-threadés, (voire même 6 cœurs hyperthreadés pour lecore i7-980X). La tendance du multicœur se retrouve même dans les consoles de jeu comme en témoignent le succès de la PLAYSTATION 3,

équipée d’un processeur multicœur hétérogène, le Cell B.E., ou de la X^BOX360 qui dispose d’un processeur Xenon à trois cœurs produit par IBM.

Les fondeurs offrent également pour les centres de calcul des variantes haut de gamme à 6, 8 où 12 cœurs, tel que le processeurMagny-Cours[59] proposé par AMD depuis mars 2010, voire bientôt 16 cœurs avec le processeurInterlagosannoncé pour 2011.

Les multicœurs ont la particularité de regrouper plusieurs processeurs sur une même puce, pro-duisant ainsi des machines multiprocesseurs à moindre coût. De la même façon que les machines SMPs, chaque cœur accède à la mémoire au travers d’un bus ou réseau d’interconnexion. L’orga-nisation des puces multicœurs n’est cependant pas assimilable à celle de ces architectures plates et varie par la présence de ressources partagées entre les cœurs, notamment les zones de mémoire cache. En effet, la multiplication des composants au sein des processeurs a introduit la duplication descaches. Différents niveaux de cache, de tailles et de vitesses variées sont souvent juxtaposés sur le processeur pour répondre aux besoins hétéroclites des applications. Sur les puces multicœurs, certains niveaux de cache peuvent être partagés entre plusieurs des unités de calcul comme illustré par la Figure 1.9.

Il en résulte ainsi une hiérarchie de cache dont l’organisation varie selon les modèles et les construc-teurs. La Figure 1.10 présente la structure d’une puce 6 cœurs INTELXeon Dunnington. Sur cet exemple chaque cœur dispose de son propre cache L1. Un cache L3 est commun à l’ensemble des cœurs tandis que les caches L2 sont associés à des paires de cœurs.

Cœur 3

FIGURE1.10 –Puce hexa-cœurINTELXeon Dunnington X7460.

L’agencement des différents niveaux de cache est responsable d’affinités entre les cœurs. Et effet, un cache commun à deux cœurs permet un partage de données entre les processus qui s’exécutent sur ces cœurs. Tant que les données tiennent dans le cache, les performances peuvent en être considérablement améliorées (Section 2.3). Au contraire, une utilisation concurrente du cache peut avoir un effet dégradant sur les performances, chaque processus ne disposant concrètement que de la moitié de celui-ci. Combiné avec le partage de la bande passante du bus en dehors de la puce, les performances des machines multicœurs subissent un fort impact des accès concurrents.

Avec la diffusion des puces multicœurs, les grappes de calcul sont le plus souvent articul´ees autour

1.2. ´Evolution des nœuds de calcul au sein des grappes 19

de machines multiprocesseurs-multicœurs. Les processeurs des machines SMP sont ainsi rem-placés par des puces multicœurs comme illustré en Figure1.11. Le modèle simple et uniforme des architectures SMPs est ainsi complexifié par la hiérarchie de cache intégrée au sein des puces, qu’il devient impossible d’ignorer dans la recherche de performance. De plus, le problème de passage

à l’échelle de ces architectures est amplifié par l’augmentation du nombre de cœurs qui génèrent d’autant plus d’accès concurrents sur le bus mémoire.

C1 C2 Mémoire

C1 C2 C1 C2 C1 C2

FIGURE1.11 –Architecture SMP multicœurs.

1.2.2 Le retour du NUMA

Pour créer des machines parallèles de grande taille, il est indispensable de pallier la congestion suscitée par l’accès à la mémoire via un unique bus. Une solution courante, développée dans les années 90, consiste à distribuer la mémoire en différentsbancs mémoire. Il en résulte des architectures multiprocesseurs à mémoire partagée, composées de plusieurs ensembles “banc mémoire -processeurs” appelésnœuds et reliés au travers d’un commutateur ou d’un réseau d’interconnexion (Figure 1.12).

FIGURE1.12 –Architecture NUMA multicœur `a quatre nœuds.

De telles machines sont dites à accès mémoire non uniformes (Non Uniform Memory Access).

Les temps d’accès mémoire dépendent de la position relative du processeur et de la mémoire accédée. La latence d’accès à la mémoirelocale(sur le même nœud que le processeur) est plus faible que celle d’un accès à la mémoiredistantefait au travers du réseau d’interconnexion. Cette non-uniformité est quantifiée par unfacteur NUMA (voire plusieurs dans le cas de machines à topologie complexe ou hiérarchique). Ce facteur équivaut au rapport entre le temps d’accès à la mémoire distante et celui à la mémoire locale, et varie fortement selon les architectures.

La complexification des architectures et l’entrée en scène des puces multicœurs, a suscité un regain d’intérêt pour ces structures qui se multiplient dans le domaine du calcul haute performance grâce

`a la cr´eation de nouvelles technologies d’interconnexion.

De nouveaux r´eseaux d’interconnexion

Une méthode classique pour concevoir une architecture NUMA consiste à assembler plusieurs architectures de type SMP autour d’un réseau interne d’interconnexion. Un grand nombre de ser-veurs ont été bâtis sur ce modèle. C’est le cas des serser-veurs basés sur les processeurs ITANIUM

d’INTELtrès présents il y a quelques années, tels que les machines BULL NOVASCALE (assem-blage de plusieurs QBB (Quad Building Block) comprenant chacun de 2 ou 4 processeurs), ou les serveurs ALTIXde la société SGI regroupant jusqu’à plusieurs centaines d’Itanium. Le facteur NUMA de ces architectures variait généralement entre 1 et 3.

Par opposition à ces architectures régulières, sont apparues il y a quelques années de nouvelles architectures NUMA grâce au développement de nouveaux systèmes d’interconnexion. L’assem-blage de plusieurs bus mémoire par un réseau d’interconnexion dédié étant onéreux, AMD a développé le système HYPERTRANSPORT [39, 40], souvent appelé bus mais qui est en fait un réseau d’interconnexion.

Plutôt que d’être connecté à un bus mémoire centralisé, les processeurs AMD OPTERON [41]

sont connectés à plusieursliensHYPERTRANSPORT (1 à 4 suivant les modèles). Chaque proces-seur est doté d’un contrôleur mémoire et possède son propre banc mémoire qui lui est directe-ment connecté par un lien HYPERTRANSPORT (Figure 1.13), faisant de chaque ensemble “banc mémoire/processeur” un nœud NUMA. Les machines multiprocesseurs OPTERON sont ainsi ca-ractérisées par des connexions “point-à-point” au travers des liens d’interconnexion. Le temps d’accès aux nœuds NUMA, ou aux périphériques d’entrées-sorties (eux aussi connectés à un lien), est déterminé par le nombre de liens traversés, et on observe des facteurs NUMA variant entre 1 et 2 [42].

Ce système de connexion a permis aux processeurs OPTERON de se démarquer des processeurs concurrents. Il offrait en effet une bande passante de très loin supérieure à celle des bus mémoire utilisés avec des processeurs INTEL, ainsi qu’une latence inégalée jusqu’à la sortie des Core2 en 2006. Ces architectures ont ainsi connu un large succès dans le monde du calcul scientifique, représentant jusqu’à 22% des systèmes du Top500 [5] en 2007.

La réponse d’INTEL face à cette technologie est le système d’interconnexion QUICKPATH IN

-TERCONNECT(QPI), qui remplace désormais le bus mémoire externe bidirectionnel (Front Side Bus) dans ses nouvelles architectures (Nehalem [43], Tukwila & brothers). On retrouve un schéma

équivalent au système d’AMD : chaque processeur dispose d’un contrôleur mémoire intégré et

1.2. ´Evolution des nœuds de calcul au sein des grappes 21

FIGURE1.13 –Processeur Opteron.

se trouve relié à un banc mémoire local, à d’autres processeurs, ou à des périphériques d’entrées-sorties au travers d’un lien d’interconnexion. Le débit record annoncé pour ce système d’inter-connexion, 25,6 Gbit/s (6.4 GigaTransferts/s par lien) [44], pour une fréquence de 3.2GHz, et la popularité des derniers processeurs INTELont replacé ce constructeur comme leader du marché du HPC. La technologie QPI est ainsi intégrée dans 64,4% des machines du TOP500 contre 13,8%

pour AMD HYPERTRANSPORT. La version 3.1 de la technologie HYPERTRANSPORT, parue quelques mois après la sortie QPI expose cependant des performances comparables à celle-ci, avec 25,6 Gbit/s (6.4 GigaTransferts/s par lien) pour 3.2GHz de fréquence.

L1 L1

FIGURE1.14 –Quadri-processeur AMD Opteron quadri-cœur Barcelona 8347HE.

Grâce à ces technologies, les architectures NUMA multicœurs sont devenues très populaires au sein des grappes de calcul. La Figure 1.14 illustre la structure hiérarchique complexe que peut avoir un nœud calcul (ici un quadri-processeur quadri-cœur AMD OPTERON de notre pla-teforme de test). Cette architecture n’est bien sûr qu’un exemple parmi d’autres et les organisa-tions sont propres aux différentes plateformes proposées par les constructeurs. Elles présentent des hiérarchies de caches variées, une ou plusieurs sockets⁵par nœud NUMA, (voire même plusieurs nœuds NUMA par socket pour les derniers processeurs OPTERON), disposent ou non d’hyper-threading, emploient différentes stratégies de numérotation des cœurs, etc. La conséquence directe

5. “Puces physiques” pouvant ˆetre juxtapos´ees sur le processeur.

de la complexification topologique et d’une telle variété d’organisation est une difficulté croissante

à exploiter proprement ces machines contemporaines, marquées par d’importantes contraintes de localité. En effet, comme nous le verrons en Section 2.3, la forte structure hiérarchique interne à chaque nœud a un impact crucial sur les performances des applications.

1.2.3 Tendances : une complexification grandissante

Il y a quelques ann´ees on entendait parler de futures machines `a plusieurs centaines de cœurs [12].

Aujourd’hui, les problématiques de passage à l’échelle et de hiérarchisation mises à jour avec la diffusion du multicœurs ont recadré ces prévisions. La tendance actuelle reste toutefois à l’intégra-tion de composants au sein des puces. Alors que les progrès de miniaturisal’intégra-tion ont permis aux fon-deurs de perfectionner leurs processeurs jusqu’aux limites de la sophistication, puis de multiplier les cœurs, l’espace libéré permet aujourd’hui d’explorer le potentiel d’intégration de composants externes au sein des processeurs.

Les plateformes CENTRINOd’Intel destinées aux ordinateurs portables offraient déjà une juxtapo-sition de composants sur une même puce pour réduire la consommation électrique. En pratique, la véritable intégration logique a commencé avec l’ajout du contrôleur mémoire HYPERTRANSPORT

au sein des processeurs OPTERON, pour multiplier les performances mémoire. Le contrôleur QPI a ensuite été intégré dans les Nehalem sur le même principe. Après le contrôleur mémoire, on assiste à l’intégration des contrôleurs d’entrées-sorties annoncée pour les nouvelles générations de processeurs INTEL(Sandy-Bridge) et AMD (Bulldozer).

En parallèle, la course à la performance et l’introduction de problématiques de consommation

électrique (Green Computing) a engendré l’explosion de la recherche concernant l’utilisation de processeurs graphiques (GPU) ou de processeurs hétérogènes tels que le Cell. L’utilisation de plateformes hétérogènes combinant des GPUs et des CPUs s’est ainsi installée dans le domaine du HPC [5]. Aujourd’hui ces tendances se rejoignent avec l’annonce du processeur AMD Fusion qui intégre des GPUs dans le processeur [7].

Les générations futures de processeurs s’annoncent ainsi marquées par une hétérogénéité et une complexification grandissante. Les spéculations sur les plateformes à venir mentionnent la généra-lisation de l’hétérogénéité et l’abandon de cohérence de cache. De tels changements augurent ainsi de nouveaux niveaux de hiérarchie, et de véritables défis pour les programmeurs qui devront adapter les modèles de programmation à ces structures.

Dans le document Mouvement de données et placement des tâches pour les communications haute performance sur machines hiérarchiques (Page 33-39)