Passage `a un code de production - Méthodes déterministes de résolution des équations de Vlasov

Dans le but de réaliser un calcul réaliste des ceintures de radiation, le code HELIOS est passé d’un code d’étude à un code de production, ce qui signifie qu’il a été adapté au centre de calcul du CEA, de manière à pouvoir réaliser des calculs coûteux et rester longtemps en machine.

Stockage hi´erarchique et partag´e (SHERPA)

Sur le centre de Bruyères-Le-Châtel, l’augmentation du volume de données scienti- fiques (jusqu’à 1To pour un cas) et des besoins de débits (environs 100Mo/s par fichier), a nécessité la séparation des fonctionnalités de calculateur et de serveur de fichiers (pro- jet SHERPA : Stockage HiERarchique et PArtagé). La nouvelle architecture du centre de calcul (depuis 1997) permet la migration et la sauvegarde des fichiers présents sur les calculateurs et en particulier sur le super-calculateur TERA 10 depuis 2006 (cf figure 7.5).

Afin de disposer des meilleures performances de lectures/écritures de fichiers, il existe sur le supercalculateur un système de cache. Ce cache est constitué d’un espace disque local aux calculateurs et d’une interface logicielle permettant de maintenir la cohérence entre ce cache et le serveur de stockage HPSS (High Performance Storage System). Toutes les lectures/écritures de fichiers sont donc faites localement au calculateur, puis les fichiers sont copiés sur le serveur de stockage. Celui-ci gère des disques et des bandes capables de maintenir un très gros volume de données. Pour des raisons de performance, les lectures/écritures des fichiers ne peuvent se faire directement sur le serveur de stockage en raison d’un temps de latence, fonction de la disponibilité des bandes, qui s’ajoute au temps d’écriture.

II. Travail d’optimisation du code HELIOS sur le supercalculateur TERA 10 145

Le système de fichiers, local au calculateur, est nommé /cache-prot (cache des protections - cf paragraphe suivant). Il y en a un par calculateur, ou serveur connecté au serveur de stockage. Le système de fichiers HPSS du serveur de stockage est nommé /prot (protections). Il est unique sur le centre de calcul.

Fig. 7.5 – Schéma simplifié de l’architecture du centre de calcul de Bruyères-le-Châtel.

Gestion des protections-reprises

Compte tenu du grand nombre continu d’utilisateurs du super-calculateur, le passage des calculs en machine sont gérés par un serveur qui définit un ordre de passage en fonction des priorités des calculs. Ces priorités sont définies par un certain nombre de critères : le nombre de processeurs demandés, la disponibilité des processeurs, la durée de calcul demandée par l’utilisateur... Les passages en machine ne durent pas plus de huit heures. Ainsi, pour les calculs qui ne sont pas terminés à la fin d’un passage en machine, il est nécessaire de mettre en place un système de protections-reprises des calculs. Ce système consiste à ajouter dans le code de calcul une ”protection” permettant de bien sauvegarder toutes les données nécessaires à un passage supplémentaire en machine et une ”reprise” qui permet la relecture des données stockées et le redémarage des calculs à l’endroit où ils se sont arrêtés. Une fois ce système mis en place, l’utilisateur peut demander le nombre de passages qu’il désire ; ainsi, tant que ce nombre n’est pas atteint, à la fin d’un passage, le calcul est remis automatiquement dans la file d’attente de la machine pour un passage supplémentaire.

Les fichiers de reprises doivent être sauvegardés sur le /prot afin de ne pas être perdus. Il est nécessaire de coupler le système de ”protections-reprises” aux instructions de communications entre le serveur de calcul et le serveur de stockage. Les fichiers de reprise sont écrits sur le /cache-prot, copiés sur le /prot, puis relus sur le /cache-prot.

146 Chapitre 7. Optimisation et parall´elisme

III

R´esultats : gains en performance obtenus avec

le code parall`ele optimis´e

La figure 7.6 montre les performances du code optimis´e : la r´eduction du temps de calcul et le speed-up obtenu.

Sur le premier graphe (a), on peut observer que l’optimisation a permis, en moyenne, la réduction d’un facteur 3.7 du temps d’exécution du calcul à 108 _{degrés de liberté par}

pas de temps (courbe rouge). Pour des calculs plus petits, à 5.12 106 _{degrés de liberté}

par pas de temps (courbe bleue), le taux de réduction du temps de calcul est plus important : de 6.2 en séquentiel, 6.8 sur 5 processeurs, ou encore 5.2 sur 10 processeurs. En effet, les nombreuses boucles du code de calcul ont été vectorisées de fa¸con optimale par le compilateur grâce aux instructions de type #pragma ivdep. Le code est alors très efficace pour un petit nombre de processeurs quand la charge de calculs est relativement faible. Dans ce cas, l’augmentation du nombre de processeurs réduit l’efficacité du code : la charge de calculs par processeur est trop faible et les communications, qui sont de plus en plus nombreuses quand le nombre de processeurs augmente, ralentissent les calculs.

La grande efficacité du code optimisé pour des calculs relativement petits est également illustrée sur le graphe (b) de la figure 7.6. On peut voir en effet que les speed-up obtenus avec le nouveau code sont plus petits qu’avant l’optimisation pour N = 40 et I = 80 (courbe bleue) : le meilleur speed-up est de 3.7 au lieu de 6 dans le cas non optimisé (cf figure 7.3). Ceci est dû au fait que le temps séquentiel est beaucoup plus petit qu’avec le code non-optimisé : 16.5 secondes au lieu de 105 secondes. On remarque que ce temps séquentiel de 16.5 secondes correspond au même ordre de grandeur que le temps de calcul obtenu avec le code non-optimisé sur 40 processeurs (17.4 secondes). Dans le cas d’un calcul plus coûteux, N = 100 et I = 100 (courbe rouge), les speed-up sont meilleurs que ceux obtenus précédement avec le code non-optimisé : la valeur optimale, obtenue avec 100 processeurs, est de 18 au lieu de 17.2 avant l’optimisation.

Une nouvelle analyse de profile du code HELIOS optimis´e (cf figure 7.7) montre qu’une grande partie du temps CPU (environ 45% dans le cas N = 40, I = 100) est pass´e dans la routine RKA-parallele1. En effet, cette routine est la seule contenant des

communications MPI. De plus, d’après l’ordre dans lequel le tableau solution F est rangé, la routine D1, appelée quatre fois dans RKA-parallele1, ne permet pas une bonne vecto-

risation et n´ecessite des “sauts en m´emoire” (stride) de taille [(N + 1)/Np]3.

Les réductions importantes des temps de calcul, apportées par le code HELIOS optimisé, ont permis de réaliser des calculs physiques d’instabilités Weibel et whistlers à une et deux espèces d’électrons. Ces calculs sont présentés au chapitre suivant.

III. Résultats : gains en performance obtenus avec le code parallèle optimisé 147 0 20 40 60 80 100 3 3.5 4 4.5 5 5.5 6 6.5 7 Nombre de processeurs

Temps du code optimisé / Temps du code non optimisé

N=40,I=80 N=100,I=100 (a) 0 20 40 60 80 100 0 2 4 6 8 10 12 14 16 18 Nombre de processeurs Speed−up N=40,I=80 N=100,I=100 (b)

Fig. 7.6 – Taux de réduction des temps de calcul grâce au travail d’optimisation réalisé sur le code HELIOS et speed-up du code optimisé.

148 Chapitre 7. Optimisation et parall´elisme

Fig. 7.7 – Etude de coûts, en temps CPU, des routines du code HELIOS optimisé (profile) sur une itération, avec le logiciel ”gprof”. Les paramètres de la simulation sont :N+1 =40, I=100 et Np = 20.

149

Chapitre 8

R´esultats 1Dx-3Dv

Dans ce chapitre, nous présentons les calculs de validation du code HELIOS 1Dx-3Dv. Nous cherchons à reproduire le développement linéaire et la saturation non-linéaire des ondes pour des instabilités de type Weibel dans le cas de plasmas sans champ magnétique statique et pour des instabilités de type whistler dans le cas de plasmas anisotropes. Dans un premier temps, ces calculs sont réalisés pour des plasmas ne contenant qu’une espèce d’électrons non-relativistes. Puis nous étudions une instabilité Weibel dans un plasma à deux espèces d’électrons relativistes. Enfin nous réalisons un premier calcul d’instabilité whistler dans les ceintures de Van Allen, au niveau de l’orbite géostationnaire. Les simulations sont réalisées avec le code HELIOS parallélisé et optimisé. Nous comparons les valeurs de taux de croissance obtenues numériquement, avec les valeurs prédites par la théorie linéaire. Une partie des résultats est également comparée à des résultats PIC, obtenus avec le code CALDER développé au Département de Physique Théorique et Appliquée du CEA [82]. Ces résultats ont été fournis par Laurent Grémillet1_{. On rappelle}

que dans la version actuelle du code, les conditions aux bords du domaine spatial sont p´eriodiques.

I

Cas tests classiques avec une esp`ece d’´electrons

Dans ces premiers cas tests, le plasma est non-relativiste et ne contient qu’une seule espèce d’électrons. Les ions sont considérés comme immobiles et assurent la neutralité électrique globale du système.

Dans le document Méthodes déterministes de résolution des équations de Vlasov-Maxwell relativistes en vue du calcul de la dynamique des ceintures de Van Allen (Page 147-152)