Contribution to high performance simulation and highly scalable numerical scheme

(1)

Contribution à la simulation haute-performance et aux méthodes de calcul très extensibles Contribution to high performance simulation

and highly scalable numerical scheme

Résumé en vue du diplôme d’Habilitation à diriger les Recherches Guillaume Latu

September 12, 2017

Resum´e

De nombreux domaines scientifiques expriment un besoin de calcul haute-performance (HPC) qui s’est in- tensifié durant ces dernières décennies. Dans le même temps, la taille des super-calculateurs disponibles à la communauté académique n’a cessé de croˆıtre. L’augmentation de la puissance de calcul et le développement des outils algorithmiques et méthodologiques se sont combinés pour faire de la simulation numérique une discipline à part entière. Bien que toujours en pleine évolution, les technologies des machines mono-processeurs sont insuffisantes. Le parallélisme est une solution naturelle pour pallier aux besoins des applications de simulation HPC. Ainsi, le développement de méthodes et de solutions parallèles logicielles et matérielles est devenu un axe de recherche de première importance. Bien que de nombreux domaines bénéficient des retombées des innovations en simulation numérique, cette discipline est à la frontière de nombreux domaines et par conséquent peu structurée et insuffisamment identifiée.

A ses débuts, la simulation numérique avait principalement pour objet de réduire les coûts et les délais, en suppléant à des expériences dont la modélisation était bien maˆıtrisée. Dans une deuxième étape, elle a contribué à l’innovation technique, en permettant de prendre en compte des modèles physiques de plus en plus complets et d’accéder à des informations difficiles à obtenir par des mesures. Aujourd’hui, elle aide

également à l’élaboration de nouveaux modèles physiques, par exemple en intégrant par le calcul les effets combinés de phénomènes simples. De nombreux projets scientifiques et techniques sont développés dans le cadre d’une démarche collaborative entre théorie, simulation et expérimentation (c’est par exemple le cas au CEA). La confrontation de la simulation versus l’expérimentation peut conduire à une remise en cause aussi bien du modèle physique que des méthodes numériques. Il est aussi possible de mettre au point par le calcul certains dispositifs ou expériences numériques sans procéder à des expériences globales en vraie grandeur dont les coûts sont souvent prohibitifs.

C’est dans un tel cadre, en interaction avec plusieurs domaines scientifiques, que j’ai réalisé une grande partie de mes travaux de recherche. Mes contributions portent sur l’amélioration des méthodes de calcul du point de vue de la parallélisation, sur la mise en place d’optimisation pour des machines spécifiques, mais aussi sur le perfectionnement de schémas numériques. Dans les différents codes de simulation sur lesquels je suis intervenu, il a fallu adapter ou rénover des schémas de calcul en vue d’une exécution efficace sur des machines ayant un grand nombre de cœurs. Mes apports contribuent sur toute la chaˆıne allant de la modélisation à l’implémentation performante sur de larges supercalculateurs. Les études que j’ai menées ont été faites en interaction étroite avec les concepteurs des codes de simulation afin que les apports soient effectifs et utilisables en production. Cela n’aurait pas été possible sans des efforts mutuels de compréhension et d’adaptation avec mes collaborateurs physiciens, mathématiciens, et informaticiens.

1

(2)

Le document comporte trois parties et une conclusion. Bien que mes travaux scientifiques ne portent pas uniquement surGysela, j’ai choisi ici de focaliser une grand partie du document sur cette application afin de simplifier la mise en contexte. La première partie porte sur différentes études réalisées pour exploiter au mieux les supercalculateurs d’aujourd’hui. Après une courte description de la problématique physique de Gysela, les méthodes numériques sont décrites, puis j’aborde les améliorations qui ont permis d’exploiter les plus gros calculateurs académiques européens. A ses débuts, le codeGyselatraitait l’équation de Vlasov gyrocinétique couplée à un solveur de Poisson sans opérateur supplémentaire. Il s’agissait d’une équation de Vlasov 5D en géométrie cylindrique avec (r, θ, ϕ) les variables d’espaces et (v_k, µ) les variables de vitesse.

La méthode semi-Lagrangienne fut choisie pour résoudre Vlasov. A l’époque, ce choix était original car il se distingue des approches Eulériennes et Lagrangiennes habituellement utilisées dans ce type de code. Ce sont les collaborations entre plusieurs équipes INRIA, le LPMIA à Nancy et le CEA IRFM qui ont clairement aiguillé ce choix. Depuis 2005, par étapes successives, les principaux goulots d’étranglement numériques ont

été résorbés et l’extensibilité sur les plus grandes machines parallèles accessibles a été consolidée. En 2006, la version réduite 4D du code réalisait de bonnes performances sur 128 processeurs. La définition de la méthode des splines locales [9, 14, 34] a permis d’avancer sur la scalabilité parallèle tout en préservant la qualité numérique dans plusieurs applications dont Gysela. En 2007, grâce à une parallélisation MPI+OpenMP adaptée, c’est une efficacité relative de 82% sur 4096 cœurs que j’obtenais pour un Strong Scaling d’un casGysela5D cylindrique sur une machine BULL/INTEL itanium2. Plus récemment, ces splines ont été concurrencées par des interpolateurs de Lagrange de degré élevé [75] qui sont utilisés à l’heure actuelle dans les simulations. En 2010, c’est un Grand Challenge¹sur une machine SGI (18ème rang mondial²) au centre de calcul CINES qui permettait d’atteindre 81% d’efficacité relative sur 8192 cœurs. D’autre part, une simulation proche des paramètres adimensionnels du Tokamak ITER était réalisée, utilisant 272 milliards de points de grille dans l’espace à 5 dimensions. La version du code intégrait alors de nombreuses nouveautés en terme de physique (source de chaleur, collisionalité, géométrie torique). Une source de puissance de 60MW for¸cait le plasma hors équilibre thermodynamique, générant de la turbulence et de l’auto-organisation que nous avons pu suivre pendant 1 ms. Cette simulation nécessita 6.1 millions d’heures CPU, soit 31 jours sur 8192 cœurs. En introduisant deux nouvelles décompositions de domaine et des algorithmes parallèles supplémentaires, il a été possible de réduire globalement le volume des communications en sortie du solveur de Poisson. Ce frein majeur à l’extensibilité au-delà de 8k cœurs a alors été repoussé jusqu’au-delà des 65k cœurs [25, 28, 85, 86]. Ensuite, un obstacle différent pour réaliser de gros cas physiques fut que la scalabilité mémoire n’était pas excellente. Lorsque l’on doublait le nombre de cœurs pour un cas donné, l’empreinte mémoire était loin d’être divisée par deux. En introduisant des algorithmes plus complexes, en ajoutant des communications, il a été possible de rendre les coûts mémoires associés aux structures 3D, extensibles en fonction du nombre de cœurs. En 2013, la scalabilité mémoire a été nettement améliorée [4, 25, 21, 28, 77].

L’adaptation à la machine IBM BlueGene/Q a conduit à repousser les limites d’extensibilité. Avec 91%

d’efficacité relative sur 458752 cœurs (Weak scaling) sur la quasi-totalité du super-calculateur Blue Gene Juqueen (Juelich, Allemagne),Gyselaest membre du Hi-Q club (Highest Scaling Codes on JUQUEEN) qui a été créé pour promouvoir le développement du calcul pour l’exascale. Des travaux sur la reproductibilité et visant à améliorer la validation et la robustesse du code ont été menés [18]. L’optimisation des procédures de checkpoint-restart et mise en œuvre d’écritures asynchrones sur le système de fichier parallèle furent l’objet d’études [24, 25, 73]. Grâce à sa très bonne scalabilité et sa portabilité (le code est déployé sur une dizaine de calculateurs en permanence), Gysela utilise fréquemment de 8k à 32k cœurs. De plus, une simulation s’étale souvent sur plusieurs semaines. La consommation annuelle de temps de calcul ne cesse d’augmenter et elle est rendu à plus de 110 millions d’heures mono-processeur par an (chiffres pour 2016).

Récemment, pour utiliser au mieux les dernières architectures INTEL et IBM, j’ai été amené à optimiser plusieurs parties du code afin que plusieurs threads puissent s’exécuter sur chaque cœur de calcul. Bien que Gyselasoit très équilibré en terme de répartition des calculs entre les unités d’exécution, il semblerait que les ressources de calcul soient moins homogènes qu’auparavant, et cela à cause d’une concurrence sur les ressources : du partage des caches entre cœurs, du partage d’unités de calcul par les threads qui s’exécutent sur un même cœur, des phénomènes NUMA [17]. Ceci implique qu’il faudra prochainement réviser la structure du code pour s’adapter à ces changements, la programmation par tâche est une voie que j’examine actuellement. D’autre part, les synchronisations liées la gestion du parallélisme (modèle BSP) pèsent de plus en plus lourd sur des larges plate-formes et l’approche par tâche devrait aussi remédier en partie au

1https://www.cines.fr/wp-content/uploads/2014/02/GazetteGD2010.pdf

2https://www.top500.org/system/176897

2

(3)

problème. Quoi qu’il en soit, les codes gyrocinétiques sont de bons candidats pour tester, dès leur apparition, les puissances de calcul exaflopiques. En outre, l’opérateur de gyromoyenne est un élément central de la théorie gyrocinétique et représente un coût non négligeable dansGysela. Il est primordial pour le passage

à l’échelle sur les prochaines générations de machines que la gyromoyenne soit scalable. Plusieurs travaux avec de multiples collaborateurs ont conduit à de larges progrès sur l’exactitude et la rapidité de calcul de cet opérateur [5,16,74,77], le recouvrement des communications par les calculs en est un ingrédient essentiel.

Accompagnant les efforts de parallélisation, j’ai aussi contribué aux méthodes numériques dans plusieurs applications à la fois afin d’améliorer la précision ou le réalisme des simulations, mais aussi pour accélérer les calculs. Dans une deuxième partie, je résume des travaux en lien plus étroit avec le domaine des mathématiques appliqués. La mise en place de cas tests spécifiques au sein de Gysela et l’adaptation de certaines méthodes numériques dans les solveurs de Vlasov et Poisson permettent de mieux préserver certains invariants et améliorent la précision du code [7,83]. Incidemment, j’ai contribué à la mise en place d’une plate-forme d’intégration continue afin d’assurer des tests systématiques conduisant à une meilleure robustesse du code pour les utilisateurs [18]. Une série d’études amonts ont permis d’établir que l’on peut tirer parti de l’alignement des structures physiques autour des lignes de champs magnétiques pour réduire le nombre de points de maillage nécessaire dans la direction parallèle à ces lignes de champs. J’ai mis en œuvre une nouvelle méthode numérique avec interpolation alignée dans Gysela en collaboration étroite avec les concepteurs de la bibliothèque Selalib (con¸cue par des mathématiciens). Cela économise effective- ment un grand nombre de points de maillage et réduit ainsi le coût des simulations [1, 79]. Une hypothèse avait été prise initialement dans le codeGyselaconcernant la géométrie du plan polo¨ıdal (plan transverse aux lignes de champs) : le système de coordonnée polaire fut choisi pour représenter un plasma circulaire.

Cela convenait il y a quelques années pour modéliser le Tokamak Tore Supra de l’IRFM. Ce n’est plus le cas actuellement, les Tokamaks actuel ont une géométrie plus sophistiquée: avec point-X, double point-X, snowflake. D’autre part, Gysela a longtemps pris comme hypothèse simplificatrice (pour une meilleure robustesse des méthodes numériques) de l’existence d’un trou central dans le plan polo¨ıdal autour du point r = 0 (axe magnétique). Des avancées ont conduit à une bien meilleure modélisation du plan polo¨ıdal et améliore le réalisme des simulations, le trou central a ajourd’hui disparu de la plupart des simulations [26,75].

De plus, des méthodes permettant de modéliser des plasmas non-circulaires sont en cours d’évaluation.

La troisième partie du document se focalise sur des travaux de mise au point d’algorithmes parallèles et de mise en œuvre de techniques d’optimisation dédiées aux nouvelles architectures. Une solution parallèle pour l’exploitation pétrolière a été mise au point sur cluster de GPUs (méthodes de type RTM -Reverse Time Migration). Les motifs d’accès mémoire et la gestion des communications CPU-GPU et MPI sont partic- ulièrement importants, ils constituent des goulots d’étranglement [8,30,81]. Néanmoins, les accélérations sont substantielles des GPUs par rapport aux architectures classiques pour cette application. Mais l’adaptation du code initial et la maintenance de plusieurs versions (versions CPU et GPU) représentent un coût en ressources humaines que l’on ne peut négliger. Par ailleurs, un modèle Vlasov-Poisson a fait l’objet d’une

étude sur une seule carte GPGPU. L’organisation des accès mémoire et la mise au point d’algorithmes à grain très fin sont primordiaux pour extraire de la performance de ce dispositif de calcul [29]. La refonte du code initial fut inévitable. De ces expériences, on déduit qu’envisager une solution utilisant du GPU dans une application de la même taille queGyselanécessiterait une réécriture en profondeur. Il est difficile d’envisager autre chose qu’une implémentation dédiée. J’ai réalisé des travaux d’optimisation de certains noyaux deGy- selasur le coprocesseur Intel KNC apparu en 2012 (appelé aussi Xeon Phi). Une problématique majeure est ici de vectoriser adéquatement, car c’est une conditionsine qua non pour obtenir des temps d’exécution réduits. Certains noyaux memory-bound et compute-bound ont pu être accélérés par un facteur deux sur le coprocesseur par rapport à l’architecture INTEL Sandy Bridge [19]. Là encore, les motifs d’accès à la mémoire représentent une vraie gageure [2], bien plus que sur une architecture classique, ainsi que la gestion fine de la localité des données en cache. A cause de nombreuses difficultés, il est malaisé d’atteindre de bons niveaux de performance dans un grand nombre de routines d’une application de production tel queGysela.

Plus récemment, l’apparition de plateformes de production utilisant des processeurs Intel KNL, évolution des KNC, ont modifié le paysage du HPC. Ces dispositifs de calcul sont à la fois proches des architectures traditionnelles (ils n’ont pas besoin de machines hôtes comme les GPU et KNC), avec toutefois des performances crêtes plus importantes et un rendement énergétique intéressant. Des techniques d’auto-tuning ont permis de relever certains des défis posés par ces machines [76].

Une dernière partie donne une conclusion des travaux réalisés et esquisse certains des projets de recherche que je prévois pour les années à venir. Un des problèmes constant qui se présente au développeur d’application

3

(4)

parallèle est de trouver un compromis entre efficacité, portabilité et lisibilité du code. Les complexités du matériel, des applications et la difficulté à choisir un modèle de programmation induisent des soucis supplémentaires. Mon but est d’aiderGyselaà surmonter ces obstacles et à rapidement être en mesure de réaliser des simulations sur une machine Exascale.

Abstract

Numerous scientific domains express a need for high-performance computing (HPC), which has intensified in recent decades. At the same time, the size of supercomputers available to the academic community has grown steadily. The increase in computational power and the development of algorithmic and methodological tools have combined to make numerical simulation a discipline in its own right. While still evolving, the technologies of single-processor machines are insufficient. Parallelism is a natural solution to meet the needs of HPC simulation applications. Thus, the development of parallel software and hardware methods and solutions has become a major focus of academic and industrial research. Although many domains benefit from the spin-offs of numerical simulation innovations, this field is at the crossroads of many domains and therefore not very structured and insufficiently identified.

In its early stages, numerical simulation was mainly aimed at reducing costs and delays, supplementing experiments whose modeling was well controlled. In a second step, it has contributed to technical innovation, allowing to take into account increasingly complete physical models and to access information that is difficult to obtain by measurements. Today, it also helps to develop new physical models, for example by integrating the combined effects of simple phenomena by calculation. Many scientific and technical projects are developed within the framework of a collaborative approach between theory, simulation and experimentation (for example, CEA, my company, implements this approach). The comparison of the simulation versus the experimentation can lead to a questioning of the physical model as well as the numerical methods. It is also possible to develop numerical devices or experiments numerically without carrying out full-scale real-world experiments whose costs are often prohibitive.

It was in this context, in interaction with several scientific fields, that I realized much of my research work. My contributions concern the improvement of computational methods from the point of view of parallelization, the design of optimized algorithms and implementations for specific machines, but also on the upgrade of numerical schemes. In the various simulation codes on which I have been involved, it has been required to adapt or renovate calculation schemes for efficient execution on machines with a large number of cores. My inputs contribute throughout the entire chain, from modeling, to efficient implementation on large supercomputers. The studies I carried out were done in close interaction with the designers of the simulation codes so that the results are effective and usable in production. This would not have been possible without mutual efforts of understanding and adaptation with my collaborators: physicists, mathematicians, and computer scientists.

The document is composed of three parts plus a Section enclosing conclusions and perspectives. Although my scientific work is not limited to Gysela, I chose here to focus a large part of the document on this application in order to simplify the contextual setting. The first part concerns various studies carried out to make the best use of the today’s supercomputers. After a short description of the physical problem in Gysela, the numerical methods are described, and then I discuss the improvements required to exploit the biggest academic calculators in Europe. In its beginnings, theGyselacode treated the Gyrokinetic Vlasov equation coupled to a Poisson solver without any additional operator. This was a 5D-Vlasov equation using cylindrical geometry with (r, θ, ϕ) the space variables and (v_k, µ) the velocity variables. The semi-Lagrangian method was chosen to solve Vlasov. At that time, this choice was original because it differs from the Eulerian and Lagrangian approaches that were quite standard for this kind of code. It was the collaborations between several INRIA teams, the LPMIA at Nancy and the CEA IRFM that clearly spurred this choice. Since 2005, the major digital bottlenecks have been cleared step by step and the scalability on the largest accessible parallel machines has been consolidated. In 2006, the reduced 4D version of the code performed well on 128 processors. The definition of the local splines method [9, 14, 34] allowed to enhance the parallel scalability while preserving the numerical quality in a set of applications among whichGysela. In 2007, thanks to an adapted MPI+OpenMP parallelism, it is a relative efficiency of 82% on 4096 cores that I obtained for a strong scaling of a cylindricalGysela-5D case on a BULL/INTEL itanium2 machine. More recently, these splines have been challenged by high-order Lagrange interpolators [75] which are currently used in simulations. In

4

(5)

2010, it was a Grand Challenge³on a SGI machine (18th position at top500 list⁴) at the CINES computing facility that achieved 81 % of relative efficiency on 8192 cores. On the other hand, a simulation close to the non-dimensional parameters of the ITER Tokamak was carried out, using 272 billion grid points in 5- dimensional space. The code version, available then, incorporated many novelties in terms of physics: heat source, collisionality, toroidal geometry. A 60MW power source forced the plasma out of thermodynamic equilibrium, generating turbulence and self-organization that we could follow during 1 ms. This simulation required 6.1 million CPU hours, which was performed during 31 days on 8192 cores. By introducing two new domain decompositions and additional parallel algorithms, it has been possible to globally reduce the volume of communications within and at the end of the Poisson solver. The major issue for achieving good scalability beyond 8k was then pushed back beyond 65k cores [25, 28, 85, 86]. Then, a different bottleneck to perform big physical cases was that the memory scalability was not excellent. When doubling the number of cores for a given case, the memory footprint was far from halved. Many very large physical cases were impossible to run because of memory exhaust. By introducing more complex algorithms, by adding communications, it has been possible to make the memory costs associated with the 3D structures, scalable along with the number of cores. In 2013, the memory scalability was significantly improved [4, 25, 21, 28, 77]. The adaptation to the IBM BlueGene/Q machine has also led to extending the scalability limits. Gysela is a member of the Hi-Q club (Highest Scaling Codes on JUQUEEN) with 91% relative efficiency on 458 752 cores (Weak scaling) on the whole super-calculator Blue Gene Juqueen (Juelich, Germany). Works to get better reproducibility and to improve the validation and robustness of the code have been conducted [18].

The optimization of the checkpoint-restart procedures and the implementation of asynchronous writes on the parallel file system were studied [24, 25,73]. Thanks to its very good scalability and its portability (the code is deployed on ten computers permanently), Gysela frequently uses 8k to 32k cores. In addition, a simulation often takes several weeks. The annual consumption of computing time is steadily increasing and is currently over 110 million mono-processor hours per year (figures for 2016). Recently, in order to make the best use of the latest INTEL and IBM architectures, I was able to optimize several parts of the code so that several threads could be executed on each computing core. AlthoughGyselais very balanced in terms of distributing calculations between execution units, it seems that computing resources are less homogeneous than before, due to competition over resources: caches, sharing of computational units by the threads running on the same core, NUMA effects [17]. This implies that the structure of the code will have to be revised in the near future to adapt to these changes. Task-based programming is a way that I am currently investigating. Also, synchronizations induced by the management of parallelism (BSP model) weigh more and more on large platforms and the task-based approach should partially remedy the problem.

In any case, the gyrokinetic codes are good candidates to test, as soon as they appear, the exaflopic machines.

Moreover, the gyroaverage operator is a cornerstone of the gyrokinetic theory and represents a significant cost in Gysela. It is essential to adapt the code to the next generations of machines that the gyroaverage is scalable. Several works with multiple collaborators have led to great progress on the accuracy and speed of calculation of this operator [5,16,74,77], overlaping communications by calculations is a key component.

Along with the efforts for achieving good parallelization, I also contributed to the numerical methods in several applications to improve the precision or the realism of the simulations, but also to accelerate the calculations. In a second part of the document, I summarize works in closer connection with the field of applied mathematics. The implementation of specific test cases within Gysela and the adaptation of numerical methods in the Vlasov and Poisson solvers make it possible to better preserve certain invariants and improve the precision of the code [7, 83]. Incidentally, I contributed to the implementation of a continuous integration platform to ensure systematic tests leading to better code robustness for users [18]. A series of theoretical studies have established that the alignment of physical structures around the magnetic field lines can be used to reduce the number of mesh points necessary in the direction which is parallel to the field lines.

I implemented a new numerical method with aligned interpolation for Gyselain close collaboration with the designers of the Selalib library (designed by Mathematicians). This effectively saves a lot of meshing points and thus reduces the cost of simulations [1, 79]. A hypothesis was originally made in the Gysela code concerning the geometry of the poloidal plane (plane which is transverse to the field lines): the polar coordinate system was chosen to represent a circular plasma. This was appropriate a few years ago to model the Tokamak Tore Supra of CEA IRFM. This is no longer the case today, the current Tokamaks have a more sophisticated geometry: with X-point, double X-point, snowflake configuration. On the other hand,Gysela

3https://www.cines.fr/wp-content/uploads/2014/02/GazetteGD2010.pdf

4https://www.top500.org/system/176897

5

(6)

has long taken as a simplifying hypothesis (for a better robustness of numerical methods) the existence of a central hole in the poloidal plane around the point r = 0 (at magnetic axis). Advances have led to a much better modeling of the poloidal plane and improves the realism of the simulations, the central hole has now disappeared from most simulations [26,75]. In addition, methods for modeling non-circular plasma are being evaluated.

The third part of the paper focuses on work on the development of parallel algorithms and the implementation of optimization techniques dedicated to new architectures. A parallel solution for petroleum exploitation was developed on cluster of GPUs (RTM methods - textit Reverse Time Migration). The memory access patterns and the management of CPU-GPU and MPI communications play a major role, they are the main bottlenecks [8, 30, 81]. Nevertheless, speedups are substantial on GPUs compared to the conventional architectures for this application. But the adaptation of the initial code and the maintenance of several versions (CPU cluster + GPU cluster) remain a cost in human resources that can not be neglected.

In addition, a Vlasov-Poisson model, not so far fromGyselaequations, was studied on a single GPU card.

The organization of memory access and the development of very fine-grained algorithms are important to focus on from the performance point of view [29]. The overhaul of the original code was inevitable. From these experiments, we deduce that considering a solution using GPU in an application of the same size as Gyselawould require rewriting the code in depth. It is difficult to foresee anything else than a dedicated implementation. I realized some optimization work on some of theGyselacores on the Intel KNC coprocessor that appeared in 2012 (also called Xeon Phi). A major problem here is to adequately vectorize, because it is an essential condition to obtain reduced execution times. Somememory-bound andcompute-bound kernels were accelerated by a factor of two on the coprocessor compared to the INTEL Sandy Bridge [2,19], which was a good result. Again, the access patterns to the memory represent a real challenge, a lot more than for a standard CPU architecture, as well as the fine management of the data locality within the cache. Because of many difficulties, it is not easy to achieve good performance levels in a large number of routines in a production application such asGysela. More recently, the appearance of production platforms using Intel KNL processors, the next generation after KNCs, have changed the landscape of the HPC. These computing devices are quite close to traditional architectures (they do not need a host device as KNC and GPU do), but with higher peak performance and noticeable energy efficiency. Auto-tuning techniques have also helped to address some of the challenges that these machines offer for theGyselacode [76].

The very last part gives a conclusion of the work carried out and outlines some of the research projects I plan for the years to come. One of the constant problems facing the parallel application developer is to find a compromise between efficiency, portability and code readability. The complexities of hardware, of applications and the difficulty to choose a programming model do not help much. My aim is to helpGysela cross over the obstacles and to end up soon running on an Exascale machine.

6

(7)

Peer-reviewed works published after PhD

Computer Science and Applied Math. journal papers

[1] G. Latu, M. Mehrenberger, Y. Gü¸clü, M. Ottaviani, and E. Sonnendrücker. Field-aligned interpolation for semi-Lagrangian gyrokinetic simulations.Journal of Scientific Computing, 2017. Accepted -https:

//hal.archives-ouvertes.fr/hal-01315889.

[2] Y. Asahi, G. Latu, Takuya Ina, Yasuhiro Idomura, V. Grandgirard, and X. Garbet. Optimization of fusion kernels on accelerators with indirect or strided memory access patterns. IEEE Trans. Parallel Distrib. Syst., 28(7):1974–1988, 2017. http://doi.ieeecomputersociety.org/10.1109/TPDS.2016.

2633349.

[3] V. Grandgirard, J. Abiteboul, J. Bigot, Th. Cartier-Michaud, N. Crouseilles, G. Dif-Pradalier, Ch.

Ehrlacher, D. Esteve, X. Garbet, Ph. Ghendrih, G. Latu, M. Mehrenberger, Cl. Norscini, Ch. Passeron, F. Rozar, Y. Sarazin, E., A. Strugarek, and D. Zarzoso. A 5D gyrokinetic full-f global semi-Lagrangian code for flux-driven ion turbulence simulations. Computer Physics Communications, 207:35–68, 2016.

https://doi.org/10.1016/j.cpc.2016.05.007.

[4] F. Rozar, G. Latu, J. Roman, and V. Grandgirard. Toward memory scalability of Gysela code for extreme scale computers. Concurrency and Computation: Practice and Experience, 27(4):994–1009, 2015. https://doi.org/10.1002/cpe.3429.

[5] C. Steiner, M. Mehrenberger, N. Crouseilles, V. Grandgirard, G. Latu, and F. Rozar. Gyroaver- age operator for a polar mesh. Eur. Phys. J. D, 69(1):18, 2015. https://doi.org/10.1140/epjd/

e2014-50211-7.

[6] N. Crouseilles, M. Kuhn, and G. Latu. Comparison of numerical solvers for anisotropic diffusion equations arising in plasma physics. J. Sci. Comput., 65(3):1091–1128, 2015. https://doi.org/10.1007/

s10915-015-9999-1.

[7] G. Latu, V. Grandgirard V., J. Abiteboul, N. Crouseilles, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, M. Mehrenberger, Y. Sarazin, and E. Sonnendr¨ucker. Improving conservation properties of a 5D gyrokinetic semi-Lagrangian code. Eur. Phys. J. D, 68(11):345, 2014. https://doi.org/10.1140/epjd/

e2014-50209-1.

[8] R. Abdelkhalek, H. Calandra, O. Coulaud, G. Latu, and J. Roman. Fast seismic modeling and reverse time migration on a graphics processing unit cluster. Concurrency and Computation: Practice and Experience, 24(7):739–750, 2012. http://dx.doi.org/10.1002/cpe.1875.

[9] N. Crouseilles, G. Latu, and E. Sonnendr¨ucker. A parallel Vlasov solver based on local cubic spline interpolation on patches. J. Comput. Physics, 228(5):1429–1446, 2009. http://dx.doi.org/10.1016/

j.jcp.2008.10.041.

[10] V. Grandgirard, Y. Sarazin, X. Garbet, G. Dif-Pradalier, Ph. Ghendrih, N. Crouseilles, G. Latu, E. Son- nendr¨ucker, N. Besse, and P. Bertrand. Computing ITG turbulence with a full-f semi-Lagrangian code.Communications in Nonlinear Science and Numerical Simulation, 13(1):81 – 87, 2008. ”Vlasovia 2006: The Second International Workshop on the Theory and Applications of the Vlasov Equation”, https://doi.org/10.1016/j.cnsns.2007.05.016.

[11] N. Crouseilles, M. Gutnic, G. Latu, and E. Sonnendr¨uker. Comparison of two Eulerian solvers for the four-dimensional Vlasov equation: Part I and II. Communications in Nonlinear Science and Numerical Simulation, 13(1):88 – 99, 2008. Vlasovia 2006: The Second International Workshop on the Theory and Applications of the Vlasov Equation,http://dx.doi.org/10.1016/j.cnsns.2007.03.017.

[12] N. Besse, G. Latu, A. Ghizzo, E. Sonnendr¨ucker, and P. Bertrand. A wavelet-MRA-based adaptive semi- Lagrangian method for the relativistic Vlasov-Maxwell system.J. Comput. Physics, 227(16):7889–7916, 2008. https://doi.org/10.1016/j.jcp.2008.04.031.

7

(8)

[13] S. Genaud, P. Gan¸carski, G. Latu, A. Blansch´e, C. Rattanapoka, and D. Vouriot. Exploitation of a parallel clustering algorithm on commodity hardware with P2P-MPI. The Journal of Supercomputing, 43(1):21–41, 2008. https://doi.org/10.1007/s11227-007-0136-2.

[14] N. Crouseilles, G. Latu, and Eric Sonnendr¨ucker. Hermite spline interpolation on patches for parallelly solving the Vlasov-Poisson equation.Applied Mathematics and Computer Science, 17(3):335–349, 2007.

http://dx.doi.org/10.2478/v10006-007-0028-x.

Computer Science and Applied Math. conf. proceedings

[15] N. Bouzat, F. Rozar, G. Latu, and J. Roman. A new parallelization scheme for the Hermite interpolation based gyroaverage operator. In16th International Symposium on Parallel and Distributed Computing, ISPDC-2017 proceedings, July 2017. To appear, https://hal.inria.fr/hal-01502513.

[16] F. Rozar, C; Steiner, G. Latu, M. Mehrenberger, V. Grandgirard, J. Bigot, Th. Cartier-Michaud, and J. Roman. Optimization of the gyroaverage operator based on hermite interpolation. ESAIM: Proc., 53:191–210, 2016. https://doi.org/10.1051/proc/201653012.

[17] G. Latu, J. Bigot, N. Bouzat, J. Gim´enez, and V. Grandgirard. Benefits of SMT and of parallel transpose algorithm for the large-scale Gysela application. InProceedings of the Platform for Advanced Scientific Computing Conference, PASC 2016, Lausanne, Switzerland, June 8-10, 2016, page 10, 2016.

http://dl.acm.org/citation.cfm?id=2929912.

[18] J. Bigot, G. Latu, Th. Cartier-Michaud, V. Grandgirard, Ch. Passeron, and F. Rozar. An approach to increase reliability of HPC simulation, application to the Gysela5D. ESAIM: Proc., 53:248–270, 2016.

https://doi.org/10.1051/proc/201653015.

[19] G. Latu, M. Haefele, J. Bigot, V. Grandgirard, Th. Cartier-Michaud, and F. Rozar. Evaluating kernels on Xeon Phi to accelerate Gysela application.ESAIM: Proc., 53:211–231, 2016. https://doi.org/10.

1051/proc/201653013.

[20] M. Kuhn, G. Latu, N. Crouseilles, and S. Genaud. Parallelization of an advection-diffusion problem arising in edge plasma physics using hybrid MPI/OpenMP programming. InEuro-Par 2015: Parallel Pro- cessing - 21st International Conference on Parallel and Distributed Computing, Vienna, Austria, August 24-28, 2015, Proceedings, pages 545–557, 2015. https://doi.org/10.1007/978-3-662-48096-0_42.

[21] F. Rozar, G. Latu, and J. Roman. Achieving memory scalability in the Gysela code to fit exascale constraints. In Parallel Processing and Applied Mathematics - 10th International Conference, PPAM 2013, Warsaw, Poland, September 8-11, 2013, Revised Selected Papers, Part II, pages 185–195, 2013.

https://doi.org/10.1007/978-3-642-55195-6_17.

[22] M. Kuhn, G. Latu, S. Genaud, and N. Crouseilles. Optimization and parallelization of Emedge3D on shared memory architecture. In15th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing, SYNASC 2013, Timisoara, Romania, September 23-26, 2013, pages 503–510, 2013. https://doi.org/10.1109/SYNASC.2013.72.

[23] Th. Cartier-Michaud, Ph. Ghendrih, V. Grandgirard, and G. Latu. Optimizing the parallel scheme of the Poisson solver for the reduced kinetic code TERESA. ESAIM: Proc., 43:274–294, 2013. https:

//doi.org/10.1051/proc/201343017.

[24] O. Thomine, J. Bigot, V. Grandgirard, G. Latu, Ch. Passeron, and F. Rozar. An asynchronous writing method for restart files in the Gysela code in prevision of exascale systems. ESAIM: Proc., 43:108–116, 2013. https://doi.org/10.1051/proc/201343007.

[25] J. Bigot, V. Grandgirard, G. Latu, Ch. Passeron, F. Rozar, and O. Thomine. Scaling Gysela code beyond 32K-cores on Bluegene/Q. ESAIM: Proc., 43:117–135, 2013. https://doi.org/10.1051/

proc/201343008.

[26] J. Abiteboul, G. Latu, V. Grandgirard, A. Ratnani, E. Sonnendr¨ucker, and A. Strugarek. Solving the Vlasov equation in complex geometries. ESAIM: Proc., 32:103–117, 2011.https://doi.org/10.1051/

proc/2011015.

8

(9)

[27] G. Latu. Sparse data structure design for wavelet-based methods. ESAIM: Proc., 34:240–276, 2011. A course available athttps://doi.org/10.1051/proc/201134005.

[28] G. Latu, V. Grandgirard, N. Crouseilles, and G. Dif-Pradalier. Scalable quasineutral solver for gyrokinetic simulation. In PPAM (2), pages 221–231, 2011. http://dx.doi.org/10.1007/

978-3-642-31500-8_23.

[29] G. Latu. Fine-grained parallelization of a Vlasov-Poisson application on GPU. InEuro-Par Workshops, pages 127–135, 2010. http://dx.doi.org/10.1007/978-3-642-21878-1_16.

[30] R. Abdelkhalek, H. Calandra, O. Coulaud, J. Roman, and G. Latu. Fast seismic modeling and reverse time migration on a GPU cluster. In2009 International Conference on High Performance Computing

& Simulation, HPCS 2009, Leipzig, Germany, June 21-24, 2009, pages 36–43, 2009. https://doi.

org/10.1109/HPCSIM.2009.5192786.

[31] R. Abdelkhalek, H. Calandra, O. Coulaud, G. Latu, and J. Roman. FDTD Based Seismic Modeling and Reverse Time Migration on a GPU Cluster. In9th International Conference on Mathematical and Numerical Aspects of Waves Propagation - Waves 2009, Pau, France, 2009. https://hal.inria.fr/

inria-00407782.

[32] M. Campos Pinto, S. Jund, G. Latu, S. Salmon, and E. Sonnendr¨ucker. Exact Charge Conservation in a High-Order Conforming Maxwell Solver coupled with Particles. In9th International Conference on Mathematical and Numerical Aspects of Waves Propagation - Waves 2009, Pau, France, 2009. https:

//hal.inria.fr/inria-00591052.

[33] M. Haefele, F. Zara, G. Latu, and J.-M. Dischler. A dedicated compression scheme for large multidi- mensional functions visualization. In1st International Workshop on Super Visualization (IWSV08), Ile de Kos, Greece, June 2008. https://hal.inria.fr/inria-00591076.

[34] G. Latu, N. Crouseilles, V. Grandgirard, and E. Sonnendr¨ucker. Gyrokinetic semi-Lagrangian parallel simulation using a hybrid OpenMP/MPI programming. In PVM/MPI, pages 356–364, 2007. http:

//dx.doi.org/10.1007/978-3-540-75416-9_48.

[35] V. Grandgirard, Y. Sarazin, X. Garbet, G. Dif-Praladier, Ph. Ghendrih, N. Crouseilles, G. Latu, E. Son- nendr¨ucker, N. Besse, and P. Bertrand. Gysela, a full-f global gyrokinetic semi-Lagrangian code for ITG turbulence simulations. InProceedings of Theory of Fusion Plasmas, Varenna, 2006.

[36] M. Gutnic, M. Mehrenberger, E. Sonnendr¨ucker, O. Hoenen, G. Latu, and E. Violard. Adaptive 2D Vlasov simulation of particle beams. In Proceedings of ICAP 2006, 2006. epaper.kek.jp/ICAP06/

PAPERS/THMPMP02.PDF.

[37] G. Tessier, J. Roman, and G. Latu. Hybrid MPI-Thread implementation on a cluster of SMP nodes of a parallel simulator for the propagation of powdery mildew in a vineyard. In High Performance Computing and Communications, Second International Conference, HPCC 2006, Munich, Germany, September 13-15, 2006, Proceedings, pages 833–842, 2006. https://doi.org/10.1007/11847366_86.

[38] A. Calonnec, G. Latu, J.-Marc Naulin, J. Roman, and G. Tessier. Parallel simulation of the propagation of powdery mildew in a vineyard. InEuro-Par 2005, Parallel Processing, 11th International Euro-Par Conference, Lisbon, Portugal, August 30 - September 2, 2005, Proceedings, volume 3648 ofLecture Notes in Computer Science, pages 1254–1264, 2005. https://doi.org/10.1007/11549468_137.

[39] E. Sonnendr¨ucker, M. Gutnic, M. Haefele, G. Latu, and J.L. Lemaire. Vlasov Simulation of Beams and HALO. InProceedings of the Particle Accelerator Conference, 2005, pages 581–585, 2005.

[40] M. Haefele, G. Latu, and M. Gutnic. A parallel Vlasov solver using a wavelet based adaptive mesh re- finement. In34th International Conference on Parallel Processing Workshops (ICPP 2005 Workshops), 14-17 June 2005, Oslo, Norway, pages 181–188, 2005. https://doi.org/10.1109/ICPPW.2005.13.

9

(10)

Plasma Physics journal papers

[41] D. Esteve, Y. Sarazin, X. Garbet, V. Grandgirard, S. Breton, P. Donnel, Y. Asahi, C. Bourdelle, G. Dif-Pradalier, Ch. Ehrlacher, C. Emeriau, Ph. Ghendrih, C. Gillot, G. Latu, and Ch. Passeron.

Self-consistent gyrokinetic modeling of neoclassical and turbulent impurity transport. Nuclear Fusion, 2017.

[42] D. Zarzoso, P. Migliano, V. Grandgirard, G. Latu, and Ch. Passeron. Nonlinear interaction between energetic particles and turbulence in gyro-kinetic simulations and impact on turbulence properties.

Nuclear Fusion, 57(7):072011, 2017.

[43] J. A. Morales, M. Becoulet, X. Garbet, F. Orain, G. Dif-Pradalier, M. Hoelzl, S. Pamela, G. T. A.

Huijsmans, P. Cahyna, A. Fil, E. Nardon, Ch. Passeron, and G. Latu. Edge localized mode rotation and the nonlinear dynamics of filaments. Physics of Plasmas, 23(4):042513, 2016.

[44] Th. Cartier-Michaud, Ph. Ghendrih, Y. Sarazin, J. Abiteboul, H. Bufferand, G. Dif-Pradalier, X. Gar- bet, V. Grandgirard, G. Latu, Cl. Norscini, Ch. Passeron, and P. Tamain. Projection on proper elements for code control: Verification, numerical convergence, and reduced models. application to plasma turbulence simulations. Physics of Plasmas, 23(2):020702, 2016.

[45] D. Est`eve, X. Garbet, Y. Sarazin, V. Grandgirard, T. Cartier-Michaud, G. Dif-Pradalier, Ph. Ghendrih, G. Latu, and Cl. Norscini. A multi-species collisional operator for full-f gyrokinetics.Physics of Plasmas, 22(12):122506, 2015. http://dx.doi.org/10.1063/1.4937373.

[46] G. Dif-Pradalier, G. Hornung, Ph. Ghendrih, Y. Sarazin, F. Clairet, L. Vermare, P.-H. Diamond, J. Abiteboul, T. Cartier-Michaud, C. Ehrlacher, D. Est`eve, X. Garbet, V. Grandgirard, O.-D. G¨urcan, P. Hennequin, Y. Kosuga, G. Latu, P. Maget, P. Morel, C. Norscini, R. Sabot, and A. Storelli. Finding the Elusive ExB Staircase in Magnetized Plasmas. Physical Review Letters, 114:085004, 2015.

[47] F. Orain, M. B´ecoulet, G. T. A. Huijsmans, G. Dif-Pradalier, M. Hoelzl, J. Morales, X. Garbet, E. Nar- don, S. Pamela, Ch. Passeron, G. Latu, A. Fil, and P. Cahyna. Resistive reduced MHD modeling of multi-edge-localized-mode cycles in tokamak X-Point plasmas. Phys. Rev. Lett., 114:035001, Jan 2015.

[48] Ph. Ghendrih, Cl. Norscini, Th. Cartier-Michaud, G. Dif-Pradalier, J. Abiteboul, Y. Dong, X. Garbet, O. G¨urcan, P. Hennequin, V. Grandgirard, G. Latu, P. Morel, Y. Sarazin, A. Storelli, and L. Vermare.

Phase space structures in gyrokinetic simulations of fusion plasma turbulence. The European Physical Journal D, 68(10):303, 2014.

[49] M. B´ecoulet, F. Orain, G. T. A. Huijsmans, S. Pamela, P. Cahyna, M. Hoelzl, X. Garbet, E. Franck, E. Sonnendr¨ucker, G. Dif-Pradalier, Ch. Passeron, G. Latu, J. Morales, E. Nardon, A. Fil, B. Nkonga, A. Ratnani, and V. Grandgirard. Mechanism of edge localized mode mitigation by resonant magnetic perturbations. Phys. Rev. Lett., 113:115001, Sep 2014.

[50] Ph. Ghendrih, G. Dif-Pradalier, Cl. Norscini, Th. Cartier-Michaud, D. Est`eve, X. Garbet, V. Grandgi- rard, G. Latu, Ch. Passeron, and Y. Sarazin. Self organisation of plasma turbulence: impact on radial correlation lengths. Journal of Physics: Conference Series, 561(1):012008, 2014.

[51] J. Abiteboul, Ph. Ghendrih, V. Grandgirard, Th. Cartier-Michaud, G. Dif-Pradalier, X. Garbet, G. Latu, Ch. Passeron, Y. Sarazin, A. Strugarek, O. Thomine, and D. Zarzoso. Turbulent momentum transport in core tokamak plasmas and penetration of scrape-off layer flows. Plasma Physics and Controlled Fusion, 55(7):074001, 2013.

[52] A. Strugarek, Y. Sarazin, D. Zarzoso, J. Abiteboul, A. S. Brun, Th. Cartier-Michaud, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, V. Grandgirard, G. Latu, Ch. Passeron, and O. Thomine. Unraveling quasiperiodic relaxations of transport barriers with gyrokinetic simulations of tokamak plasmas. Phys.

Rev. Lett., 111:145001, Oct 2013.

[53] A. Strugarek, Y. Sarazin, D. Zarzoso, J. Abiteboul, A. S. Brun, Th. Cartier-Michaud, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, V. Grandgirard, G. Latu, Ch. Passeron, and O. Thomine. Ion transport barriers triggered by plasma polarization in gyrokinetic simulations. Plasma Physics and Controlled Fusion, 55(7):074013, 2013.

10

(11)

[54] F. Orain, M. Becoulet, G. Dif-Pradalier, G. Huijsmans, S. Pamela, E. Nardon, Ch. Passeron, G. Latu, V. Grandgirard, A. Fil, A. Ratnani, I. Chapman, A. Kirk, A. Thornton, M. Hoelzl, and P. Cahyna.

Non-linear magnetohydrodynamic modeling of plasma response to resonant magnetic perturbations.

Physics of Plasmas, 20(10):102510, 2013.

[55] D. Zarzoso, Y. Sarazin, X. Garbet, R. Dumont, A. Strugarek, J. Abiteboul, Th. Cartier-Michaud, G. Dif-Pradalier, Ph. Ghendrih, V. Grandgirard, G. Latu, Ch. Passeron, and O. Thomine. Impact of energetic-particle-driven geodesic acoustic modes on turbulence. Phys. Rev. Lett., 110:125002, Mar 2013.

[56] X. Garbet, D. Esteve, Y. Sarazin, J. Abiteboul, C. Bourdelle, G. Dif-Pradalier, Ph. Ghendrih, V. Grand- girard, G. Latu, and A. Smolyakov. Turbulent acceleration and heating in toroidal magnetized plasmas.

Physics of Plasmas, 20(7):072502, 2013.

[57] R. J. Dumont, D. Zarzoso, Y. Sarazin, X. Garbet, A. Strugarek, J. Abiteboul, Th. Cartier-Michaud, G. Dif-Pradalier, Ph. Ghendrih, J-B. Girardo, V .Grandgirard, G. Latu, Ch. Passeron, and O. Thomine.

Interplay between fast ions and turbulence in magnetic fusion plasmas. Plasma Physics and Controlled Fusion, 55(12):124012, 2013.

[58] S. Ku, J. Abiteboul, P.H. Diamond, G. Dif-Pradalier, J.M. Kwon, Y. Sarazin, T.S. Hahm, X. Garbet, C.S. Chang, G. Latu, E.S. Yoon, Ph. Ghendrih, S. Yi, A. Strugarek, W. Solomon, and V. Grandgirard.

Physics of intrinsic rotation in flux-driven ITG turbulence. Nuclear Fusion, 52(6):063013, 2012.

[59] X. Garbet, J. Abiteboul, A. Strugarek, Y. Sarazin, G. Dif-Pradalier, Ph. Ghendrih, V. Grandgirard, C. Bourdelle, G. Latu, and A. Smolyakov. Thermodynamics of neoclassical and turbulent transport.

Plasma Physics and Controlled Fusion, 54(5):055007, 2012.

[60] G. Dif-Pradalier, P. H. Diamond, V. Grandgirard, Y. Sarazin, J. Abiteboul, X. Garbet, Ph. Ghendrih, G. Latu, A. Strugarek, S. Ku, and C. S. Chang. Neoclassical physics in full distribution function gyrokinetics. Physics of Plasmas, 18(6):062309, 2011.

[61] J. Abiteboul, X. Garbet, V. Grandgirard, S. J. Allfrey, Ph. Ghendrih, G. Latu, Y. Sarazin, and A. Stru- garek. Conservation equations and calculation of mean flows in gyrokinetics. Physics of Plasmas, 18(8):082503, 2011.

[62] Y. Sarazin, V. Grandgirard, J. Abiteboul, S. Allfrey, X. Garbet, Ph. Ghendrih, G. Latu, A. Strugarek, G. Dif-Pradalier, P.H. Diamond, S. Ku, C.S. Chang, B.F. McMillan, T.M. Tran, L. Villard, S. Jolliet, A. Bottino, and P. Angelino. Predictions on heat transport and plasma rotation from global gyrokinetic simulations. Nuclear Fusion, 51(10):103023, 2011.

[63] L. Villard, A. Bottino, S. Brunner, A. Casati, J. Chowdhury, T. Dannert, R. Ganesh, X. Garbet, T. Goler, V. Grandgirard, R. Hatzky, Y. Idomura, F. Jenko, S. Jolliet, S. Khosh Aghdam, X. Lapillonne, G. Latu, B. F. McMillan, F. Merz, Y. Sarazin, T. M. Tran, and T. Vernay. Gyrokinetic simulations of turbulent transport: size scaling and chaotic behaviour. Plasma Physics and Controlled Fusion, 52(12):124038, 2010.

[64] Y. Sarazin, A. Strugarek, G. Dif-Pradalier, J. Abiteboul, S. Allfrey, X. Garbet, Ph. Ghendrih, V. Grand- girard, and G. Latu. Flux-driven gyrokinetic simulations of ion turbulent transport at low magnetic shear. Journal of Physics: Conference Series, 260(1):012017, 2010. http://stacks.iop.org/

1742-6596/260/i=1/a=012017.

[65] Y. Sarazin, V. Grandgirard, J. Abiteboul, S. Allfrey, X. Garbet, Ph. Ghendrih, G. Latu, A. Strugarek, and G. Dif-Pradalier. Large scale dynamics in flux driven gyrokinetic turbulence. Nuclear Fusion, 50(5):054004, 2010.

[66] X. Garbet, J. Abiteboul, Y. Sarazin, A. Smolyakov, S. Allfrey, V. Grandgirard, Ph. Ghendrih, G. Latu, and A. Strugarek. Entropy production rate in tokamak plasmas with helical magnetic perturbations.

Journal of Physics: Conference Series, 260(1):012010, 2010.

11

(12)

[67] V. Grandgirard, Y. Sarazin, P. Angelino, A. Bottino, N. Crouseilles, G. Darmet, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, S. Jolliet, G. Latu, E. Sonnendrucker, and L. Villard. Global full-f gyrokinetic simulations of plasma turbulence. Plasma Physics and Controlled Fusion, 49(12B):B173, 2007.

[68] Y. Sarazin, V. Grandgirad, G. Dif-Praladier, E. Fleurance, X. Garbet, Ph. Ghendrih, P. Bertrand, N. Besse, N. Crouseilles, E. Sonnendr¨ucker, G. Latu, and E. Violard. Impact of large scale flows on turbulent transport. Plasma Phys. Control Fusion, 48:B179–B188, december 2006.

Plasma Physics conference proceedings

[69] Ph. Ghendrih, Th. Cartier-Michaud, G. Dif-Pradalier, D. Esteve, X. Garbet, V. Grandgirard, G. Latu, Cl. Norscini, and Y. Sarazin. Collisions in magnetised plasmas. ESAIM: Proc., 50:81–112, 2015.

[70] G. Dif-Pradalier, G. Hornung, Ph. Ghendrih, Yanick. Sarazin, F. Clairet, L. Vermare, P H. Diamond, J. Abiteboul, Th. Cartier-Michaud, Ch. Ehrlacher, A. Est`eve, Xavier. Garbet, Virginie. Grandgirard, O D. G¨urcan, P. Hennequin, A. Kosuga, Guillaume. Latu, Paul. Morel, C. Norscini, R. Sabot, and A. Storelli. Further details on the plasma ExB staircase. In7th IAEA Technical Meeting on Theory of Plasmas Instabilities, Frascati, Italy, France, 2015.

[71] Y. Sarazin, J. Abiteboul, G. Dif-Praladier, B. McMillan, C. Bourdelle, T. Cartier-Michaud, P. Cottier, D. Esteve, X. Garbet, J.-B. Girardo, V. Grandgirard, Ph. Ghendrih, F. Hariri, G. Latu, D. Newman, Cl. Norscini, Ch. Passeron, J. Reynolds-Barredo, R. Sanchez, F. Sipeanu, M. Vlad., and L. Villard.

Understanding momentum transport in tokamak plasmas. In IAEA Fusion Energy Conference, Saint Petersburg, october 2014.

[72] X. Garbet, Y. Sarazin, V. Grandgirard, G. Dif-Praladier, G. Darmet, Ph. Ghendrih, P. Bertrand, N. Besse, E. Gravier, P. Morel, E. Sonnendr¨ucker, N. Crouseilles, J.-M. Dischler, G. Latu, E. Vio- lard, M. Brunetti, S. Brunner, X. Lapillonne, T.-M. Tran, and L. Villard. Beyond scale separation in gyrokinetic turbulence. In21st IAEA Fusion Energy Conference, Chengdu, China, october 2006.

Submitted papers - reports - documents I contributed to

[73] M. Thevenin, O. Thomine, and G. Latu. Compression de donn´ees num´eriques, 2017. WO Patent App.

PCT/EP2016/081,284, Brevet -https://www.google.com/patents/WO2017103002A1?cl=fr.

[74] N. Bouzat, F. Rozar, G. Latu, and J. Roman. A new parallelization scheme for the Hermite interpolation based gyroaverage operator. Research Report RR-9054, Inria, April 2017. https://hal.inria.fr/

hal-01502513.

[75] N. Bouzat, C. Bressan, V. Grandgirard, G. Latu, and M. Mehrenberger. Targeting realistic geometry in Tokamak code Gysela. Submitted to - ESAIM: Proc., 2017.

[76] J. Bigot, V. Grandgirard, G. Latu, J.-F. Mehaut, L.-F. Millani, Ch. Passeron, S. Quinito Masnada, J. Richard, and B. Videau. Building and auto-tuning a kernel: an experiment with Boast and StarPU in the Gysela code. Submitted to - ESAIM: Proc., 2017.

[77] Fabien Rozar. Towards highly scalable parallel simulations for turbulent plasma physics. Theses, Uni- versit´e de Bordeaux, November 2015. https://tel.archives-ouvertes.fr/tel-01271032.

[78] Xavier Lacoste. Scheduling and memory optimizations for sparse direct solver on multi-core/multi-gpu duster systems. Theses, Universit´e de Bordeaux, February 2015. https://tel.archives-ouvertes.

fr/tel-01222565/file/LACOSTE_XAVIER_2015.pdf.

[79] G. Latu, M. Mehrenberger, M. Ottaviani, and E. Sonnendr¨ucker. Aligned interpolation and application to drift kinetic semi-Lagrangian simulations with oblique magnetic field in cylindrical geometry.

Research report, IRMA, December 2014. https://hal.inria.fr/hal-01098373.

[80] Matthieu Kuhn. Parallel computing and numerical methods for boundary plasma simulations. The- ses, Universit´e de Strasbourg, September 2014.https://tel.archives-ouvertes.fr/tel-01272267/

file/Kuhn_Matthieu_2014_ED269.pdf.

12

(13)

[81] Rached Abdelkhalek. Hardware acceleration for seismic imaging : modeling, migration and inter- pretation. PhD thesis, Universit´e Sciences et Technologies - Bordeaux I, December 2013. https:

//tel.archives-ouvertes.fr/tel-01159517/file/ABDELKHALEK_RACHED_2013.pdf.

[82] G. Latu, M. Becoulet, G. Dif-Pradalier, V. Grandgirard, M. Hoelzl, G. Huysmans, X. Lacoste, E. Nar- don, F. Orain, Ch. Passeron, P. Ramet, and A. Ratnani. Non regression testing for the Jorek code.

Research Report RR-8134, INRIA, November 2012. https://hal.inria.fr/hal-00752270.

[83] G. Latu, V. Grandgirard, J. Abiteboul, M. Bergot, N. Crouseilles, X. Garbet, Ph. Ghendrih, M. Mehren- berger, Y. Sarazin, H. Sellama, E. Sonnendr¨ucker, and D. Zarzoso. Accuracy of unperturbed motion of particles in a gyrokinetic semi-Lagrangian code. Rapport de recherche RR-8054, INRIA, September 2012. http://hal.inria.fr/hal-00727118.

[84] M. Sauget and G. Latu. Dynamic Load Balancing for PIC codes using Eulerian/Lagrangian partitioning.

Research report, University of Strasbourg, 2011. http://arxiv.org/abs/1706.08362.

[85] G. Latu, V. Grandgirard, N. Crouseilles, R. Belaouar, and E. Sonnendr¨ucker. Some parallel algorithms for the Quasineutrality solver of Gysela. Research Report RR-7591, INRIA, April 2011.https://hal.

inria.fr/inria-00583521.

[86] G. Latu, N. Crouseilles, and V. Grandgirard. Parallel bottleneck in the Quasineutrality solver embedded in Gysela. Research Report RR-7595, INRIA, April 2011. https://hal.inria.fr/inria-00583689.

[87] G. Latu, V. Grandgirard, N. Crouseilles, and G. Dif-Pradalier. Scalable Quasineutral solver for gyrokinetic simulation. Rapport de recherche RR-7611, INRIA, May 2011. http://hal.inria.fr/

inria-00590561/PDF/RR-7611.pdf.

[88] J. Guterl, J.-P. Braeunig, N. Crouseilles, V. Grandgirard, G. Latu, M. Mehrenberger, and E. Son- nendr¨ucker. Test of some numerical limiters for the conservative PSM scheme for 4D Drift-Kinetic simulations. Research Report RR-7467, INRIA, November 2010.https://hal.inria.fr/inria-00540948.

[89] J.-P. Braeunig, N. Crouseilles, V. Grandgirard, G. Latu, M. Mehrenberger, and E. Sonnendr¨ucker. Some numerical aspects of the conservative PSM scheme in a 4D drift-kinetic code. Research report, INRIA, 2011. https://hal.archives-ouvertes.fr/hal-00650343.

[90] Matthieu Haefele. Simulation adaptative et visualisation haute performance de plasmas et de faisceaux de particules. PhD thesis, Universit´e de Strasbourg, 2007.http://www.haefele.fr/matthieu/publis/

2007_haefele_phd_A4.pdf.

13

(14)

Curriculum Vitae

Chercheur-Ingénieur en Informatique spécialité calcul parallèle

Nom :Latu Pr´enom :Guillaume

Date et lieu de naissance :01/06/1975,Saint Germain en Laye (France)

Nationalit´e :Fran¸caise Sexe :M

Situation familiale :Mari´e, 1 enfant

Adresse postale :mont´ee de Manenc, 8 Lot. des sarments 04100 Manosque

N^◦ de t´el´ephone :(+33) 06 51 25 75 55

Adresse ´electronique :guillaume.latu @ cea.fr

Langues : fran¸cais (langue maternelle), anglais (tr`es bon niveau)

SITUATION PROFESSIONNELLE ACTUELLE Statut et fonction : Chercheur-Ing´enieur (Echelon 4) Etablissement : CEA/DRF/IRFM

Date d’entr´ee en fonction : 4 septembre 2009

FORMATION ET PARCOURS PROFESSIONNEL

Etablissements Fonctions et statuts Dates Observations fran¸cais ou ´etrangers (salari´e, boursier, etc.)

CEA (CDI) Chercheur-Ingénieur 01/10/2010 présent CEA (dispo U. Strasbourg) Chercheur-Ingénieur 04/09/2009 01/10/2010

Universit´e Strasbourg Maˆıtre de conf´erences 01/09/2003 04/09/2009

ENSEIRB demi ATER 01/09/2002 31/08/2003

Université Bordeaux 1 Diplôme de doctorat 12/2002 Informatique Université Bordeaux 1 Bourse MENRT 01/06/2001 30/06/2002 monitorat à l’IUT Centre militaire CROSAT Scientifique du contingent 01/08/2000 31/05/2001

Universit´e Bordeaux 1 Bourse MENRT 01/09/1998 31/07/2000 vacataire Universit´e Bordeaux 1 DEA 01/09/1997 31/08/1998 mention TB

ENSEIRB élève ingénieur 01/09/1995 31/08/1998 école d’ingénieur

COMPETENCES

Expertise : Calcul haute performance, algorithmique parallèle, parallélisation large échelle Programmation : Fortran, C, C++, ...

Programmation parall`ele : OpenMP, MPI, OpenMP+MPI, CUDA, ´equilibrage statique/dynamique Connaissances transversales :

Equation de Vlasov, Equations de Maxwell et Poisson, Physique des Plasmas (confinement inertiel, magn´etique), Dynamique des populations

Connaissances sur les m´ethodes num´eriques :

Résolution grands systèmes creux, Algèbre linéaire, Monte-Carlo, méthodes explicites/implicites, ...

(15)

ENSEIGNEMENTS

Univ. Bordeaux 1 (98-99) DEUG 2^`êmeannée : TP initiation à la prog., TP Fondements de l’informatique.

IUT Bordeaux 1 (99-02) : Cours/TP utilisation des systèmes informatiques, Cours/TD langage Java, Cours/TD systèmes d’exploitation, Cours/TD réseaux, Cours/TD admin. bases de données.

ENSEIRB (02-03) 2^`ême& 3^`êmeannées : TP parallélisme, TD prog. système, Cours/TP grilles de calculs.

ENSEIRB (05-09) 3^eme^` ann´ees : Cours/TP grilles de calculs.

Univ. Strasbourg 1 (03-04) DEUG 2ême^` année : Cours archi. des ordinateurs, TP prog. système.

Univ. Strasbourg 1 (03-06) L3 & M1 & IUP3 : Cours/TP prog. distribuée, TD systèmes distribués.

Univ. Strasbourg 3 (03-06) Licence Pro. : Cours/TP programmation distribu´ee.

Univ. Strasbourg 1 (05-06) M2 : Cours adaptation de programmes pour les grilles.

Univ. Strasbourg (08-09) M2 : Cours/TP Applications Distribu´ees, Cours/TP MPI, Cours/TP Fortran.

Univ. Strasbourg (08-09) L2 : Cours Prog. Système et Réseau, TP Pratique et Admin. des systèmes.

Univ. Strasbourg (08-09) L3 : TD Prog. orient´ee objet.

Fréjus (10) : Ecole d’été du groupe Calcul-CNRS : Structures de donnée pour les méthodes adaptatives Volume total : 1150h

ENCADREMENT

-Nicolas Bouzat- Stage de fin d’étude puis thèse (2015 - 2018) financée par IPL INRIA C2S@Exa Parallélisation de l’opérateur de gyromoyenne dans GYSELA afin de réduire l’empreinte mémoire de l’application et les surcoûts en communication en vue des machines Exascale. Mise en œuvre d’une stratégie d’interpolation de type Lagrange pour une prise en compte d’une géométrie plus réaliste (D- shaped plasma) grâce à un une fonction de mapping dans le plan polo¨ıdal. Définition d’un prototype utilisant la programmation par tâches afin de réduire les coûts de synchronisation parallèle et améliorer la localité temporelle dans GYSELA.

Le co-encadrement de ce travail s’effectue sous la direction conjointe de Michel Mehrenberger (MdC, HDR) et Jean Roman (Professeur, DR INRIA).

-Yuuichi Asahi- Postdoc (2014-2018)

Collaboration Franco-Japonaise. Portage et optimisation de noyaux de calculs issus de GYSELA et GT5D sur des architectures de type GPGPU, Intel KNC et Fujitsu FX100. Analyse des patrons d’acc`es m´emoire favorables en fonction du noyau.

-Julien Bigot- Postdoc (2012-2014) partiellement financ´e par G8 Exascale NuFuse

Optimisation et parallélisation à grande échelle sur calculateur BlueGene/Q de GYSELA. Mise en place d’une stratégie de checkpoint/restart basée sur la bibliothèque FTI (développée par INRIA+Université d’Argonne).

-Fabien Rozar- Stage de fin d’´etude puis th`ese [77] (2012 - 2015)

Identification de pics dans l’empreinte mémoire d’applications parallèles qui limitent la scalabilité mémoire (analyse du code GYSELA). Mise en œuvre de la bibliothèque MTM pour tracer finement la consommation mémoire et de stratégies visant à réduire cette consommation, mais aussi permettant d’améliorer la scalabilité mémoire en vue des plateformes Exascale. Réduction des coûts associés à l’opérateur de gyromoyenne dans GYSELA.

Le co-encadrement de ce travail s’est effectu´e sous la direction de Jean Roman (Professeur, DR INRIA).

-Xavier Lacoste- Th`ese [78] (2011 - 2015) financ´ee par ANR ANEMOS

Mise en place au sein du solveur creux Pastix et dans JOREK d’une solution permettant de réduire l’empreinte mémoire et améliorer la scalabilité de JOREK. Evaluation du bénéfice des ordonnanceurs StarPU et Parsec afin d’améliorer les performances de Pastix, benchmarks sur plate-formes hétérogènes et accélérateurs de calcul GPGPU.

J’ai collaboré avec Xavier sur ce travail qui fut réalisé sous la direction conjointe de Fran¸cois Pellegrini (Professeur) et Pierre Ramet (MdC).

-Rached Abdelkhalek- Stage de fin d’´etude puis th`ese CIFRE [81] (2008 - 2013)

Algorithmique parallèle et implémentation efficace sur GPGPU d’une application de type RTM (Reverse Time Migration). Analyse de l’impact des accès mémoire sur les performances. Démonstration que l’utilisation d’accélérateurs matériels élargit considérablement le champ du possible. Etude, dans le cadre de l’équation des ondes, des schémas numériques et méthodes d’optimisation à mettre en place pour une

(16)

exécution de problèmes de grande taille sur un dispositif de calcul GPGPU. Ce travail était co-encadré sous la direction de Jean Roman (Professeur, DR INRIA), mais aussi avec la contribution de Olivier Coulaud (DR INRIA) et Henri Calandra (Expert HPC, TOTAL).

-Olivier Thomine- Postdoc financé par G8-Exascale NuFuse (Novembre 2011 - Septembre 2013) Mise au point de stratégies de checkpoint/restart asynchrones dans l’application GYSELA. Dans les plateformes comportant de nombreux coeurs, la probabilité élevée de fautes durant l’exécution nécessite d’élaborer des algorithmes résiliants aux pannes. Mise en place d’algorithmes originaux de compression de données.

-Matthieu Kuhn- Thèse [80] financée sur crédits ANR E2T2 (2011-2014)

Parallélisation haute-performance pour la simulation de plasmas de bord. Le code EMEDGE3D permet de comprendre les mécanismes non-linéaires à la base des relaxations de la barrière de transport dans un Tokamak, ainsi que la formation des ˆılots magnétiques. L’objet de cette thèse était de réaliser des simulations haute-performance pour avoir accès à toutes les échelles de temps et d’espace mises en oeuvre par la physique de plasmas de bord. Les travaux portent sur la mise au point de schémas numériques performants, associés à une optimisation des accès aux données en mémoire, ainsi que la mise au point d’algorithmes parallèles, analyse de performance grâce au modèleroofline.

Le co-encadrement de ce travail s’est effectué sous la direction de Stéphane Genaud (Maˆıtre de conférence, HDR) et Nicolas Crouseilles (CR INRIA, HDR).

-Marius Craciun- Ingénieur et Marc Sauget- Postdoc (2008-2009), financement ANR HOUPIC Mise au point d’un simulateur parallèle Particle in Cell 4D et 6D pour des dispositifs de Physique des hautes énergies. Stratégie de régulation dynamique de la charge et de remaillage dynamique.

-Matthieu Haefele- Th`ese [90] (2003-2007)

L’objet de son travail était double et concerne à la fois le calcul scientifique (mise au point de schémas numériques adaptatifs), mais aussi la visualisation de gros volumes de données compressées issus de la simulation de plasmas. Je travaillais avec lui sur ces deux aspects. Le simulateur OBIWAN sur lequel nous avons travaillé ensemble consomme relativement peu de mémoire et réduit asymptotiquement le nombre d’opérations par rapport à un codenon-adaptatif équivalent. Cette thèse a été dirigée par Jean- Michel Dischler (Prof. Univ. Louis Pasteur - LSIIT) et Eric Sonnendrücker (Prof. Univ. Louis Pasteur - IRMA).

-Gaël Tessier- Master Recherche puis Thèse (2003-2006, abandon de la thèse en 2006)

Le cadre scientifique de ce travail est celui des grandes applications complexes qui engendrent des calculs et des données de grandes tailles. La thèse portait sur la modélisation et la simulation de la propagation spatio-temporelle de l’o¨ıdium, parasite de la vigne (collaboration avec l’INRA). Un simulateur numérique parallèle haute performance a été développé. Une étude algorithmique envisageait des distributions pos- sibles des données/calculs et leurs coûts (plate-forme éventuellement hétérogène). Je co-encadrais Gäel Tessier sur ce travail sous la direction de Jean Roman (Prof. ENSEIRB - LaBRI).

-Constantinos Makassikis- Master Recherche (Janvier-Juin 2006)

Il s’agissait ici de modéliser le coût des communications TCP à un niveau applicatif. La cadre est celui d’une grille de calcul reliant des sites différents reliés par un réseau rapide. Pour déterminer un bon déploiement, il est nécessaire de pouvoir prédire les coûts de communication. L’objectif a été de déterminer quelles simplifications peuvent être apportées aux modèles de réseau existants afin d’obtenir une approximation des temps des communications TCP au niveau applicatif (tests sur Grid5000). Ce DEA a été co-encadré par S. Genaud (Mcf IECS - LSIIT), J-J Pansiot (Prof. Univ. Louis Pasteur - LSIIT) et moi-même.

-Ouldbatty Lemrabott- Stage de maˆıtrise (F´evrier-Mai 2005)

L’objectif de ce stage fut de réaliser une visualisation de sorties 4D représentées sur une base hiérarchique d’éléments finis. Il nous a été possible d’obtenir un algorithme d’extraction rapide de tranches 2D depuis des données 4D volumineuses. Ce sujet fut co-encadré par M. Haefele (Doctorant) et moi-même.

ACTIVITES DE RECHERCHE

Mes thématiques de recherche portent sur la conception de modèles, de schémas numériques et d’algorithmes efficaces conduisant à des simulations numériques performantes sur de très larges plate- formes. Ces activités se décomposent en plusieurs types de travaux. Tout d’abord, j’ai collaboré avec des

(17)

chercheurs d’autres disciplines sur des simulateurs haute-performance issus de plusieurs domaines applicatifs : l’épidémiologie (CNRS [Montpellier-Sète] et INRA [Villenave d’Ornon]), la physique des plasmas et des hautes énergies (CEA Cadarache-IRFM [St Paul-lez-Durance] , LPMIA [Nancy], PIIM [Marseille]), l’imagerie en profondeur (TOTAL [Pau]). J’ai aussi mené de nombreux travaux avec des chercheurs en Mathématique appliquées (MAB [Bordeaux], IRMA [Strasbourg], IPP [Garching]) pour mettre au point des modèles et des schémas numériques. Les modèles que j’ai considérés étaient : multi-échelle, multi- dimensionnel, ou intégraient un niveau de réalisme élevé. D’autre part, mon cœur de compétence concerne l’algorithmique haute performance et l’optimisation d’applications parallèles de grandes tailles (collaborations LABRI [Bordeaux], LSIIT [Strasbourg], CEA/MdS [Saclay], INRIA). Les recherches que je mène visent généralement le déploiement de simulateurs numériquement coûteux sur de grandes plate-formes comportant plusieurs centaines ou plusieurs milliers de processeurs.

Une des mes ambitions est de tirer pleinement partie de nouveaux schémas numériques développés en Mathématiques Appliquées d’un côté, et des nouvelles abstractions et technologies adaptées aux grandes plate-formes de calcul de l’autre. Cette approche mixte et interdisciplinaire est nécessaire pour endiguer le cloisonnement qui existe entre les communautés du calcul scientifique. Cela me permet de mettre en oeuvre concrètement des outils passant à l’échelle qui sont indispensables aux chercheurs travaillant sur la physique des plasmas et des hautes énergies, comme à d’autres domaines.

J’ai toujours eu à cœur de travailler les aspects méthodologiques, mais aussi et surtout sur la mise en pratique en visant des codes de production. Je me suis intéressé à la fois à la mise au point de schémas, d’algorithmes mais aussi à leur validation par la réalisation d’applications généralement coûteuses en calcul comme en mémoire. J’ai aussi investi du temps à mieux comprendre les domaines applicatifs pour lesquels j’ai travaillé : dynamique des populations, géophysique, physique des plasmas avec confinement inertiel et confinement magnétique.

PROJETS FINANC´ES, RECHERCHE DE FINANCEMENTS

Durant les douze dernières années, j’ai mené mes activités de recherche dans différents lieux. J’ai notamment effectué deux années de délégation à l’INRIA Bordeaux - Sud-Ouest dans l’équipe Scalapplix (de septembre 2006 à août 2008). Ceci m’a permis de poursuivre des collaborations avec le LABRI et d’en initier de nouvelles. Cette ouverture a conduit à mon implication forte dans une action soutenue par l’ANR : le projet MASSIM concernant la simulation et la visualisation utilisant des structures de données adaptatives et hiérarchiques. A la suite de cette délégation, je me suis engagé sur d’autres actions. L’ANR HOUPIC a démarré en 2007 et avait, en autre, pour objet la simulation parallèle des équations Vlasov-Maxwell pour la physique des plasmas en utilisant la méthode Particle-In-Cell. Au sein du LSIIT (mon laboratoire de rattachement lorsque j’étais à l’Université de Strasbourg), nous avons fourni un effort de développement et de recherche pour mener cette opération à bien (j’étais coordinateur scientifique pour le LSIIT). J’ai demandé et obtenu un budget dans cette action HOUPIC pour recruter et encadrer deux ingénieurs afin de réaliser une application parallèle scalable et des recherches dans ce domaine. Ensuite, l’ANR EGYPT (étude de techniques de simulation Gyrocinétique pour les plasmas de Tokamak en collaboration avec le CEA Cadarache) a débuté en 2008. Le projet ANR GYPSI qui a débuté fin 2010 en est le prolongement. La poursuite des travaux de parallélisation et de développement de GYSELA (code du CEA Cadarache) étaient au cœur de ces 2 projets ; j’y ai contribué très activement.

J’ai aussi participé (en tant que que coordinateur scientifique pour le LSIIT) à un appel ANR blanche qui a débuté en décembre 2010 (nom du projet E2T2). Cette action de recherche abordait les effets électromagnétiques sur le transport turbulent dans les plasmas chauds magnétisés. Pour ce faire, j’ai aidé à la parallélisation du code EMEDGE3D dans une collaboration entre le CEA Cadarache, le laboratoire de Physique théorique PIIM de Marseille et le LSIIT de Strasbourg. Cette collaboration fut utile : la puissance disponible sur les super-calculateurs d’aujourd’hui, combinée à une compétition internationale forte en physique, nécessitent de considérer des solutions de calcul haute performance pour mener des simulations de grande envergure qui se veulent très réalistes.

L’ANR ANEMOS à laquelle je participais a débuté en octobre 2011. Elle avait pour but l’amélioration du code JOREK qui modélise certains effets et instabilités MHD en géométrie réaliste.

Mon implication dans ce projet concernait l’amélioration des performances parallèles de ce code et le couplage avec la bibliothèque Pastix en collaboration étroite avec INRIA Bordeaux.

J’ai aussi été très impliqué dans le projet financé par le G8 portant sur les applications Exascale (http ://www.nu-fuse.com/ - financé sur 2011-2014). Ce projetinternational de 3 ans rassem-