Calcul parallèle et treecode - Etude du système couplé Boltzmann sans collisions-Poisson pour l

Calcul parallèle : pourquoi, où et comment ?

Le temps de calcul du potentiel gravitationnel, malgré l'approximation réalisée, est toujours très important. Mais il est possible de le faire baisser de façon spectaculaire en utilisant une version parallélisée du treecode7_.

La version du treecode que nous avons utilisée est basée sur le treecode de J.E.Barnes et P.Hut et a été

6_{Le schéma saute-mouton est expliqué plus largement dans l'annexe}_A2 7_{Pour une introduction au calcul parallèle, se référer à l'annexe}_B_.

parallélisée par D.Pfenniger (Observatoire de Genève). La parallélisation ne concerne que le calcul du potentiel. Le calcul de l'accélération subie par les N particules de la simulation (l'étape3de la boucle principale) est donc partagé entre les diérents processeurs (le premier processeur calcule l'accélération subie par les n1premières particules, le deuxième l'accélération subie par les n2 suivantes, ...). Toutes

les autres étapes de calcul, telles que l'avancement des particules ou le calcul des diagnostics, sont séquentielles.

Le code de calcul parallèle a été exécuté sur un cluster d'ordinateurs composé d'environ vingt machines bi-processeurs. Ces ordinateurs sont connectés par un réseau Ethernet. La parallélisation est mise en ÷uvre à l'aide de la bibliothèque MPI (Message Passing Interface). Il s'agit donc ici de calcul à mémoire distribuée, et non partagée, c'est-à-dire que chaque processeur dispose de ses propres ressources mémoires et que l'échange d'information entre processeurs a lieu par l'intermédiaire de messages transitant par le réseau Ethernet.

Le code est écrit sur le modèle maître-esclave. Un programme maître, exécuté sur un seul processeur, lit les données concernant la simulation, les communique aux programmes esclaves, partage le travail de calcul des accélérations entre tous les processeurs, réunit les résultats, avance les particules et calcule les diagnostics. Le programme esclave, exécuté sur les autres processeurs, se contente de recevoir les données, de calculer l'accélération8 _{pour un partie des particules et d'envoyer ce résultat au maître.}

Le parallélisme est-il ecace ?

L'accélération relative Sp(aussi appelée speed-up relatif) d'un programme parallèle est dénie par

le rapport entre le temps t(1) _{mis par le code pour eectuer un calcul sur un processeur et le temps}

t(p) mis pour eectuer un calcul sur p processeurs Sp=

t(1) t(p) .

Cette accélération est dite linéaire si Sp = p et sous-linéaire si Sp < p. Il est très dicile, voire

impossible, d'obtenir une accélération linéaire, en particuliers en raison des surcoûts en calcul et en communications impliqués par la parallélisation.

An de prévoir la prédisposition d'un algorithme à être parallélisé ecacement, il est utile de s'inté- resser à la Loi d'Amdahl. Si l'on appelle γseq (0 ≤ γseq≤ 1) la fraction intrinsèquement séquentielle,

et donc non parallélisable9_{, d'un algorithme, alors l'accélération S}

p sera telle que

Sp≤ 1 γseq+ 1−γseq p (2.18) Cette loi nous dit donc que si un algorithme contient une fraction non parallélisable de 10%, alors l'accélération ne peut être supérieure à 10, et ce quel que soit le nombre de processeurs utilisés. Cette loi est relativement controversée, car basée sur un modèle très simplié, et ses prédictions ne se révèlent pas forcément exactes. Elle fournit cependant une idée des performances auxquelles on peut s'attendre en parallélisant un algorithme.

En ce qui concerne le treecode, lorsque le nombre de particules contenues dans la simulation est grand, le calcul du potentiel (la partie parallèle) représente très nettement la fraction la plus importante, en

8_{Par calcul de l'accélération, il faut comprendre ici construction de l'arbre puis calcul de l'accélération (les étapes} 2et3de la boucle principale décrite dans le paragraphe1.2). Ceci signie qu'en pratique des arbres identiques sont construits indépendamment et simultanément (en théorie) par chaque esclave et par le maître. Bien évidemment, il est inutile de construire l'arbre de manière identique sur chaque processeur, il surait de le construire dans le programme maître puis de le communiquer aux programmes esclaves. Cependant, le temps occupé par le maître à la construction de l'arbre serait du temps perdu pour les esclaves, et à ceci s'ajouterait le temps consacré à la communication. Il est donc vraisemblablement préférable, en termes de performances, de construire un arbre sur chaque processeur.

20 16 12 8 4 1 1 4 8 12 16 20 Nombre de processeurs Accélération

Fig. 2.4 Accélération en fonction du nombre de processeurs pour des systèmes comprenant 5000, 50000 et 200000 particules.

général au moins 90%, du temps de calcul. L'accélération obtenue est donc satisfaisante, puisqu'elle n'est que légèrement sous-linéaire jusqu'à 10 processeurs (voir la gure2.4). L'ecacité du parallélisme se dégrade ensuite, mais reste raisonnable (Sp≈ 12pour 20 processeurs).

Ces performances se sont dégradées lorsque des routines de calcul d'observables ont été adjointes au code principal. Ces opérations ont fait augmenter la fraction de calcul séquentiel, ce qui ne pouvait que faire diminuer l'accélération maximale.

2 Conditions initiales

L'un des objectifs de notre travail consiste à analyser l'inuence des conditions initiales sur les caractéristiques des systèmes produits à la suite d'un eondrement gravitationnel. Il est donc indis- pensable que notre générateur nous permette de créer un très large éventail de conditions initiales. Certains des paramètres déterminant la nature du système créé par notre code méritent quelques explications, à la fois concernant leur signication et la manière dont ils sont pris en compte par le générateur de conditions initiales.

Dans le document Etude du système couplé Boltzmann sans collisions-Poisson pour la gravitation: simulations numériques de la formation des systèmes auto-gravitants (Page 56-58)