Extension parall`ele - Etude et optimisation du comportement ´ m´ emoire dans les m´ ethodes pa

3.10 Remarques

3.10.2 Extension parall`ele

Les résultats présentés dans ce chapitre concernaient le traitement séquentiel de l’arbre associé à la méthode multifrontale. Dans le cas parallèle, les algorithmes peuvent être appliqués sur les parties séquentielles de l’arbre. Concernant les parties parallèles, dans lesquelles les tâches elles-même sont souvent parallèles, l’algorithme sera très dépendent de la gestion mémoire et de le gestion du parallélisme de l’implémentation considérée.

Une approche générale serait de modifier statiquement la structure de l’arbre de ma-nière à insérer des nœuds fictifs entre un père est ses fils. Ces nœuds seront en général de taille inférieure à celle du père. De plus, ces nœuds ne seraient pas “factorisables”

mais seraient juste utilisés pour l’assemblage intermédiaire des blocs de contribution des nœuds fils. Une autre approche consisterait à anticiper l’allocation du père en fonction de critères pouvant être plus dynamiques.

3.11 Conclusion

Nous avons présenté dans ce chapitre un algorithme visant la minimisation de la mémoire utilisée par la méthode multifrontale. Dans le cas de la mémoire active, nous avons présenté un algorithme optimale pour la minimisation de la taille de la mémoire active utilisée par la méthode. Cette approche est basée sur l’anticipation de certaines tâches dans le but de minimiser la mémoire. Les résultats expérimentaux présentés dans ce chapitre ont permis de voir le potentiel de notre algorithme. Cet algorithme a pour but d’être utilisé dans un schéma d’exécution out-of-core où les facteurs seraient stockés sur disque dés leur génération et où la minimisation de la mémoire active prend tout son sens.

Concernant le cas in-core, il est nécessaire de minimiser la mémoire totale. De ce fait, il est nécessaire de prendre en compte la taille des facteurs pour la génération d’un parcours d’arbre qui minimiserait la mémoire. Nous avons proposé un algorithme qui pro-duit un parcours optimal en terme de pic de mémoire totale. Des résultats expérimentaux satisfaisants ont pu être obtenus avec notre algorithme.

Enfin, nous avons étudié l’extension de notre approche à des implémentations spéci-fiques ayant certaines propriétés sur le comportement mémoire. Il est apparu que notre approche pour la minimisation de la mémoire active donne de très bons résultats dans le cas où l’assemblage du dernier fils (avant l’allocation du père) peut être fait «sur place» dans le nœud père.

Cette étude n’ayant été finalisée qu’à la fin de la thèse, une stratégie complète per-mettant d’anticiper l’activation du père n’a pas été implémentée au niveau de l’étape de factorisation numérique de notre environnement d’expérimentation, MUMPS. Les résultats des chapitres qui suivent utilisent ainsi le schéma classique (sans pré-allocation du père) où la mémoire est cependant minimisée en appliquant l’algorithme3.1.

Deuxi` eme partie

Etude du comportement m´ ´ emoire de la m´ ethode multifrontale parall` ele

Chapitre 4

Sch´ ema parall` ele pour la m´ ethode multifrontale

Après les études du cas séquentiel présentées dans les chapitres précédents, nous nous intéressons au cas parallèle. L’objectif de ce chapitre est de décrire la méthode multi-frontale parallèle telle qu’elle est implémentée dans la bibliothèque logicielleMUMPS. Cette approche est basée sur une combinaison de stratégies d’ordonnancement statiques et dy-namiques que nous allons présenter. Ainsi, nous allons commencer dans la section 4.1 par décrire le parallélisme dans la méthode multifrontale. Puis, nous présenterons dans la section 4.2 les aspects statiques de l’ordonnancement. Enfin, dans la section 4.3, nous décrirons les ordonnanceurs dynamiques utilisés pour la gestion du parallélisme.

4.1 Parall´ elisme dans la m´ ethode multifrontale

La méthode multifrontale parallèle est basée sur une combinaison de techniques d’or-donnancement statiques, i.e. déterminées lors de la phase d’analyse de la matrice, et dynamiques, i.e. définies au fur et à mesure de l’évolution du calcul. Une description détaillée de ces algorithmes est donnée dans [7] et [5]. À chaque nœud de l’arbre d’assem-blage est associé un type de parallélisme. La figure4.1 donne un exemple de distribution de tâches. Il existe trois types de parallélisme dans la méthode qui correspondent à trois types de nœuds dans l’arbre d’assemblage :

– Le premier type de parallélisme est celui qui est induit par l’arbre d’assemblage : les branches indépendantes de l’arbre peuvent être traitées en parallèle, indépen-damment les unes des autres. Un nœud de type 1 est assigné statiquement à un processeur qui peut le traiter dès la réception des blocs de contributions envoyés par les processeurs assignés à ses fils.

Les feuilles de l’arbre sont des nœuds de type 1. De plus, les nœuds du bas l’arbre sont regroupés en sous-ensembles, sous-arbres, assignés aux différents processeurs.

Les nœuds appartenant à ces sous-arbres sont tous de type 1. La détermination des sous-arbres est effectuée à l’aide d’un algorithme descendant [31]. Une phase

Fig. 4.1 – Exemple de distribution d’un arbre d’assemblage sur quatre processeurs.

d’affectation sous-arbre (ensemble) à processeur est ensuite effectuée en ayant pour objectif d’équilibrer la charge de travail des sous-arbres sur les processeurs. Une description plus détaillée de ce processus est donnée en section 4.2.1.

– Le second type de nœuds correspond à un parallélisme intra-nœud dans lequel une parallélisation sur une dimension (1D) du calcul sur la matrice frontale est effectuée.

En effet, pour certains nœuds de l’arbre d’assemblage, la matrice frontale est trop grande pour pouvoir être traitée sur un seul processeur, ou bien le parallélisme à ce niveau de l’arbre devient trop limité. Dans ce cas, la matrice frontale est distri-buée par blocs de lignes sur plusieurs processeurs. Un processeur maˆıtre est choisi statiquement pendant la phase d’analyse symbolique (voir la section4.2.2), tous les autres processeurs (esclaves) qui participent au traitement de ce nœud sont choisis dynamiquement pendant la factorisation en fonction de leur charge. Le processeur maˆıtre est responsable de la factorisation du bloc des variables totalement agrégées (voir la section 2.1) alors que les esclaves sont responsables des mises-à-jour cor-respondantes sur leur blocs respectifs. Une description détaillée de la stratégie de sélection d’esclaves est donnée dans la section 4.3.1.

Le processeur maˆıtre choisit dynamiquement les processeurs esclaves selon leur charge de calcul et il leur affecte une nouvelle tâche. La métrique de charge est le nombre d’opérations en virgule flottante qui doivent être effectuées, où seules les opérations correspondant au processus de factorisation sont prises en compte (elles sont d’un ordre de magnitude plus nombreuses que les opérations nécessaires

`a l’assemblage).

– Le troisième type de parallélisme, qui est un parallélisme bi-dimensionnel (2D) concerne le nœud racine de l’arbre. Ce nœud est alors traité par tous les processeurs en utilisant ScaLAPACK [19] avec une distribution 2D cyclique.

Dans le document Etude et optimisation du comportement ´ m´ emoire dans les m´ ethodes parall` eles de (Page 65-71)