Algorithme de modification de l’ordre des sous-arbres

6.4 Facteurs limitant la scalabilit´e m´emoire

6.4.5 S´equence des sous-arbres

6.4.5.1 Algorithme de modification de l’ordre des sous-arbres

Dans cette section, nous présentons deux algorithmes simples visant à optimiser la remontée dans l’arbre d’assemblage. L’algorithme se base sur la topologie de l’arbre d’as-semblage où on considère les sous-arbres comme une seule tâche.

Algorithme 6.1 Algorithme global de g´en´eration de l’ordre des sous-arbres.

ordonner sous-arbres (T) : d´ebut

Pour tout i appartenant `a l’ensemble des racines: d´eterminer l’ensemble des sous-arbres de i;

Classer les sous-arbres dans l’ordre d´ecroissant de leur distance `a i;

Classer les arbres correspondant aux racines du plus profond au moins profond ; fin

L’algorithme 6.1 classe les sous-arbres sur un crit`ere topologique qui est la distance

à la racine. Ainsi, les processeurs vont commencer leurs calculs par les sous-arbres qui correspondent aux branches les plus profondes de l’arbre d’assemblage simplifié (arbre où on considère chacun des sous-arbres comme une seule tâche). Le fait de faire commencer les processeurs par les sous-arbres qui correspondent aux branches les plus profondes va favoriser le processus de remontée ainsi que la diminution de la durée de vie des blocs de contributions.

Algorithme 6.2 Algorithme distribué de génération de l’ordre des sous-arbres.

ordonner sous-arbres (T,p) : d´ebut

Pour tout i appartenant `a l’ensemble des racines:

Pour tout j appartenant à l’ensemble des sous-arbres assignés au processeur p : Classer les sous-arbres dans l’ordre décroissant de leur distance ài;

Classer les arbres correspondant aux racines du plus profond au moins profond ; fin

L’algorithme 6.2 est une variante de l’algorithme 6.1 qui génère un ordre tel que les processeurs traitent leurs sous-arbres du plus profond au moins profond. La principale différence avec l’algorithme 6.1 est le fait que l’ordre est généré localement sur le proces-seur (alors que dans l’algorithme 6.1 l’ordre était global). Si nous considérons le cas de l’arbre T1 donné dans la figure 6.5(b), les ordres générés par les deux heuristiques sont identiques exception faite du processeur P2 qui commencera par le sous-arbre C avec

l’algorithme6.1 (branche la plus profonde), alors qu’il commencera par le sous-arbre par le sous-arbre F avec l’algorithme 6.2 (son sous-arbre le plus profond).

6.4.5.2 R´esultats exp´erimentaux

Dans cette section, nous présentons des résultats concernant l’occupation mémoire du solveur après l’application de l’algorithme 6.1. Ces résultats sont comparés à MUMPS et

à un dérivé de l’algorithme 6.1 qui fait commencer les processeurs par les branches les plus proches de la racine. Les tests ont été faits sur l’IBM SP3 du CINES² décrite dans l’annexe C.

Les expérimentations ont été faites sur les matrices BMWCRA 1, GUPTA3, MSDOOR, SHIP 003, PRE2, TWOTONE et XENON2 (voir l’annexe C pour plus de détails). De plus, les tests on été effectués sur 16 processeurs sur la plate-forme décrite précédemment. Enfin, nous avons utilisé AMF (Approximate Minimum Fill) et SCOTCH [45] comme techniques de renumérotation.

Nous nous intéressons dans ce qui suit à la taille maximale de la mémoire active sur tous les processeurs (maximum des pics). Le choix de cette métrique est motivé par le fait que cette étude vise à étudier les paramètres ayant une influence sur le comportement mémoire de manière à optimiser cette dernière. Dans ce qui suit nous nous intéressons à quatre stratégies :

Stratégie 1. Dans cette stratégie, seul l’ordre des branches à l’intérieur des sous-arbres est modifié à l’aide de la variante de l’algorithme de Liu (algorithme3.1) qui permet une utilisation mémoire optimale sur les parties séquentielles. Concernant le haut de l’arbre, l’ordre est un ordre pseudo-aléatoire où la seule est règle est que le plus gros nœud fils d’un nœud est traité en premier à chaque niveau de l’arbre.

Stratégie 2. La variante de l’algorithme de Liu (algorithme 3.1) est appliquée sur l’in-tégralité de l’arbre. Ainsi cette stratégie tend à privilégier les branches les plus profondes.

Stratégie 3. La variante de l’algorithme de Liu est toujours appliquée à l’intérieur des sous-arbres, mais les branches du haut de l’arbre sont ordonnées selon l’algorithme 6.1.

Stratégie 4. La variante de l’algorithme de Liu est toujours appliquée à l’intérieur des sous-arbres, mais les branches du haut de l’arbre sont ordonnées selon l’algorithme 6.2.

Les r´esultats obtenus sont donn´es dans les tableaux 6.6et6.7pour AMF et SCOTCH respectivement.

Nous pouvons constater qu’avec AMF l’algorithme6.1permet de légèrement diminuer le pic de mémoire active observé. Ceci est du principalement au fait qu’AMF donne des arbres très déséquilibrés (voir le chapitre2). Nous pouvons aussi remarquer que l’approche initialement adoptée par la stratégie 1 (basée sur la variante de l’algorithme de Liu) est

2Centre Informatique National de l’Enseignement Sup´erieur

6.4. FACTEURS LIMITANT LA SCALABILIT ´E M ´EMOIRE 91

BMWCRA 1 GUPTA3 MSDOOR SHIP 003 PRE2 TWOTONE XENON2 Strat´egie 1

Tab.6.6 – Pics de mémoire active (en millions de réels) observés sur 16 processeurs avec AMF avec et sans l’algorithme 6.1.

dans la majorité des cas meilleure que la stratégie 2 . Ainsi l’ordre basé sur la profondeur, donné par l’algorithme6.1(stratégie 3) peut être une bonne approche. Nous pouvons aussi constater que l’algorithme6.2(stratégie 4) est en général moins bon que l’algorithme 6.1.

Ceci est dû principalement au fait que le processus de remontée est fait à plusieurs endroits simultanément. Cependant il est important de signaler que sur des cas particuliers, comme par exemple GUPTA3 avec AMF sur 16 processeurs, on obtient une diminution de 18,9

%. De plus, d’autres anomalies comme celle observée avec AMF sur la matrice MSDOOR où les stratégie 1 et 4 ont la meilleure occupation mémoire.

Fig. 6.6 – Illustration des probl`emes relatifs `a la taille des sous-arbres.

En analysant ces situations (GUPTA3 avec les stratégies 1,2 et 3 et MSDOOR avec les stratégies 2 et 3), nous avons observé que le pic mémoire est atteint à l’intérieur d’un sous-arbre. Cela est illustré dans la figure 6.6. En effet, lorsqu’un processeur a plusieurs sous-arbres et que ses sous-arbres n’apparaissent que dans les parties les plus hautes de l’arbre, il peut traiter plusieurs sous-arbres avant que les blocs de contribution de ceux-ci ne soient consommés. En d’autres termes, et si nous revenons à l’exemple, le bloc de contribution produit par la racine du sous-arbre situé sur la branche la profonde (sous-arbre E sur P0) sera consommé longtemps après sa génération. De ce fait il sera présent en mémoire lorsque le processeur traitera ses autres sous-arbres (qui peuvent être plus coûteux comme montré dans la figure 6.6). Ainsi, dans ce genre de configuration où un processeur (en l’occurrence P0) a plusieurs sous-arbres (E et G), il est parfois préférable de faire commencer le processeur par le sous-arbre le plus coûteux, en l’occurrence G, (même si ce dernier n’est pas sur la branche la profonde). Il est donc important de permettre aux

processeurs de changer l’ordre donné par l’algorithme 6.1 pour améliorer le pic mémoire.

BMWCRA 1 GUPTA3 MSDOOR SHIP 003 PRE2 TWOTONE XENON2 Strat´egie 1

Tab.6.7 – Pics de mémoire active (en millions de réels) observés sur 16 processeurs avec SCOTCH avec et sans l’algorithme 6.1.

En ce qui concerne SCOTCH, nous pouvons voir que l’algorithme 6.1 (Stratégie 3) peut être moins efficace en terme de comportement mémoire que la stratégie 1 (sur PRE2 par exemple). Ceci peut être expliqué par le fait que SCOTCH génère des arbres d’as-semblage bien équilibrés (voir le chapitre 2). De ce fait, l’ordre donné par l’algorithme 6.1, qui est basé sur la distance à la racine, n’est pas adapté vu que les sous-arbres sont tous à des distances comparables de la racine. Une solution pour ce genre de problèmes serait de prendre en compte la distribution des nœuds de l’arbre sur les processeurs dans l’algorithme6.1. Il est aussi important de prendre en compte la taille des sous-arbres dans le choix de l’ordre en se basant sur les résultats séquentiels présentés dans le chapitre 3.

Dans le document Etude et optimisation du comportement ´ m´ emoire dans les m´ ethodes parall` eles de (Page 97-100)