R´esultats exp´erimentaux - Etude et optimisation du comportement ´ m´ emoire dans les m´ ethod

3.8 R´ esultats exp´ erimentaux

Dans cette section nous présentons des résultats expérimentaux pour les algo-rithmes3.3 et3.4.

Pour nos tests, nous avons utilisé le logiciel MUMPS. Nous avons implémenté l’algo-rithme ainsi que les différentes heuristiques dans la phase d’analyse de MUMPS et nous calculons statiquement l’occupation mémoire pour chacun des parcours de l’arbre d’as-semblage. Dans ce simulateur, l’arbre est parcouru en remontée d’abord (ce parcours est celui utilisé à la factorisation) en générant les informations correspondant à chacun des algorithmes/heuristiques de manière à avoir en sortie le pic mémoire. Ceci nous permet d’analyser les résultats de chacun des algorithmes sans avoir à implémenter le nouveau processus multifrontal dans la factorisation numérique elle-même qui est très liée au lo-giciel utilisé. Il est important de signaler que pour nos expériences, nous avons considéré un stockage non-symétrique des matrices frontales même pour les matrices symétriques.

Nous avons utilisé des arbres d’assemblages générés par différentes techniques de re-numérotation : AMD (Approximate Minimum Degre) [6], AMF (approximate Minimum Fill) tel qu’implémenté dans MUMPS, PORD [52] et METIS [37]. Les problèmes utilisés sont listés dans le tableau 3.1 et sont numérotés de 1 à 45. Une description détaillée de ces problèmes est donnée dans l’annexe C. Enfin, les expérimentations ont été faites sur un nœud de la machine IBM SP de l’IDRIS¹ qui offre suffisamment de mémoire pour effectuer la phase d’analyse de toutes ces matrices (voir l’annexe Cpour plus de détails).

3.8.1 M´ emoire Active

Les résultats des mesures effectuées pour chacune des matrices avec les quatre tech-niques de renumérotation sont donnés dans la figure 3.5. Signalons tout d’abord que les résultats correspondant aux matrices 8, 9, et 10 ne sont pas donnés dans les figures mais dans les légendes (voir les légendes de la figure 3.5) pour des raisons d’échelle. Comme prévu, nous pouvons observer que l’approche optimale décrite par l’algorithme 3.3 (nor-malisée à 1) est toujours la meilleure. Les gains obtenus sont bons en comparaison des pics obtenus par la variante de l’algorithme de Liu (algorithme 3.1) et l’activation systéma-tique du père après le traitement du premier fils (section3.4.1.2). Nous pouvons constater que les gains les plus significatifs par rapport à la variante de l’algorithme de Liu ont été obtenus sur des arbres très larges (les matrices GUPTA) pour lesquels le stockage de tous les blocs de contribution des fils avant l’activation du père est très coûteux. De plus, nous pouvons constater que suivant la technique de renumérotation utilisée, les gains peuvent être plus ou moins importants. Par exemple, l’algorithme 3.3 semble être relativement plus performant avec les arbres générés par AMD. Ceci peut être expliqué par le fait qu’AMD produit des arbres plutôt profonds avec des nœuds de taille importante ayant de gros blocs de contribution sur le haut de l’arbre (voir le chapitre 2). De plus, dans le cas d’AMD, le pic mémoire est souvent atteint dans une opération d’assemblage. Ainsi,

1Institut du D´eveloppement et des Ressources en Informatique Scientifique

probl`emes sym´etriques

1. 3DTUBE 9. GUPTA2 17. S3DKQ4M2

2. AUDIKW 1 10. GUPTA3 18. S3DKT3M2

3. BCSSTK34 11. MSDOOR 19. SHIP 003

4. BCSSTK38 12. M T1 20. STRUCT4

5. BMWCRA 1 13. NASA1824 21. THREAD

6. CFD2 14. NASA2910 22. VIBROBOX

7. CRANKSG2 15. NASA4704

8. GUPTA1 16. OILPAN

probl`emes non-sym´etriques

23. AF23560 31. LI 39. TWOTONE

24. BIG 32. MCHLNF 40. ULTRASOUND3

25. CIRCUIT 4 33. MIXING TANK 41. VENKAT50

26. EPB3 34. ONETONE1 42. WANG1

27. GARON02 35. PRE2 43. WANG3

28. GRAHAM1 36. RMA10 44. XENON2

39. GRID48 37. SAYLR1

30. INVEXTR1 38. THERMAL

Tab. 3.1 – Matrices de test.

l’anticipation de l’allocation du père peut potentiellement diminuer le pic. À l’opposé, avec les arbres générés par METIS, l’algorithme3.3 donne pour beaucoup de cas tests le même pic mémoire que celui de la variante de l’algorithme de Liu. Ceci est principalement du à la régularité et le bon équilibre des arbres produits par METIS (voir le chapitre 2).

De plus, dans le cas de METIS, le pic est souvent atteint dans le haut de l’arbre où généralement la somme des tailles des blocs de contribution des fils est plus petite que la taille du père.

Enfin, en ce qui concerne AMF et PORD, l’algorithme3.3donne souvent un pic proche de celui donné par la variante de l’algorithme de Liu. Ceci peut être expliqué par le fait que ces algorithmes de renumérotation produisent des arbres très déséquilibrés avec de petits nœuds et de petits blocs de contribution, dans lesquels l’anticipation du père ne va pas diminuer le pic.

Il est important de signaler que pour les tous cas de test, l’algorithme 3.3 est meilleur que les deux autres approches. Ceci illustre que la souplesse concernant l’activation du père introduite par l’algorithme peut être bénéfique.

3.8.2 M´ emoire totale

Les résultats des mesures effectuées pour chacune des matrices avec les quarres tech-niques de renumérotation sont donnés dans la figure 3.6. Nous comparons dans cette figure les trois algorithmes suivants :

3.8. R ´ESULTATS EXP ´ERIMENTAUX 49

(a) AMD. Les gains de l’algorithme3.3 par rapport à l’algorithme 3.1 sont égaux à 14.5, 10.1 et 14.5 pour les matrices 8, 9, et 10, respectivement.

(b) AMF. Les gains de l’algorithme3.3 par rapport à l’algorithme3.1 sont égaux à 10.9, 9.4 et 1.2 pour les matrices 8, 9, et 10, respectivement.

(c) PORD. Les gains de l’algorithme3.3par rapport à l’algorithme 3.1 sont égaux à 86.7, 18.1, et 19.0 pour les matrices 8, 9, et 10, respectivement.

(d) METIS. Les gains de l’algorithme 3.3par rapport

à l’algorithme3.1sont égaux à 27.2, 17.5, et 19.6 pour les matrices 8, 9, et 10, respectivement.

Fig. 3.5 – Comparaison des pics de mémoire active mesurés entre l’algorithme 3.3 (nor-malisé à 1), la variante de l’algorithme de Liu, l’activation anticipée du père.

– L’algorithme 3.2, c’est à dire l’algorithme optimal pour la minimisation de la mé-moire totale dans le schéma standard de la méthode multifrontale.

– L’algorithme dans lequel le père est systématiquement alloué après le traitement du premier fils. Ces derniers sont classés dans l’ordre décroissant de leur T_e_i,j −f e_i,j. Nous appellerons cet algorithme : algorithme d’allocation anticipée du père.

– L’algorithme 3.4

Signalons tout d’abord que tout comme pour le cas de la minimisation de la mémoire active les résultats correspondant aux matrices 8, 9, et 10 ne sont pas donnés dans les figures mais dans les légendes de la figure 3.6. De plus, il est à noter que dans le cas où le graphe de la matrice est constitué de plusieurs arbres, nous mesurons le pic mémoire sur l’arbre le plus coûteux. En effet, la minimisation de la mémoire totale dans ce cas passe par une minimisation intra-arbre (en appliquant l’heuristique voulue) suivie d’un classement des arbres dans l’ordre décroissant de leurT −f (voir la section 3.4.2).

Nous pouvons constater que l’algorithme 3.4 donne toujours les meilleurs r´esultats.

De plus, nous pouvons constater que l’algorithme d’allocation anticipée du père a sur un grand nombre de cas une performance équivalente à celle de l’algorithme 3.4. Ceci peut être expliqué par le fait que l’accumulation des facteurs pendant le parcours de l’arbre ne laisse pas beaucoup de liberté à l’algorithme 3.4. Ainsi, l’algorithme d’alloca-tion anticipée du père produit un ordre optimal dans le haut de l’arbre pour un certain nombre de couples matrice, algorithme de renumérotation. Enfin, nous observons que l’algorithme3.2 (sans pré-allocation du père) donne des performances moins bonnes que celles de l’algorithme3.4. Ceci est principalement dû au fait que le père est assemblé, pour l’algorithme 3.2, après que tous ses fils aient été traités. De ce fait, à chaque niveau de l’arbre, les blocs de contributions s’accumulent avant l’activation du père, ce peut avoir un effet négatif sur le pic de mémoire totale. L’illustration de ce phénomène peut être observée dans le cas des matrices 8, 9 et 10 pour lesquelles les arbres correspondant sont très larges ce qui implique le stockage d’un nombre important de blocs de contribution.

Dans le document Etude et optimisation du comportement ´ m´ emoire dans les m´ ethodes parall` eles de (Page 55-58)