Minimisation m´emoire : assemblage

Dans cette section, nous décrivons des variantes des algorithmes décrits précédem-ment. Nous supposons que l’assemblage du dernier fils, le p^`ême fils, avant l’allocation du père est fait «sur place» dans la matrice frontale du père. Ainsi, la zone mémoire cor-respondant au bloc de contribution du p^`ême fils recouvre la zone de stockage du nœud père. En pratique, ce schéma est implémentation-dépendant, certains codes permettent ce genre d’assemblage alors que d’autres ne le permettent pas.

3.9.1 M´ emoire active

Nous nous pla¸cons dans le cadre où l’assemblage du bloc de contribution correspondant au dernier fils avant l’allocation du père est fait «sur place». Ainsi le besoin en mémoire

3.9. MINIMISATION M ´EMOIRE : ASSEMBLAGE «SUR PLACE» 51

(a) AMD. Les gains par rapport `a l’algorithme3.2sont

´egaux `a 6.57, 6.78 et 4.12 pour les matrices 8, 9, 10, respectivement.

(b) AMF. Les gains par rapport `a l’algorithme3.2sont

´egaux `a 4.26, 4.30 et 1.25 pour les matrices 8, 9, 10, respectivement.

(c) PORD. Les gains par rapport à l’algorithme 3.2 sont égaux à 26.08, 8.95 et 8.09 pour les matrices 8, 9, 10, respectivement.

(d) METIS. Les gains par rapport à l’algorithme 3.2 sont égaux à 9.99, 7.30 et 3.61 pour les matrices 8, 9, 10, respectivement.

Fig. 3.6 – Comparaison des pics de mémoire totale entre l’algoritme 3.4 (optimal, nor-malisé à 1), l’algoritme 3.2, et l’allocation anticipée du père.

active d’un nœud i de l’arbre est donn´e par la formule suivante :

A_i = max( max

j=1,p(Aei,j +

j−1

k=1

cb_e_i,k),

stockage_i+

p−1

j=1

cb_e_i,j, stockage_i+ max

j=p+1,ni

(Aei,j))

(3.14)

La principale diff´erence entre cette formule et la formule (3.8) vient du terme stockage_i+Pp−1

j=1cb_e_i,j. En effet, cette différence est due à notre hypothèse sur l’assemblage du bloc de contribution correspondant au p^`ême fils.

La conception d’un algorithme qui minimise la mémoire active avec cette nouvelle hypothèse est équivalente à ce qui a été fait dans la section 3.5. La principale différence provient de la recherche de l’ordre optimal sur l’ensembleE₁. En effet, pour les éléments appartenant à cet ensemble, nous devons utiliser l’algorithme de Liu [41] présenté dans la section 3.4.1.1 qui produit un ordre de traitement des fils optimal avec l’hypothèse que l’assemblage du bloc de contribution du dernier fils avant l’activation du père est fait

«sur place». Ainsi, nous devons classer les fils appartenant à E1 dans l’ordre décroissant de max(Aei,j, stockage_i)−cb_e_i,j. Il suffit alors de modifier l’algorithme 3.3 pour que les fils appartenant à E₁ soient classés dans cet ordre.

Dans la figure3.7nous donnons les résultats des mesures de la taille de la mémoire ac-tive en utilisant le nouvel algorithme (algorithme 3.3,«sur place»). Nous avons comparer les résultats obtenus avec :

– L’algorithme de Liu dans le cas o`u l’assemblage du bloc de contribution du der-nier fils est fait «sur place». Nous noterons cet algorithme (Liu, «sur place»). Une description de cet algorithme est donn´ee dans la section 3.4.

– L’algorithme d’activation anticipée du père, «sur place» présenté dans la sec-tion 3.4.1.2.

– L’algorithme 3.3 tel que présenté dans la section 3.5 (l’assemblage du dernier fils avant l’allocation du père n’est pas faite «sur place»).

Nous pouvons constater que des gains significatifs peuvent ˆetre obtenus par rapport

à la version originale de l’algorithme 3.3. En effet, avec le nouvel algorithme, les gains dus à l’assemblage «sur place» du dernier fils avant l’activation du père vont modifier le parcours global de l’arbre en autorisant les nœuds père à être activés plus tôt. Ceci explique pourquoi les gains dépassent le coût mémoire du plus gros bloc de contribution de l’arbre d’assemblage.

3.9. MINIMISATION M ´EMOIRE : ASSEMBLAGE «SUR PLACE» 53 Algorithme d’allocation anticipée du père, sur−place Algorithme 3.3 Algorithme d’allocation anticipée du père, sur−place Algorithme 3.3 Algorithme d’allocation anticipée du père, sur−place Algorithme 3.3 Algorithme d’allocation anticipée du père, sur−place Algorithme 3.3 Algorithme 3.3, sur−place

(d) METIS

Fig. 3.7 – Comparaison des pics de mémoire active entre algorithmes «sur place» et l’algorithme3.3. La mémoire est normalisée à la valeur du pic mémoire mesuré en utilisant la version «sur place»de l’algorithme 3.3.

3.9.2 M´ emoire totale

Tout comme dans le cas de la mémoire active, si l’assemblage du bloc de contribution du dernier fils avant l’activation du père (p^`ême fils) est fait «sur place», la taille de la mémoire totale nécessaire au traitement d’un nœud i est donnée par :

T_i = max³

La principale différence entre cette formule et la formule (3.8) (cas standard) vient du calcul du pic de mémoire totale pour l’ensembleE₁. En effet, dans le second terme du max dans la formule 3.15, le bloc de contribution du p^`ême fils n’est pas pris en compte lors pour le calcul de la taille de la mémoire totale nécessaire à l’assemblage du père.

En ce qui concerne le théorème 3.3, il est possible dans le cadre «sur place» de l’étendre. En effet, la seule différence, tout comme dans le cas de la minimisation de la mémoire active (voir la section 3.9.1), vient de l’ordre de traitement des fils apparte-nant à E1. Ainsi, l’ordre introduit dans le lemme 3.4 n’est plus optimal dans ce nouveau cadre et il est nécessaire de générer un ordre qui minimise l’expression suivante :

P₁ = max( max

où P1 représente le pic sur l’ensemble E1 en prenant en compte l’allocation du père.

Il est à noter que l’expression de P1 peut être réécrite de la manière suivante :

P1 = max³

3.9. MINIMISATION M ´EMOIRE : ASSEMBLAGE «SUR PLACE» 55

ainsi :

P₁ = max

j=1,p

³^j

−1

k=1

(cb_e_i,k +f_e_i,k) + max(T_e_i,j, stockage_i+f_e_i,j)´

Cette transition dernière transition est expliquée par le fait que si le pic mémoire est atteint lors du traitement de l’un des fils, la valeur du terme max(Tei,j, stockage_i+f_e_i,j) sera égale àT_e_i,j. Dans le cas contraire, c’est à dire que le pic mémoire est atteint au niveau de l’assemblage du père, le pic sera atteint après le traitement du dernier fils. Ainsi, la valeur de max(Tei,j, stockage_i+f_e_i,j) sera égale à stockage_i +f_e_i,j. Il est important de signaler que dans ce cas les valeurs intermédiaires du pic mémoire pour chacun des fils sont forcément inférieures à celle obtenue après le traitement du dernier fils.

En appliquant le théorème de Liu (voir la section 3.4.1.1), nous obtenons que la valeur minimale pour P1 est obtenue en classant les fils dans l’ordre décroissant de leur max(T_e_i,j, stockage_i+f_e_i,j)−(cb_e_i,j +f_e_i,j) respectif (le théorème est appliqué avec x_i = max(Tei,j, stockage_i+f_e_i,j) et y_i =cb_e_i,j +f_e_i,j).

De ce fait en utilisant l’ordre décrit précédemment pour traiter E₁ dans l’algo-rithme 3.4, nous obtenons un algorithme qui produit un parcours donnant un pic de mémoire totale optimal. Dans ce qui, nous appellerons cet algorithme algorithme 3.4,

«sur place».

La figure 3.8 repr´esente une comparaison entre cette approche et :

– L’algorithme d’activation anticipée du père, «sur place» dans lequel le père est systématiquement alloué après le premier fils. De plus les fils sont ordonnés dans l’ordre décroissant de leur T_e_i,j −f_e_i,j respectif.

– Le schéma multifrontal classique, dans lequel le père est alloué après que tous ses fils aient été traités. De plus l’assemblage du bloc de contribution du dernier fils est fait «sur place». Ainsi les fils sont classés dans l’ordre décroissant de leur max(T_e_i,j, stockage_i+f_e_i,j)−(cb_e_i,j+f_e_i,j) respectif. Nous appellerons cet algorithme Schéma classique, «sur place» dans la figure 3.8.

– L’algorithme 3.4 dans lequel l’assemblage du dernier fils n’est pas fait «sur place». Cette comparaison permet d’apprécier l’impact sur le pic mémoire du mécanisme d’assemblage du dernier bloc de contribution «sur place».

Signalons que les résultats correspondant aux matrices 8, 9, et 10 ne sont pas donnés dans les figures mais dans les légendes de la figure 3.8 pour des raisons d’échelle.

Nous pouvons constater que des gains peuvent être obtenus par rapport à la version originale de l’algorithme 3.4. De plus, nous pouvons constater que l’algorithme d’activa-tion anticipée du père,«sur place» donne de moins bons résultats par rapport à ceux de l’algorithme 3.4. Ceci peut être expliqué par le fait que l’assemblage sur «sur place» du bloc de contribution du dernier fils permet permet de diminuer le pic mémoire à chaque niveau de l’arbre. De ce fait, l’algorithme 3.4 bénéficie sur le haut de l’arbre de plus de souplesse pour générer l’ordre optimal.

0.9

(a) AMD. Les gains par rapport auSch´ema classique,

«sur place» sont ´egaux `a 6.55, 7.64 et 4.09 pour les

(b) AMF. Les gains par rapport auSch´ema classique,

«sur place» sont ´egaux `a 4.49, 4.74 et 1.44 pour les

«sur place» sont ´egaux `a 28.42, 9.21 et 8.34 pour les

(d) METIS. Les gains par rapport auSch´ema classique,

«sur place» sont ´egaux `a 10.79, 9.31 et 3.57 pour les matrices 8, 9, 10, respectivement.

Fig. 3.8 – Comparaison du pic de mémoire totale pour plusieurs algorithmes de par-cours d’arbre. La taille mémoire est normalisée par rapport au résultat obtenu par l’al-gorithme 3.4, «sur place».

Dans le document Etude et optimisation du comportement ´ m´ emoire dans les m´ ethodes parall` eles de (Page 58-65)

Minimisation m´emoire : assemblage « sur place »

3.9.1 M´ emoire active

3.9.2 M´ emoire totale