Ordonnancement dynamique - Etude et optimisation du comportement ´ m´ emoire dans les m´ ethode

chacun des fils par rapport au travail total. Ainsi, l’algorithme affecte le sous-arbre le plus coûteux au processeur le moins chargé. Ce processus est ensuite répété récursivement jusqu’à atteindre les nœuds de la strateS₀. Ainsi, à chaque nœud de l’arbre est affecté un ensemble deprocesseurs préférentielsqui guide la sélection des processeurs candidats dans un second parcours en remontée (étape 3 de l’algorithme 4.2). Le processus de remontée a pour but de sélectionner les processeurs candidats et de choisir le processeur maˆıtre de chacun des nœuds detype 2. Le principal objectif de cette étape est d’équilibrer la charge de travail entre les processeurs.

Algorithme 4.2 Affectation des tˆaches pendant l’analyse.

(1) ´Etant donn´e l’arbre d’assemblage d’une matrice

(2) Etape de descente´ : affectation proportionnelle relâchée pour la sélection des pro-cesseurs préférentiels

(3) Etape de remont´ee (uniquement sur le haut de l’arbre)´ : Pour chacun des nœuds – D´ecider du type du nœud

– Choisir le processeur maˆıtre correspondant – S´electionner les processeurs candidats associ´es

En ce qui concerne le choix du type des nœuds du haut de l’arbre, ils sont de type 2 si leur matrice frontale est suffisamment grande, i.e. taille de la matrice est sup´erieure

`a un seuil. En pratique, sur des matrices de taille suffisamment grande, la plupart des nœuds du haut de l’arbre sont detype 2 et, sur un grand nombre de processeurs, le travail associ´e aux esclaves constitue l’essentiel du travail global (typiquement 80%).

Nous allons maintenant nous intéresser aux aspects dynamiques de l’ordonnancement dans la méthode multifrontale parallèle.

4.3 Ordonnancement dynamique

La partie dynamique de l’ordonnancement dans la méthode multifrontale parallèle est une combinaison de deux ordonnanceurs. Le premier concerne la sélection des processeurs esclaves pour les nœuds de type 2. Le second, quant à lui, concerne la gestion des tâches statiquement assignées aux différents processeurs (nœuds de type 1, tâches maˆıtres pour les nœuds detype 2 et nœud de type 3).

4.3.1 Strat´ egie de s´ election d’esclaves

Quand un processeur active une tâche maˆıtre detype 2, il doit sélectionner des proces-seurs esclaves. Le processeur essaye alors de choisir uniquement les esclaves moins chargés que lui avec des contraintes de granularité. Le coût de la tâche correspondant à chacun des processeurs sélectionnés est le même, et la sélection est faite de telle sorte que le coût des tâches esclaves ne dépasse pas, si possible, le coût de la tâche maˆıtre correspondante.

Ainsi, pour le cas non-sym´etrique le d´ecoupage de la matrice frontale d’un nœud detype 2

est régulier par blocs de lignes entre les esclave (voir la figure 4.3). En ce qui concerne le cas symétrique, le découpage est plus irrégulier à cause de la structure ”triangulaire”

de la matrice (voir la figure 4.3). Enfin, une fois les esclaves sélectionnés, le processeur maˆıtre les informe qu’ils ont été désignés en leur envoyant un message.

Maître (P0)

Esclave 1 (P2)

Esclave 2(P1)

Maître (P0)

Esclave 1 (P2)

Esclave 2(P1) Esclave 3 (P3)

Symétrique Non-symétrique

Fig. 4.3 – Structure d’un nœud de type 2.

Il est important de signaler que pour la sélection d’esclave, chaque processeur ne désigne comme esclave que des processeurs appartenant à l’ensemble des processeurs candidats du nœud courant.

Pour le choix d’esclaves, le processeur maˆıtre doit avoir des informations relatives à la charge de ses processeurs candidats. Ceci est fait à l’aide d’un mécanisme basé sur des

échanges de messages dans lequel chaque processeur envoie sa charge à tous les autres dès que la variation de sa charge dépasse un seuil arbitraire. Une description plus détaillée de ce mécanisme sera donnée dans le chapitre 5.

4.3.2 Gestion des tˆ aches locales

Chaque processeur a localement un ensemble de tâches, qui lui ont été assignées sta-tiquement, et qui sont activables. Pour un processeur particulier, cet ensemble contient initialement les feuilles des sous-arbres qui lui ont été affectés. Ces dernières sont re-groupées en ensembles contigus correspondant à chacun des sous-arbres, i.e. les feuilles appartenant au même sous-arbre sont stockées les unes à coté des autres (voir la fi-gure 4.4). Une fois qu’une tâche (nœud) est activée, elle est enlevée de l’ensemble. De plus, dès qu’une tâche devient activable (i.e. tous les fils de la tâche ont fini d’être traités), elle y est insérée. Enfin la stratégie de sélection de la prochaine tâche à traiter consiste à extraire de l’ensemble la tâche la plus jeune (gestion LIFO). Ceci est fait pour favoriser la remontée dans l’arbre, de manière à ne pas stocker trop de blocs de contribution si-multanément. Une représentation d’un ensemble de tâches activables est donnée dans la figure 4.4.

4.3. ORDONNANCEMENT DYNAMIQUE 67

. . . Sous-arbre 1

. . . Sous-arbre 2

T2 T1 F

F F

F : Noeud feuille (Type 1) T1 : Noeud de type 1 appartenant à un sous-arbre séquentiel

T2 : Noeud de type 2 (tâche maître) Fig. 4.4 – Exemple d’un ensemble de tˆaches activables.

Il est important de signaler que dans l’ensemble des tâches activables, les nœuds appartenant à un même sous-arbre sont contigus. Autrement dit, un sous-arbre ne peut pas être traité si le traitement du sous-arbre précédent n’est pas terminé.

Algorithme 4.3 S´equenceur des tˆaches durant la factorisation.

Tant que il reste un nœud `a traiter:

Si ensemble des tˆaches activable est videAlors attente bloquante d’un message

traiter le message re¸cu Sinon

Siun message est disponible Alors recevoir le message

traiter le message Sinon

Sélectionner une tâche de l’ensemble des tâches activables traiter la tâche extraite

L’algorithme4.3décrit le déroulement de la factorisation. Il est à noter qu’une priorité est donnée à la réception de messages. Les principales motivations pour ce choix sont premièrement que le nouveau message peut générer de l’activité supplémentaire ainsi que du parallélisme et deuxièmement pour éviter de bloquer le processeur émetteur dans le cas où son tampon d’envoi est plein.

Dans le chapitre suivant, nous allons nous intéresser à l’étude des mécanismes qui fournissent les informations nécessaires aux ordonnanceurs statiques. Ainsi, des protocoles basés sur des échanges de messages seront proposés et étudiés expérimentalement. Ce travail sera utilisé par la suite pour toutes les études présentés dans les chapitres suivants.

Chapitre 5

M´ ecanisme d’´ echange d’information et de maintien de la coh´ erence des vues

L’ordonnancement dans la méthode multifrontale parallèle est un point clé dans l’op-tique d’avoir de bonnes performances et un bon comportement mémoire. Dans le cha-pitre 4, nous avons décrit les principes de l’ordonnancement dans la méthode multifron-tale parallèle. La partie dynamique de l’ordonnancement et particulièrement la stratégie de sélection d’esclaves nécessite au niveau de chaque processus une vue de l’état (charge de travail, taille de la mémoire occupée,. . . ) des autres processus. Ainsi, ces stratégies sont très sensibles à la qualité de l’image du système. Partant du mécanisme existant dans la méthode multifrontale parallèle telle qu’implémentée dansMUMPS, nous proposons dans ce chapitre des mécanismes visant l’amélioration de la qualité et de la cohérence des informations au niveau de chaque processus. Ce problème est proche d’un problème d’algorithmique distribuée appelé problème de la photographie distribuée ousnaphot pro-blem[16]. Plusieurs solutions ont été proposées pour ce problème. Cependant, elles ne sont pas applicables au cas d’applications haute-performance car elles nécessitent un gel de l’activité des processeurs du système pendant la photographie.

Le problème que nous étudions dans ce chapitre n’est pas spécifique à la méthode mul-tifrontale parallèle et peut être généralisé à toutes les applications distribuées ayant des ordonnanceurs dynamiques locaux à chaque processus (notons que nous parlons désormais de processus et non de processeur) prenant part à l’exécution. Ainsi, nous commencerons dans la section5.1par donner une définition générale du problème que nous allons étudier.

Puis dans la section 5.2, nous décrirons l’algorithme initial de la méthode multifrontale parallèle. Ensuite, nous présenterons dans les sections 5.3 et 5.4 des mécanismes dont le but est d’améliorer la cohérence des vues du système au niveau de chaque processus. Une

étude expérimentale de l’impact de ces mécanismes sur le comportement de la méthode mutlifrontale parallèle est alors présentée dans la section 5.5. Enfin, nous proposerons dans la section 5.6 un mécanisme visant la réduction du nombre de messages échangés pour le maintien d’une vue au niveau de chacun des processus.

5.1 Contexte

Considérons un système distribué asynchrone composé deN processus qui ne peuvent communiquer que par passage de messages. Une application composée de plusieurs tâches (dépendantes ou indépendantes) est exécutée sur ce système. De plus, il peut arriver qu’un processus p, appelé maˆıtre, ait à envoyer des tâches à d’autres processus. Le choix des processus, appelés esclaves dans ce cas, qui vont recevoir les tâches provenant de p est basé sur une estimation que pa de la charge (charge de travail, mémoire,. . . ) des autres processus. De ce fait, l’estimation des charges doit être la plus précise et la plus cohérente possible. Il est à noter que l’information relative à la charge d’un processus p varie dans les deux cas suivants :

i) Quand le processus ptraite une tâche (diminution de la charge de travail, réduction de la taille de la mémoire après la terminaison du traitement de la tâche).

ii) Quand une tâche «apparaˆıt» sur le processus p. Cette tâche peut provenir de l’ap-plication ou avoir été envoyée par un autre processus.

Ce problème est proche du problème dela prise de photographie distribuée du système

«snapshot problem»[16,17]. Dans ce genre d’approches, le processus ayant besoin d’une photographie du système initie l’algorithme. De ce fait, nous ne pouvons pas utiliser ce genre d’approches dans un environnement où la performance est un critère dominant : nous voulons passer le moins de temps possible dans la phase de récupération des informa-tions relatives à l’état des autres processus. De plus, avec un grand nombre de processus, les algorithmes classiques deprise de photographie distribuée du système, vu qu’ils portent sur l’état des processus, doivent assurer que la charge des processus ne varie pas pendant la phase de photographie ce qui serait équivalent à arrêter l’activité des processus dès la réception d’un message relatif à une photographie.

Dans notre cas, nous avons la propriété que les informations que nous voulons estimer (charge de travail, mémoire,. . . ) sont très liées à l’ordonnancement dynamique. Les al-gorithmes présentés dans ce chapitre ont pour principal objectif de maintenir, au niveau de chaque processus, une approximation de la vue de l’état des autres processus qui sera utilisée pour les choix dynamiques. Nos algorithmes sont basés sur l’échange de messages entre les processus. Ainsi, à chaque variation de l’état d’un processus, ce dernier diffuse l’information relative à cette variation vers les autres processus. Une condition nécessaire au maintien de la cohérence des vues dans le système est qu’il est nécessaire de recevoir tous les messages en attente relatifs à la charge avant de prendre une décision dynamique au niveau de chaque processus.

Dans le document Etude et optimisation du comportement ´ m´ emoire dans les m´ ethodes parall` eles de (Page 73-78)