Pour les autres primitives - Contribution et r´ esum´ e des r´ esultats obtenus

1.3 Contribution et r´ esum´ e des r´ esultats obtenus

2.1.2 Pour les autres primitives

a destination d’un ou plusieurs autres processeurs voisins. Sans perte de généralité, on peut supposer qu’un processeurP_i ne re¸coit ce messagem qu’une seule fois ; sinon cela signifie qu’un processeur P_i re¸coit le message depuis P_j, puis ensuite depuis P_k, on peut alors supprimer le transfert Pk → Pi sans perturber les autres communications et pour une occupation des ressources strictement plus petite. Si on considère le trajet du message m dans le graphe, il forme donc un arbre dirigé, enraciné enP_source. Les figures2.1(b),2.1(c)et 2.1(d)représentent les trois arbres de diffusion que le message peut emprunter sur la plate-forme précédente. Un arbre de diffusion est un sous-graphe du graphe de plate-forme, puisque les messages ne peuvent ˆ

etre transmis que par des arêtes du graphe initial et il couvre tous les sommets puisque chaque processeur doit recevoir une copie du message. Ainsi, les schémas d’allocation pour le problème de la diffusion sont des arbres couvrants dirigés, enracinés en Psource et sous-graphes du graphe de plate-forme.

Le problème souvent étudié pour les communications collectives et en particulier pour la diffusion, est celui de la minimisation du temps d’exécution d’une opération. Pour la diffusion d’un message, on cherche ainsi généralement à trouver le meilleur arbre, c’est-à-dire l’arbre qui conduit à minimiser le temps entre le moment où la source émet la première copie du message et le moment où le dernier processeur re¸coit une copie. Ce problème est connu pour ˆ

etre difficile, même sous le modèle simple “du téléphone”, lorsque les coûts de communication sont homogènes [51, problème ND49]. Notre objectif est différent : nous cherchons à optimiser le débit de la diffusion d’une série de messages. Il est tout à fait possible que deux messages de la série empruntent des arbres différents et ceci est même souhaitable : on imagine qu’en utilisant des arbres à arêtes disjointes, on pourra diffuser plusieurs messages simultanément et donc améliorer le débit.

Reprenons notre exemple décrit sur la figure2.1. On peut par exemple vouloir utiliser l’arbre A1 de la figure 2.1(b) pour les messages impairs et l’arbre A2 de la figure 2.1(c) pour les messages pairs. On appelle A = {A₁, . . . , A_|A|} l’ensemble des schémas d’allocation possibles, donc l’ensemble des arbres de diffusion pour notre problème. On note x_a le débit de messages diffusés en régime permanent en utilisant l’arbre Aa. En étudiant le parcours des messages à diffuser, on peut ainsi caractériser la structure générale d’un ordonnancement sous la forme d’une collection pondérée de schémas d’allocation, {(A_a, x_a), A_a ∈ A}avec P

x_a =ρ le d´ebit total obtenu.

Notons également que A est potentiellement de grande taille : il peut exister un nombre exponentiel ennd’arbres de diffusion dans une plate-forme ànnœuds. Nous verrons au chapitre suivant comment nous restreindre à des ordonnancements utilisant un petit nombre d’arbres et qui peuvent ainsi être décrits de fa¸con plus compacte.

2.1.2 Pour les autres primitives

Avant d’étudier comment s’organisent les transferts intervenants lors de l’utilisation des schémas d’allocation, étudions ce que que deviennent ces schémas pour les autres primitives de communications collectives.

Diffusion restreinte. Le cas le plus immédiat est celui de la diffusion restreinte : le problème est identique, sauf que les destinations des messages sont un sous-ensemble strict V_cibles de l’ensemble de processeurs. En appliquant le même raisonnement, on peut caractériser les schémas

d’allocation pour cette opération : ce sont des arbres dirigés enracinés enPsource, sous-graphes du graphe de plate-forme et couvrant les sommets deV_cibles. Ces arbres couvrant un sous-ensemble donné de sommets sont appelés arbres de Steiner et la recherche d’un tel arbre de poids minimal¹ est un problème NP-complet [65]. Même si ce résultat ne peut être directement transcrit pour notre problème, nous verrons au chapitre suivant que l’optimisation du débit de la diffusion restreinte est également un problème difficile.

Distribution de données. Dans le cas de la distribution de données, le processeur source Psource souhaite envoyer des messages distincts à un ensemble de processeurs ciblesVcibles. Pour k∈V_ciblesnous appelons messages de typek les messages que la source envoie à destination du processeur P_k. Pour étudier la forme des schémas d’allocation, nous devons nous intéresser au parcours d’un message émis par la source vers chaque destination, soit|V_cibles|messages au total.

Sans perte de généralité, nous pouvons considérer qu’aucun de ces messages n’est dupliqué ; si ce n’est pas le cas pour une destinationP_i, nous sélectionnons parmi les transferts de messages de type i uniquement ceux qui forment une route sans cycle de Psource à Pi (une telle route existe nécessairement puisquePi re¸coit le message). Un schéma d’allocation pour la distribution de données est donc une collections de routes de P_source à chaque processeur destination de Vcibles, empruntant les arêtes du graphe de plate-forme. Chaque schéma d’allocation comporte exactement une route de Psource à Pi, pour toute destinationPi :A =R₁× R₂× · · · × R_V_cibles en notantR_i l’ensemble des routes sans cycles de P_source àP_i, pour i∈V_cibles.

Notons que deux de ces routes peuvent emprunter le même lien de communication : nous ne nous intéressons pas ici aux contraintes de ressources mais à la forme générale des solutions.

Réduction. Le cas de la réduction est un peu plus complexe. Comme pour les autres com-munications, considérons une seule opération de réduction : chaque processeur P_r_i ∈ Reds = {P_r₀, . . . , PrN} possède initialement une valeur vi. Nous cherchons à calculer la valeur réduite v=v0⊕v1⊕ · · · ⊕vN, où⊕est associatif, mais pas nécessairement commutatif. Le résultat doit au final se trouver sur le processeurP_cible. Cette opération est plus complexe que les précédentes

a cause des calculs qui interviennent lors de la réduction. Pour 0 6k 6 m 6N, nous notons v_[k,m] le résultat partiel issu de la réduction des valeurs v_k, . . . , vm :

v_[k,m]=vk⊕ · · · ⊕vm.

Les valeurs initialesv_i=v_[i,i] vont être assemblées en résultats partiels jusqu’à ce que la valeur finale v = v_[0,N] soit atteinte. Comme ⊕ est un opérateur associatif, v_[k,m] peut être calculé comme suit :

v_[k,m]=v_[k,l]⊕v_[l+1,m] pour 06k6l < m6N Nous notonsT_k,l,m la tâche de calcul associée à l’opérationv_[k,l]⊕v_[l+1,m].

Considérons une petite plate-forme constituée de trois processeurs P0, P1 et P2 et compl` e-tement connectée (voir figure 2.2(a)). Tous les processeurs possèdent une valeur initialement (P_r_i =P_i) et le résultat doit se trouver au final sur P_cible = P₀. Une méthode pour réaliser la réduction de{v₀, v1, v2} consiste en les opérations suivantes :

1. P₂ envoie sa valeurv₂ `aP₁

2. P₁ calcule la r´eduction partielle v_[1,2]=v₁⊕v₂ (tˆache T_1,1,2)

1Le poids d’un arbre est la somme des poids des arˆetes de l’arbre.

3. P0 envoie sa valeurv0 `aP1,

4. P1 calcule le résultat finalv_[0,2]=v0⊕v_[1,2] (tâche T0,0,2), 5. P₁ envoie le résultat finalv=v_[0,2] àP₀.

Ces tâches s’organisent naturellement en un arbre, comme illustré sur la figure2.2(b): le résultat d’une ou de deux d’entre elles est utilisé comme entrée de la tâche suivante.

P₁ P₂

(a) Topologie

T_0,0,2 P₁

P₁ T_1,1,2 v₀

P₀ →P₁ P0

v₀

v₁ v₂

P2 →P1

v₂

P₁ →P₀ v_[0,2]

v_[0,2] sur P₁ v_[1,2] sur P₁

v_[2,2] sur P₁

v_[0,0] sur P₁

(b) Un arbre de r´eduction

Fig. 2.2 – Exemple de r´eduction sur trois processeurs

On peut définir plus formellement un schéma d’allocation pour la réduction comme – un ensemble de messages localisés sur des processeurs :

M ⊂ {v_[k,m],06k6m6N} ×V – et un ensemble de taches localis´ees (calcul ou transfert) :

T ⊂ {T_k,l,m,06k6l < m6N} ×V

| {z }

calcul sur un processeur

∪ {v_[k,m],06k6m6N} ×E

| {z }

transfert sur un lien

tels que des contraintes de pr´ec´edence sont satisfaites :

– si un message est pr´esent sur un nœud, alors il existe une tˆache qui l’a produit : si (v_[k,m], Pi)∈ M etk6=mou k=m6=i,

alors il existe (T_k,l,m, P_i)∈ T( pour unltel quek6l < m) ou (v_[k,m],(j, i))∈ T( pour unj tel que (j, i)∈E)

– les entrées d’une tâche doivent être disponibles :

si (Tk,l,m, Pi)∈ T alors (v_[k,l], Pi)∈ M et (v_[l+1,m], Pi)∈ M si (v_[k,m],(i, j))∈ T alors (v_[k,l], P_i)∈ M

primitive de communication sch´ema d’allocation correspondant

diffusion de données arbre couvrant dirigé, enraciné enP_source, sous-graphe de la plate-forme

diffusion restreinte arbre dirig´e, couvrant les sommet de V_cibles, enracin´e en Psource, sous-graphe de la plate-forme

distribution de donn´ees ensemble de routes dans le graphe de plate-forme : pour toute cible Pi ∈Vcibles, une route dePsource `a Pi

r´eduction arbre de r´eduction

Tab. 2.1 – Schémas d’allocation pour les communications collectives Un couple de tels ensembles vérifiant ces contraintes est appelé arbre de réduction.

Les schémas d’allocation de chacune des primitives de communication collective sont résumés dans le tableau 2.1.

On peut remarquer que ce cadre de travail permet de s’intéresser à des primitives de com-munications complexes, mêlant calculs et communications, du moment que l’on sait décrire les schémas d’allocation associés. Notons également que les schémas d’allocation pour la réduction sont très proches de la notion d’allocation pour un graphe de tâches. Elle est même plus gén´ e-rale puisqu’ici, plusieurs tâches donnent le même message en sortie, alors qu’une seule d’entre elle est nécessaire pour une opération de réduction : pour construire le message v_[k,m], il suffit d’effectuer une des tâches T_k,l,m, pour unl ∈[k, m[, et tous les v_[k,m] ne sont pas calculés lors d’une opération de réduction.

Dans le document Communicationscollectivesetordonnancementenrégimepermanentsurplates-formeshétérogènes parMonsieurLorisMARCHAL THÈSE (Page 29-32)