Pour les autres primitives - Contribution et résumé des résultats obtenus

1.3 Contribution et résumé des résultats obtenus

2.1.2 Pour les autres primitives

a destination d’un ou plusieurs autres processeurs voisins. Sans perte de généralité, on peut supposer qu’un processeur Pi ne re¸coit ce message m qu’une seule fois ; sinon cela signifie qu’un processeur P_i re¸coit le message depuis P_j, puis ensuite depuis P_k, on peut alors supprimer le transfert Pk → Pi sans perturber les autres communications et pour une occupation des ressources strictement plus petite. Si on considère le trajet du message m dans le graphe, il forme donc un arbre dirigé, enraciné en P_source. Les figures2.1(b),2.1(c)et 2.1(d)représentent les trois arbres de diffusion que le message peut emprunter sur la plate-forme précédente. Un arbre de diffusion est un sous-graphe du graphe de plate-forme, puisque les messages ne peuvent être transmis que par des arêtes du graphe initial et il couvre tous les sommets puisque chaque processeur doit recevoir une copie du message. Ainsi, les schémas d’allocation pour le problème de la diffusion sont des arbres couvrants dirigés, enracinés en P_source et sous-graphes du graphe de plate-forme.

Le problème souvent étudié pour les communications collectives et en particulier pour la diffusion, est celui de la minimisation du temps d’exécution d’une opération. Pour la diffusion d’un message, on cherche ainsi généralement à trouver le meilleur arbre, c’est-à-dire l’arbre qui conduit à minimiser le temps entre le moment où la source émet la première copie du message et le moment où le dernier processeur re¸coit une copie. Ce problème est connu pour être difficile, même sous le modèle simple “du téléphone”, lorsque les coûts de communication sont homogènes [51, problème ND49]. Notre objectif est différent : nous cherchons à optimiser le débit de la diffusion d’une série de messages. Il est tout à fait possible que deux messages de la série empruntent des arbres différents et ceci est même souhaitable : on imagine qu’en utilisant des arbres à arêtes disjointes, on pourra diffuser plusieurs messages simultanément et donc améliorer le débit.

Reprenons notre exemple décrit sur la figure2.1. On peut par exemple vouloir utiliser l’arbre A₁ de la figure 2.1(b) pour les messages impairs et l’arbre A₂ de la figure 2.1(c) pour les messages pairs. On appelle A = {A1, . . . , A_|A|} l’ensemble des schémas d’allocation possibles, donc l’ensemble des arbres de diffusion pour notre problème. On note x_a le débit de messages diffusés en régime permanent en utilisant l’arbre Aa. En étudiant le parcours des messages à diffuser, on peut ainsi caractériser la structure générale d’un ordonnancement sous la forme d’une collection pondérée de schémas d’allocation, {(Aa, x_a), A_a ∈ A} avec ^Px_a = ρ le débit total obtenu.

Notons également que A est potentiellement de grande taille : il peut exister un nombre exponentiel en n d’arbres de diffusion dans une plate-forme à n nœuds. Nous verrons au chapitre suivant comment nous restreindre à des ordonnancements utilisant un petit nombre d’arbres et qui peuvent ainsi être décrits de fa¸con plus compacte.

2.1.2 Pour les autres primitives

Avant d’étudier comment s’organisent les transferts intervenants lors de l’utilisation des schémas d’allocation, étudions ce que que deviennent ces schémas pour les autres primitives de communications collectives.

Diffusion restreinte. Le cas le plus immédiat est celui de la diffusion restreinte : le problème est identique, sauf que les destinations des messages sont un sous-ensemble strict V_cibles de l’ensemble de processeurs. En appliquant le même raisonnement, on peut caractériser les schémas

d’allocation pour cette opération : ce sont des arbres dirigés enracinés en P_source, sous-graphes du graphe de plate-forme et couvrant les sommets de V_cibles. Ces arbres couvrant un sous-ensemble donné de sommets sont appelés arbres de Steiner et la recherche d’un tel arbre de poids minimal1

est un problème NP-complet [65]. Même si ce résultat ne peut être directement transcrit pour notre problème, nous verrons au chapitre suivant que l’optimisation du débit de la diffusion restreinte est également un problème difficile.

Distribution de données. Dans le cas de la distribution de données, le processeur source Psource souhaite envoyer des messages distincts à un ensemble de processeurs cibles V_cibles. Pour k∈ Vciblesnous appelons messages de type k les messages que la source envoie à destination du processeur P_k. Pour étudier la forme des schémas d’allocation, nous devons nous intéresser au parcours d’un message émis par la source vers chaque destination, soit|Vcibles| messages au total. Sans perte de généralité, nous pouvons considérer qu’aucun de ces messages n’est dupliqué ; si ce n’est pas le cas pour une destination P_i, nous sélectionnons parmi les transferts de messages de type i uniquement ceux qui forment une route sans cycle de Psource à Pi (une telle route existe nécessairement puisque Pi re¸coit le message). Un schéma d’allocation pour la distribution de données est donc une collections de routes de P_source à chaque processeur destination de V_cibles, empruntant les arêtes du graphe de plate-forme. Chaque schéma d’allocation comporte exactement une route de P_source à Pi, pour toute destination Pi :A = R1× R2× · · · × RV_cibles

en notantRi l’ensemble des routes sans cycles de P_source `a Pi, pour i∈ Vcibles.

Notons que deux de ces routes peuvent emprunter le même lien de communication : nous ne nous intéressons pas ici aux contraintes de ressources mais à la forme générale des solutions. Réduction. Le cas de la réduction est un peu plus complexe. Comme pour les autres com-munications, considérons une seule opération de réduction : chaque processeur P_r_i ∈ Reds = {Pr0, . . . , PrN} possède initialement une valeur vi. Nous cherchons à calculer la valeur réduite v = v₀⊕ v1⊕ · · · ⊕ vN, où⊕ est associatif, mais pas nécessairement commutatif. Le résultat doit au final se trouver sur le processeur P_cible. Cette opération est plus complexe que les précédentes `

a cause des calculs qui interviennent lors de la réduction. Pour 0 6 k 6 m 6 N , nous notons v_[k,m] le résultat partiel issu de la réduction des valeurs vk, . . . , vm :

v_[k,m]= vk⊕ · · · ⊕ vm.

Les valeurs initiales v_i= v_[i,i] vont être assemblées en résultats partiels jusqu’à ce que la valeur finale v = v_{[0,N ]} soit atteinte. Comme ⊕ est un opérateur associatif, v[k,m] peut être calculé comme suit :

v_[k,m]= v_[k,l]⊕ v[l+1,m] pour 0 6 k 6 l < m 6 N Nous notons T_k,l,m la tâche de calcul associée à l’opération v_[k,l]⊕ v[l+1,m].

Considérons une petite plate-forme constituée de trois processeurs P₀, P₁ et P₂ et complè-tement connectée (voir figure 2.2(a)). Tous les processeurs possèdent une valeur initialement (P_r_i = P_i) et le résultat doit se trouver au final sur P_cible = P₀. Une méthode pour réaliser la réduction de{v0, v₁, v₂} consiste en les opérations suivantes :

1. P₂ envoie sa valeur v₂ `a P₁

2. P₁ calcule la r´eduction partielle v_[1,2]= v₁⊕ v2 (tˆache T_1,1,2)

3. P₀ envoie sa valeur v₀ `a P₁,

4. P₁ calcule le résultat final v_[0,2] = v₀⊕ v[1,2] (tâche T_0,0,2), 5. P₁ envoie le résultat final v = v_[0,2] à P₀.

Ces tâches s’organisent naturellement en un arbre, comme illustré sur la figure2.2(b): le résultat d’une ou de deux d’entre elles est utilisé comme entrée de la tâche suivante.

P₁ P₂ P0 (a) Topologie T0,0,2 P₁ P1 T_1,1,2 v0 P₀ → P1 P0 v₀ P1 v₁ v₂ P2 → P1 P2 v₂ P1 → P0 v[0,2] v[0,2] sur P1 v[1,2] sur P1 v_[2,2] sur P₁ v[0,0] sur P1 (b) Un arbre de r´eduction

Fig. 2.2 – Exemple de r´eduction sur trois processeurs

On peut définir plus formellement un schéma d’allocation pour la réduction comme – un ensemble de messages localisés sur des processeurs :

M ⊂ {v[k,m], 0 6 k 6 m 6 N} × V – et un ensemble de taches localis´ees (calcul ou transfert) :

T ⊂ {Tk,l,m, 0 6 k 6 l < m 6 N} × V

| {z }

calcul sur un processeur

∪ {v[k,m], 0 6 k 6 m 6 N} × E

| {z }

transfert sur un lien

tels que des contraintes de pr´ec´edence sont satisfaites :

– si un message est pr´esent sur un nœud, alors il existe une tˆache qui l’a produit : si (v_[k,m], Pi)∈ M et k 6= m ou k = m 6= i,

alors il existe (T_k,l,m, P_i)∈ T ( pour un l tel que k 6 l < m) ou (v_[k,m], (j, i))∈ T ( pour un j tel que (j, i) ∈ E)

– les entrées d’une tâche doivent être disponibles :

si (Tk,l,m, Pi)∈ T alors (v[k,l], Pi)∈ M et (v[l+1,m], Pi)∈ M si (v_[k,m], (i, j))∈ T alors (v[k,l], Pi)∈ M

primitive de communication sch´ema d’allocation correspondant

diffusion de données ^{arbre couvrant dirigé, enraciné en P}^source^{, sous-graphe} de la plate-forme

diffusion restreinte ^{arbre dirig´e, couvrant les sommet de V}^cibles^{, enracin´e} en Psource, sous-graphe de la plate-forme

distribution de donn´ees ^{ensemble de routes dans le graphe de plate-forme :} pour toute cible Pi ∈ Vcibles, une route de P_source `a Pi

r´eduction arbre de r´eduction

Tab. 2.1 – Sch´emas d’allocation pour les communications collectives

Un couple de tels ensembles vérifiant ces contraintes est appelé arbre de réduction.

Les schémas d’allocation de chacune des primitives de communication collective sont résumés dans le tableau 2.1.

On peut remarquer que ce cadre de travail permet de s’intéresser à des primitives de com-munications complexes, mêlant calculs et comcom-munications, du moment que l’on sait décrire les schémas d’allocation associés. Notons également que les schémas d’allocation pour la réduction sont très proches de la notion d’allocation pour un graphe de tâches. Elle est même plus géné-rale puisqu’ici, plusieurs tâches donnent le même message en sortie, alors qu’une seule d’entre elle est nécessaire pour une opération de réduction : pour construire le message v_[k,m], il suffit d’effectuer une des tâches T_k,l,m, pour un l∈ [k, m[, et tous les v[k,m] ne sont pas calculés lors d’une opération de réduction.

Dans le document Communications collectives et ordonnancement en régime permanent sur plates-formes hétérogènes (Page 30-33)