Am´eliorations de l’heuristique CPA

toute tˆache du chemin critique, soit celle-ci est marqu´ee, soit elle a comme allocation son meilleur

nombre de processeurs.

La complexit´e au pire cas de iCASLB estO(V

P

+V P

E

′

), o`uE

′

≥Eest le nombre d’arcs

dansG

^′

. Dans leurs ´evaluations, les auteurs de iCASLB obtiennent que leur heuristique donne

de meilleursmakespans que CPA et CPR. Mais nous pouvons remarquer que cette heuristique

est plus complexe que CPA.

Dans cette th`ese, nous avons choisi de partir de l’heuristique CPA et de lui apporter

diffé-rentes améliorations car elle a un bon compromis entre sa complexité et lesmakespans obtenus.

Avant que l’heuristique MCPA ne soit proposée dans la littérature, nous avions proposé nos

propres améliorations à CPA. Nous présentons ces améliorations que nous avons apportées à

CPA dans la section suivante.

3.4 Am´eliorations de l’heuristique CPA

Dans cette section, nous proposons deux am´eliorations `a l’heuristique CPA de R˘adulescuet

al.[86]. La premi`ere porte sur la phase d’allocation et la seconde sur la phase de placement.

3.4.1 Nouveau critère d’arrêt de la procédure d’allocation

Nous avons constat´e exp´erimentalement que le calcul de l’aire moyenne de CPA est moins

pertinent lorsque le nombre de processeurs (P) de la plate-forme est beaucoup plus grand que le

nombre de tâches (V) et qu’il existe un surcoût lié à la parallélisation des tâches (par exemple

α non nul dans le mod`ele d’Amdahl). En effet, lorsque ces deux conditions sont r´eunies, T

converge tr`es lentement vers T

. Cela d´ebouche sur des allocations contenant un tr`es grand

nombre de processeurs. Or plus on alloue de processeurs `a chacune des tˆaches, plus le risque de

ne plus pouvoir exécuter en parallèle certaines tâches concurrentes augmente. En outre, du fait

du surcoût lié à la parallélisation, plus on alloue de processeurs à une tâche, plus son efficacité

par rapport à l’utilisation des processeurs diminue. Il peut donc s’avérer préférable d’arrêter le

processus d’allocation plus tˆot et donc de d´eterminer des allocations plus petites, afin de profiter

au mieux du parall´elisme de tˆaches et d’utiliser plus efficacement les ressources. Nous proposons

de trouver un compromis qui permet d’arrêter plus vite la procédure d’allocation dans le cas où

le nombre de ressources est très élevé en prenant min(P,√

P×V) au lieu de P dans le calcul

de l’aire moyenne. Cela nous conduit `a red´efinir la notion d’aire moyenne de la fa¸con suivante :

T

_A^′

= ¹

min(P,√

P ×V)

X

t∈V

(T(t, p(t))×p(t)). (3.3)

De manière empirique, nous avons choisi la moyenne géométrique entre le nombre de

proces-seurs et le nombre de tˆaches,√

P ×V, car elle obtient un bon compromis entre l’utilisation des

ressources et le makespan des applications lorsque P devient tr`es grand devant V. Le fait de

prendre la valeur minimale entreP et√

P ×V entraˆıne que pourP ≤V, les allocations sont les

mˆeme qu’avec CPA (T

_A^′

est ´egale `a l’aire moyenne T

utilis´ee dans CPA). PourP ≫ V, cette

nouvelle d´efinition augmente la pente de croissance de l’aire moyenne. La relation T

_p^e

≈ T

_CP

reste toujours valable `a la fin de la proc´edure d’allocation.

Nous verrons dans le chapitre 5 qu’une estimation du taux d’utilisation de la plate-forme

(rapport de la puissance moyenne utilis´ee sur la puissance totale de la plate-forme) est β

^′

=

T

/T

_CP

. Puisqu’on aT

′

=p

P/V×T

lorsque le nombre de processeurs est sup´erieur au nombre

de tâches, la condition d’arrêt de notre nouvelle procédure d’allocationT

_CP

≈T

_A^′

´equivaut alors

`

a r´eduire le taux d’utilisation de la plate-forme en le fixant `ap

Chapitre 3. Ordonnancement de graphes de tˆaches modelables sur grappes homog`enes

0 200 400 600 800 1000 1200 1400 1600 1800 2000 0 10 20 30 40 50 60 70

Évolution de TA, TA’ et TCP (en s)

Nombre d’itérations de la procédure d’allocation TA TA’ TCP

Fig. 3.2 – Exemple d’´evolution de T

, T

_A^′

et de T

_CP

dans la proc´edure d’allocation de CPA

et dans la nouvelle proc´edure d’allocation pour un DAG de 6 tˆaches sur une grappe de 30

processeurs.

La figure 3.2 montre un exemple d’´evolution deT

et deT

en utilisant CPA ainsi que celle

de T

_A^′

dans la nouvelle proc´edure d’allocation lors de l’ordonnancement d’un DAG de 6 tˆaches

(voir DAG de la figure 3.1) sur une grappe contenant 30 processeurs. Les temps d’ex´ecution des

tâches sont modélisés par la loi d’Amdahl et leurs portions non parallélisables respectives ont

été tiré aléatoirement entre 0% et 20%. Dans cet exemple, le nombre de processeurs (P = 30)

est beaucoup plus grand que le nombre de tˆaches (V = 6). On note une importante r´eduction

du nombre total de processeurs allou´es lorsqu’on utilise la nouvelle proc´edure d’allocation (33

processeurs = 6 processeurs alloués dès l’initialisation + 27 processeurs supplémentaires) par

rapport au nombre total de processeurs allou´es avec CPA (74 = 6 + 68). Le tableau 3.1 compare,

pour le même DAG et la même plate-forme, les allocations des différentes tâches à l’issue des

deux proc´edures. Cette r´eduction des allocations fait passer la longueur du chemin critique de

180,10 secondes à 272,58 secondes mais elle permet de mieux profiter du parallélisme de tâches

existant dans le DAG. Ainsi, dans la figure 3.3 qui pr´esente le r´esultat de l’ordonnancement,

nous pouvons observer que l’exécution en parallèle des tâches 1 et 2, puis des tâches 3, 4 et 5

permet d’obtenir un meilleur temps de compl´etion par rapport `a l’ordonnancement de CPA en

plus d’une faible consommation de ressources.

Tˆache 1 2 3 4 5 6

Allocations avec T

3 29 24 8 1 9

Allocations avec T

_A^′

2 11 11 4 1 4

Tab. 3.1 – Comparaison des allocations obtenues pour un DAG de 6 tˆaches sur une grappe de

30 processeurs.

Le compromis que nous venons de d´efinir n’est pas toujours optimal du point de vue du

temps de compl´etion des applications mais nous l’avons choisi car il permet surtout de mieux

3.4. Am´eliorations de l’heuristique CPA

gérer l’utilisation des ressources. Ainsi, dans la figure 3.2 on observe qu’après 30 itérations lors

l’utilisation de la proc´edure de CPA (avec T

), les ajouts suppl´ementaires de processeurs ne

permettent pas de r´eduire significativementT

_CP

.

326

273

2 ² ¹ 1 5 5 4 6 6 4 3 3

Processeurs

0 4 9 14 19 24 29

Processeurs

0 4 9 14 19 24 29

Temps (s) Temps (s)

Fig. 3.3 – Ordonnancement du DAG de la figure 3.1 avec CPA (`a gauche) et en utilisant la

nouvelle allocation (`a droite) sur une grappe homog`ene de 30 processeurs.

3.4.2 Tassage lors du placement

L’objectif premier de cette thèse étant l’ordonnancement de DAGs de tâches modelables sur

des plates-formes partag´ees, nous utiliserons des techniques de placement dynamiques,

c’est-à-dire que la décision de placement n’est effectuée qu’une fois la tâche concernée prête.

Lorsqu’on utilise CPA, il peut arriver qu’une tâche prête se mette à attendre qu’une partie des

processeurs qui lui sont allou´es soient disponibles alors que la majorit´e des processeurs dont elle

aurait besoin le sont déjà. Cette tâche pourrait donc avoir une meilleure date de fin d’exécution

si l’on réduisait son allocation de sorte qu’elle puisse démarrer son exécution dès la date où elle

est prˆete.

La technique de tassage que nous proposons permet d’´eviter cette situation. Elle permet

d’améliorer si possible la date de fin d’exécution d’une tâche prête en réduisant le nombre de

processeurs qui lui sont alloués. À l’instant où la tâche prête la plus prioritaire est choisie

pour être placée, on regarde d’abord s’il est possible de débuter son exécution immédiatement

avec son allocation initiale, `a savoir si le nombre de processeurs disponibles `a cette date est

supérieur ou égal à cette allocation. Si cela est possible, alors la tâche est placée sur le nombre de

processeurs disponibles dont elle `a besoin. En revanche, si le nombre de processeurs disponibles

est inférieur à l’allocation déterminée pour cette tâche prête, il faut vérifier si elle pourrait

terminer son exécution plus tôt en utilisant seulement les processeurs déjà disponibles plutôt

qu’en se mettant en attente que tous les processeurs qui lui sont allou´es soient libres avant de

démarrer son exécution. Si elle peut effectivement améliorer sa date de fin d’exécution en utilisant

seulement les processeurs disponibles, alors une nouvelle allocation est attribuée à la tâche prête

Chapitre 3. Ordonnancement de graphes de tˆaches modelables sur grappes homog`enes

courante et elle est plac´ee sur ces processeurs. Sinon elle est plac´ee selon son allocation initiale

et s’exécutera dès que tous les processeurs sur lesquels elle est placée seront libres.

00000000000000 11111111111111 0000 1111 00000000000000 11111111111111 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 2 4 6 8 0 2 4 6 8 0 1 2 3 4 5 6 7 0 2 4 6 8 2 2 2 1 1 1

Dans le document Ordonnancement de tâches parallèles sur plates-formes hétérogènes partagées (Page 46-49)

toute tˆache du chemin critique, soit celle-ci est marqu´ee, soit elle a comme allocation son meilleur

nombre de processeurs.

La complexit´e au pire cas de iCASLB estO(V

P

+V P

E

), o`uE

≥Eest le nombre d’arcs

dansG

. Dans leurs ´evaluations, les auteurs de iCASLB obtiennent que leur heuristique donne

de meilleursmakespans que CPA et CPR. Mais nous pouvons remarquer que cette heuristique

est plus complexe que CPA.

Dans cette th`ese, nous avons choisi de partir de l’heuristique CPA et de lui apporter

diffé-rentes améliorations car elle a un bon compromis entre sa complexité et lesmakespans obtenus.

Avant que l’heuristique MCPA ne soit proposée dans la littérature, nous avions proposé nos

propres améliorations à CPA. Nous présentons ces améliorations que nous avons apportées à

CPA dans la section suivante.

3.4 Am´eliorations de l’heuristique CPA

Dans cette section, nous proposons deux am´eliorations `a l’heuristique CPA de R˘adulescuet

al.[86]. La premi`ere porte sur la phase d’allocation et la seconde sur la phase de placement.

3.4.1 Nouveau critère d’arrêt de la procédure d’allocation

Nous avons constat´e exp´erimentalement que le calcul de l’aire moyenne de CPA est moins

pertinent lorsque le nombre de processeurs (P) de la plate-forme est beaucoup plus grand que le

nombre de tâches (V) et qu’il existe un surcoût lié à la parallélisation des tâches (par exemple

α non nul dans le mod`ele d’Amdahl). En effet, lorsque ces deux conditions sont r´eunies, T

converge tr`es lentement vers T

. Cela d´ebouche sur des allocations contenant un tr`es grand

nombre de processeurs. Or plus on alloue de processeurs `a chacune des tˆaches, plus le risque de

ne plus pouvoir exécuter en parallèle certaines tâches concurrentes augmente. En outre, du fait

du surcoût lié à la parallélisation, plus on alloue de processeurs à une tâche, plus son efficacité

par rapport à l’utilisation des processeurs diminue. Il peut donc s’avérer préférable d’arrêter le

processus d’allocation plus tˆot et donc de d´eterminer des allocations plus petites, afin de profiter

au mieux du parall´elisme de tˆaches et d’utiliser plus efficacement les ressources. Nous proposons

de trouver un compromis qui permet d’arrêter plus vite la procédure d’allocation dans le cas où

le nombre de ressources est très élevé en prenant min(P,√

P×V) au lieu de P dans le calcul

de l’aire moyenne. Cela nous conduit `a red´efinir la notion d’aire moyenne de la fa¸con suivante :

T

= 1

min(P,√

P ×V)

X

(T(t, p(t))×p(t)). (3.3)

De manière empirique, nous avons choisi la moyenne géométrique entre le nombre de

proces-seurs et le nombre de tˆaches,√

P ×V, car elle obtient un bon compromis entre l’utilisation des

ressources et le makespan des applications lorsque P devient tr`es grand devant V. Le fait de

prendre la valeur minimale entreP et√

P ×V entraˆıne que pourP ≤V, les allocations sont les

mˆeme qu’avec CPA (T

est ´egale `a l’aire moyenne T

utilis´ee dans CPA). PourP ≫ V, cette

nouvelle d´efinition augmente la pente de croissance de l’aire moyenne. La relation T

≈ T

reste toujours valable `a la fin de la proc´edure d’allocation.

Nous verrons dans le chapitre 5 qu’une estimation du taux d’utilisation de la plate-forme

(rapport de la puissance moyenne utilis´ee sur la puissance totale de la plate-forme) est β

=

T

/T

. Puisqu’on aT

=p

P/V×T

lorsque le nombre de processeurs est sup´erieur au nombre

de tâches, la condition d’arrêt de notre nouvelle procédure d’allocationT

≈T

´equivaut alors

`

a r´eduire le taux d’utilisation de la plate-forme en le fixant `ap

Chapitre 3. Ordonnancement de graphes de tˆaches modelables sur grappes homog`enes

Fig. 3.2 – Exemple d’´evolution de T

, T

et de T

dans la proc´edure d’allocation de CPA

et dans la nouvelle proc´edure d’allocation pour un DAG de 6 tˆaches sur une grappe de 30

processeurs.

La figure 3.2 montre un exemple d’´evolution deT

et deT

en utilisant CPA ainsi que celle

= ¹