Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

AWS : une biblioth`eque de vol de travail adaptatif

Dans le document Étude de deux solutions pour le support matériel de la programmation parallèle dans les multiprocesseurs intégrés : vol de travail et mémoires transactionnelles (Page 36-40)

Le problème est que beaucoup de tâches ainsi créées ne seront jamais volées. Ces tâches

ont un cout de création et de maintien, et même si leWork First Principleest appliqué, cette

découpe récursive crée un surcout comparé à l’exécution séquentielle pure d’une boucle

for. La solution `a ce probl`eme dans TBB est d’utiliser unauto partitionneurqui fait une

découpe intelligente en fonction du nombre de processeurs et des évènements de vol.

Le second exemple est la fonctionparallel scan, qui calcule le préfixe des éléments

d’une plage. Après avoir coupé la plage des éléments à traiter en deux moitiés et calculé

le préfixe sur chaque moitié, elle doit faire une opération supplémentaire pour calculer

le résultat final : multiplier tous les éléments de la seconde moitié par préfixe du dernier

élément de la première moitié. Nicolau et Wang [WNySS96] ont montré qu’une borne

inférieure pour le temps de calcul des préfixes surp processeurs est _p²+1ⁿ o ùn est le

nom-bre d’éléments de la plage. Un algorithme na¨ıf basé sur une découpe récursive calculerait le

r´esultat en 2n

p opérations, ce qui n’est pas optimal. Ceci est la conséquence d’opérations

ad-ditionnelles dues à la parallélisation. TBB adresse ce problème en évitant ce surcout lorsque

la seconde moitié n’a pas été volée.

Ces exemples montrent que le problème de la découpe des données est crucial vis-à-vis

des performances d’un syst`eme de vol de travail.

Enfin, le vol de travail basé sur les deques doit faire face au problème de la granularité :

si les tâches sont à grain fin, i.e. que les fonctions parallèles sont courtes, le surcout lié à la

gestion et l’ordonnancement entre tâche est élevé ; mais si les tâches sont à gros grain, cela

limite potentiellement le parall´elisme.

3.2.1 Une solution : le vol de travail adaptatif

Une solution pour conserver un parall´elisme entre donn´ees efficace et adresser le

problème de la granularité est d’utiliser le vol de travail adaptatif. Ce dernier est basé sur

le couplage de deux algorithmes : un algorithme séquentiel exécuté par un processeur, qui

consiste à faire desextractions séquentiellesd’une partie du travail total et à exécuter ce

tra-vail localement ; un algorithme parall`ele permettant de remettre en cause le calcul s´equentiel

avec une extraction parall`ele du travail.

Une impl´ementation logicielle efficace d’un sch´ema de vol de travail adaptatif suit le

Work First Principle qui est la combinaison de deux r´esultats : premi`erement, l’algorithme

parallèle exécuté séquentiellement (comme dans Cilk) est remplacé par un algorithme

s´equentiel optimis´e [DGK+

05] ; deuxi`emement, l’introduction d’une boucle pour contr ˆoler

le surcout d û à la parallélisation [DGG+

07]. En suivant ce principe, une impl´ementation

sans deque est prouvée optimale, à la fois en théorie et en pratique, pour une large

gamme d’algorithmes de la STL [TRM+

08]. Une autre impl´ementation, `a laquelle nous

al-lons nous intéresser par la suite a été prouvée optimale pour les calculs sur des flux de

donn´ees [BRT08].

3.3 AWS : une biblioth`eque de vol de travail adaptatif

La biblioth`eque de vol de travail constitue une part importante de l’´ecriture d’un

algo-rithme parallèle. Cette section vise à présenter la bibliothèque AWS (pour Adaptive Work

Stealing), qui est une impl´ementation du vol de travail adaptatif, ´ecrite en vue de tourner

sur des systèmes embarqués. Nous nous intéressons à cette bibliothèque dans le but de tirer

parti des avantages du vol de travail dans notre contexte architectural.

Chapitre 3 ´Etat de l’art sur le support mat´eriel au vol de travail

3.3.1 Philosophie d’AWS

Une contrainte majeure dans les syst`emes embarqu´es et les MPSoCs est que l’espace

mémoire doit être statiquement borné. En conséquence, cette spécification du vol de travail

n’alloue pas de mémoire supplémentaire durant l’exécution. Par ailleurs, elle ne requiert pas

de gestion de la concurrence entre les threads puisque `a chaque instant, seul un calcul est en

cours sur chaque unit´e d’ex´ecution qui n’est pas en attente.

En effet, plut ôt que de gérer sur chaque unité un ensemble de tâches prêtes, AWS suit

l’id´ee de l’algorithme de vol de travail sans deque propos´e dans [TRM+

08] qui est bas´e sur

la création paresseuse des tâches. Un processeur actifjeffectue le calcul de la tâche qui lui

est assign´ee ; quand une requˆete de vol venant du processeur iarrive surj, une nouvelle

tâche est créée et correspond à une partie du travail restant surjprête à être calculée. Cette

tâche est alors assignée au processeuriqui peut continuer son exécution.

Dans la suite, l’op´eration qui construit la description d’une tˆache publique est

ap-pelée extract par() et celle qui construit la description d’une tâche privée est appelée

extract seq(). Ces opérations sont implémentées au niveau de l’application. Ainsi, la

création effective des tâches est déléguée à l’application ; AWS ne gère que les requêtes de

vol sur les processeurs en attente et l’ex´ecution locale du travail sur les processeurs actifs.

Ces deux opérations sont indépendantes : un vol qui se termine avec succès mène à un

extract par()sur la victime, ce qui modifie le travail restant. Cette synchronisation entre

les requêtes de vol et l’exécution locale est gérée au niveau de la bibliothèque de vol de

tra-vail. Le travail local sur un processeur actif est effectu´e sous la forme d’un bloc d’op´erations,

et est défini au niveau de l’application : la fonctionextract seq()est appelée de manière

itérative sur le travail local jusqu’à sa complétion.

3.3.2 Avantages et contraintes du modèle de programmation lié à AWS

Cette section discute de l’impact des caract´eristiques et des choix fait dans AWS sur

plusieurs points. Premi`erement, un des avantages d’AWS est de laisser `a l’utilisateur la

pos-sibilité de descendre à grain fin tout en n’impliquant qu’un surcout très faible. En effet,

la quantité de travail volée et la taille des tâches extraites s’adapte à la quantité de travail

restante.

Par ailleurs, l’ordonnancement des tˆaches prˆetes est connu pour avoir un impact sur

les performances. Ainsi, la délégation au niveau applicatif des opérationsextract par()

etextract seq()supprime ce surcout au niveau de l’application. L’inconv´enient que cela

pose est qu’il faut arriver `a ´ecrire son programme sous la forme de ces deux fonctions, plus

celle pour le traitement des ´el´ements.

Ensuite, il est `a noter que le couplage de deux algorithmes, un s´equentiel - pour les

opérationsextract seq()- et un parallèle - pour les opérationsextract par()- n’empêche

pas le parallélisme récursif : il est possible d’imaginer la gestion d’une collection de tâches

prêtes à être volées à l’intérieur du travail local. Bien s ûr, cela délaisse alors les contraintes

mémoire au niveau applicatif. Dans le même ordre d’idée, il est imaginable d’utiliser

une biblioth`eque de plus haut niveau au-dessus d’AWS pour g´erer des synchronisations

suppl´ementaires.

L’inconv´enient principal de l’approche propos´ee est que pour une application complexe,

toutes les synchronisations inter-tâches (comme dans le cas de l’exemple précédent avec le

parallélisme récursif) doivent être gérées dans le code de l’application. En effet, AWS ne gère

pas la dépendance entre tâches de par son modèle, et n’est donc pas très adapté à toutes les

classes d’applications. Cela n’est cependant pas n´ecessairement un probl`eme, puisque les

applications de traitement de donn´ees ne requi`erent pas de telles synchronisations.

3.3 AWS : une biblioth`eque de vol de travail adaptatif

3.3.3 Impl´ementation d’AWS

Comme nous avons dans nos travaux utilisé et modifié la bibliothèque AWS, il est

nécessaire de décrire son implémentation. Néanmoins, comme nous sommes repartis d’une

biblioth`eque existante, nous la pr´esentons dans cette section. Nous rappellons que notre

objectif ici est d’étudier l’intérêt d’un support matériel ad-hoc en vue d’améliorer les

perfor-mances de l’impl´ementation.

3.3.3.1 Comportement g´en´eral

Basé sur les choix de conception précédents, ce paragraphe présente la façon dont la

biblioth`eque d’AWS est construite, ainsi que son API.

Le comportement général est le suivant. Au démarrage, chaque processeur est actif et

commence un calcul, d´etermin´e par son identifiant processeur. Quand un processeur va en

attente, il devient un voleur. Il sélectionne une victime de manière cyclique jusqu’à trouver

du travail `a voler.

3.3.3.2 Structures utilis´ees pour le travail

Chaque processeur g`ere deux structureswork t qui repr´esentent une partie du travail

total. À chaque instant, toute donnée ne peut être contenue que dans au plus une structure

work tdu syst`eme. La premi`ere structurework test publique et visible de tous les autres

processeurs. Elle est initialisée avec une certaine quantité de travail, généralement la même

pour tous les processeurs. La seconde structurework t est une structure priv´ee qui n’est

visible que pour le processeur qui la poss`ede et qui contient le travail `a faire localement.

3.3.3.3 Cœur de l’algorithme

Le cœur de l’algorithme de vol de travail adaptatif (fonctionloop core adaptive) est

présenté figure3.1. Après une requête de vol se soldant par un succès, un processeur

ob-tient du travailw et ex´ecute une boucle locale : lalocal-loop. Dans cette boucle, le

pro-cesseur ex´ecute une fonction appel´eeextract seq()qui extrait une petite partie du travail

duwork t public vers lework t priv´e l. Le processeur traite ensuite ce travaill avec une

fonction appeléelocal run(): ce traitement est fait de manière séquentielle et ne peut être

pr´eempt´e. Quand la structurework tpubliquewest vide, le processeur devient un voleur et

sort de lalocal-loop. Il scanne alors toutes les structureswork tpubliques jusqu’`a en

trou-ver une non-vide et ex´ecute alors la fonctionextract par()qui extrait une partie du travail

de la victime dans sa propre structure publiquew. Le processeur entre ensuite `a nouveau

dans lalocal-loop. Quand toutes les structureswork tpubliques sont vides, la totalit´e du

travail a été traitée.

3.3.3.4 Nature des structureswork t

Les structureswork tne contiennent en général pas le travail lui-même, mais plut ôt une

description du travail, tels que des indexes définissant le début et la fin d’une zone à traiter.

Pour le cas o ù les données d’entrées sont un tableau, la figure 3.2 illustre la structure

d’un nœud, qui contient deux structureswork tpointant respectivement vers le premier et

le dernier ´el´ement du travail en cours de traitement pour ce nœud, et le premier et dernier

élément du travail restant, qui lui peut être volé.

Chapitre 3 ´Etat de l’art sur le support mat´eriel au vol de travail

1 / node mutex : v e r r o u p r o t ´e g e a n t l e t r a v a i l p a r t a g ´e*

2 ( i . e . p o u v a n t ˆe t r e v o l ´e ) du noeud c o u r a n t /*

3 l o c k ( node mutex ) ;

4 h a s l o c a l w o r k = t r u e;

5 h a s g l o b a l w o r k = t r u e;

6 while ( h a s g l o b a l w o r k ) { / s t e a l−l o o p * /*

7 while ( h a s l o c a l w o r k ) { / l o c a l−l o o p * /*

8 s t a t u s = e x t r a c t s e q ( ) ; / e x t r a i t du t r a v a i l l o c a l l de w * /*

9 i f ( s t a t u s == STATUS OK ) {

10 unlock ( node mutex ) ;

11 l o c a l r u n ( ) ; / t r a i t e l o c a l e m e n t l * /*

12 l o c k ( node mutex ) ;

13 } e l s e

14 h a s l o c a l w o r k = f a l s e;

15 } / f i n de l a l o c a l−l o o p * /*

16 / t r y s t e a l * /*

17 unlock ( node mutex ) ;

18 s t a t u s = s t e a l ( ) ; / r écupè r e du t r a v a i l p a r t a g é : w * /*

19 l o c k ( node mutex ) ;

20

21 i f ( s t a t u s == STATUS OK )

22 h a s l o c a l w o r k = t r u e;

23 e l s e

24 h a s g l o b a l w o r k = f a l s e;

25 } / f i n de l a s t e a l−l o o p * /*

26 aws unlock ( node mutex ) ;

FIG. 3.1 – Cœur de l’algorithme AWS (fonctionloop core adaptive)

. . . . . .

Travail déjà traité ou appartenant à un autre noeud

données courantes pour le noeud

Noeud contenant les deux structures work_t

données d'entrée

Travail correspondant au work_t local (en cours de traitement)

Travail correspondant au work_t partagé (peut être volé)

Dans le document Étude de deux solutions pour le support matériel de la programmation parallèle dans les multiprocesseurs intégrés : vol de travail et mémoires transactionnelles (Page 36-40)

Télécharger maintenant "Étude de deux solution..."

Outline

Documents relatifs