Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Architecture et environnement de simulation

Dans le document Étude de deux solutions pour le support matériel de la programmation parallèle dans les multiprocesseurs intégrés : vol de travail et mémoires transactionnelles (Page 103-108)

6.5 Caract´eristiques de LightTM

6.6.1 Architecture et environnement de simulation

LightTM a été implémenté au-dessus d’un environnement de simulation

multipro-cesseur SPARC.

6.6 ´Evaluation

Les caractéristiques des plateformes simulées sont résumées dans la table6.3, tandis que

la figure6.11représente une vue schématique des plateformes utilisées pour les simulations.

Pour la comparaison des deux syst`emes LightTM, seule l’architecture avec une m´emoire

centrale (architecture 1) est utilis´ee.

TAB. 6.3 – Caract´eristiques des plateformes de simulation

Nombre de processeurs n= 32, (ou 1 `a 32)

Nombre de bancs m´emoire 1

Mod`ele du processeur SPARC-V8 avec FPU, in order

Taille du cache de donn´ees 16Ko

Taille d’une ligne (donn´ees) 8mots (32octets)

Taille du cache d’instructions 16Ko

Taille d’une ligne (instructions) 8mots

Associativit´e du cache Correspondace directe

Taille du tampon d’´ecriture 8mots

Topologie du NoC Mesh 2D

Latence du NoC 10 cycles

D´ef. d’un cycle sur les graphes 200 cycles simul´es

FIG. 6.11 – Plateformes utilis´ees pour les simulations

Afin de suivre cette approche écriture simulatnée vs. écriture différée, nous avons donc

d´efini deux variantes de cette architecture :

Chapitre 6 Étude du protocole de cohérence pour les mémoires transactionnelles

– une configuration utilisant un protocole à écriture simultanée à invalidations (WTI)

avec répertoire (configuration écriture simultanée, avec les transactions LightTM-WT)

– une configuration utilisant un protocole WB-MESI avec r´epertoire (configuration

écriture différée, avec les transactions LightTM-WB)

La seconde architecture ne sera utilisée qu’avec le protocole à écriture différée.

Chaque simulation utilise un syst`eme comportant de 1 `a 32 processeurs et des caches

L1 à correspondance directe (avec les instructions séparées des données). La cohérence de

cache est maintenue par le protocole d´efini en fonction de la configuration, au-dessus d’un

NoC à bande passante élevée. Le protocole de communication utilisé entre les différents

composants est bas´e sur VCI, enrichi pour supporter les transactions.

L’environnement de simulation utilise le mod`elecycle-accuratedes composants de la

bib-liothèque SoCLib [The08], qui modélise précisément les différents composants présents sur

une puce, mais ne supporte pas les m´emoires transactionnelles. Les instructions relatives

aux transactions ont été ajoutées dans le modèle du processeur, et sont appelées par

l’in-termédiaire de macros C. En réalité, seul les appels aux fonctions store log address()

et store log size() requi`erent le d´ecodage d’une nouvelle instruction, les instructions

begin transaction()etend transaction()ayant été codées en utilisant les instructions

rd %asr etmov %asrdu SPARC. Lors d’un abort, une interruption est envoy´ee du cache

vers le processeur, ce qui restaure alors les valeurs des registres sauvegard´ees avant le d´ebut

de la transaction et la recommence.

Chaque application simulée a été compilée avec deux configurations : une avec des spin

locks et une avec des transactions. Nous avons utilis´e des spin locks et non des mutex locks

de manière à ne pas favoriser les transactions : en effet, nous avons supposé un contexte

sans commutation de threads, et dans un tel contexte les spin locks sont plus r´eactifs que

les mutex. Nous avons tout de même effectué quelques expérimentations avec des mutex

locks, et les résultats ont été bien pire pour les micro-noyaux, et plus lents ou équivalents

`a la plus lente des 2 autres configurations pour les benchmarks SPLASH-2 test´es. Les spin

locks utilisés sont des spin locks matériels idéaux de 1 cycle implémentés en mémoire, ne

requérant ainsi qu’une requête du processeur pour être pris (le test-and-set étant fait par la

mémoire) ou libérés.

6.6.2 Évaluation de l’approche écriture simultanée vs. écriture différée sur les

micro-noyaux

Avant de simuler les applications, nous avons essay´e de couvrir les cas un peu extrˆemes

de nos syst`emes en utilisant deux micro-noyaux. Nous avons simul´e ces micro-noyaux sur

des architectures de 2 `a 32 processeurs.

6.6.2.1 Premier micro-noyau

Le premier micro-noyau est illustr´e figure 6.12. Dans ce programme, tous les threads

essaient d’accéder à la même variable partagée en parallèle et de l’incrémenter. Le

pro-gramme s’arrête lorsque la variable a été incrémenté 10 000 fois. Il est évident que plus il

y a de processeurs, plus le temps d’ex´ecution est long puisque ajouter des processeurs ne

fait qu’ajouter du trafic. Cependant, ce programme permet d’exhiber le comportement des

deux syst`emes avec une forte congestion.

Sur la figure 6.6.2.1 sont montr´es les temps d’ex´ecution pour les transactions. Ces

r´esultats montrent que LightTM-WT, bien que plus lent, est plus stable que LightTM-WB

quand le nombre de processeurs augmente puisque le temps d’ex´ecution est presque

con-stant. Ainsi, on peut s’attendre `a ce que LightTM-WT ait un meilleur comportement lorsque

6.6 ´Evaluation

1 i n t end = 0 ;

2 i n t s h a r e d v a r = 0 ;

3 while ( end ! = 1 ){

4 b e g i n t r a n s a c t i o n ( ) ;

5 i f ( s h a r e d v a r == 1 0 0 0 0 ){

6 end = 1 ;

7 }

8 e l s e {

9 s h a r e d v a r ++;

10 }

11 e n d t r a n s a c t i o n ( ) ;

12 }

FIG. 6.12 – Premier micro-noyau utilisé pour évaluer les systèmes TM avec une congestion

´elev´ee

0

1000

2000

3000

4000

5000

6000

7000

8000

5 10 15 20 25 30

T

e

m

p

s

d

'e

xé

cu

ti

o

n

Nombre de Processeurs

Transactions LightTM-WT

Transactions LightTM-WB

FIG. 6.13 – Temps d’ex´ecution pour le premier micro-noyau avec les transactions LightTM

le nombre de processeurs devient très élevé, même si nous ne sommes pas allés au-delà de

32 processeurs dans nos exp´erimentations. Cependant, cela n’est peut-ˆetre pas la forme la

plus représentative d’exécution parallèle puisque le parallélisme est très limité ; c’est pour

cela que nous avons d´efini un second micro-noyau.

6.6.2.2 Second micro-noyau

Le second micro-noyau que nous avons écrit consiste à avoir des variables séparées pour

tous les processeurs, chaque processeur incr´ementant sa propre variable. Afin d’avoir des

résultats significatifs, nous avons changé le nombre d’incréments en fonction du nombre de

processeurs, de telle sorte que le nombre total soit toujours de 10 000.

Nous avons aussi considéré un facteur additionnel : le niveau de parallélisme inhérent,

relatif au placement des donn´ees, et en particulier au niveau des blocs m´emoire. Le meilleur

cas consiste à avoir toutes les variables situées dans des blocs différents, tandis que le pire

cas consiste `a avoir des lignes remplies de variables partag´ees (par exemple dans notre cas

avec 32 processeurs, avoir toutes les variables sur 4 lignes de 8 mots).

Pour ce micro-noyau, nous avons trouvé intéressant de comparer les temps d’exécution

des transactions à leurs équivalents à base de verrous. En ce qui concerne la granularité

des verrous, nous n’avons considéré qu’une granularité fine, i.e. le cas idéal o ù chaque

pro-Chapitre 6 Étude du protocole de cohérence pour les mémoires transactionnelles

cesseur utilise son propre verrou. Même si cela n’est pas très réaliste puisque dans un tel

programme les verrous pourraient alors être supprimés, cela reste la situation idéale pour

les verrous, et vers laquelle les programmes devraient tendre.

Nous avons ainsi pu d´efinir deux versions du micro-noyau :

1. la versioncontig ¨ue(figure6.14(a)),

2. la versionnon-contig ¨ue(figure6.14(b))

1 i n t s h a r e d v a r [NB PROCS ] ;

2 / I n i t i a l i s a t i o n . . . * /*

3 i n t j ;

4 i n t l i m i t = 10000/NB PROCS ;

5 f o r ( j = 0 ; j < l i m i t ; j ++){

6 p t h r e a d s p i n l o c k ( l o c k [

p r o c i d ] ) ;

7 / ou b e g i n t r a n s a c t i o n ( ) ; * /*

8 s h a r e d v a r [ p r o c i d ] + + ;

9 p t h r e a d s p i n u n l o c k ( l o c k [

p r o c i d ] ) ;

10 / ou e n d t r a n s a c t i o n ( ) ; * /*

11 }

(a) Version contig ¨ue

1 i n t s h a r e d v a r [NB PROCS* LINE SIZE ] ;

2 / I n i t i a l i s a t i o n . . . * /*

3 i n t j ;

4 i n t l i m i t = 10000/NB PROCS ;

5 f o r ( j = 0 ; j < l i m i t ; j ++){

6 p t h r e a d s p i n l o c k ( l o c k [ p r o c i d ] ) ;

7 s h a r e d v a r [ p r o c i d * LINE SIZE ]++;

8 p t h r e a d s p i n u n l o c k ( l o c k [ p r o c i d

] ) ;

9 }

(b) Version non-contig ¨ue

FIG. 6.14 – Repr´esentation simplifi´ee du second micro-noyau

Bien que ces 2 cas ne soient pas r´ealistes, nous pensons qu’ils sont assez repr´esentatifs

des possibilit´es d’ex´ecution avec beaucoup de concurrence quand aucune pathologie ne se

met en place.

Les résultats de ce micro-noyau sont présentés sur deux graphes : la figure6.15(a)

con-tient quatre courbes pour l’´ecriture simultan´ee (spin locks ou transactions, contigu ou

non-contigu), tandis que la figure6.15(b)contient les mêmes courbes pour l’écriture différée.

0

1000

2000

3000

4000

5000

6000

7000

8000

5 10 15 20 25 30

T

e

m

p

s

d

'e

xé

cu

ti

o

n

Nombre de Processeurs

Spin Locks, Contigu

Transactions, Contigu

Spin Locks, Non-Contigu

Transactions, Non-Contigu

(a) ´Ecriture simultan´ee

0

1000

2000

3000

4000

5000

6000

7000

8000

5 10 15 20 25 30

T

e

m

p

s

d

'

cu

ti

o

n

Nombre de processeurs

Spin Locks, Contigu

Transactions, Contigu

Spin Locks, Non-Contigu

Transactions, Non-Contigu

(b) Écriture différée

6.6 ´Evaluation

Les r´esultats montrent que les temps des transactions sont proches de ceux des spin

locks, pour la version contig ¨ue comme pour la version non-contig ¨ue, montrant que les

transactions sont capables d’exploiter le parall´elisme inh´erent de l’application. En fait,

les programmes avec des spin locks sont mˆeme plus lents que les transactions pour

LightTM-WB pour les deux versions, à cause de requêtes de prise et de relâche de verrous

supplémentaires. Cela est plus facile à voir pour la version non-contig üe : une fois qu’une

ligne est dans l’étatMen cache, les transactions s’enchainent rapidement sans accéder à la

m´emoire principale (les commits sont locaux dans ce cas). Pour la version contig ¨ue, un cache

a le temps de faire plusieurs transactions avant de recevoir une requˆete d’invalidation, c’est

pourquoi le nombre de ré-écritures et de récupérations de la ligne en cache est inférieur au

nombre de transactions, tandis que pour le programme avec des verrous, 2 acc`es non cach´es

sont faits pour chaque transaction.

Avec LightTM-WT cependant, les commits plus lents n’arrivent pas `a compenser les

requˆetes de verrous. N´eanmoins, pour les deux architectures, les courbes des transactions

montre un comportement globalement identique `a celui des spin locks.

Enfin, la comparaison entre l’écriture simultanée et l’écriture différée montre que le

LightTM-WB a des meilleurs r´esultats que LightTM-WT pour les deux versions, bien que

ce ne soit pas une surprise ´etant donn´e la nature du micro-noyau.

6.6.3 Résultats des applications pour l’approche écriture simultanée vs. écriture

Dans le document Étude de deux solutions pour le support matériel de la programmation parallèle dans les multiprocesseurs intégrés : vol de travail et mémoires transactionnelles (Page 103-108)

Télécharger maintenant "Étude de deux solution..."

Outline

Documents relatifs