Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Vue sch´ematique de l’architecture de base

Dans le document Étude de deux solutions pour le support matériel de la programmation parallèle dans les multiprocesseurs intégrés : vol de travail et mémoires transactionnelles (Page 44-47)

A.4 R´esultats

4.1 Vue sch´ematique de l’architecture de base

FIG. 4.1 – Vue sch´ematique de l’architecture de base

tensibilité des bus est très limitée, et la complexité des crossbars devient trop importante

pour le nombre de processeurs vis´e.

La topologie utilis´ee est un maillage 2D puisque cette derni`ere a un bon ratio temps de

traversée/complexité, et a de bonnes propriétés pour le passage sur silicium.

Le composant de mesure du temps utilis´e compte un cycle pour 200 cycles de

simula-tions. Aussi, les valeurs présentés en cycles sur les graphes ne sont pas à prendre comme

des cycles de simulations, mais doivent d’abord ˆetre multipli´ees par 200 pour cela.

Il aurait été intéressant d’utiliser une mémoire de typescratch-padau lieu d’une mémoire

reliée au réseau local (i.e. une mémoire connectée directement au processeur par

l’in-termédiaire d’une interface dédiée [PDN97]), mais cela n’a pas été exploré car étant une

limitation des mod`eles disponibles dans l’environnement de simulation. Cependant, du fait

de la latence du crossbar local, les comportements temporels de ces deux solutions auraient

´et´e relativement proches.

L’espace d’adresses vu par les processeurs est partitionn´e en un ensemble de segments.

Un ou plusieurs segments peuvent être associés à un périphérique ou une mémoire, en

respectant les contraintes suivantes : les segments associés à un périphérique ne peuvent

pas être cachés, et les segments d’une même mémoire doivent avoir le même attribut de

cachabilit´e (cach´e ou non).

Pour résumer, l’espace de conception matériel qui sera exploré dans notre étude

con-sistera principalement à l’évaluation de la manière dont les DMAs et/ou les caches

peu-vent améliorer la localité des données et comment le placement physique des verrous peut

acc´el´erer la synchronisation.

4.2.2 Syst`eme d’exploitation et assignation des tˆaches

Nous utilisons la configurationordonnanceur décentralisé (DS) d’un noyau léger appelé

multi-Chapitre 4 Performances du vol de travail et étude de propriétés architecturales

processeurs à mémoire partagée. Contrairement à la configuration SMP dans laquelle tous

les processeurs partagent un seul ordonnanceur pour accomplir la s´election des tˆaches, la

configuration DS limite grandement la congestion puisque chaque processeur poss`ede son

propre ordonnanceur. Les tâches peuvent être fixées sur un processeur désiré afin d’éviter

la migration. Dans ce cas, chaque thread est assigné à un processeur à sa création. Les piles

des threads et les données locales sont situées dans les mémoires locales des processeurs.

Toutes les expérimentations présentées dans cette partie sont faites en utilisant cette

mˆeme configuration du syst`eme.

4.2.3 Crit`eres de s´election et choix du micro-kernel

Afin de répondre aux différents problèmes définis, nous avons choisi de faire dans un

premier temps nos expérimentations avec un micro-kernel. Le choix de ce micro-kernel a été

motiv´e par trois points.

Premièrement, de manière à évaluer le surcout du vol de travail par rapport aux

ap-proches classiques des syst`emes embarqu´es, le micro-kernel doit permettre la calibration

d’applications pour lesquelles une parall´elisation optimale est connue. Deuxi`emement, les

applications multim´edia demandent beaucoup de ressources en calcul et en

communica-tion : le micro-kernel doit donc avoir un grain fin et ˆetre repr´esentatif d’une classe

d’ap-plications multimédia tels que les filtres numériques ou les transformées. Troisièmement, il

doit permettre une analyse th´eorique sur l’impl´ementation du vol de travail afin de donner

un retour sur les exp´erimentations.

Nous avons sélectionné un micro-kernel satisfaisant ces contraintes, qui consiste à faire

des opérations indépendantes sur les éléments d’un tableau, dont le contenu constitue

l’entrée et la sortie du programme. Ce tableau est alloué en mémoire partagée.

En considérant une opération de traitement quasiment nulle sur chaque élément, cela

donne au micro-kernel un tr`es haut ratio communicationvs.calcul, ce qui permet une

anal-yse du surcout du vol de travail en nombre de cycles. De plus, en consid´erant un nombre

de processeurs identiques et un temps de traitement de chaque ´el´ement constant, ce surcout

peut être comparé au nombre de cycles de la parallélisation standard statique, dénotée PAR :

les données d’entrées de taille n sont partagées de manière égale entre lesp processeurs,

chaque processeur ´etant donc en charge d’un bloc contigu de taille ⁿ_p.

4.3 Analyse th´eorique du temps parall`ele pour le micro-kernel

La simplicit´e du micro-kernel choisi et de son impl´ementation permet une analyse

théorique. Les notations suivantes sont utilisées : comme défini dans le chapitre 3, Tseq,

T_p et T∞ dénotent respectivement le temps d’exécution séquentiel, le temps d’exécution

parallèle sur pprocesseurs et le chemin critique, i.e. le temps d’exécution parallèle sur un

nombre non born´e de processeurs (sans tenir compte des synchronisations finales). On

sup-pose que le temps de calcul τ d’un élément vérifie τ_min ≤ τ ≤ τ_max. Nous considérons

aussi dans cette section que le cache d’instructions peut contenir toute l’application et nous

restreignons notre analyse au cache de donn´ees.

4.3.1 Analyse th´eorique pour le PAR

Considérons d’abord le nombre de défauts en cache de données. Soit M_seq le nombre

de défauts de l’exécution séquentielle, qui correspond au parcours linéaire du tableau.

Dans l’exécution PAR, chaque processeur exécute l’algorithme séquentiel sur sa partie

4.4 Param`etres de l’architecture

des données. Ainsi, le nombre de défauts de cacheM_p^{P AR} par processeur vérifieMseq ≤

p×M_p^{P AR} ≤ Mseq +p. Puisque p ≪ Mseq, le surcout induit par les d´efauts de cache en

parall`ele est n´egligeable.

Le temps d’exécution T_p^{P AR} est donc égal au temps d’exécution de la portion des

données prenant le plus de temps pour être calculé. En supposant un temps constant pour

le calcul de l’opération d’un élément, on a :

T_p^{P AR}≃ ^T^seq_p . (4.1)

Dans le cas général dans lequel le temps de calcul d’un élément peut varier, on a

seule-ment :

Tseq

p ≤T_p^{P AR}≤ ^τ_τ^max

min

Tseq

p ^. (4.2)

4.3.2 Analyse th´eorique pour AWS

Pour AWS, on noteτstealune borne sur le temps d’une op´eration de vol (qui r´eussit ou

qui échoue) sur un processeur donné. Ce surcout lié à AWS est relié au nombre totalS de

vols, qui est proportionnel `aT∞.

Du fait de l’initialisation, de l’extraction de la moiti´e du travail lors des vols et de

l’ex-traction locale delog2 du travail restant, on a que :T∞=O(log2Tseq).

De plus, du fait de la recherche cyclique d’un processeur victime, le nombre total

d’op´erations de vol estS =O(p×T∞).w.h.p., et dans le pire des cas :

S =O(p²×T∞). (4.3)

De la même manière que pour le PAR, le nombreM_p^{AW S} de défauts de cache par

pro-cesseur pour le parcours du tableau est born´e au pire des cas par : le nombre Mseq de

défauts de cache de l’exécution séquentielle, plus au plus deux défauts supplémentaires

après chaque opération de vol réussie – un sur le processeur voleur pour charger la

nou-velle partie du tableau, et un sur le processeur vol´e pour mettre `a jour son travail local.

Nous avons donc ainsi :Mseq ≤p×M_p^{AW S} ≤Mseq+ 2S.

Il est `a noter que dans le cas du micro-kernel choisi, le processeur qui effectue une

opération de vol est considéré en attente, et n’a par conséquence pas de donnée utile dans

son cache. C’est pourquoi on peut ignorer les d´efauts de cache avant un vol r´eussi. Le temps

d’ex´ecution finalement attendu est donc de :

T_p^{AW S} = ^T^seq

p +O(S) = ^T^seq

p +O(p²×T∞). (4.4)

On remarque entre autre que le surcout li´e aux vols (et notamment `a la synchronisation

finale) est proportionnel au carr´e du nombre de processeurs.

4.4 Param`etres de l’architecture

Au-del`a de l’analyse th´eorique, les performances effectives pour le PAR et AWS sont

fortement relatives à la configuration matérielle. À grain fin, le micro-kernel fait beaucoup

Chapitre 4 Performances du vol de travail et étude de propriétés architecturales

Un des moyens pour am´eliorer les performances est de faire se recouvrir les calculs et les

communications. Dans le contexte de notre étude, cela peut consister à utiliser les mémoires

locales pour réduire la latence d’accès à la mémoire principale : en utilisant un DMA, il

est possible de copier les données de la mémoire principale vers la mémoire locale d’un

processeur tandis que ce dernier est en train de faire des calculs. L’utilisation de caches sera

aussi ´etudi´ee, ainsi que l’utilisation jointe de caches et de DMAs.

Par ailleurs, dans AWS, des op´erations de synchronisation suppl´ementaires sont

nécessaires du fait des appels à extract par() et des vols, nécessitant entre autres

des prises de verrous. En l’occurrence, acc´eder un verrou lors de chaque op´eration

extract seq() peut se révéler peu efficace à grain fin. Puisque la plupart des accès sont

locaux, on peut esp´erer que distribuer les verrous et les structures sur les r´eseaux

d’inter-connexion locaux r´esulte en une r´eduction du temps de latence moyen.

4.4.1 Utilisation de DMAs

Afin d’explorer l’usage de DMAs, l’architecture de base est modifi´ee par l’ajout d’une

unité de DMA sur chaque réseau local (figure4.2). De cette manière, les données en entrée

pour un processeur peuvent être accédées dans la mémoire locale au lieu de la mémoire

partagée. L’allocation dans les mémoires locales est rendue possible grâce à un appel

syst`eme sp´ecifique.

TTY

c

a

c

h

e

Processeur 0

INST. DON.

SPARC V8

DMA

Mémoire locale

Pont

TTY

Processeur p-1

INST.DON.

SPARC V8

DMA

Mémoire locale

Pont

. . . .

Timer

Module de locks

Mémoire partagée 0 Mémoire partagée 1

Dans le document Étude de deux solutions pour le support matériel de la programmation parallèle dans les multiprocesseurs intégrés : vol de travail et mémoires transactionnelles (Page 44-47)

Télécharger maintenant "Étude de deux solution..."

Outline

Documents relatifs