Mod` ele d’ex´ ecution - simulation et l’exploration d’architectures

simulation et l’exploration d’architectures

IV.3.4 Mod` ele d’ex´ ecution

eléments forment des matrices de dimensions respectant un paramètre d’entrée ex-terne au programme.

La connexion de tous ces canaux avec les ports de communication des proces-seurs finalise l’instanciation du réseau d’interconnexion : la topologie du système est complètement déterminée.

IV.3.4 Mod`ele d’ex´ecution

Dans cette partie, nous présentons le comportement de chaque processeur au sein de l’environnement de simulation. Comme précisé précédemment, SystemCTMimpose l’existence d’une horloge dans l’environnement. Nous présentons ici deux modèles d’exécution envisagés pour répondre à cet impératif :

1. Un module horloge inutile pour un modèle entièrement piloté par les données. 2. Un modèle cadencé par l’horloge, et fonctionnellement asynchrone.

IV.3.4.1 Modèle piloté par les données

Un tel réseau asynchrone est caractérisé par l’absence d’horloge. Comme la bibliothèque SystemCTM est con¸cue pour le prototypage de systèmes synchrones, la présence d’une horloge globale est indispensable au fonctionnement de l’ordonnan-ceur. Nous avons donc intégré cette horloge dans un module fonctionnel (module en haut à gauche de la figure IV.13), sans interaction avec l’architecture modélisée. Ce module sert uniquement de base de temps pour le scheduler, et n’est jamais utilisé pour cadencer les unités de traitement.

Le principal avantage de ce modèle est sa capacité à reproduire fidèlement le com-portement d’un circuit asynchrone. Il permet de simuler l’asynchronisme à un haut ni-veau d’abstraction. La figure IV.13 présente le modèle utilisé pour l’instanciation d’un pixel et de ses canaux de communication. Les communications bloquantes ou non-bloquantes sont explicitement modélisées (signaux inDta/outDta, inAck/outAck ). Les ´

eléments internes constituant le processeur (carrés noirs) sont stimulés par des si-gnaux internes (sisi-gnaux1 e ReceivedD, e Completed . . .) indépendants de l’horloge du simulateur : le système est entièrement piloté par le flux des données (Data driven). Chacun de ces éléments constitue un processus parallèle pour le scheduler.

Le développement et l’utilisation de ce modèle a mis en évidence la nécessite d’une quantité importante de ressources logicielles : plus la granularité est fine, plus le modèle est complexe (plus de 63 000 tâches parallèles doivent être émulées pour une grille de 88 × 72 processeurs). La simulation d’un tel réseau nécessite plus de deux gigaoctets de mémoire vive. Pour des réseaux de tailles inférieures, le point de convergence est atteint au bout de plusieurs heures de simulation, et ce, avec une machine SUN UltraSparc bi-processeurs. L’intérêt de la simulation à un haut niveau

Chapitre IV : Mod´elisation pour la validation par simulation et l’exploration d’architectures Init_Send e_ReceivedAw inDtaW outAckW outDtaW inAckW Receiver Ack outDtaW inAckW Clk Start e_ReceivedAn e_ReceivedDn Data Ack Receiver Receiver busy? grey

outAckN înDtaN înAckN ôutDtaN

e_Completed nature e_Free e_ReceivedDw Ack Receiver grey grey Receiver Data busy? outAckE inDtaE inAckE outDtaE inDtaW outAckW busy? Receiver Data Ack Receiver Receiver Data busy? e_ReceivedDs e_ReceivedDe nature nature nature TestBench Processeur Computer

Fig. IV.13 – Synoptique du processeur 4-connexe (data driven).

d’abstraction est alors mis en d´efaut.

Ce modèle a cependant été utilisé au cours d’une préétude de l’algorithme de Hill-Climbing réordonnancé. Les résultats d’un algorithme de recherche de minima (corollaire aux algorithmes IV.2 et IV.3 page 112) implanté au niveau de granularité d’un processeur par pixel a montré la pertinence d’un tel modèle.

Afin de pouvoir simuler l’algorithme de segmentation complet sur des images de dimension QCIF (176 × 144 pixels) et d’explorer les architectures possibles, il est nécessaire de réduire la mémoire utilisée par le simulateur, ainsi que les temps de simulation. Nous nous sommes donc orientés vers un modèle de simulation plus simple, plus abstrait (i.e. moins prêt du hardware), et moins gourmand.

IV.3.4.2 Mod`ele fonctionnellement asynchrone

Cette partie présente la méthode adoptée pour réduire le nombre de processus parallèles tout en conservant un modèle d’exécution fonctionnellement asynchrone. Seule la granularité la plus fine est considérée ici, le modèle de simulation étant équivalent pour les granularités augmentées.

Comme les traitements sont locaux, l’idée est d’attribuer un unique fil d’exécution (scheduler thread ) à chaque processeur. La complexité algorithmique est alors réduite d’un facteur dix environ.

La figure IV.14 présente la synoptique du processeur élémentaire : une machine à état fini composée d’un module purement algorithmique et d’un module cadencé. Ce dernier fournit en entrée du module combinatoire les résultats des calculs obtenus à

L’environnement de simulation – IV.3

Machine à état fini

Données de sortie Contrôle Données d’entrée Données transitoires Registre Reset Clock

Fig. IV.14 – Pr´esentation synoptique d’un processeur fonctionnellement asynchrone.

“l’étape” précédente.

L’espace temps du modèle. La notion “d’étape” fait référence ici à une date : un front d’horloge ascendant. L’intervalle de temps séparant deux étapes successives représente un quantum de temps indivisible entre deux états différents du réseau : c’est la résolution temporelle du modèle de simulation. Comme tous les processeurs sont immergés dans le même espace de temps (le temps est supposé incompressible), l’horloge les relie tous : elle est globale au système de simulation.

L’avantage de cette modélisation du comportement du processeur est qu’elle ne nécessite qu’un seul thread par processeur sensible uniquement à l’horloge. Cependant, elle impose que tout calcul intermédiaire s’effectue en une “étape” (quantum de temps). Sans modification de ce modèle, il est impossible de modéliser des latences variables suivant la complexité des calculs.

Afin d’intégrer des temps de traitement, la latence de chaque calcul ou com-munication est émulée par une mise en attente des fonctions combinatoire durant plusieurs cycles de l’horloge. Les estimations de ces latences sont issues des mesures de performances du processeur ASPRO [Viv01]. Étant de l’ordre de 7ns en moyenne, nous estimons que la latence d’une action est comprise entre 6 et 8ns. Afin d’émuler l’indéterminisme des temps de calculs, la latence de chaque action est obtenue par tirage aléatoire équiprobable. Une modélisation plus fidèle de l’asynchronisme consisterait à utiliser une loi de Rayleigh [Pla94, chap.4]. Cependant, l’estimation de la latence d’une action étant déjà approximative, il ne nous a pas semblé utile d’alourdir le moteur de simulation en utilisant une telle loi. Dans le même ordre d’idées, afin de simplifier le processus d’écoulement du temps, la résolution est fixée

Chapitre IV : Mod´elisation pour la validation par simulation et l’exploration d’architectures

a une nanoseconde : la fréquence de l’horloge est donc fixée à 1 GigaHertz (période d’une nanoseconde).

Remarques:

• Il est important de noter que cette horloge est fictive et ne correspond `

a aucune caractéristique technologique. Son rôle est uniquement d’intégrer le temps dans le modèle (rôle de chronomètre), et non pas d’échantillonner les signaux entre blocs combinatoires d’un circuit (rôle d’ordonnancement). • Les contraintes technologiques sont intégrées dans l’estimation des chaˆınes

cri-tiques des opérateurs, c’est-à-dire la mise en attente des fonctions combinatoires durant un certain nombre de cycles de cette horloge. La simulation est fonctionnelle car cette mise en attente n’est pas fonction des données à traiter, contrairement au fonctionnement matériel.

L’implantation de l’algorithme de Hill-Climbing. Ce paragraphe décrit la méthode utilisée pour implanter l’algorithme de segmentation dans le modèle présenté par la figure IV.14.

S Contrôle E N S O Actif N O E Mémoires tampon Masques

Fig. IV.15 – Processeur élémentaire doté de ses ports d’entrée masquables et son unité de traitement effectuant l’algorithme de Hill-Climbing.

La figure IV.15 est une présentation synoptique corollaire à celle de la figure IV.14, où les interfaces de communication interprocesseurs sont plus détaillées (cas où la grille est 4-connexe). Le cœur du processeur¹ (cercle gris contenant la machine à trois états) effectue cycliquement et séquentiellement une lecture, des calculs (une description précise du comportement est présentée par les algorithmes IV.7 à IV.10 page 119) et une écriture vers ses voisins.

Afin de modifier dynamiquement le degré de connectivité des nœuds du réseau, chaque processeur gère une variable de quatre bits indiquant si tel ou tel voisin doit être écouté (inhibition des ports nord et est sur la figure IV.15). Dans la section III.3.1 page 39, nous avons désigné cette variable par net_G[v], où v correspond au processeur courant.

La détection de fin. Bien que le temps de calcul soit borné (l’algorithme ne boucle pas ni ne crée d’interblocages), il reste a priori inconnu. Il dépend en effet des données et des chemins de convergence de l’algorithme (construction aléatoire

L’environnement de simulation – IV.3

de la forêt d’arborescence). Ces derniers étant inconnus et dépendants de l’image, il est nécessaire de détecter le point de convergence puisqu’il ne peut être postulé¹. La solution la plus simple et la plus efficace connue à ce jour est de combiner, par un ou logique, l’ensemble des états d’activité des processeurs [Dul96].

Un pixel est actif s’il re¸coit de nouvelles données et les consomme. Il passe à l’état inactif, i.e. il s’endort, dès qu’il a fini l’envoi de ses résultats vers ses voisins.

L’utilisation de communications non-bloquantes entraˆınent potentiellement de fausses détection de fin. Sans aucune hypothèse sur les latences de transport des données entre deux pixels voisins, il est nécessaire d’établir un état d’activité sur les canaux de communication [Rob97]. Dans ce cas, le réseau est inactif si tous les processeurs sont inactifs et si tous les canaux de communication ne transportent pas de données.

Cette méthode accroˆıt la complexité de l’architecture pour la simple détection de fin. Afin de la minimiser, nous supposerons que les latences de communications sont bornées, et qu’un filtre de glitch (filtre passe-bas sur le signal d’activité globale du réseau) est suffisant.

IV.3.5 Mod`ele de communication non-bloquante

Cette partie présente les éléments de la bibliothèque SystemCTM utilisés pour implanter des communications non-bloquantes. Seules ces communications sont détaillées ici puisqu’elles sont exclusivement utilisées par toutes les architectures ´

etudi´ees (§IV.2 page 80).

Si la mémoire du canal est de taille unitaire, l’entité signal définie dans SystemCTM

modélisant l’état logique d’un ou plusieurs fils est utilisée.

Si une mémoire de taille supérieure est souhaitée, alors des FIFO sont utilisées. L’écriture d’une donnée dans une FIFO étant bloquante par défaut (SystemCTM

bloque le processus émetteur jusqu’à ce qu’une place dans le canal se soit libérée), chaque processeur élémentaire sonde la présence d’une donnée (resp. d’une place libre) lorsqu’il souhaite lire (resp. écrire) une donnée.

La bibliothèque SystemCTM n’autorise pas l’écriture simultanée d’une même va-leur sur plusieurs FIFO : un cycle d’horloge est imposé pour chaque écriture. Étant en contradiction avec le modèle de communication souhaité, nous avons légèrement modifié cette bibliothèque afin que l’écriture simultanée d’une même donnée sur plu-sieurs canaux soit possible.

IV.3.6 Conclusion

Le caractère asynchrone du réseau ainsi que les communications non-bloquantes sont simulés grâce à un environnement de haut niveau d’abstraction : SystemCTM.

Le modèle d’exécution et de communication de chaque processeur est émulé par une machine à état fonctionnellement asynchrone, cadencée par l’horloge du scheduler dont les temps de latence sont choisis aléatoirement. Cette alternative respecte les limitations de notre station de travail et nous permet de simuler le flux des données

1Une majoration du chemin critique de propagation (par une spirale par exemple) et des latences

Chapitre IV : Mod´elisation pour la validation par simulation et l’exploration d’architectures

dans un réseau de taille QCIF. L’environnement est alors suffisamment économe, en termes de ressources mémoire (environ 1 Go) et temps de simulation (environ une heure pour une image QCIF), pour reproduire les principales caractéristiques des architectures choisies (§IV.2).

IV.4 Validation des architectures

Les architectures désormais déterminées (§IV.1 et §IV.2) et l’environnement de simulation établi (§IV.3), cette partie est consacrée à la validation de ces archi-tectures par la simulation. Les mesures qualitatives des résultats de segmentation montrent la pertinence de ces architectures. Les mesures quantitatives de complexité des modèles seront ensuite présentées dans la section IV.5.

Toutes les simulations présentées dans le reste de cette partie sont réalisées sur trois images gradient de dimensions standards pour les terminaux visiophoniques et simplifiées1 pour des raisons de visibilité. Ainsi, la surface des bassins d’attraction est suffisamment grande pour observer la propagation des données dans le réseau.

(a) Image originale (b) Image gradient (c) Minima

Fig. IV.16 – Image de test : gradient simplifi´ee de Foreman SQCIF (88 × 72).

(a) Image originale (b) Image gradient (c) Minima

Fig. IV.17 – Image de test : gradient simplifi´ee de Foreman QCIF (176 × 144).

Les deux premi`eres sont les images Foreman aux formats SQCIF (88 × 72 pixels, figure IV.16)2 et QCIF (176 × 144 pixels, figure IV.17), et la troisi`eme est Susie au format QCIF (figure IV.18).

Les images gradient sont ici éclaircies afin de mieux visualiser les zones de transi-tions à détecter.

Pour des raisons de reconnaissance des régions (SQCIF) et de visibilité (QCIF), les deux images Foreman n’ont pas subies le même niveau de simplification. Pour

1Utilisation de l’algorithme des cascades [Beu94] : premier niveau de hi´erarchie pour l’image

SQCIF et deuxi`eme niveau de hi´erarchie pour les images QCIF.

2Pour des raisons de visibilité, les images SQCIF sont légèrement agrandies par rapport aux

Validation des architectures – IV.4

(a) Image originale (b) Image gradient (c) Minima

Fig. IV.18 – Image de test : gradient simplifi´ee de Susie QCIF (176 × 144).

l’image SQCIF, un seul niveau de hiérarchie de l’algorithme des cascades est utilisé, alors que pour l’image QCIF, deux niveaux de simplifications sont utilisés. L’image gradient SQCIF (figures IV.16b-c) comporte un nombre plus important de minima par rapport à l’image gradient QCIF (figures IV.17b-c). Un nombre plus important de régions pour l’image SQCIF est donc attendu.

Dans le document Etude d'adequation algorithme-architecture pour terminaux multimedia portables: segmentation d'images par un reseau de processeurs asynchrones (Page 112-118)