Minimisation de la bande passante lors de l’utilisation de la RD

Famille de Possibilit´e de RD Tailles D´elai de Vitesse de reconfiguration

circuit partielle (Portes) reconfiguration (ms) (Mportes/s)

AT40K(ATMEL) Oui 45000 0,54 83,39

Op´erateur D bits synchronis´e Nombre de cellules

Multiplication ou division par 2k 0

Additionneur ou soustracteur D+1

Multiplexeur D

Comparateur 2D

Valeur absolue D

Registre de synchronisation suppl´ementaire D

Op´erateur logique D

*D est la taille maximale de donn´ees `a traiter

Op´erateur D bits Temps d’ex´ecution

Multiplication ou division par 2k 0

Additionneur ou soustracteur D*(TC+TR) +TSetup

Multiplexeur TC +TSetup

Comparateur (2*D-1)*(TC) + 2*TR+TSetup

Valeur absolue D*(TC+TR) +TSetup

Registre de synchronisation suppl´ementaire TC +TSetup

Op´erateur logique TC +TSetup

*D est la taille maximale de données à traiter,TC =1,7 ns temps de traversée d’une cellule logique

TR = 0,17 ns temps inter-routage entre cellule,TSetup= 1,5 ns temps de pr´e-positionnement des registres

Op´erateur D bits synchronis´e Nombre de cellules

Multiplication ou division par 2^k 0

Additionneur ou soustracteur (D/4)+1

Multiplexeur D/4

Comparateur D/2

Valeur absolue D/4

Registre de synchronisation suppl´ementaire D/4

Op´erateur logique D/4

*D est la taille maximale de donn´ees `a traiter

Op´erateur D bits Temps d’ex´ecution

Multiplication ou division par 2k 0

Additionneur ou soustracteur (D/4)*(TC +TR) +TSetup

Multiplexeur TC +TSetup

Comparateur ((D/2)-1)*(TC) + 2*TR+TSetup

Valeur absolue (D/4)*(TC+TR) +TSetup

Registre de synchronisation suppl´ementaire TC +TSetup

Op´erateur logique TC +TSetup

*D est la taille maximale de données à traiter,TC =0,7 ns temps de traversée d’une cellule logique

TR= 10 ns temps inter-routage entre cellule,TSetup= 0,6 ns temps de pr´e-positionnement des registres

Nombre total Temps Nombre Ressources Dur´ee de

de d’ex´ecution de / reconfiguration

ressources critique (ns) partitions partition / partition (us)

467 41 3 156 114

Minimisation de la bande passante lors de l’utilisation de la RD

Au final, DAGARD permet de sp´ecifier les caract´eristiques d’une architecture SoC reconfigurable

n´ecessaire pour l’implantation d’un algorithme particulier. La figure 4.5 montre la fenˆetre du

DAGARD[Bru04].

4.2.2.1 Mod´elisation et caract´erisation technologique

A partir de la technologie utilis´ee, les param`etres tels que la consommation en terme de

ressources logiques, les temps d’ex´ecution des op´erateurs de l’algorithme, la vitesse de

reconfi-guration de la technologie FPGA utilisée ont été évalués [Ta03, Liu04] et intégrés dans l’outil

DAGARD. L’objectif ici est de mod´eliser `a la fois :

Fig. 4.5 – La fenˆetre de saisie GFDC de l’outil DAGARD [Bru04].

– Les surfaces logiques des noeuds v

pr´esents physiquement dans l’unit´e de calcul

reconfi-gurable sont formul´ees selon l’´equation 3.7.

– Les temps de traversée des noeuds et de propagation des données entre les noeuds formulés

par l’équation 3.18 en vue d’en déduire une évaluation de la fréquence de travail et la

latence du chemin critique (prologue pipeline) associée à chaque partition et exprimée par

l’´equation 3.19.

Les technologies AT40K de ATMEL et Virtex de Xilinx permettent de r´ealiser de la

reconfi-guration totale ou partielle. Elle offre la possibilité pour chaque nouvelle configuration de générer

les données de configuration limitées aux ressources exploitées. La table 4.1.suivante donne un

exemple d’estimation de vitesse de configuration de circuit Atmel et Xilinx [Atm, Xil07b, Liu04].

Tab. 4.1 – Vitesses de reconfiguration des circuits FPGAs AT40k et Virtex XCV200E.

L’étude de la structure des cellules logiques de la technologie utilisée permet l’évaluation du

nombre de cellules nécessaires pour réaliser chaque opérateur du GFD. Cela permet d’évaluer

les ressources logiques nécessaires pour chaque étape de l’application à partir du graphe flot de

données. Une estimation des performances et des ressources a été réalisée pour la technologie

FPGA Atmel [Tan01]. Ces estimations ont été réalisées à partir de l’architecture des cellules

logiques de la technologie considérée et des différents modes de configuration possible d’une

cellule logique. Les tables 4.2 et 4.3 rappellent quelques estimations d’op´erateurs arithm´etiques

et logiques. L’outil DAGARD utilise ces caract´erisations pour la d´etermination des partitions

possibles d’un algorithme en vue d’une impl´ementation sur la technologie FPGA Atmel AT40K

[Atm].

Tab. 4.2 – Estimations des ressources d’op´erateurs logiques et arithm´etiques sur technologie

FPGA Atmel AT40K.

Tab. 4.3 – Temps d’exécution des opérateurs synchronisés (FPGA AT40k).

Nous avons réalisé une estimation de certains opérateurs arithmétiques et logiques sur la

technologie FPGA Xilinx. Cette derni`ere utilise une structure de cellule logique diff´erente de

celle de Atmel. Dans le FPGA Atmel les plus petits ´el´ements sont les cellules (figure 4.6.a).

(a) (b)

Fig. 4.6 – (a) La cellule de Atmel (b) CLB Virtex compos´e de 2-slice de Xilinx.

La structure d’une cellule logique de la technologie Atmel est compos´ee de deux LUT `a trois

entrées et une sortie qui peut être vue comme une seule LUT à quatre entrées [Atm]. Avec la

technologie Xilinx, on dispose d’une autre structure de cellule logique (CLB) constitu´ee de deux

slices eux-mêmes constitués de deux LUT à quatre entrées (figure 4.6.b) [Xil07b].

A partir de la structure d’un CLB, nous pouvons estimer les ressources et performances

d’opérateurs logiques et/ou arithmétiques. Par comparaison, pour réaliser un même opérateur

tel qu’un multiplexeur 4 bits, avec la technologie Atmel il faut 4 cellules logiques contre

seule-ment 1 CLB avec la technologie Xilinx. Les tables 4.4 et 4.5 donnent les estimations avec la

technologie FPGA Virtex en termes de temps d’ex´ecution et de ressources d’op´erateurs logiques

et arithm´etiques synchronis´es ou non.

Tab. 4.4 – Estimation des ressources d’op´erateurs logiques et arithm´etiques sur technologie

Virtex.

Ces caractérisations ont été intégrées dans l’outil DAGARD afin de permettre une estimation

automatique des fr´equences et des ressources d’un partitionnement temporal initial en vue d’une

impl´ementation sur la technologie FPGA Virtex.

Tab.4.5 – Temps d’exécution des opérateurs synchronisés (FPGA Virtex).

4.2.2.2 Caract´erisation et annotation du GFD

Le partitionnement initial par l’outil DAGARD, s’effectue dans un premier temps par une

annotation et une caractérisation du graphe flot de données de l’algorithme de détection de

contours en fonction de la cible technologique FPGA [Ta03, Ba03]. Cette caract´erisation et

annotation permettent d’estimer les fréquences et ressources nécessaires pour l’exécution des

partitions initiales possibles d’un algorithme. En effet, le temps d’ex´ecution d’une partition

dépend à la fois du temps d’exécution de l’opérateur le plus lent et du routage entre les différents

opérateurs ou cellules exploitées dans cette partition. DAGARD permet une caractérisation en

terme de performances (temps d’exécution des opérateurs synchronisés) et des ressources des

op´erateurs arithm´etiques et logiques pour la technologie Atmel et Xilinx [Liu04, Bru04]. La

figure 4.7. illustre la phase d’annotation et caract´erisation par DAGARD du GFD du d´etecteur

de contour pour la technologie AT40K d’indice de vitesse -2. Les fonctions médianes sont réalisées

sur des op´erateurs 8 bits. Nous avons des multiplexeurs 8 bits qui consomment 8 Cells et sont

exécutés en 5ns, des comparateurs 8 bits qui consomment 16 Cells et sont exécutés en 41ns. La

première partie de Sobel nécessite des registres 8 bits qui consomment 8 Cells et sont exécutés en

4 ns. Les multiplieurs et diviseurs par puissance de deux sont uniquement bas´es sur du routage

et ne consomment aucune cellule. Les additionneurs/soustracteurs 8 bits consomment 9 Cells

et sont exécutés en 24 ns. Les additionneurs 9 bits consomment 10 Cells et sont exécutés en

27 ns. Dans la seconde partie de l’algorithme de d´etection de contours (calcul de composante

horizontale de Sobel), le seul nouveau op´erateur est un additionneur/soustracteur de taille 10

bits qui consomme 11 Cells et est ex´ecut´e en 30 ns. Dans la fonction valeur absolue maximale,

les nouveaux op´erateurs sont des op´erateurs de calcul de la valeur absolue de taille 11 bits qui

consomment 10 Cells et sont ex´ecut´es en 29 ns.

4.2.2.3 Estimation performances et ressources