solutions possibles des sous ´ etapes pr´ ec´ edentes sont pr´ esent´ ees

Deux types de technique de partitionnement sont généralement utilisées : celles regroupant les

méthodes constructives et celles basées sur des améliorations itératives ou heuristiques [Bou04].

Pour les m´ethodes constructives, aucune partition initiale n’est requise. Ces m´ethodes

parti-tionnent le graphe en d´emarrant par un ou plusieurs noeuds. La cr´eation des partitions se fait

alors en ajoutant progressivement des noeuds tout en respectant des fonctions de coˆut. Avec

ces méthodes, le partitionnement se fait rapidement mais les partitions générées ne sont pas

toujours optimales. Les méthodes de partitionnement par amélioration itérative débutent par

une partition initiale. Le résultat est amélioré en dépla¸cant des noeuds entre partitions selon des

approches pouvant ˆetre heuristiques.

2.2.2.4 M´ethodes de Partitionnement temporel pour syst`emes reconfigurables

2.2.2.4.1 M´ethodologie de partitionnement temporel par approche it´erative

[ea03] propose une méthode itérative de partitionnement temporel de tâches sur une unité

re-configurable dynamiquement (FPGA). L’approche proposée opère sur une représentation graphe

flots de données mixtes (flots de contrôle/flots de données). Le partitionnement temporel proposé

s’effectue uniquement sur le graphe flot de donn´ees. Le partitionnement porte donc sur l’ensemble

des tâches dans les chemins de données. Les tâches sont regroupées pour former des contextes.

Un seul contexte est actif à la fois sur l’unité reconfigurable. Plusieurs tâches peuvent s’exécuter

en parallèle au sein d’un contexte. Le partitionnement est ici considéré comme un processus

d’al-location et ordonnancement de tˆaches plus ou moins prioritaire dans l’unit´e reconfigurable tel

qu’un ou plusieurs critères soient optimisés. Le critère retenu par la méthode proposée consiste

`

a profiter au mieux des ressources disponibles dans l’unit´e reconfigurable FPGA pour minimiser

le temps global d’ex´ecution de l’application. L’approche effectue un ordonnancement statique

et non préemptif des tâches du GFD [ea03]. Le partitionnement proposé ici est basé sur un

algorithme génétique (AG). Cet algorithme se base sur une procédure itérative durant laquelle

un ensemble de générations (ou populations) sont créées par itération. L’entière population ´

evo-lue simultanément de fa¸con à ce que la probabilité de convergence vers un minimum local soit

réduite [ea03]. La procédure d’évolution est détaillée dans les étapes suivantes :

com-Assignation –Optimisation

/ * C D B A F G

Ordonnancement – Allocation par partition

E A B C D F G Adder 8 Mov Mov Sub 8 Temp Temp Partition 1 Partition 2 E C D B A F Adder 8 Mov Mov Sub 8 Temp_1 Partition 1 Temp_2 Temp_1 Temp_2 G Partition 2 000100100 111001010 111000100 …….. 000100100 111001010 111000100 ……..

Génération de fichier de configuration FPGA des partitions 000100100 111001010 111000100 …….. 000100100 111001010 111000100 ……..

Fig. 2.10 – Illustration des ´etapes interd´ependantes du flot de conception par partitionnement

temporel.

promis temps/surface. Le nombre de ces points est variable en fonction de l’exploitation du

parall´elisme disponible dans chacune des tˆaches. Le codage de toute solution fournit une

information sur la correspondance entre chaque tˆache et l’un de ces points d’implantation.

Si on considère N tâches, la méthode de codage code un chromosome C avec un vecteur

de gènes de longueurN. Chaque gèneC(i) est un entier représentant un pourcentage. La

valeur maximale 100% qu’un gène C(i) peut prendre est associée à l’implantation la plus

coûteuse en terme de cellule logique (CL) dans l’unité reconfigurable de la tâche T

. Le

point d’implantation s´electionn´e est le point le plus proche de C(i) sur l’axe de la surface.

Toutes les solutions délivrées par ce codage sont ainsi viables. Les tâches allouées doivent

être groupées au sein de contextes pour arriver à évaluer les performances de l’individu.

– L’Evaluation : La performance de chaque chromosome (ou solution) d´elivr´e par l’AG est

évaluée pour le classer à l’intérieur de la population courante. L’approche consiste à évaluer

une solution en terme de son temps global d’ex´ecution y compris les temps de

reconfigu-ration du FPGA suite aux changements de contexte et les temps de communication entre

les diff´erentes tˆaches.

Le groupement des tâches dans des contextes s’effectue à partir d’une évaluation des temps

d’exécution des tâches. La priorité d’une tâche est la longueur du plus long chemin partant

de cette tâche et arrivant à une feuille du GFD évaluée en terme de temps d’exécution

et de communication. La priorit´e P

de la tˆache T

est calcul´ee en consid´erant le temps

d’ex´ecution T

_exec

(i) de la tˆache T

, les priorit´es de ses successeurs j et les temps de

com-munication entre l’unité reconfigurable et la mémoire d’interfaces (mémoire de stockage

des donn´ees interm´ediaires entre les configuration)T

_com

(e

) des donn´ees des tˆachesT

vers

les tˆachesT

lorsque la reconfiguration est termin´e [ea03].

P

=T

exec

(t

) +SU P

₍_t_j_∈Succ₍_t_i₎₎

(P

+T

com

(t

, t

)) (2.1)

Le temps de communication prend en compte le temps de reconfiguration d´ependant de

la quantité de cellules logiques utilisées pour réaliser un contexte sur FPGA.

– Le partitionnement : la méthode considère la taille d’un contexte, limitée à la taille

maxi-male du FPGA en terme de cellule logique (CL) S

_max₍_CL₎

(en pratique, 80 `a 85 % du

nombre total de CL) et en terme de cellules d´edi´ees (CD)S

_max₍_CD₎

. Initialement, toutes les

tâches sont triées par ordre de priorité décroissante établi par l’étape précédente. Ensuite,

on considère la tâche à allouer dans un contexte T

(t

, S

(CL);S

(CD)) poss´edant la plus

haute priorit´e, o`u t

repr´esente le temps d’ex´ecution et S

(CL) (respectivement S

(CD))

le nombre de CL (respectivement CD) correspondant au point d’implantation point´e par

C(i) dans le chromosome. Les ressources disponiblesRess(C

curr

) dans un contexte courant

Ccurr (initialement `a S

_max

=S

_max₍_CL₎

+S

_max₍_CD₎

) sont décrémentées deS

, la taille de

T

. (S

(CL) +S

(CD)). Cette procédure de construction de contexte est itérée avec les

tˆaches T

(t

, S

(CL);S

(CD)) tant que :

S

(CL)·Ress(CL)(C

curr

)&&S

(CD)·Ress(CD)(C

curr

).

Sinon, un nouveau contexte est créé et le processus est ainsi répété jusqu’à ce que toutes

les tâches soient attribuées à des contextes.

Une fois les contextes d´efinis, l’algorithme met `a jour les temps de communication inter-contextes

(entre différents contextes), et mettant à jour de nouveau l’ordre de priorité des tâches. Un

processus d’it´eration du partitionnement est alors de nouveau mis en œuvre. Plusieurs op´erateurs

génétiques sont appliqués auxN

parents

individus sélectionnés pour générer lesN

enf ants

solutions

représentant la nouvelle génération. Avec la création de la nouvelle génération, le renouvellement

de la population est effectué selon le principe élitiste. Lorsqu’un nombre de générations N

_gen

s’est écoulé sans aucune amélioration du meilleur individu, l’AG arrête son exécution et affiche

la meilleure solution rencontr´ee.

Enfin, on obtient un partitionnement de contextes ordonnanc´es o`u les communications

re-quises pour transférer les données et les opérations de reconfiguration sont également définies.

2.2.2.4.2 M´ethodologie de partitionnement temporel par approche constructive

Cette méthode de partitionnement [Cha98] consiste à décomposer une application en

mo-dules vi élémentaires (tâches ou opérations) puis à les grouper pour les intégrer dans des

pro-cesseurs élémentaires (PE) en satisfaisant certaines contraintes. Ces PE correspondent à des

processeurs tel que des DSP, des FPGA, etc. Leur nombre est inf´erieur au nombre de

mo-dules vi. Les contraintes considérées sont relatives à la surface de calcul disponibles, au nombre

d’entrées/sorties qui ne doit pas dépasser le nombre de broches disponibles et à la puissance

consommée par la totalité des modules dans le PE qui ne doit pas dépasser une certaine limite.

Dans le document Optimisation par synthèse architecturale des méthodes de partitionnement temporel pour les circuits reconfigurables (Page 50-53)