Exploration architecturale avec plusieurs processeurs

CHAPITRE 2 REVUE DE LITT´ ERATURE

2.5 Algorithmes d’exploration architecturale

2.5.2 Exploration architecturale avec plusieurs processeurs

Les algorithmes présentés dans cette section assignent les tâches de l’application à une architecture qui comprend plusieurs processeurs et possiblement des accélérateurs matériels. On distingue trois catégories d’algorithmes. Dans la première, le nombre de processeurs et la topologie de communication sont fixes. La deuxième catégorie décide du nombre de processeurs à allouer, mais n’explore pas la topologie de communication. La troisième catégorie explore à la fois l’allocation des processeurs et la topologie de communication. On désigne les algorithmes des deux dernières catégories comme des algorithmes de synthèse d’architecture, étant donné qu’ils n’assignent pas seulement des tâches sur une architecture donnée, mais

qu’ils décident également de cette architecture. Notre méthode présentée au chapitre 8 se classe dans la troisième catégorie.

2.5.2.1 Nombre fixe de processeurs

Plusieurs algorithmes ont été proposés pour minimiser le temps d’exécution d’un ordonnancement statique d’un TPG sur un nombre fixe de processeurs (Kwok et Ahmad, 1999). Dans le contexte des systèmes embarqués, on s’intéresse également à l’impact de l’assignation et de l’ordonnancement des tâches sur les ressources matérielles requises. Ainsi, (Orsila et al., 2007) présente un algorithme de recuit simulé et une adaptation de l’heuristique de Kernighan-Lin (Kernighan et Lin, 1970) pour optimiser le temps d’exécution et la mémoire requise lors de l’assignation des tâches d’un TPG à une architecture composée d’un nombre fixe de processeurs homogènes et d’un bus partagé. Ces algorithmes, qui sont utilisés dans le cadre de la méthodologie de conception de systèmes embarqués Koski (Kangas et al., 2006), évaluent les solutions proposées par un ordonnancement statique du TPG sur les processeurs et le bus partagé. Il n’est cependant pas possible d’assigner une tâche en matériel.

D’autres algorithmes réalisent également un partitionnement logiciel/matériel : chaque tâche est assignée soit à un des processeurs de l’architecture, soit en tant qu’accélérateur matériel. Ainsi, (Wang et al., 2006) présente un algorithme hybride pour l’ordonnancement statique et l’assignation des tâches d’un TPG sur une architecture composée d’un processeur PowerPC (IBM Microelectronics Division, 1998), d’un processeur DSP TMS320C25 (Texas Instruments Inc., 2010) et d’un FPGA. Cet algorithme commence par produire un ensemble de solutions via une optimisation par colonie de fourmis, puis raffine chacune d’entre elles par un recuit simulé, selon des critères de temps d’exécution et de coût matériel. Dans (Niemann et Marwedel, 1997), une formulation ILP est présentée pour le problème de l’ordonnancement statique et de l’assignation des tâches d’un TPG sur un ensemble fixe de processeurs, d’ASIC et de bus. Cet algorithme permet de trouver une solution optimale, mais sa com- plexité exponentielle rend difficile son application à une architecture autre que celle utilisée pour un partitionnement logiciel/matériel à un processeur. SoCDAL (Ahn et al., 2008) utilise un algorithme évolutionniste d’inspiration quantique (Han et Kim, 2002) pour l’assignation des processus d’un graphe CSDF à une architecture composée d’un nombre fixe de processeurs ARM7, de DSP CEVA Teak (CEVA, Inc., 2004), d’accélérateurs matériels et d’un bus partagé. Dans (Wild et al., 2003), un recuit simulé ou une recherche tabou est utilisée pour assigner un TPG sur une architecture similaire. Ces algorithmes ont en commun qu’ils supposent qu’un ordonnancement statique de l’application est possible et qu’ils négligent l’implication du processeur dans les communications (Sinnen et al., 2006).

2.5.2.2 Exploration de l’allocation des processeurs

SOS (Prakash et Parker, 1992) est une formulation ILP d’un problème de synthèse d’architecture multi-processeurs hétérogène pour une application spécifiée sous la forme d’un TPG. Un gabarit d’architecture spécifie le nombre maximal de chaque type de processeurs et l’algorithme alloue un nombre variable de ces processeurs ayant chacun une mémoire locale et un co-processeur pour la gestion des communications. Les tâches du TPG sont assignées et ordonnancées statiquement sur l’architecture allouée. Un temps d’exécution est assigné à chaque tâche du TPG selon le processeur sur laquelle elle est assignée et un temps de communication est également associé aux communications entre processeurs. Un coût matériel est associé à chaque processeur alloué de même qu’aux liens de communication alloués entre les processeurs.

Bien que cet algorithme alloue également des liens de communications entre les processeurs, il ne réalise pas une exploration de la topologie de communication. En effet, pour une allocation de processeurs donnée et pour une assignation donnée des tâches aux processeurs, l’algorithme considère qu’il existe une et une seule topologie de communication : celle obte- nue en allouant un lien de communication point à point entre une paire de processeurs si et seulement si une tâche assignée au premier processeur communique avec une tâche assignée au deuxième processeur.

Plusieurs heuristiques ont été proposées pour accélérer la résolution de ce problème, soit les algorithmes génétiques (Dhodhi et al., 1995), les algorithmes à évolution différentielle (Rae et Parameswaran, 1998) et une heuristique de descente (Wolf, 1997). Dans (Prakash et Parker, 1994), une formulation ILP est proposée pour une variante de ce problème dont la topologie de communication est un bus partagé et qui tient compte de la quantité de mémoire utilisée par le code des processeurs alloués.

Dans (Erbas et al., 2006), des algorithmes génétiques multi-objectifs sont utilisés pour optimiser le temps d’exécution, la puissance et le coût matériel d’une architecture multi- processeurs implémentant un KPN. Les processus du KPN sont caractérisés par leur charge de calcul alors que les canaux sont caractérisés par leur charge de communication. Les processus sont assignés aux processeurs alors que les canaux qui réalisent des communications inter-processeurs sont assignés à des mémoires partagées. Le temps d’exécution est évalué en additionnant les charges imposées aux processeurs par les différents éléments du KPN sans tenir compte de l’ordonnancement dynamique des processus (dépendances de données, changements de contexte, etc.) L’algorithme prend en entrée un graphe d’architecture qui indique quels processeurs peuvent être alloués et quels processeurs peuvent communiquer entre eux. Le coût matériel est calculé selon les processeurs alloués à l’intérieur de ce gabarit. Un autre algorithme génétique multi-objectifs basé sur un gabarit d’architecture est proposé

dans (Schlichter et al., 2006), qui assigne les tâches d’un TPG à un graphe d’architecture et évalue leur temps d’exécution par un ordonnancement statique. Une variante de cet algo- rithme est utilisé par SystemCoDesigner (Keinert et al., 2009), alors que le temps d’exécution de l’application, qui est constituée d’un ensemble d’acteurs SysteMoC (Falk et al., 2006), est plutôt évalué par une simulation TLM avec VPC (Streubuhr et al., 2009).

Ces algorithmes limitent le nombre de processeurs qui peuvent être alloués à moins que le gabarit d’architecture contienne au moins autant de processeurs que de tâches. Cela est problématiques pour les formulations ILP étant donné que le nombre de variables et d’équa- tions y est proportionnel à la fois au nombre de tâches et processeurs (Prakash et Parker, 1992, 1994). Aussi, ces algorithmes ne supportent pas directement l’assignation de modules en matériel. Pour ce faire, il faut plutôt procéder indirectement, en définissant pour chaque module un « processeur » spécial représentant l’implémentation matérielle du module et en spécifiant que seul ce module peut être assigné à ce processeur. Cela est nécessaire pour s’assurer que ces modules matériels puissent être ordonnancés en parallèle. Cependant, cela augmente grandement le nombre de processeurs dans le gabarit d’architecture et le risque qu’une assignation donnée des tâches soit invalide. Cela est particulièrement problématique pour les algorithmes génétiques présentés. En effet, les individus (qui représentent chacun une allocation et assignation données) y sont représentés sous la forme d’un vecteur de bits sur lesquels s’appliquent des opérateurs de croisement et de mutation. Ces opérateurs sont aveugles (ils ne tiennent pas compte des spécificités du problème) et leur application peut donc produire une assignation invalide (Erbas et al., 2006; Schlichter et al., 2006). Il est alors nécessaire d’appliquer une procédure de réparation sur un tel individu, et ce possiblement sur plusieurs individus et sur plusieurs générations (ou itérations) de l’algorithme. Cette répara- tion peut être complexe : dans (Schlichter et al., 2006; Keinert et al., 2009), elle implique de résoudre un problème NP-complet de satisfiabilité booléenne (Garey et Johnson, 1979) dont le nombre de clauses est proportionnel au nombre de processeurs.

A l’inverse, notre formulation du problème n’impose aucune borne explicite au nombre de processeurs et supporte directement l’assignation des modules au matériel. Les opérateurs (mouvements) définis pour la recherche locale tiennent compte de la spécificité du problème et assurent que toutes les assignations produites sont correctes par construction. Il est ensuite aisé d’ajouter une borne explicite, si nécessaire, au nombre de processeurs : il suffit d’interdire les mouvements qui feraient dépasser cette borne. Nous avons implémenté une telle borne, qui est optionnelle, pour tous nos algorithmes. Les mêmes principes s’appliquent directement à l’exploration des topologies de communication sur plusieurs bus.

2.5.2.3 Allocation des processeurs et topologie de communications

Divers algorithmes combinent l’exploration de l’allocation des processeurs et de la to- pologie de communication. Ainsi, (Le Beux et al., 2009) présente un algorithme génétique multi-objectifs pour assigner les tâches d’un TPG à un nombre variable de processeurs ho- mogènes reliés entre eux par un réseau sur puce (NoC : Network on Chip). Cette exploration permet de choisir parmi trois topologies régulières pour le NoC, soit une topologie cross- bar, maillée (mesh) 2D ou en anneau. Notre approche explore plutôt des topologies de bus hiérarchiques qui peuvent être irrégulières et relier des accélérateurs matériels en plus des processeurs.

(Blickle et al., 1998) assigne les noeuds et les arcs d’un TPG à un graphe d’architecture dont les noeuds représentent des processeurs ou des liens de communication et dont les arcs indiquent quels processeurs peuvent utiliser quels liens de communication. Le gabarit d’architecture peut contenir des liens point-à-point et des bus partagés, mais ne contient pas de ponts entre les bus. Cette méthode ne cible donc pas les topologies de bus hiérarchiques sur puce. Un algorithme génétique multi-objectifs est utilisé pour explorer les différentes solutions possibles, dont le temps d’exécution est évalué par un ordonnancement statique. Cette approche partage les limites des algorithmes génétiques présentés à la section précédente. En particulier, l’application des opérateurs génétiques peut rendre un individu invalide et sa réparation est un problème NP-complet.

L’algorithme génétique MOGAC (Dick et Jha, 1998) s’attaque à ce problème en définis- sant des grappes de solutions qui ont exactement la même allocation de processeurs et la même topologie de liens de communication. Les opérateurs génétiques sont principalement appliqués à l’intérieur d’une même grappe pour éviter de modifier l’allocation ou la topologie et de créer des individus structurellement incohérents. L’allocation et la topologie sont ex- plorées lors de l’application occasionnelle des opérateurs génétique aux grappes elles-mêmes. Chaque individu voit alors ses informations d’assignation aléatoirement réinitialisées pour sa nouvelle allocation et topologie. L’exploration de l’allocation et de l’assignation se font ainsi en deux phases itératives alors qu’elle se fait en une phase combinée dans notre méthode. Dans (Deniziak et Gorski, 2008), la programmation génétique est appliquée à ce problème. Dans cet algorithme, un individu ne représente pas une allocation et assignation particulière, mais plutôt un algorithme glouton, composé à partir de règles élémentaires, qui permet de construire une telle allocation et assignation en une phase combinée. Les opérateurs géné- tiques modifient les règles utilisées par ces algorithmes gloutons, mais rien ne garantit que l’ensemble de ces règles permet de générer toutes les allocations, topologies et assignations qui font partie de l’espace de recherche. Ces méthodes considèrent également les topologies composées de liens point-à-point et de bus partagés, mais non les topologies de bus hiérar-

chiques.

(Madsen et al., 2006) présente un algorithme génétique multi-objectifs pour l’explora- tion de l’allocation des processeurs et des topologies de bus hiérarchiques pour un TPG. Ce modèle d’architecture considère donc les ponts. De plus, les opérateurs génétiques utilisés ne sont pas aveugles et tiennent compte des spécificités du problème. Ainsi, l’opérateur de croisement s’assure de conserver la cohérence entre l’allocation et l’assignation. Les opéra- teurs de mutation permettent de modifier l’assignation d’une tâche, de même que d’ajouter ou de retirer un processeur tout en modifiant l’assignation des tâches en conséquence. Ces opérateurs de mutation sont semblables aux mouvements de recherche locale de notre mé- thode, mais celle-ci inclut également des opérateurs pour ajouter ou retirer des bus de même que pour déplacer des processeurs d’un bus à un autre. L’exploration de la topologie dans (Madsen et al., 2006) doit donc se faire à l’intérieur d’un gabarit. Cette méthode modélise les accélérateurs matériels simplement comme un processeur avec une fréquence plus élevée alors que la nôtre considère comme distinctes les implémentations matérielles des différentes tâches. Notre méthode tient ainsi compte du fait que toutes les tâches ne subissent pas une accélération uniforme en passant du logiciel au matériel.

Dans le document Profilage, caractérisation et partitionnement fonctionnel dans une plate-forme de conception de systèmes embarqués (Page 56-61)