Une méthodologie de conception de modèles analytiques de surface et de puissance de réseaux sur puce hautement paramétriques basée sur une méthode d’apprentissage automatique

(1)

HAL Id: tel-00877956

https://tel.archives-ouvertes.fr/tel-00877956v2

Submitted on 12 May 2014

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Une méthodologie de conception de modèles analytiques de surface et de puissance de réseaux sur puce

hautement paramétriques basée sur une méthode d’apprentissage automatique

Florentine Dubois

To cite this version:

Florentine Dubois. Une méthodologie de conception de modèles analytiques de surface et de puissance de réseaux sur puce hautement paramétriques basée sur une méthode d’apprentissage automatique.

Autre [cs.OH]. Université de Grenoble, 2013. Français. �NNT : 2013GRENM026�. �tel-00877956v2�

(2)

TH ` ESE

Pour obtenir le grade de

DOCTEUR DE L’UNIVERSIT ´ E DE GRENOBLE

Sp ´ecialit ´e : Informatique

Arr êt é minist érial : 978-2-11-129178-2

Pr ´esent ´ee par

Florentine Dubois

Th èse dirig ée parM. Fr éd éric P étrot

pr ´epar ´ee au sein dulaboratoire TIMA, CNRS/Grenoble INP/UJF (CIFRE STMicroelectronics)

et de Ecole Doctorale Math ´ematiques, Sciences et Technologies de l’Information, Informatique (MSTII)

Une m éthodologie de conception de mod èles analytiques de surface et de puissance de r éseaux sur puce haute- ment param étriques bas ée sur une m éthode d’apprentissage automatique

Th `ese soutenue publiquement le04/07/2013, devant le jury compos ´e de :

Prof. Olivier Francois

Grenoble INP (TIMC-IMAG), Pr ´esident

Prof. Alain Greiner

Universit ´e de Paris VI, Pierre & Marie Curie (LIP6), Rapporteur

Prof. Olivier Sentieys

Universit ´e de Rennes 1 (ENSSAT), Rapporteur

Prof. Davide Atienza

Ecole polytechnique f ´ed ´erale de Lausanne (ESL), Examinateur

Prof. Fr éd éric P étrot

CNRS/Grenoble INP/UJF (TIMA), Directeur de th `ese

M. Marcello Coppola

(3)

(4)

A machine-learning based

methodology to design analytical area and power models of highly

parametric networks-on-chip

Supervised by Prof. Frédéric Pétrot

Florentine Dubois

in collaboration with

TIMA Laboratory, CNRS/Grenoble INP/UJF

and

STMicroelectronics

A thesis submitted for the degree of Docteur de l’universit´e de Grenoble

July 2013

(5)

(6)

Remerciements

Je voudrais remercier le professeur Frédéric Pétrot et M. Marcello Coppola pour m’avoir donné l’opportunité de réaliser cette thèse ainsi que pour leur précieuse aide tout au long de sa réalisation.

Je souhaite aussi remercier les professeurs Alain Greiner et Olivier Sentieys pour avoir accepté de rapporter mon travail de thèse, le professeur Davide Atienza pour avoir accepté d’examiner mon travail ainsi que le professeur Olivier François pour avoir accepté de présider le jury.

Je remercie mes coll`egues Adrien Prost-Boucle, Yan Xu, Maryam Bahmani et tous les autres membres de l’´equipe SLS pour leur con- seils et leur bonne humeur.

Je souhaite aussi remercier chaleureusement mes collègues Ric- cardo Locatelli, Michael Soulie, Giuseppe Maruccia, Raffaele Guar- rasi, Hajer Ferjani et Christophe Viroulaud de l’équipe STNoC pour leur soutien quotidien et leur gentillesse. Un grand merci à Valerio Catalano pour son aide régulière et avisée dans la réalisation de ce travail. Je souhaite à chacun d’entre vous le meilleur pour la suite.

Je remercie Sarah Badji,mes parents et mes fr`eres pour leurs en- couragements et leur soutien dans les moments les plus difficiles.

Je souhaite enfin remercier Guillaume M´ezin pour son ´ecoute et sa patience.

(7)

(8)

Abstract

In the last decade, Networks-on-chip (NoCs) have emerged as an efficient and flexible interconnect solution to handle the increas- ing number of processing elements included in Systems-on-chip (SoCs). NoCs are able to handle high-bandwidth and scalability needs under tight performance constraints. However, they are usually characterized by a large number of architectural and implementation parameters, resulting in a vast design space. In these conditions, finding a suitable NoC architecture for specific platform needs is a challenging issue. Moreover, most of main design decisions (e.g. topology, routing scheme, quality of service) are usually made at architectural-level during the first steps of the design flow, but measuring the effects of these decisions on the final implementation at such high level of abstraction is complex.

Static analysis (i.e. non-simulation-based methods) has emerged to fulfill this need of reliable performance and cost estimation methods available early in the design flow. As the level of abstraction of static analysis is high, it is unrealistic to expect an accurate estimation of the performance or cost of the chip. Fidelity (i.e. characteri- zation of the main tendencies of a metric) is thus the main objective rather than accuracy.

This thesis proposes a modeling methodology to design static cost analysis of NoC components. The proposed method is mainly ori- ented towards generality. In particular, no assumption is made neither on the number of parameters of the components nor on the dependences of the modeled metric on these parameters. We are then able to address components with millions of configurations possibilities (order of 10³⁰ configuration possibilities) and to estimate cost of complex NoCs composed of a large number of these com-

(9)

ponents at architectural-level. It is difficult to model that kind of components with experimental analytical models due to the huge number of configuration possibilities. We thus propose a fully- automated modeling flow which can be applied directly to any architecture and technology. The output of the flow is a NoC component cost predictor able to estimate a metric of interest for any configuration of the design space in few seconds.

The flow builds fine-grained analytical models on the basis of gate- level results and a machine-learning method. It is then able to design models with a better fidelity than purely-mathematical methods while preserving their main qualities (i.e. low complexity, early availability). Moreover, it is also able to take into account the effects of the technology on the performance. We propose to use an interpolation method based on Kriging theory. By using Kriging methodology, the number of implementation flow runs required in the modeling process is minimized and the main characteristics of the metrics in space are modeled both globally and locally. The method is applied to model logic area of key NoC components. The inclusion of traffic is then addressed and a NoC router leakage and average dynamic power model is designed on this basis.

(10)

(11)

(12)

R´esum´e

Les réseaux sur puces (NoCs - Networks-on-chip) sont apparus du- rant la dernière décennie en tant que solution flexible et efficace pour interconnecter le nombre toujours croissant d’éléments inclus dans les systèmes sur puces (SoCs - Systems-on-chip). Les réseaux sur puces sont en mesure de répondre aux besoins grandissants en bande-passante et en scalabilité tout en respectant des contraintes fortes de performances. Cependant, ils sont habituelle- ment caractérisés par un grand nombre de paramètres architecturaux et d’implémentation qui forment un vaste espace de conception. Dans ces conditions, trouver une architecture de NoC adaptée aux besoins d’une plateforme précise est un problème difficile. De plus, la plupart des grands choix architecturaux (topologie, routage, qualité de service) sont généralement faits au niveau architectural durant les premières étapes du flot de conception, mais mesurer les effets de ces décisions majeures sur les performances finales du système est complexe à un tel niveau d’abstraction.

Les analyses statiques (méthodes non basées sur des simulations) sont apparues pour répondre à ce besoin en méthodes d’estimations des performances des SoCs fiables et disponibles rapidement dans le flot de conception. Au vu du haut niveau d’abstraction utilisé, il est irréaliste de s’attendre à une estimation précise des performances et co ûts de la puce finale. L’objectif principal est alors la fidélité (caractérisation des grandes tendances d’une métrique per- mettant une comparaison équitable des alternatives) plutôt que la précision.

Cette thèse propose une méthodologie de modélisation pour concevoir des analyses statiques des co ûts des composants des NoCs. La méthode proposée est principalement orientée vers la généralité. En particulier, aucune hypothèse n’est faite ni sur le nombre de paramètres des composants ni sur la nature des

(13)

dépendances de la métrique considérée sur ces mêmes paramètres.

Nous sommes alors en mesure de modéliser des composants proposant des millions de possibilités de configurations (ordre de 10³⁰ possibilités de configurations) et d’estimer le co ût de réseaux sur puce composés d’un grand nombre de ces composants au niveau architectural. Il est complexe de modéliser ce type de composants avec des modèles analytiques expérimentaux à cause du trop grand nombre de possibilités de configurations. Nous proposons donc un flot entièrement automatisé qui peut être appliqué tel quel à n’importe quelles architectures et technologies. Le flot produit des prédicteurs de co ûts des composants des réseaux sur puce capables d’estimer les différentes métriques pour n’importe quelles configurations de l’espace de conception en quelques secondes.

Le flot conçoit des modèles analytiques à grains fins sur la base de résultats obtenus au niveau porte et d’une méthode d’apprentissage automatique. Il est alors capable de concevoir des modèles présentant une meilleure fidélité que les méthodes basées uniquement sur des théories mathématiques tout en conservant leurs qualités principales (basse complexité, disponibilité précoce).

Nous proposons d’utiliser une méthode d’interpolation basée sur la théorie de Kriging. La théorie de Kriging permet de minimiser le nombre d’exécutions du flot d’implémentation nécessaires à la modélisation tout en caractérisant le comportement des métriques

à la fois localement et globalement dans l’espace. La méthode est appliquée pour modéliser la surface logique des composants clés des réseaux sur puces. L’inclusion du trafic dans la méthode est ensuite traitée et un modèle de puissance statique et dynamique moyenne des routeurs est conçu sur cette base.

(14)

(15)

(16)

List of Figures

1 Exemple de réseau sur puce . . . 4 2 Possibilités d’exploration et co ûts de modification . . . 9 3 Stratégie d’exploration de l’espace de conception des NoCs . . . 9 4 Flot de conception générique des systèmes basés sur des NoCs . 10 5 L’écart de capacités des batteries . . . 18 2.1 NoC example . . . 34 2.2 Correspondence between NoCs blocks and layers . . . 37 2.3 NoCs design tradeoffs at different levels of abstraction . . . 41 2.4 NoCs design space exploration strategy . . . 41 2.5 Generic NoC-based system design flow . . . 42 2.6 The battery capacity gap . . . 48 3.1 Design space size in function of training set size for machine-

learning based methods . . . 74 4.1 Modeling flow . . . 87 4.2 LHS design example for k = 2 and n = 5; a cross means that a

point was chosen in the interval. . . 90 4.3 Example of 3-layer ANN with 3 inputs, 5 hidden neurons and 2

outputs . . . 93 4.4 Modeling of square root function by different machine-learning

methods (initial function in blue, produced predictor in dashed red) . . . 94 4.5 Effects of additional training points on Kriging interpolation . . 97 4.6 Example of correlation functions with differentθ_h andp_h . . . . 100

(23)

4.7 Influence of training points in space . . . 101 4.8 ACE process (initial function in blue, produced predictor in

dashed red, training points as green squares) . . . 103 4.9 ACE-D process . . . 104 4.10 Router architecture (r_d = 4,n_v = 2) . . . 110 4.11 Network interface architecture . . . 112 5.1 Router architecture (r_d = 4,n_v = 2) . . . 121 5.2 Example of states repartition . . . 124 5.3 Router internal power in idle state . . . 131 5.4 Router internal power in inactive state . . . 133 5.5 Router internal power in active state . . . 137 6.1 Output port area model validation . . . 152 6.2 Absolute and relative area models errors per area domain . . . . 156 6.3 Router area model inaccuracies (%) . . . 157 6.4 Comparison between DACE error estimation and effective error . 158 6.5 Output port QQ Plot for power model (I_leak(conf ig_i)) . . . 160 6.6 Idle internal power ratios estimated with different methods . . . 164 6.7 Test case request network . . . 168 6.8 Test case routers area and power estimations . . . 171 6.9 Test case average latencies between the IPs and the DDR - all

results and a zoom on CPUs latencies . . . 172 7.1 Our models locations in the design space size in function of

training set size graph . . . 185 A.1 Greedy configuration correction algorithm . . . 210 A.2 Configurations exploration strategy . . . 211 B.1 Input port area model validation . . . 217 B.2 Switch area model validation . . . 218 B.3 NI IP side area model validation . . . 219 B.4 NI NoC side area model validation . . . 220

(24)

B.5 Output port model average relative error - all errors and a zoom on DACE and MARS errors . . . 221 B.6 Absolute and relative input port area models errors per area do-

main . . . 223 B.7 Absolute and relative switch area models errors per area domain 225 C.1 Output port QQ Plot for power model (C_idle(conf ig_i)) . . . 229 C.2 Output port QQ Plot for power model (C_active(conf ig_i)) . . . 230 C.3 Output port QQ Plot for power model (C_inactive(conf ig_i)) . . . . 231 C.4 Input port QQ Plot for power model (I_leak(conf ig_i)) . . . 233 C.5 Input port QQ Plot for power model (C_idle(conf ig_i)) . . . 234 C.6 Input port QQ Plot for power model (C_active(conf ig_i)) . . . 235 C.7 Output port QQ Plot for power model (C_inactive(conf ig_i)) . . . . 236 C.8 Static output port power ratios estimated with different meth-

ods (I_leak(conf ig_i)) . . . 240 C.9 Idle internal output port power ratios estimated with different

methods (C_idle(conf ig_i)) . . . 242 C.10 Active internal output port power ratios estimated with differ-

ent methods (C_active(conf ig_i)) . . . 244 C.11 Inactive internal output port power ratios estimated with differ-

ent methods (C_inactive(conf ig_i)) . . . 246 C.12 Static input port power ratios estimated with different methods

(I_leak(conf ig_i)) . . . 248 C.13 Active internal input port power ratios estimated with different

methods (C_active(conf ig_i)) . . . 250 C.14 Inactive internal input port power ratios estimated with differ-

ent methods (C_inactive(conf ig_i)) . . . 252

(25)

(26)

List of Tables

1 Architecture et param`etres des NIs . . . 6 2 Architecture et param`etres des routeurs . . . 7 2.1 NI architecture and parameters . . . 38 2.2 Router architecture and parameters . . . 39 3.1 Summary of performance evaluation methods . . . 73 4.1 General notations . . . 84 4.2 Notations example . . . 85 4.3 Kriging properties in NoC context . . . 96 4.4 Mathematical Symbols . . . 98 4.5 Generic router parameters . . . 110 4.6 Generic NI parameters . . . 113 5.1 Generic router parameters for power model . . . 122 5.2 Symbols used in power model . . . 128 6.1 Models properties . . . 149 6.2 Output area port model (n_err = 600) . . . 154 6.3 Router area model (n_err = 800) . . . 154 6.4 NoCs area model . . . 157 6.5 Input port static power model (I_leak(c_i)) . . . 161 6.6 Input port internal power model in active state (C_active(c_i)) . . . . 161 6.7 Idle internal power ratios errors . . . 163 6.8 Port power models fidelity measured on 300 ports configurations165 6.9 Router power model fidelity measure on 80 routers configurations167

(27)

6.10 Test case alternative configurations . . . 168 6.11 Test case: platform DACE models fidelity measure . . . 169 6.12 Test case: routers DACE models fidelity measure . . . 169 B.1 Input port area model (n_err = 600) . . . 222 B.2 Switch area model (n_err = 1000) . . . 224 C.1 Output port static power model (I_leak(conf ig_i)) . . . 237 C.2 Output port idle internal power model (C_idle(conf ig_i)) . . . 237 C.3 Output port active internal power model (C_active(conf ig_i)) . . . . 238 C.4 Output port inactive internal power model (C_inactive(conf ig_i)) . . 238 C.5 Input port Internal power model in idle state (C_idle(conf ig_i)) . . 238 C.6 Input port internal power model in inactive state

(C_inactive(conf ig_i)) . . . 239 C.7 Output port static power ratios errors (I_leak(conf ig_i)) . . . 239 C.8 Output port Idle internal power ratios errors (C_idle(conf ig_i)) . . 241 C.9 Output port Active internal power ratios errors (C_active(conf ig_i)) 243 C.10 Output port inactive internal power ratios errors

(C_inactive(conf ig_i)) . . . 245 C.11 Input port static power ratios errors (I_leak(conf ig_i)) . . . 247 C.12 Input port active internal power ratios errors (C_active(conf ig_i)) . 249 C.13 Input port inactive internal power ratios errors (C_inactive(conf ig_i))251

(28)

(29)

(30)

List of acronyms

ACE ACcumulative Error adaptive design

ACE-D ACcumulative Error adaptive design - Discrete version ANN Artificial Neural Network

CABA Cycle Accurate Byte Accurate CPU Central Processing Unit

CV Cross-Validation

DACE Design and Analysis of Computer Experiments (Kriging) D&C Divide and Conquer

FCFS First-Come-First-Serve flit FLow control unITs

I/O Inputs/Outputs

IP Intellectual Property LHS Latin Hypercube Sample

MARS Multivariate Adaptive Regression Splines

NI Network Interface

NoC Network-On-Chip

QoS Quality of Service RBF Radial basis functions

RR Round-Robin

RTL Register Transfer Level

SoC System-On-Chip

TLM Transaction Level Modeling

VC Virtual Channel

(31)

(32)

1

Introduction

chapitre

D

ûrant la dernière décennie, les systèmes électroniques ont évolué de l’exécution d’une application spécifique à la gestion d’un grand nombre de fonctionnalités sujettes à des contraintes fortes de performances et de fiabilité. Le terme système sur puce (SoC - Systems-On-Chip) fait référence à l’intégration de ces systèmes sur une seule puce. Les SoCs con- tiennent alors tous les différents modules utiles à leur exécution, tels que, par exemple, les blocs propriétaires (IP - Intellectual Property), les mémoires ou encore les systèmes de gestion des périphériques.

Les avancées technologiques et dans le domaine de la conception des systèmes sur puce permettent aujourd’hui l’intégration de millions de tran- sistors dans les SoCs. Dans ce contexte, les performances du système sont limitées par l’efficacité de la communication. Autrement dit, les performances globales seront mauvaises si l’interconnexion ne peut pas prendre en charge efficacement les besoins en communications, indépendamment des performances des cœurs. De plus, les délais des fils dominent les délais des portes

à partir de 0.25µm pour l’aluminium et de 0.18µm pour le cuivre [9]. Les surfaces, puissances et performances des plateformes sont donc aujourd’hui majoritairement dominées par les systèmes de communication, faisant de l’interconnexion un des concepts clés de la conception des SoCs.

L’interconnexion id´eale devrait offrir une grande bande-passante, de bonnes performances ainsi qu’une faible consommation et une surface limit´ee.

Les autres propriétés intéressantes sont: (a) la possibilité de mise à l’échelle pour gérer le nombre toujours croissant de cœurs intégrés dans les SoCs; (b) une possibilité de réutilisation des blocs matériels afin de faciliter la conception et la vérification des systèmes; (c) une certaine flexibilité pour faciliter

(33)

l’intégration des différents blocs et protocoles existants dans les systèmes, et enfin (d) une grande fiabilité.

Historiquement, les interconnexions sont impl´ement´ees avec des bus.

Cependant, cette solution ne passe pas à l’échelle et ne fournit qu’une bande passante limitée. Les bus hiérarchiques sont une amélioration des systèmes basés sur des bus simples. Cette approche est efficace en terme de puissance, peut être mise à l’échelle et permet des communications parallèles entre les cœurs. Cependant, les performances de ces systèmes peuvent être limitées par les communications entre les sous-systèmes qui nécessitent l’action agrégée de plusieurs arbitres.

Les réseaux sur puce (NoC - Network-On-Chip) sont apparus durant la dernière décennie comme une solution d’interconnexion efficace et capable de résoudre les limitations des solutions précédentes [34;47]. La suite de cette introduction est organisée comme suit: le paradigme des NoC est tout d’abord présenté brièvement. Le rôle des évaluations de performance dans les flots de conception des NoCs est ensuite décrit, avec un intérêt particulier porté aux analyses statiques. Enfin, les métriques de co ûts des SoCs utilisées dans cette thèse sont décrites et les contributions principales résumées.

Le paradigme des r´eseaux sur puce

Les NoCs sont des infrastructures distribu´ees de communication sur puce.

Ils sont composés de blocs prédéfinis et autonomes connectés les uns aux autres. Ce paradigme présente un grand nombre de bonnes propriétés par définition: la parallélisation des communications permet l’augmentation de la bande-passante et la diminution de la latence, menant à une possibilité de mise à l’échelle; la modularité intrinsèque au concept permet d’optimiser la réutilisation des blocs tout en fournissant une grande flexibilité de conception.

Les NoCs sont form´es de trois blocs de constructions principaux:

• L’interface r´eseau (NI - Network Interface), qui sert d’interface entre les IPs et le r´eseau;

3

(34)

Figure 1: Exemple de r´eseau sur puce

• Le router (R), qui détermine le bloc du réseau auquel un paquet doit être transmis pour avancer vers sa destination;

• Le lien physique, qui g`ere la transmission physique des donn´ees.

Un exemple de système avec des réseaux indépendants de requête et de réponse est donné dans la figure1.

Le nombre de degrés de liberté des NoCs est très grand. En particulier, le concepteur doit définir:

• la topologie, qui est la définition de la manière dont les routeurs sont connectés les uns aux autres;

• le routage, qui est la s´equence de routeurs suivies par les paquets pour atteindre leurs destinations;

• la stratégie de commutation, qui est le protocole utilisé lors de la transmission des messages dans le réseau;

• le contrˆole de flux, qui est la d´efinition du protocole de transmission entre les nœuds;

• la taille des tampons;

• les canaux virtuels;

(35)

• les algorithmes d’arbitration.

Dans la suite, nous décrivons la méthodologie de conception des NoCs utilisée dans les contextes industriels, avant d’examiner le rôle des méthodes d’évaluations des performances dans ce processus.

L’utilisation des ´evaluations de performances dans la conception des NoCs

Le principal objectif des interconnexions est la transmission efficace de paquets sous des contraintes fortes de performances, puissance et surface.

Cependant, les NoCs sont caractérisés par un très grand nombre de paramètres architecturaux et d’implémentations, résultant dans des milliers, voire des millions, de possibilités de configuration; dans ces conditions, tester toutes les alternatives n’est pas une option. De plus, les métriques typiques telles que la latence, la puissance ou la surface sont corrélées et la configuration finale doit donc proposer un compromis acceptable entre performances et co ûts. Enfin, les délais de commercialisation sont critiques dans les contextes industriels et les choix architecturaux doivent donc être réalisés aussi rapidement que possible.

Afin d’illustrer cette complexité, deux exemples de composants et de leurs paramètres sont donnés dans les tableaux 1 et 2. Le concepteur doit définir tous les paramètres de tous les composants et interfaces en plus des choix systèmes, tels que la topologie ou le contrôle de flux, dans le but d’optimiser les performances tout en diminuant les co ûts du NoC.

Tous ces faits soulignent l’importance de la statégie de sélection d’une configuration de l’espace de conception (ensemble de toutes les configurations possibles) dans le processus de conception des NoCs. Pour guider le concepteur dans cette tâche difficile, les flots de conception (séquence d’actions suivie pour concevoir un SoC) sont généralement composés d’un ensemble de choix architecturaux suivi d’une évaluation de la configuration obtenue.

Des méthodes d’évaluations des performances efficaces et fiables sont donc nécessaires afin d’estimer si une configuration est satisfaisante ou non. Une

5

(36)

Paramètres du NI Protocole Type de trafic Taille des données Nombre de destinations Conversion de fréquence

Tableau 1: Architecture et param`etres des NIs

évaluation des performances est l’action d’estimer les effets d’un choix architectural sur les principales métriques du système. Le niveau de détails adopté dans les évaluations de performance, qui a un effet direct sur leur précision et leur complexité, est défini par son niveau d’abstraction.

Niveaux d’abstraction

Le niveau de précision d’une évaluation des performances augmente avec le niveau de détails de l’implémentation modélisés. Cependant, la complexité et le temps requis pour obtenir des résultats augmentent drastiquement quand le niveau d’abstraction diminue. Généralement, les niveaux d’abstractions suiv- ants sont considérés dans le contexte des SoCs ; les niveaux sont donnés dans un ordre décroissant [29]:

• Niveau fonctionnel: Les modèles fonctionnels ne prennent en compte ni le temps ni le partage des ressources et les fonctionnalités sont donc exécutées instantanément. Ces modèles sont généralement utilisés pour valider conceptuellement un système;

(37)

Param`etres du routeur Degr´e du routeur

Taille des flits Routage Arbitrage des ports

Param`etres des interfaces Profondeur de la FIFO Nombre de canaux virtuels Arbitrage des canaux virtuels

Contrˆole de flux Tableau 2: Architecture et param`etres des routeurs

7

(38)

• Niveau transactionnel: Dans les modèles transactionnels, les transac- tions sont considérées comme étant des opérations atomiques avec des durées précises. Ces modèles peuvent être utilisés pour la validation des protocoles de communications ou pour une évaluation préliminaire des performances;

• Précision au cycle près ou à l’octet près (CABA): Une notion d’horloge est introduite à ce niveau pour modéliser précisément les délais et les fonctionnalités;

• Niveau de transfert des registres (RTL): Ces modèles prennent en compte les registres et la logique combinatoire. Ils sont précis au bit près;

• Niveau porte: les modèles de portes sont des modèles RTL comprenant des informations additionnelles, telles que des données de temps ou d’agencement;

• Niveau du transistor: Les propriétés électriques du système sont prises en compte dans ces modèles.

Flot de conception

Dans les flots de conception des SoCs, les choix du concepteur sont validés par des étapes d’évaluations allant dans un ordre croissant de complexité. En effet, les possibilités d’optimisation dans les bas niveaux d’abstraction sont limitées aux configurations voisines, notamment à cause du haut co ût de modification des systèmes et de la complexité croissante des méthodes d’évaluation des performances. Les niveaux d’abstraction supérieurs sont donc considérés en premier: le concepteur explore tout d’abord l’espace de conception à bas co ût afin d’identifier les configurations les plus prometteuses, puis il valide leurs performances de manière plus précise dans des niveaux d’abstraction inférieurs.

Cette m´ethode permet une diminution du nombre de validations bas-niveaux co ˆuteuses en termes de temps.

La relation entre les possibilités d’exploration et le co ût de modification des systèmes sont schématisés dans la figure2tandis que la stratégie d’exploration de l’espace de conception est donnée dans la figure3.

(39)

Figure 2: Possibilit´es d’exploration et co ˆuts de modification

Figure 3: Strat´egie d’exploration de l’espace de conception des NoCs

Un flot de conception générique de NoCs directement inspiré de ce concept est donné dans la figure4. Il détaille les différentes étapes du frontend, et plus particulièrement les sous-étapes de conception de l’interconnexion. Le flot est inspiré de la méthodologie de conception en Y (Y-chart) [60;69],qui consiste à isoler le développement du logiciel de celui du matériel.

Dans la suite, nous décrivons en premier comment les caractéristiques des NoCs sont définies durant les premières étapes du flot avant de détailler leur conception.

D´efinition du cahier des charges des NoCs

La conception d’un SoC commence toujours par la définition d’un cahier des charges. Le cahier des charges décrit les besoins du système: son environnement de fonctionnement, les fonctionnalités principales et les contraintes de performances y sont notamment définis, indépendamment de toute con- sidération logicielle ou matérielle.

Depuis ces données, un modèle fonctionnel du système peut être défini (étape System functional model). Le système est ici modélisé globalement et aucune distinction n’est faite entre logiciel et matériel. Les fonctionnalités sont décrites par des langages de programmation haut-niveau (C, C++, Java) ou par des méthodes formelles et les moyens utilisés pour les réaliser ne sont pas détaillés. Le principal objectif de cette étape est de vérifier la faisabilité du système.

9

(40)

Figure 4: Flot de conception générique des systèmes basés sur des NoCs

(41)

Les fonctionnalités sont ensuite partitionnées en tâches communicant les unes avec les autres. Chacune de ces tâches est ensuite assignée à une unité logicielle ou matérielle (étape HW/SW partitioning). Le logiciel et le matériel peuvent alors être développés en parallèle car leurs fonctionnalités et contraintes respectives sont définies précisément à ce point du flot.

L’étape suivant est le regroupement des ressources matérielles en sous- systèmes (étape Subsystems definition). Chaque sous-système est conçu pour exécuter une tâche précise (sous-système d’affichage ou de gestion des périphériques). L’interconnexion est alors définie comme étant le moyen de communication entre les différents sous-systèmes (et non entre les différentes tâches). La description des communications entre les sous-systèmes détermine donc les caractéristiques du NoC.

Dans la suite, nous nous concentrons sur la conception des NoCs. Le développement logiciel et la conception des IPs ne sont pas décrits car ils ne font pas partie des sujets traités dans cette thèse.

Le rôle des méthodes d’évaluations des performances dans la conception des NoCs

Comme précisé ci-dessus, les NoCs sont conçus au travers d’une série de cycles d’optimisations (opération durant laquelle le concepteur améliore itérativement la configuration du système jusqu’à ce que les contraintes de performances soient respectées). Un cycle se décompose comme suit: (1) des choix architecturaux sont faits; (2) les cas d’utilisation sont mappés sur les cœurs;

(3) les performances de la plateforme sont évaluées et comparées avec les contraintes. Si les résultats sont satisfaisants, le cycle est exécuté une nouvelle fois à un niveau d’abstraction inférieur; sinon, le système est modifié selon les résultats et le même cycle est exécuté une nouvelle fois, comme schématisé dans la figure4. En parallèle, des vérifications sont effectuées afin de valider que les propriétés fonctionnelles sont assurées par le système (vérifications fonctionnelles).

Finalement, la plateforme est envoyée au backend après une synthèse et l’exécution de l’algorithme de placement et routage. A ce point dans le proces-

11

(42)

sus de conception, modifier le système devient considérablement complexe, et retourner aux étapes du frontend à cause de mauvais choix de conception peut s’avérer catastrophique en termes de temps et de co ûts pour un projet. Les méthodes d’évaluation des performances sont donc primordiales: elles doivent en effet donner assez d’informations pour permettre aux concepteurs de faire des choix architecturaux judicieux en amont des étapes du backend.

Les estimations de performance bas-niveaux fournissent des informations précises et à grains-fins sur le comportement du système. Les principales problématiques à ces niveaux d’abstraction sont alors la généralité et la fia- bilité des résultats: un maximum de traces de communications doivent être testées pour assurer la stabilité du système dans un maximum de situations.

Aux niveaux d’abstraction supérieurs, les informations disponibles sont limitées et les détails de l’implémentation ne sont généralement pas encore définis. Dans ces conditions, espérer une estimation précise des performances de l’implémentation finale n’est pas réaliste. Néanmoins, l’objectif est plutôt une exploration efficace de l’espace de conception pour identifier rapidement les configurations prometteuses. Dans ce contexte, une comparaison équitable des différentes possibilités est suffisante. La propriété de conserver globalement les principales tendances d’une métrique dans l’espace de conception est généralement nommée fidélité. Cette propriété assure que le modèle est un comparateur équitable plutôt qu’un estimateur précis des résultats finaux, et est donc une caractéristique clé des méthodes d’évaluations des performances

à haut-niveau. Il est intéressant de noter que la fidélité est une notion plus générale que la précision: il est évident qu’une estimation précise est aussi fidèle.

Les m´ethodes existantes d’´evaluation des performances

Nous décrivons dans la suite un ensemble de méthodes d’évaluations des performances utilisés dans les milieux industriels, dans un ordre croissant de niveau d’abstraction.

(43)

Prototypage

Concevoir une puce de test (prototype) est la solution historique et naturelle pour l’évaluation des SoCs. Cette méthode fournit toutes les informations ex- actes sur le système: faisabilité, co ûts, performances. Cependant, au vu que la complexité des systèmes ne cesse d’augmenter, le temps et le co ût nécessaires

à la construction de tels prototypes sont devenus prohibitifs. De plus, un prototype ne peut être utilisé que pour tester une unique implémentation d’un système, quand la tendance est plutôt à l’optimisation de la réutilisabilité et de la généralité des méthodes de validation.

Emulation

L’émulation des NoCs est généralement basée sur des circuits logiques pro- grammables (FPGA -Field Programmable Gate Arrays). Cette méthode est plus efficace et moins co ûteuse que le prototypage, et généralement plus rapide que les simulations. Cependant, les méthodes d’émulations manquent de flexi- bilité notamment à cause des multiples reconfigurations des FPGA, nécessaires

à l’analyse et à la comparaison des différentes alternatives de systèmes, qui sont co ûteuses en termes de temps.

Simulation

Les évaluations des performances basées sur des simulations sont les méthodes les plus utilisées dans les contextes industriels aujourd’hui. Les simulations peuvent être exécutées à différents niveaux d’abstraction (niveaux transactionnel, CABA ou RTL). Les évaluations basées sur des simulations sont plus adaptées à une exploration de l’espace de conception que les méthodes précédentes car elles sont plus flexibles et plus facilement déployables. Cepen- dant, l’augmentation du nombre de blocs intégrés dans les SoCs et de la com- plexité des communications entre eux font que ce processus peut s’avérer co ûteux en termes de temps. De plus, les modèles unitaires de chaque bloc ainsi que du système assemblé lui-même doivent être vérifiés et validés préalablement à toute simulation, retardant la disponibilité de ces méthodes.

Les analyses statiques sont donc apparues en r´eponse `a ces limitations.

13

(44)

Analyses statiques des performances

Le terme analyse statique désigne toutes les méthodes d’évaluation des performances qui ne sont pas basées sur des simulations [24; 76]. Toutes les méthodes basées sur des théories mathématiques appartiennent à cette catégorie. Ces méthodes se sont développées en tant que solution pour fournir des prédictions rapides des performances avec une complexité de modélisation limitée. En effet, elles sont en général capables de fournir des prédictions en quelques secondes à quelques heures. De plus, elles sont disponibles très rapidement dans le flot de conception. Ce type de méthodes est donc hautement adapté à l’exploration de l’espace de conception des NoCs à grande échelle [110].

La plupart des métriques de performance des NoCs peuvent être modélisées avec des analyses statiques: on peut trouver des travaux sur la latence, la puissance, la surface, la température ou encore le trafic dans la littérature. Les théories mathématiques les plus utilisées dans le contexte des NoCs sont les lois de probabilités, la théorie des queues, les méthodes statistiques, la théorie du Network Calculus, ou encore l’apprentissage automatique. Nous identifions ci-dessous trois problématiques qui doivent être considérées lors de la conception de tels modèles [18;58;64;91].

Fidélité et généralité: Comme précisé ci-dessus, la précision des méthodes basées sur des théories mathématiques par rapport à l’implémentation finale est souvent faible (erreur allant de 30% à 50% ou plus), mais la fidélité est la propriété la plus importante dans ce contexte.

Les analyses statiques peuvent pourtant manquer de généralité, car elles sont généralement construites à partir d’hypothèses restrictives qui visent à sim- plifier la modélisation ou à la mise en place de l’environnement adéquat pour pouvoir appliquer une théorie. Elles sont donc souvent limitées à des topologies ou architectures spécifiques et/ou à des conditions de trafic purement théoriques. D’un autre côté, la généralité est une problématique complexe. En effet, prendre en compte toutes les possibilités de configurations ou de conditions dynamiques (trafic, fréquences, voltage) implique que l’efficacité de la méthode doit être homogène sur l’intégralité de l’espace de conception pour

(45)

garantir la fidélité. Trouver un compromis entre les hypothèses simplificatrices et la généralité tout en garantissant la fidélité est donc un des enjeux clés de ce type d’approches.

Efficacité: Une autre problématique importante déjà mentionnée plus tôt est le fait que les informations fournies par les modèles doivent être suffisam- ment complètes et fiables afin de guider efficacement les concepteurs dans leurs explorations. Cet objectif implique non seulement que la quantité de données fournies par les modèles doit être suffisante, mais aussi qu’un moyen de mesurer la qualité des résultats peut s’avérer très utile. Nous donnons ici trois propriétés importantes des analyses statiques dans le contexte des NoCs inspirées de ces observations.

Tout d’abord, estimer globalement les performances d’un système n’est pas suffisant pour l’étude des possibilités d’optimisation: des résultats à grains fins sont nécessaires pour identifier la source des éventuels problèmes. Ce premier point est complexe, car il implique que l’on doit pouvoir fournir des estimations des performances non seulement des composants mais aussi de leur sous- modules, sans perdre aucune généralité dans le processus de modélisation.

Deuxièmement, ces méthodes sont utilisées avant toute exécution du flot d’implémentation et prendre en compte les effets de la technologie et de la synthèse dans le processus d’évaluation est donc complexe. Ce constat est encore renforcé par le fait que ces effets sont généralement imprévisibles.

Enfin, et comme précisé plus tôt, une mesure de la fiabilité des résultats est importante, car le haut niveau d’abstraction et les différentes hypothèses mènent indubitablement à des imprécisions et irrégularités dans le modèle lui-même.

Ces trois propriétés ne sont pas simples à obtenir par elles-mêmes dans les méthodologies usuelles de modélisation, et donc concevoir des modèles qui fournissent les trois est encore plus complexe.

Automatisation: Un dernier point très important est l’automatisation du processus de modélisation. En effet, le grand nombre de degrés de lib- ertés des NoCs résulte dans des comportements très complexes. Dans ce contexte, les interventions du concepteur dans la modélisation devraient être min- imisées car elles peuvent mener à des erreurs ou imprécisions. En particulier,

15

(46)

prévoir les corrélations entre les paramètres est difficile : les relations entre l’implémentation et le comportement des différentes sous parties des composants peuvent être bien trop complexes pour être estimées a priori. Une solution à ce problème est l’utilisation d’une méthode capable d’identifier et caractériser ces corrélations automatiquement.

Les métriques modélisées dans ce travail

Les NoCs peuvent être évalués selon différentes métriques: performances tem- porelles (latence moyenne, seuil de saturation), puissance ou encore surface.

Si la première évalue les fonctionnalités de la plateforme, les deux autres

évaluent son implémentation. Pour cette raison, elles sont difficiles à estimer précisément avant l’exécution de l’algorithme de placement et routage. Cepen- dant, il est impossible de les négliger durant les premières étapes du flot de conception car elles sont critiques au bon fonctionnement de la plateforme.

Dans cette thèse, nous proposons un ensemble de méthodologies pour concevoir des modèles analytiques de la surface et de la puissance des NoCs.

Les modèles prennent en entrée une configuration et prédisent les valeurs des métriques correspondantes en quelques secondes à quelques minutes, au niveau de granularité de l’interface, du composant ou de la plateforme. Ces modèles peuvent donc être utilisés directement dans un cycle d’optimisation au niveau architectural.

Surface

Déterminer la taille optimale du système sur la puce et optimiser l’utilisation du silicone disponible sont des points clés dans le processus de conception des SoCs. La minimisation de la surface est partiellement traitée par les avancées technologies; cependant, la surface du dispositif diminue effective- ment avec la technologie, mais cette tendance n’est pas vraie pour les interconnexions à cause de leur nature elle-même (connecter des sous-systèmes situés à différents endroits sur la puce). Les concepteurs de NoCs doivent donc faire très attention au processus d’agencement des blocs, et en partic-

(47)

ulier aux compromis entre la longueur des fils, la bande-passante, l’addition de logique et la puissance. En effet, ajouter des registres supplémentaires peut améliorer les performances; cependant, cette amélioration est obtenue au prix d’une augmentation de la puissance consommée, car la puissance dissipée est directement dépendante du nombre de portes intégrées dans la plateforme. La quantité de logique est donc critique car elle a un effet direct sur le co ût, les délais et la consommation d’une puce.

Cette thèse traite en particulier de l’estimation de la surface logique des NoCs. La surface logique représente la quantité de logique des blocs des NoCs et est généralement exprimée en kgates. Cette mesure est réalisée avant les

étapes du backend et est donc une estimation imprécise de la surface effective sur la puce. Néanmoins, la surface logique préserve les principales tendances de la surface finale des blocs et est disponible plus tôt. Pour ces raisons, elle est souvent utilisée en tant que mesure indicative par les concepteurs dans les contextes industriels. Cependant, cette évaluation reste co ûteuse en termes de temps: une synthèse peut durer de quelques heures à quelques jours selon la taille de la plateforme. Ce processus est donc peu adapté à un cycle d’optimisation.

Puissance

Le récent développement des portables et appareils sans fils ainsi que l’augmentation de la demande en performances ont amené les fournisseurs à porter leur attention sur la puissance consommée, là o ù seules la surface et les performances étaient prises en comptes quelques années plus tôt. Ce constat est encore renforcé par le fait que la densité d’intégration des circuits intégrés double tous les 18 mois depuis plus de 30 ans, tandis que les technologies de batteries sont améliorées à un rythme bien plus lent, comme illustré sur la figure 5[50]. Au final, optimiser la puissance consommée par les SoCs est une des problématiques principales de leur conception. Quelques exemples de méthodes utilisées pour limiter la consommation de puissance sont, mis à part une optimisation de l’architecture: l’extinction périodique de la puissance (l’alimentation est éteinte lorsque le bloc est au repos), l’extinction périodique

17

(48)

Figure 5: L’´ecart de capacit´es des batteries

de l’horloge (l’horloge est ´eteinte lorsque le bloc est au repos), les ˆılots de voltage et les choix dynamiques de voltages et fr´equences.

Dans ce contexte, un effort particulier doit ˆetre fait sur l’interconnexion, car sa proportion dans la consommation totale augmente largement avec la demande en bande passante et les avanc´ees technologiques, par exemple 28%

dans le puce Intel 80 cœurs teraflop [91].

La puissance est consommée par deux sources distinctes: la puissance statique (courants de dissipation) et puissance dynamique (chargement et déchargement des capacitances et courts-circuits) [118]. Comme précisé plus tôt, la consommation de puissance statique est directement proportion- nelle à la quantité de logique. D’un autre côté, la puissance dynamique est dépendante de la stratégie d’intégration des blocs sur la puce ainsi que du trafic. Dans les technologies les plus récentes, aucune de ces sources ne peut être négligées [50]. La consommation est aussi influencée par des phénomènes

électriques et la température de la puce, mais ces effets sont ignorés dans cette thèse au vu du haut niveau d’abstraction considéré.

(49)

R´esum´e

Cette thèse présente une méthodologie de modélisation des composants des NoCs. Ce travail tentera notamment de donner des éléments de réponses aux cinq problématiques suivantes:

Les NoCs sont caractérisés par un large éventail de possibilités de configuration et il est donc complexe de considérer l’ensemble de l’espace de conception dans un modèle haut-niveau. Est-il possible de trouver une méthode de conception d’analyses statiques qui ne limite pas le nombre de degrés de liberté inhérents à la conception des NoCs, i.e. incluant toutes les possibilités de configuration et de conditions dynamiques (e.g. trafic, fréquences)?

L’automatisation du processus de modélisation permet d’en limiter la durée tout en évitant les inévitables imprécisions induites par des interventions hu- maines. Comment peut-on maximiser le nombre d’étapes complètement au- tomatisées dans un procédé de modélisation haut-niveau?

Au vu du fait que le niveau d’abstraction des analyses statiques est élevé, il est irréaliste de s’attendre à une estimation précise des performances sur la puce. La fidélité est donc l’objectif principal (i.e. le modèle respecte globalement l’évolution des performances dans l’espace), plutôt que la précision.

Une solution évidente pour assurer la fidélité est de baser le modèle sur une description du comportement global du système. Cependant, ce type d’approche entre en conflit avec les problématiques précédentes. Comment peut-on optimiser la fidélité d’un modèle haut-niveau sur l’ensemble des pos- sibilités de configuration sans limiter la généralité de l’approche? En d’autres termes, une analyse statique peut-elle comparer équitablement le comportement des différentes configurations et conditions dynamiques sans détailler précisément leur implémentation ou sans faire d’hypothèses simplificatrices?

La quantité d’informations fournies par une analyse statique doit être suffisante pour permettre une exploration efficace de l’espace de conception. Par ailleurs, et en raison du très haut niveau d’abstraction, fournir au concepteur une mesure de la qualité du modèle est aussi une question importante. Peut-on trouver une solution qui produise des modèles à grains fins du comportement du système tout en proposant une mesure de la qualité des résultats?

19

(50)

Enfin, cette thèse traite des métriques liées au co ût de l’implémentation (i.e. surface et consommation), qui sont directement dépendantes de la technologie utilisée et de l’algorithme d’agencement des blocs. Comment peut-on modéliser de telles métriques avant toute exécution du flot d’implémentation?

Cette thèse propose une méthodologie de modélisation pour concevoir des analyses statiques des co ûts des composants des NoCs en réponse à ces problématiques. La méthode proposée est principalement orientée vers la généralité. En particulier, aucune hypothèse n’est faite ni sur le nombre de paramètres architecturaux considérés ni sur les dépendances des métriques (surface, puissance) sur ces paramètres. Nous sommes alors en mesure de modéliser des composants proposant des millions de possibilités de configurations (ordre de 10³⁰ possibilités de configurations) et d’estimer le co ût de réseaux sur puce composés d’un grand nombre de ces composants au niveau architectural en quelques secondes à quelques minutes. Il est complexe de modéliser ce type de composants avec des modèles analytiques expérimentaux

à cause du trop grand nombre de possibilités de configurations. Nous proposons donc un flot entièrement automatisé qui peut être appliqué tel quel

à n’importe quelles architecture et technologie. Le flot conçoit des modèles analytiques à grains fins sur la base de résultats de performances obtenus au niveau porte et d’une méthode d’apprentissage automatique. Il est alors capable de concevoir des modèles présentant une meilleure fidélité que les méthodes de modélisation basées uniquement sur des théories mathématiques tout en conservant leurs principales qualités (basse complexité, disponibilité précoce).

Nous proposons d’utiliser une méthode d’interpolation basée sur la théorie de Kriging. Kriging permet de minimiser le nombre d’exécutions du flot d’implémentation nécessaires à la modélisation tout en caractérisant le comportement des métriques à la fois localement et globalement dans l’espace de conception, optimisant ainsi la fidélité du modèle final. La méthode est tout d’abord appliquée à la surface logique des composants des réseaux sur puces.

L’inclusion du trafic dans la méthode est ensuite traitée et un modèle de puissance statique et dynamique moyenne des routeurs est conçu sur cette base.

(51)

(52)

Introduction 1

chapter

A

^s technology advances, tens (and in the near future several hun- dreds) of elements need to be connected within the same chip, thus requiring an efficient on-chip interconnect. Network-on-Chip (NoC) paradigm is emerging as a flexible solution for interconnecting multi- ple cores into a single System-On-Chip (SoC). NoCs are able to handle high- bandwidth and scalability needs under tight performance constraints. How- ever, NoCs are usually characterized by a vast number of architectural and implementation parameters (e.g. topology, FIFOs depths), resulting in a vast design space (i.e. set of all possible configurations). Moreover, the effects of the configuration on performance, power or area are very complex to fully charac- terize as all those properties are tightly inter-correlated. The final configuration must then ensure an acceptable tradeoffbetween the different evaluation metrics.

Due to the large number of possibilities, it is impossible to test every alternative NoC configuration. NoC design is thus usually performed with an optimization loop, during which the designer improves iteratively the system

(53)

1. INTRODUCTION

configuration thanks to a set of evaluation methods. The loops are generally performed in a decreasing level of abstraction order (i.e. level of details con- sidered in the model). This step is a critical step in SoCs design; indeed, the design space exploration should be performed as quickly as possible to im- prove the overall SoC’s time-to-market. However, the performance evaluation complexity and design modifications cost increase drastically in low-level contexts (e.g. RTL, gate level). Moreover, most of main design decisions (e.g.

topology, routing scheme, quality of service) are usually made at architectural- level. Defining high-level performance evaluation methods that can be applied early is then mandatory to measure the effects of these decisions on the final implementation and identify quickly possible solutions in the design space.

Accurately modeling cost metrics in comparison to the final implementation is impractical in the first steps of the design flow as these metrics are tightly dependent on the technology and layout. However, accuracy is not required in this context: the main objective is rather the possibility to roughly compare different configurations with each other to identify the best ones. The property of preserving the relative order of the different possibilities is usually called fidelity.

1.1 Thesis scope

This thesis addresses the issue of modeling NoCs cost metrics at architectural level. The proposed method focuses particularly on the generality of the ap- proach. In particular, no assumption is made neither on the number of architectural parameters modeled nor on the dependences of the target metric on these parameters. We are then able to address components with millions of configurations possibilities (order of 10³⁰configuration possibilities) and to estimate cost metrics (e.g. area, power) of complex NoCs composed of a large number of these components in few seconds to few minutes. It is difficult to model that kind of components with experimental analytical models due to the huge number of configuration possibilities. We thus propose a fully- automated modeling flow which can be applied directly to any architectures and technologies. The flow builds fine-grained analytical models on the basis

23

(54)

1.2. THESIS ORGANIZATION

of a set of gate-level results and a machine-learning method. It is then able to design models with a better fidelity than purely-mathematical methods while preserving their main qualities (i.e. low complexity, early availability). More- over, it is also able to take into account the effects of the technology on the performance.

We propose to use an interpolation method based on Kriging theory. By using Kriging methodology, we are able to minimize the number of implementation flow runs required in the modeling process and to catch the main characteristics of the metrics both globally and locally, resulting in a high level of fidelity. The method is applied to model logic area of NoC components. The inclusion of traffic is then addressed and a NoC router leakage and average dynamic power model is designed on this basis.

1.2 Thesis Organization

The rest of the manuscript is organized as follows:

Chapter2”Problem Definition” describes precisely NoCs design flow and the needs for performance and cost evaluation methods at different levels of abstraction. A particular focus is given to system-level evaluations calledstatic analysisand the main challenges of such approaches are analyzed. Finally, the cost metrics (i.e. area and power) and the main issues addressed by this thesis are described.

Chapter3”State of the Art” provides an analysis of NoCs state of art, with a specific focus on system-level modeling methods. First, a non-exhaustive list of NoCs technologies and topologies is given. Then, the existing methods to model SoC traffic are described, as this is a typical issue in NoC performance evaluations field. Finally, literature in NoC modeling for performance and cost evaluations at system-level is presented.

Chapter4”NoCs static cost metrics modeling” describes in details the proposed fully-automated NoC blocks modeling flow, which is the first main contribution of this thesis. The method is then applied to design a logic area model of highly-parametric router and network interface architectures.

Chapter 5 ”Router power model” describes a general NoC router power

(55)

1. INTRODUCTION

model based on the modeling flow proposed in chapter 4. The inclusion of traffic data into the modeling method is discussed before detailing the proposed power model, which is the second main contribution of this thesis.

Chapter 6 ”Experimental results” provides a set of experimental results.

First, the experimental conditions are described. The NoC area and power models are then validated and their fidelity discussed at different granular- ity levels (interface, component and platform). The other properties of the method are illustrated by additional results, and our modeling methodology is validated in the context of highly parametric NoCs.

Finally, chapter7”Conclusion and Perspectives” concludes the manuscript by summarizing the major contributions of the thesis and proposing interest- ing research directions as future work.

25

(56)

(57)

(58)

2

Probl´ematique

R´esum´e

chapitre

L

ê nombre d’éléments intégrés dans les systèmes sur puces (SoCs – Systems-on-chips) est en constante augmentation depuis plus de trente ans, notamment grâce aux avancées technologiques et aux améliorations des méthodes de conception. Dans ce contexte, les réseaux sur puces (NoCs – Networks-on-chips) sont apparus comme une solution d’interconnexion flexible et efficace pour assurer les communications toujours plus complexes au sein des SoCs. Les NoCs sont notamment en mesure de répondre aux besoins grandissants en bande-passante et en scalabilitétout en respectant des contraintes précises de performances. Cependant, le grand nombre de paramètres architecturaux et d’options d’implémentation des NoCs résultent en un espace de conception très vaste. De plus, l’influence exacte de la configuration sur les métriques de performance telles que la latence, la consommation ou la surface est complexe à caractériser car ces mesures sont corrélées les unes aux autres. La configuration finale doit donc assurer un compromis acceptable entre performances et co ûts. Dans ces conditions, la recherche d’une architecture de NoC répondant à des besoins précis est une problématique difficile.

La conception des NoCs est généralement basée sur une série de boucles d’optimisations. Le principe est d’améliorer itérativement la configuration du NoC en alternant des étapes de choix architecturaux et des étapes d’évaluations des systèmes ainsi définis. Si les résultats sont satisfaisants vis-

à-vis des contraintes, le flot de conception passe à la phase suivante, sinon la boucle est exécutée une nouvelle fois. Les boucles sont réalisées dans un ordre décroissant de niveaux d’abstraction (niveau de détails inclus dans un modèle).

Plus le niveau d’abstraction est bas, plus l’estimation est pr´ecise, mais le co ˆut

Une méthodologie de conception de modèles analytiques de surface et de puissance de réseaux sur puce hautement paramétriques basée sur une méthode d’apprentissage automatique

HAL Id: tel-00877956

https://tel.archives-ouvertes.fr/tel-00877956v2

Une méthodologie de conception de modèles analytiques de surface et de puissance de réseaux sur puce

hautement paramétriques basée sur une méthode d’apprentissage automatique

Florentine Dubois

To cite this version:

TH ` ESE

DOCTEUR DE L’UNIVERSIT ´ E DE GRENOBLE

Florentine Dubois

Une m éthodologie de conception de mod èles analytiques de surface et de puissance de r éseaux sur puce haute- ment param étriques bas ée sur une m éthode d’apprentissage automatique

A machine-learning based

methodology to design analytical area and power models of highly

parametric networks-on-chip

Supervised by Prof. Frédéric Pétrot

Florentine Dubois

in collaboration with

TIMA Laboratory, CNRS/Grenoble INP/UJF

and

STMicroelectronics

A thesis submitted for the degree of Docteur de l’universit´e de Grenoble

July 2013

Remerciements

Abstract

R´esum´e

Contents

List of Figures

List of Tables

List of acronyms

1

Introduction

chapitre

D

Le paradigme des r´eseaux sur puce

L’utilisation des ´evaluations de performances dans la conception des NoCs

Niveaux d’abstraction

Flot de conception

Les m´ethodes existantes d’´evaluation des performances

Les métriques modélisées dans ce travail

Surface

Puissance

R´esum´e

Introduction 1

chapter

Contents

A

1.1 Thesis scope

1.2 Thesis Organization

2

Probl´ematique

R´esum´e

chapitre

L