Performance - Les estimateurs - Caractérisation de la performance temporelle et de la consommat

4.3 Les estimateurs

4.3.1 Performance

Comme on peut le voir sur la figure 4.8, il s’agit ici, à partir de modèles génériques d’une application et d’un modèle du matériel, de créer un modèle de l’application contraint par le matériel. FORECAST va estimer la performance de chaque tâche (i.e. chaque entrée d’un composant) pour la plate-forme matérielle cible considérée.

Figure 4.8: Transformation des modèles logiciels et matériels vers un modèle Waveperf “timé”.

Le listing 4.6 montre un exemple de transformation entre les deux modèles. TBC est remplacé par le temps total d’exécution de la tâche calculé (Total elapsed time). De plus, les premiers et derniers paramètres (respectivement le taux d’utilisation du pipeline et le nombre de mauvaises prédictions de branchements) sont retirés car ils ne sont nécessaires que pour le calcul du temps d’exécution des tâches.

L’outil d’estimation va donc calculer le temps total d’exécution d’une tâche comme étant la somme du temps passé au niveau du processeur (CP U elapsed time) et du temps passé au niveau des mémoires (M EM elapsed time) :

T otal elapsed time= CP U elapsed time + M EM elapsed time (4.1)

( 1 ) { TBC 0 } [ 90 15039303 3235056 1623677 10500 6470 3247 270 1617 811 66816 ] v e r s

( 1 ) { 2 6 . 0 0 } [ 15039303 3235056 1623677 10500 6470 3247 270 1617 811 ]

Listing 4.6: Transformation de modèles : paramètres d’architecture étendus / paramètres d’architecture waveperf.

lisecondes. Cette métrique sera souvent comparée au temps d’exécution du système réel dans la section validation. Le CPU elapsed time est défini de la manière suivante :

CP U elapsed time=total nb insn

perf + InstrCacheM issP en + M issP redP en (4.2)

Ce paramètre représente une estimation du temps d’exécution en millisecondes requis pour exécuter toutes les instructions présentes dans le thread.

– Le paramètre total nb insn est égal au nombre total d’instructions exécutées pour cette tâche. – Le paramètre perf représente le nombre d’instructions par secondes que le processeur est capable de

traiter. Ce paramètre dépend de la fréquence et du nombre d’instructions par seconde par MégaHertz. – Il faut aussi prendre en compte le temps passé à vider le pipeline lors d’une erreur de prédiction de branche (MissPredPen). En effet, lors d’une boucle conditionnelle par exemple, le processeur va précharger les instructions d’une branche ou d’une autre dans son pipeline. Mais si la branche préchargée est la mauvaise, il faut alors vider le pipeline, ce qui prend du temps. Ce paramètre dépend donc du nombre de mauvaises prédictions de branchements (nb miss) ainsi que de la profondeur du pipeline et du temps de cycle de l’horloge (cycle time).

M issP redP en= nb miss · pipeline depth · cycle time (4.3)

– CPU elapsed time inclut aussi le temps nécessaire pour récupérer les instructions lors d’un défaut de cache d’instructions (InstrCacheMissPen).

Le paramètre MEM elapsed time permet de calculer le temps nécessaire pour accéder aux données en lecture et écriture au travers des caches L1 et L2 si nécessaire. Ce paramètre est alors défini de la fa¸con suivante :

M EM elapsed time= [(nb r + nb w)] · (rw ms + n X i=1

li miss rate · li pen) (4.4)

Finalement, le paramètre li pen représente le temps de pénalité (en millisecondes) lors d’un cache miss (i = 1 pour le cache de niveau 1, i = 2 pour le cache de niveau 2, etc.), et sont définis comme suit :

li pen= rw ms · li nbcycle (4.5)

Les taux de caches-miss sont évalués comme nous l’avons expliqué dans la section 4.1.2. Suivant la taille des caches choisis dans le modèle matériel, le taux de cache-miss sera différent (calculé à partir des courbes estimées). Le nombre de cycles de pénalité pour chaque niveau mémoire a été défini par rapport à notre connaissance des architectures processeurs, et par vérification sur des plates-formes embarquées. Le temps d’accès à une donnée présente :

– dans le cache de niveau 1 est d’un cycle d’horloge, – dans le cache de niveau 2 est de dix cycles d’horloge, – dans la m´emoire principale est de cent cycles d’horloge,

Un benchmark a été développé afin de déterminer le nombre de cycle nécessaire pour chaque niveau mémoire. Voici comment se déroule ce benchmark :

– Un tableau assez grand pour contenir toutes les données contenues dans le cache de niveau deux est créé par le benchmark.

– Le benchmark effectue grâce à une boucle interne la lecture de 128 lignes de cache. Ici, on ne lit toujours qu’une seule valeur par ligne pour provoquer uniquement des cache miss dans le cache de niveau un lorsque l’on veut aller lire dans le cache de niveau deux. En effet, si l’on ne faisait pas de saut et qu’on lisait des valeurs consécutives, il y aurait un certain nombre de cache-hit avant d’avoir un cache-miss.

– une boucle externe permet de répéter l’opération afin de calculer une valeur moyenne.

Ainsi, en faisant varier le nombre de valeurs lues dans la boucle interne, on va pouvoir faire des lectures soit dans le cache de niveau un, soit dans le cache de niveau deux. En effet, si l’on veut lire dans le cache de niveau deux, il suffit alors de faire des lectures dans un tableau plus grand que la taille du cache de niveau un. 0 2 4 6 8 10 12 14 0 10 20 30 40 50 60

Number of cycles for one read

Number of lines ( x 4KBytes ) Number of cycles for one read in different memory level

i.MX 6 1GHz OMAP 4430 1GHz OMAP 3530 500MHz

Figure 4.9: Nombre de cycles pour lire une donn´ee dans les diff´erents niveaux de cache.

La figure 4.9 montre dans la première partie (gauche) le temps d’accès en cycles pour accéder à une donnée dans le cache de niveau un. On observe que le temps d’accès, pour trois différentes plates-formes, est d’environ un cycle. Sur le deuxième palier de la courbe, on peut observer le temps d’accès pour une donnée dans le cache de niveau deux. Dans ce cas, le temps d’accès est d’environ dix cycles. Ce benchmark confirme bien les affirmations présentes dans la littérature.

Nous avons donc un modèle paramétrique de la performance, s’appuyant à la fois sur des paramètres logiciels (le nombre d’instructions, le nombres d’accès mémoires...) et sur des paramètres matériels (la fréquence du processeur, la taille des caches,...). Les comportements dynamiques comme le taux de cache miss et le nombre de mauvaises prédictions de branchement sont évalués grâce à l’étape de profiling.

Le fait d’avoir des modèles paramétriques permet aussi de simplement rajouter de nouveaux paramètres si nécessaire (par exemple le nombre d’opérations flottantes).

Dans le document Caractérisation de la performance temporelle et de la consommation électrique de systèmes embarqués basés sur des plates-formes multiprocesseurs/coeurs et mettant en oeuvre du logiciel temps réel : FORECAST : perFORmance and Energy Consumption AnalysiS T (Page 58-61)