Comparaison avec une approche se basant sur QEMU

5.2 L’estimation appliqu´ee `a des plates-formes mono-processeur

5.2.3 Comparaison avec une approche se basant sur QEMU

Un des objectifs du projet Européen COMCAS est d’estimer la performance et la consommation électrique d’une application sur une architecture embarquée. Pour ce faire, une méthode basée sur un émulateur d’instructions (QEMU) est utilisée. Un wrapper SystemC permettant d’ajouter des informations temporelles et des modèles de périphériques matériels a également été défini et développé par le laboratoire du TIMA à Grenoble.

Les applications de test utilisées dans ce projet font parties de la suite de benchmark “nbench”. Pour nous comparer à QEMU, nous avons donc utilisé le même jeu de test. Les applications utilisées sont : “Numeric sort”, “String sort”, “FP Emulation”, “Bitfield” et “Huffman”, ce qui nous permet d’avoir un ensemble d’applications relativement diversifiées.

La figure 5.15 représente l’erreur d’estimation des différents benchmarks, en utilisant le projet COMCAS ou notre approche pour une plateforme OMAP4. Nous avons aussi utilisé plusieurs fréquences de processeur pour effectuer les comparaisons.

– Les diagrammes nomm´es “High level model” montrent l’erreur d’estimation de notre approche par rapport aux performances obtenues avec la plate-forme r´eelle.

– Les diagrammes nommés “COMCAS” montrent l’erreur d’estimation obtenue à partir de QEMU par rapport à la performance de la plate-forme réelle.

On observe tout d’abord que les pires estimations sont obtenues pour le benchmark “String sort”. Ce benchmark est assez particulier et manipule des chaˆınes de 8 bits. Que ce soit notre méthode haut niveau, ou l’outil QEMU basé sur la traduction des instructions, les résultats d’estimation ne sont pas satisfaisants (supérieure à 20%).

Dans un second temps, on observe que toutes les autres estimations fournies par FORECAST ont une erreur comprise entre 5 et 16%, et sont toujours optimistes (comme nous l’avons déjà vu précédemment) par rapport aux valeurs réelles. Ces estimations sont néanmoins tout à fait acceptables compte tenu de nos contraintes de précisions.

12232

Figure 5.15: Comparaison des r´esultats de COMCAS (QEMU) et de notre approche.

“Huffman” ont une erreur d’estimation très faible (inférieur à 5%). Par contre, les autres benchmarks ont une erreur assez élevée (entre 20 et 25%). Cet outil a d’autre part plutôt tendance à faire une estimation pessimiste du temps d’exécution des applications.

Une des sources d’erreurs de l’estimation provient certainement du fait que le dual-pipeline du Cortex-A9 n’est pas modélisé dans l’émulateur QEMU. Ceci induit donc une erreur dans l’estimation des performances de la plate-forme qui peut être différente suivant les applications. De plus, la politique de remplacement des caches est aussi une source d’erreur. En effet, les constructeurs ne fournissent généralement pas d’informations sur le fonctionnement réel de leur politique. Par exemple le remplacement pseudo-random des processeurs ARM n’est pas documenté et une politique purement random est appliquée.

La figure 5.16 montre les différences de temps de lecture d’une donnée dans le cache de niveau un. On observe que l’erreur entre la plate-forme QEMU et la plate-forme réelle peut dépasser les 20%.

L’outil QEMU nécessite donc des informations très précises sur le fonctionnement des plates-formes pour fournir des estimations précises de performances. Or ces informations, permettant une modélisation grain fin du système, sont malheureusement rarement disponibles.

L’avantage du projet COMCAS utilisant un traducteur dynamique d’instructions (QEMU) réside dans le fait que l’application peut être déployée telle quelle dans leur simulateur. De plus, cette approche ne nécessite aucune modification du code ni de phase de profiling. Il est aussi possible de débugger l’application et de récupérer certaines informations comme le nombre d’accès aux mémoires caches.

Cependant, un des inconvénients majeur de QEMU est que la plate-forme est relativement lente à simuler. Le temps d’exécution des 5 benchmarks est d’environ 26 minutes : démarrage du Linux (1 minute) + exécution des benchmarks (5 minutes par benchmark dans le cas de nbench). Notre outil d’estimation FORECAST permet quant à lui d’effectuer l’estimation d’un seul benchmark en 6 secondes : 1 seconde de

Figure 5.16: Différence du temps pour lire une donnée dans le cache de niveau 1 entre QEMU et la plate- forme réelle.

génération de code + 2 secondes de boucles d’initialisation + 3 secondes d’exécution. C’est un avantage non négligeable de FORECAST pour effectuer une exploration rapide d’architectures.

De plus, les erreurs d’estimations de performance sont globalement équivalentes à celles obtenues avec QEMU. Sur les benchmarks exécutés, une erreur maximale de 28.5% est observée sur le projet COMCAS, alors qu’une erreur maximale de 25.7% est obtenue avec notre méthodologie. Les erreurs moyennes sont respectivement 14.4% et 14.9%.

Un autre inconvénient d’une approche basée sur QEMU est la complexité de mise en oeuvre d’un nouveau modèle de processeur. Construire un nouveau modèle n’est en effet pas trivial, surtout lorsqu’il s’agit de modéliser les multiples pipelines internes.

La plate-forme développée dans le projet COMCAS est donc un très bon outil pour effectuer des développements logiciels et valider le comportement fonctionnel d’une application. Il permet également d’obtenir des estimations de performances assez larges du système, mais nécessite le développement d’une plate-forme virtuelle complète. Ce système de modélisation est donc intéressant lorsque le choix de plate- forme cible a déjà été effectué. La plate-forme virtuelle permet en effet de développer les éléments logiciels avec des facilités de débug tout en permettant des estimations de performances. Cependant, notre approche est plus pertinente pour effectuer des choix d’architectures et permettre d’orienter la structuration logicielle. La rapidité d’assemblage des modèles, une simulation rapide et un faible coût de développement permettent son insertion dans les phases d’architecture et de réduction des risques.

5.2.4 Comparaison avec une approche en Y-Chart bas´ee sur le langage AADL

Dans le document Caractérisation de la performance temporelle et de la consommation électrique de systèmes embarqués basés sur des plates-formes multiprocesseurs/coeurs et mettant en oeuvre du logiciel temps réel : FORECAST : perFORmance and Energy Consumption AnalysiS T (Page 108-111)