Annotation temporelle d’une simulation TLM

CHAPITRE 2 REVUE DE LITT´ ERATURE

2.4 Estimation du temps d’ex´ecution

2.4.2 Annotation temporelle d’une simulation TLM

La performance d’un système embarqué peut être évaluée en co-simulant son logiciel sur un ISS (ou un ensemble d’ISS si il contient plusieurs processeurs) avec son architecture matérielle au niveau RTL. Cependant, une telle co-simulation demande un temps important. Cette simulation peut être accélérée en rempla¸cant les modèles RTL des composants génériques tel que les bus, les mémoires et les périphériques par des modèles TLM précis au cycle près (Cai et Gajski, 2003). Cependant, un tel système peut contenir un code logiciel et des accélérateurs matériels spécifiques à l’application et pour lesquels il n’existe pas de modèles TLM précisément temporisés. Le problème qui se pose est donc de trouver comment générer automatiquement de tels modèles TLM afin d’obtenir une co-simulation au niveau TLM qui soit grandement accélérée et qui permette d’estimer adéquatement le temps d’exécution qu’on obtiendrait suite à une co-simulation précise au cycle près. L’avantage de cette estimation par simulation est que, contrairement à l’analyse statique, elle peut s’appliquer à des tâches qui

effectuent des communications à des endroits arbitraires dans le CFG et selon des dépendances de contrôle arbitraires entre les tâches. L’annotation temporelle d’un modèle TLM peut se faire à l’aide d’une analyse statique ou d’une analyse dynamique du code de l’application modélisée.

2.4.2.1 Annotation temporelle par analyse statique

Différents travaux déterminent par une analyse statique le temps d’exécution de chaque opération ou de chaque bloc de base du CFG d’un logiciel embarqué. Le code original, ou un code équivalent à celui-ci, est ensuite instrumenté statiquement avec des annotations temporelles pour produire un modèle TLM temporisé du logiciel. Cette instrumentation accumule le temps d’exécution correspondant à chaque bloc de base exécuté lors de la simulation. Le modèle TLM du logiciel se synchronise avec le reste de la plate-forme matérielle, selon le temps d’exécution accumulé depuis la dernière synchronisation, seulement lorsqu’il doit communiquer avec celle-ci. Cela permet de limiter le nombre de synchronisations et d’accélérer la simulation. En effet, un bout de code se trouvant entre deux communications, qui est appelé un segment de programme (Wolf et Ernst, 2001; Posadas et al., 2004), peut contenir plusieurs blocs de base.

Ainsi, dans (Posadas et al., 2004), l’instrumentation statique est implémentée par une surcharge des opérateurs C/C++ (addition, multiplication, etc.) À chaque fois qu’un tel opérateur est appelé dans le code source d’un module TLM SystemC, le temps d’exécution du module est incrémenté du temps d’exécution associé à l’opérateur. La caractérisation d’un processeur cible donné consiste donc à associer à chaque opérateur C/C++ un temps d’exécution sur le processeur cible. L’estimation réalisée par (Hwang et al., 2008) suit des principes similaires. Un CFG est d’abord extrait d’un code C à l’aide de l’infrastructure de compilation LLVM (Lattner et Adve, 2004). Le temps d’exécution de chaque bloc de base est ensuite estimé statiquement, pour le processeur MicroBlaze préalablement caractérisé, selon les opérateurs qu’il contient et le pipeline du processeur. Des taux fixes de défaut (miss) de cache et d’erreur de prédiction de branchement sont utilisés pour estimer les pénalités associées à ces évènements. Le code C est ensuite annoté avec les délais associés aux blocs de base, puis encapsulé dans un module SystemC. Le problème avec une telle approche est que le temps d’exécution sur un processeur cible est connu pour les instructions assembleur et non pour les opérateurs d’un langage à haut niveau tel C/C++. Rien ne garantit que les compilateurs pour un processeur cible donné génèreront toujours la même série d’instructions assembleur pour un même opérateur. De plus, les appels à certains opérateurs présents dans le code source pourraient être éliminés par les optimisations du compilateur.

processeur cible Infineon TriCore (Infineon Technologies AG, 2000), qui a préalablement été caractérisé. Le temps d’exécution de chaque bloc de base est déterminé statiquement selon les instructions assembleur correspondant au bloc de base et en tenant compte du pipeline du processeur. Les temps d’exécution extraits sont alors annotés pour chaque bloc de base dans le code C original, qui est ensuite encapsulé en un module SystemC. Cette méthode suppose donc que le CFG du code source C est identique au CFG obtenu suite à la compilation croisée, ce qui n’est pas nécessairement le cas en raison des optimisations du compilateur. Le code du module SystemC est également annoté pour faire appel à un modèle de cache d’instructions et un modèle de prédiction dynamique de branchement. Cela permet d’ajouter dynamiquement les pénalités de défauts (miss) de cache et d’erreur de prédiction de branchement au temps d’exécution du logiciel.

Dans (Gerin et al., 2009), un code C/C++ est d’abord converti en une représentation intermédiaire (IR : Intermediate Representation) lors d’une compilation croisée avec LLVM. L’IR obtenue tient donc compte des optimisations de compilation, que celles-ci dépendent du processeur cible ou non, étant donné que c’est l’IR qui est directement utilisée pour la génération du code assembleur cible. Le temps d’exécution de chaque bloc de base de cette IR est analysé statiquement, pour un processeur cible ARM9 préalablement caractérisé, en tenant compte du pipeline. Des appels à une fonction d’instrumentation accumulant ces temps d’exécution sont ajoutés aux blocs de base de cette IR, puis elle est utilisée pour générer directement un code assembleur pour le processeur hôte. Cela assure que l’assembleur hôte instrumenté et l’assembleur cible ont le même CFG. Cet assembleur hôte est exécuté nativement sur un modèle TLM de processeur, qui implémente une couche d’abstraction matérielle (HAL : Hardware Abstraction Layer) permettant au logiciel simulé de communiquer avec la plate-forme matérielle. Ce modèle utilise également un taux fixe de défauts de cache d’instructions pour en estimer les pénalités.

Il est possible que plusieurs tâches logicielles soient assignées à un même processeur et ordonnancées par un RTOS. Pour éviter des erreurs importantes d’estimation, il est alors nécessaire de tenir compte non seulement de la politique d’ordonnancement du RTOS, qui sérialise l’exécution des tâches logicielles, mais également du temps d’exécution du RTOS lui-même (Hwang et al., 2009). Les travaux présentés ci-dessus le font à divers degrés. Ainsi, (Schnerr et al., 2008) supporte une modélisation TLM de l’ordonnancement et des change- ments de contexte, mais ne tient pas compte de leur temps d’exécution. Quant à (Posadas et al., 2004) et (Hwang et al., 2009) (qui étend (Hwang et al., 2008)), ils intègrent une mo- délisation TLM temporisée du RTOS, mais seul (Hwang et al., 2009) présente une manière de caractériser le temps d’exécution du RTOS. Cette caractérisation consiste en un profilage intrusif d’une application qui exerce les différentes primitives du RTOS dans un ordre

déterminé. Cela permet d’extraire le temps d’exécution des primitives du RTOS, tel qu’un changement de contexte ou l’utilisation d’un sémaphore. Dans (Gerin et al., 2009), une mé- thode différente est utilisée pour un RTOS dont le code source est disponible : celui-ci est instrumenté statiquement comme les tâches logicielles et le tout est exécuté sur la HAL fourni par un modèle TLM du processeur. Par contre, le temps d’exécution de la HAL elle-même, qui comprend notamment les changements de contexte, n’est pas pris en compte.

Notre méthode d’estimation tient compte des temps d’exécution des tâches logicielles, du RTOS et de la HAL, qui sont automatiquement caractérisés. La caractérisation du RTOS est similaire à celle de (Hwang et al., 2009) mais l’améliore en utilisant un profilage non-intrusif et en tenant compte de l’état du RTOS lorsqu’une de ses primitives est exercée (par exemple, libérer un sémaphore prend un temps supplémentaire si une tâche attend après celui-ci même si cela ne produit pas de changement de contexte). Notre méthode automatise également la caractérisation du temps d’exécution des accélérateurs matériels générés à l’aide de la synthèse comportementale alors que les travaux présentés ci-dessus permettent de générer des modèles TLM temporisés seulement pour les tâches logicielles. Cependant, la différence plus fondamentale entre ces travaux et notre méthode d’estimation est que celle-ci effectue plutôt une analyse des traces extraites d’un ensemble de simulations initiales d’une même application donnée. Cela permet d’évaluer rapidement une grande quantité d’implémentations possibles de cette application sans avoir à simuler sa fonctionnalité à chaque fois. Les mé- thodes d’instrumentation statique présentées ci-dessus pourraient être utilisées pour accélérer les simulations initiales nécessaires à la production des traces et sont donc complémentaires à notre méthode d’estimation.

2.4.2.2 Annotation temporelle par analyse dynamique

Il est possible d’insérer des annotations temporelles dans les modèles TLM des tâches de l’application non pas au niveau de leurs opérateurs C/C++ ou de leurs blocs de base, mais plutôt au niveau de leurs segments de programme, soit entre deux communications externes aux tâches. Cependant, un segment de programme peut contenir plusieurs blocs de base et constitue un CFG qui est un sous-graphe du CFG de la tâche. Le temps d’exécution d’un segment de programme peut donc varier selon le chemin parcouru dans son CFG. Il serait possible d’effectuer une analyse statique du WCET d’un segment de programme à l’aide des méthodes présentées à la section 2.4.1.2 et d’annoter le modèle TLM de la tâche en consé- quence, mais à notre connaissance cette approche n’a pas été proposée dans la littérature et elle risquerait d’être pessimiste et de demander une intervention de l’utilisateur. L’autre mé- thode est de profiler le temps d’exécution de chaque segment de programme sur le processeur cible alors que l’application est exercée par un banc d’essai. Une telle approche se justifie

dans le cadre d’une méthodologie d’exploration architecturale, où la caractérisation initiale d’une application permettra d’accélérer les simulations d’une grande quantité d’architectures implémentant celle-ci.

Ainsi, les simulateurs VPC (Streubuhr et al., 2009) et Sesame (Pimentel et al., 2006) sont respectivement utilisés par les méthodologies d’exploration architecturale SystemCoDesigner (Keinert et al., 2009) et Daedalus (Nikolov et al., 2008c) pour estimer la performance des solutions possibles. Ces deux simulateurs exécutent un modèle non temporisé de l’application qui génère des évènements de communications et de calculs sur un modèle TLM temporisé d’une architecture qui répond à ces évènements. Une couche d’assignation relie entre eux les modèles de l’application et de l’architecture et associe notamment à chaque segment de programme un temps d’exécution donné. VPC modélise l’application comme un ensemble d’acteurs à états finis SysteMoC (Falk et al., 2006) et simule l’ensemble des couches à l’aide de SystemC. Sesame effectue plutôt une co-simulation : un modèle d’application sous la forme d’un KPN est exécuté nativement avec la librairie C/C++ pthreads alors que la couche d’assignation et les modèles d’architecture sont simulés avec le simulateur à évènements discrets Pearl (Muller, 1993).

(Keinert et al., 2009) obtient le temps d’exécution sur un processeur MicroBlaze des actions d’un acteur SysteMoC (essentiellement des segments de programme) à l’aide d’un profilage du PC sur FPGA semblable aux méthodes présentées à la section 2.3.1.1. Ainsi, l’utilisateur doit extraire l’adresse du point d’entrée et du point de sortie de chaque segment à profiler, configurer le profileur FPGA avec ces adresses, exécuter le profilage puis configurer la couche d’assignation de VPC selon les résultats recueillis lors du profilage. Dans (Pimen- tel et al., 2008), le temps d’exécution logiciel des segments de programme d’un processus KPN modélisé avec Sesame est extrait à l’aide d’une co-simulation du modèle d’application KPN avec un ISS SimpleScalar qui exécute le code du processus. Ainsi, l’utilisateur doit d’abord annoter le code C/C++ du processus à caractériser pour identifier les segments de programme. Une compilation croisée du processus vers le processeur cible est ensuite réalisée, puis l’utilisateur doit instrumenter le code assembleur produit pour que le logiciel mesure le nombre de cycles écoulés pendant l’exécution d’un segment de programme. Cette méthode est donc intrusive. Un profilage du processus sur l’ISS est ensuite réalisé et, pour chaque segment de programme profilé, la valeur moyenne du temps d’exécution est extraite. Ces valeurs peuvent être utilisées par l’utilisateur pour configurer la couche d’assignation.

Alors que ces méthodes de caractérisation logicielle des segments de programme par profilage sont semi-manuelles, notre méthode par profilage sur ISS automatise pleinement toutes les étapes de la caractérisation logicielle. Notre méthode automatise également la caracté- risation du temps d’exécution matériel des segments de programme par le profilage d’une

simulation SystemC mixte de l’application au niveau TLM avec le module RTL à caractéri- ser. Elle automatise aussi la caractérisation du temps d’exécution des opérations du RTOS afin d’en tenir compte lors de l’estimation. Cette automatisation de la caractérisation permet d’adapter facilement l’estimation aux changements dans le code de l’application ou aux mises à jour du RTOS. Bien que VPC et Sesame tiennent compte de l’ordonnancement des tâches, ils ne tiennent pas compte du temps d’exécution de l’ordonnancement dynamique, ce qui peut causer d’importantes erreurs d’estimation (Streubuhr et al., 2009; Pimentel et al., 2008). Finalement, notre estimation par trace se base sur le temps de chaque exécution de chaque segment de programme au lieu de se baser seulement sur leur temps moyen, ce qui permet de mieux estimer la performance de ceux-ci.

Dans le document Profilage, caractérisation et partitionnement fonctionnel dans une plate-forme de conception de systèmes embarqués (Page 45-50)