Evaluation d’une trace dynamique ´ - Estimation du temps d’ex´ecution

CHAPITRE 2 REVUE DE LITT´ ERATURE

2.4 Estimation du temps d’ex´ecution

2.4.3 Evaluation d’une trace dynamique ´

Les méthodes d’estimation du temps d’exécution par évaluation d’une trace commencent par réaliser une simulation fonctionnelle de l’application. Une trace d’évènements est ensuite extraite de cette simulation. Cette trace est ensuite analysée pour en estimer la performance sur diverses architectures sans avoir à simuler l’application sur chacune de ces architectures. 2.4.3.1 Evaluation par analyse statique´

Dans (Cai et al., 2004), les processus d’une simulation SpecC sont instrumentés afin d’ex- traire le nombre d’exécutions de chacun de leurs blocs de base et le nombre d’accès à chacun de leurs ports d’entrée et de sortie. Une analyse statique détermine, pour chaque bloc de base, le nombre et le type d’opérations SpecC correspondant à une exécution et, pour chaque port, le nombre d’octets transférés correspondant à un accès. En combinant cette analyse statique à la trace fonctionnelle, on obtient pour chaque processus le nombre et le type d’opérations SpecC exécutées ainsi que le nombre d’octets transférés. Les processus SpecC peuvent ensuite être assignés à une architecture composée de processeurs et de bus préalablement caractéri- sés. Cette caractérisation associe un temps d’exécution à chaque type d’opération SpecC sur le processeur de même qu’un temps de communication selon le nombre d’octets transférés. Cela permet d’obtenir des métriques de temps d’exécution et de communication pour chaque processus du système. Cependant, cette estimation suppose que le compilateur génèrera tou- jours la même série d’instructions assembleur pour une même opération SpecC et que le CFG de chaque module ne sera pas modifié par les optimisations du compilateur.

(Jaddoe et al., 2009) suit une approche similaire en simulant un réseau KPN pour obte- nir, pour chaque processus, une trace d’évènements de calcul et de communication. Chaque processus est compilé pour le processeur cible puis analysé pour extraire le nombre et le type

d’instructions assembleur exécutées en moyenne pour un évènement de calcul d’un processus. Un temps d’exécution est associé à chaque type d’instruction. Selon le nombre d’évènements de calcul et de communication produits, un temps d’exécution est ensuite associé à chaque processus en additionnant les temps de calcul et de communication. Le temps d’exécution d’un processeur est considéré comme la somme des temps d’exécution des processus qui lui sont assignés et le temps d’exécution du système est celui du processeur avec le plus long temps d’exécution. Ces méthodes d’estimation purement additives ne tiennent pas compte de l’ordonnancement des processus ou de leurs dépendances de données.

2.4.3.2 Evaluation par analyse dynamique´

Une manière plus précise d’estimer la performance d’une application embarquée sur une architecture donnée est de représenter la trace sous la forme d’un graphe G(V, E) dont les noeuds V sont les évènements de calcul ou de communication de la trace et dont les arcs E sont les relations de précédence entre ces évènements, telles que des dépendances de données ou de séquence. Selon l’assignation des éléments de l’application à l’architecture, un temps d’exécution ou de communication est associé à chaque évènement de calcul ou de communication de ce graphe, qui est ensuite ordonnancé pour en estimer le temps d’exécution. Une telle méthode a quelques similarités avec l’ordonnancement statique d’un TPG. Cependant, alors qu’un TPG représente l’application elle-même, une trace contient les évènements correspondant à une exécution donnée de l’application, qui ne peut pas nécessairement être ordonnancée statiquement. Ainsi, l’ordonnancement statique d’un TPG vise à décider dans quel ordre les tâches du TPG s’exécutent alors que l’ordonnancement d’une trace vise à simuler comment les évènements de la trace auraient été ordonnancés dynamiquement sur les bus et les processeurs d’une architecture donnée. Le gain de vitesse par rapport à une simulation complète vient du très haut niveau d’abstraction de la trace : un segment de programme y est simulé comme un seul évènement de calcul au lieu de simuler séparément chacune de ses instructions.

(Lahiri et al., 2001) utilise une méthode d’ordonnancement de trace pour évaluer la per- formance de différentes architectures de communication pour une application une fois que sont fixés le partitionnement logiciel/matériel et l’assignation des tâches aux processeurs. La trace est extraite en instrumentant une co-simulation logiciel/matériel de l’application réalisée avec Ptolemy (Buck et al., 1994). Cette co-simulation fixe le temps d’exécution de chaque évènement de calcul de la trace, mais les temps des évènements de communication peuvent varier selon l’architecture de communication qui reste à déterminer. La performance d’une architecture de communication donnée est estimée en simulant l’ordonnancement de la trace sur cette architecture. Ainsi, différents bus partagés ou liens point-à-point peuvent

être caractérisés par leur largeur de bits, leur latence et leur fréquence. Les bus partagés sont également caractérisés par leur politique d’arbitrage, ce qui permet de tenir compte de la contention sur le bus et de l’arbitrage lors de l’estimation du temps d’exécution du système. Cependant, cette méthode ne permet pas d’explorer le partitionnement logiciel/matériel ou de modifier l’assignation des tâches aux processeurs.

Dans (Ueda et al., 2005), le temps d’exécution des évènements de calcul peut varier de même que le temps des évènements de communication. Ainsi, les tâches de l’application peuvent être assignées à des blocs IP, qui peuvent eux-mêmes être assignés à un ensemble de bus partagés. Chaque bloc IP est caractérisé par l’ensemble des tâches qu’il peut exécuter et le temps d’exécution qu’il prend pour chacune des tâches. Chaque bus est caractérisé par sa largeur de bits et sa fréquence. La trace est extraite en instrumentant une simulation SystemC fonctionnelle de l’application et le temps d’exécution pour une architecture donnée est es- timé en simulant l’ordonnancement de la trace pour cette architecture. Cette estimation tient compte de l’arbitrage des bus et de l’ordonnancement des tâches sur chaque bloc matériel, en supposant que ceux-ci utilisent un ordonnancement à priorités statiques. Contrairement à notre méthode, cette méthode d’estimation ne tient pas compte du temps pris par l’arbitrage et l’ordonnancement eux-mêmes et suppose que toutes les opérations de calcul d’une même tâche ont exactement le même temps d’exécution. De plus, elle n’automatise pas la caracté- risation du temps d’exécution des tâches sur les blocs IP alors que notre méthode automatise la caractérisation du temps d’exécution logiciel et matériel de chaque tâche.

Dans (Isshiki et al., 2009), les structures de contrôle (if, for, while) d’un code source C séquentiel sont instrumentées afin d’extraire, à chaque évaluation de celles-ci, la valeur false (0) ou true (1) de la condition de la structure de contrôle. L’exécution native de ce code C avec un stimulus donné permet d’extraire une trace sous la forme d’un train de bits de branchement, qui correspondent aux valeurs des conditions dans la série de structures de contrôle visitées. À partir du CFG du code C, il est donc possible de reconstituer la série de blocs de base visités en utilisant chaque valeur du train de bits pour choisir le chemin false ou true à chaque branchement dans le CFG. Cela permet également de déterminer le nombre d’exécutions de chaque bloc de base. Le temps d’exécution de chaque bloc de base est extrait par une analyse statique du code assembleur obtenu suite à une compilation croisée vers le processeur cible. Cette méthode suppose donc que la compilation croisée ne modifie pas le CFG du code. Le programme peut être divisé en plusieurs tâches. Dans ce cas, le CFG est partitionné en plusieurs CFG, chacun correspondant à une tâche, et des noeuds de synchronisation sont ajoutés aux CFG pour représenter les dépendances de données. Le train de bits est également partitionné entre les tâches. Une réduction remplace, dans chaque CFG, chaque sous-graphe correspondant à un segment de programme par un nouveau noeud

dont le temps d’exécution est égal au temps d’exécution moyen du segment. En déroulant séquentiellement chaque CFG selon le train de bits réduit qui lui est associé, on obtient donc une trace d’exécution composée d’évènements de calcul et de communication pour plusieurs tâches. Les tâches peuvent être assignées à un ensemble de processeurs homogènes eux-mêmes connectés par un ensemble de bus et le temps d’exécution de cette architecture est estimé en simulant l’ordonnancement de ces tâches pour l’architecture donnée. Cette simulation suppose un ordonnancement dynamique non préemptif des tâches sur les processeurs. Cette estimation ne supporte pas les accélérateurs matériels et ne tient pas compte de l’implication du processeur dans les communications des tâches.

Notre méthode extrait une trace d’évènements en réalisant un profilage au niveau sys- tème d’une simulation SystemC de l’application avec SPACE (Bois et al., 2010). Pour chaque module de l’application, le temps d’exécution logiciel de chaque évènement de calcul, qui correspond à une exécution d’un segment de programme, est caractérisé par une exécution du code assembleur cible sur un ISS. Cela permet de tenir compte des effets de la compilation croisée sur le CFG et des branchements effectués à l’intérieur de chaque exécution de chaque segment. Notre méthode automatise la caractérisation des temps d’exécution matériel des différents évènements de calcul et simule l’ordonnancement de ces évènements en tenant notamment compte de l’arbitrage, de l’ordonnancement dynamique préemptif des tâches sur les processeurs par le RTOS ainsi que de l’implication des processeurs dans les communications. Les travaux antérieurs utilisent la sémantique opérationnelle des KPN pour les évène- ments de communication capturés par la trace : il est supposé que toutes les lectures sont bloquantes. Cela permet d’assurer que, pour un stimulus donné, toutes les exécutions de l’application produiront exactement la même trace fonctionnelle d’évènements peu importe l’ordonnancement des tâches. Cela permet notamment d’assurer que la trace extraite de la simulation fonctionnelle et la trace obtenue pour une implémentation donnée contiennent les mêmes évènements de calcul et de communication et que seuls leurs temps diffèrent. Cela assure la validité de l’estimation du temps d’exécution par analyse de trace. Notre méthode étend ces travaux en permettant aux tâches d’utiliser un modèle de calcul plus général que les KPN et une sémantique opérationnelle qui inclut des lectures non-bloquantes. Cela fait en sorte que la trace produite peut dépendre de l’ordonnancement des tâches, mais la validité de l’estimation par trace est préservée en vérifiant si l’ordonnancement simulé de la trace pour une implémentation donnée correspond à un ordonnancement fonctionnellement équivalent de la trace initialement extraite.

Dans le document Profilage, caractérisation et partitionnement fonctionnel dans une plate-forme de conception de systèmes embarqués (Page 50-54)