G´ en´ eralit´ es sur les optimisations DSP

5.3 Implantation et optimisations sur DSP

5.3.1 G´ en´ eralit´ es sur les optimisations DSP

Les performances d’une application sur un processeur donné dépendent de la com- plexité de calcul, mais aussi de l’implantation. Afin d’exploiter de manière efficaces

5.3 implantation et optimisations sur dsp 113

Fig. 5.8 – Graphe d’architecture dans la méthodologie AAA : modélisation d’une plate-forme Sundance (2 DSP) reliée à un PC via un bus PCI

les ressources de calcul, et d’augmenter ainsi les performances, l’implantation d’une application doit être optimisée. Pour cela, le code doit être modifié pour prendre en compte les spécificités du processeur cible. Un code très dédié, écrit en assembleur (langage machine) conduit aux meilleures performances, mais demande un temps de développement long, est difficilement évolutif, et est spécifique à chaque processeur. Inversement un langage de haut niveau (ex : C) est évolutif et générique, mais ne prend pas en compte les spécificités des processeurs. C’est alors au compilateur de réaliser les optimisations. Cependant, les compilateurs sont des programmes automa- tiques, et bien qu’ils puissent être performants, ils ne conduisent pas à la meilleure implantation. Nous allons décrire brièvement des techniques de base pour optimiser une implantation avec un langage de haut niveau (le C). Nous utilisons l’environ- nement de compilation dédié “Code Composer Studio” (CCS) de Texas Instruments pour programmer sur DSP, cependant les techniques utilisées sont génériques.

5.3.1.1 Optimisation des boucles

Les boucles sont le coeur de l’algorithme de calcul, c’est donc là que le temps de calcul est consommé. L’optimisation des boucles peut donc avoir un grand impact sur le temps d’exécution global. Le compilateur utilisé dispose d’un algorithme d’optimisation de boucles grâce à la vectorisation et au pipeline logiciel.

Vectorisation Selon les opérations à effectuer et la multiplicité des boucles, plusieurs itérations peuvent être déroulées, et les calculs exécutés en parallèle sur les unités de calcul et avec des instructions SIMD (Single Instruction Multiple Data). Les opérations doivent être assez simples pour permettre au compilateur de trouver l’instruction SIMD à utiliser. De plus, la multiplicité doit être connue à la compilation. Elle peut être fournie à l’aide de macros de pre-traitement. L’intérêt est de charger au maximum les unités de calcul et les bus mémoire afin d’approcher les performances

théoriques. Par exemple une unité de calcul 32 bits peut exécuter simultanément la même opération sur quatre paires 8 bits ou deux paires 16 bits.

Pipeline logiciel Le DSP visé intègre plusieurs unités de calcul dédiées (arithmétique, mémoire, multiplication,...). Il est donc possible de paralléliser plusieurs instructions si leur dépendances le permettent. Afin de mieux ordonnancer les instructions, plusieurs itérations de la boucle peuvent être pipelinées. C’est à dire que les calculs d’une itération peuvent être ordonnancés alors que l’itération précédente n’est pas terminée. Cela permet d’imbriquer les itérations et de réduire la latence glo- bale d’une boucle. Celle-ci prend en compte l’initialisation du pipeline (prologue) et sa finalisation (épilogue). La mise en pipeline d’une boucle avec peu d’itérations doit donc veiller à garder un prologue et un épilogue réduits pour être efficace.

Restrictions Pour que le compilateur puisse optimiser la mise en pipeline des boucles, certaines contraintes doivent ˆetre respect´ees :

– Pas de branchement : le nombre de cycle doit être constant et les instructions exécutées doivent être toujours les mêmes pour permettre au compilateur de les ordonnancer. Le conditionnement doit être limité pour ne pas générer de saut conditionnel (utilisation des opérations conditionnelles seulement : l’exécution d’une instruction peut être désactivée en fonction de la valeur d’un registre). De même il ne doit pas y avoir d’appel de fonction.

– Le nombre d’itération doit être connu à l’initialisation de la boucle : la condition de fin de boucle doit rester constante afin de pouvoir pipeliner les itérations. – Le nombre d’instructions d’une boucle doit être limité (limites de l’outil).

Imbrication de boucles Comme nous venons de le voir, les boucles sont opti- misées par le compilateur qui crée un pipeline logiciel. Le temps d’exécution d’une boucle comprend donc un prologue (initialisation du pipeline), le corps d’exécution et un épilogue (vidage du pipeline). Lorsque des boucles sont imbriquées, seul un niveau peut être optimisé. Pour améliorer davantage les performances à la fois en réduisant la latence due au prologue et à l’épilogue, et en optimisant l’ordonnancement sur un en- semble d’instructions plus grand, il convient de pouvoir réaliser les optimisations sur la boucle de plus haut niveau. Lorsque le nombre d’itération est connu à la compilation, les courtes boucles intérieures sont complètement déroulées pour permettre l’optimisation des boucles imbriquées. Ainsi, il est préférable de définir des fonctions spécifiques (par exemple une par taille de bloc) qui peuvent être beaucoup plus performantes.

On peut noter que sur des processeurs du type Pentium, qui intègrent un prédicteur de branchement et une unité d’ordonnancement pour réduire statistiquement le nombre de cycles perdus, la mise en pipeline est effectuée à l’exécution et que ce genre d’optimisation à moins d’impact. A l’inverse, leur unités SIMD étant plus larges, la vectorisation a un impact important.

5.3.1.2 Utilisation du mot cl´e “restrict “

L’architecture mémoire des processeurs cause une latence non négligeable lors de l’accès aux données. Cette latence peut être masquée grâce au pipeline, cependant,

5.3 implantation et optimisations sur dsp 115

le compilateur prend en compte par défaut le temps nécessaire à la mise à jour de la mémoire entre une instruction d’écriture suivie d’une instruction de lecture, ce qui se traduit dans les boucles courtes à des cycles vides. Pour éviter cela, il est possible de préciser au compilateur que les données écrites ne modifient pas les données lues, c’est à dire que les buffers mémoire en jeu ne se chevauchent pas. Le mot-clé “restrict ” permet de préciser le type d’un pointeur mémoire en spécifiant qu’il est le seul `

a accéder à une espace donné. Le compilateur peut donc optimiser les accès mémoire en ne prenant pas en compte les délais d’accès. L’opération type où l’impact est le plus important est la recopie mémoire.

5.3.1.3 Les fonctions “inline”

Au lieu de générer un appel de fonction, le compilateur peut choisir d’intégrer directement le corps d’une fonction. Cela peut augmenter la taille du code car la fonction est recopiée autant de fois qu’il y a d’appel, mais les performances sont augmentées en évitant le changement de contexte, les passages de paramètres et le branchement. De plus, la boucle contenant la fonction mise en ligne peut être optimisée par le compilateur, et le cache programme est mis à profit, car les instructions sont proches en mémoire. La fonction doit être définie avec le mot-clé “inline”, ou bien dans certains cas le compilateur le fait automatiquement.

5.3.1.4 Utilisation des instructions sp´ecialis´ees

Lors de l’optimisation des boucles, le compilateur peut utiliser des instructions SIMD pour paralléliser les traitements. Cependant lorsque la multiplicité de la boucle n’est pas bonne, en l’absence de boucle, ou si la vectorisation n’est pas triviale, les instructions SIMD ne sont pas utilisées. Il est alors possible de forcer le compilateur à utiliser des instructions SIMD en y faisant directement référence par l’intermédiaire de fonctions intrinsèques.

5.3.1.5 Acc`es m´emoire

Les processeurs sont composés de plusieurs niveaux de mémoire. Les mémoires L1 (niveau 1), proches du CPU (Central Processing Unit), sont rapides, elles fonctionnent à la fréquence du coeur de calcul, mais elles sont de taille réduite à cause des contraintes physiques. La mémoire L2 est une mémoire interne intermédiaire, et la mémoire externe peut être considérée sans limite de taille, mais a une bande passante réduite un temps d’accès long.

Dans le cas général, une image haute définition est contenue en mémoire externe, car les mémoires internes ne peuvent pas la contenir entièrement. Pour éviter les pertes de performance dues à l’accès aux données, les données utiles doivent être rapatriées en mémoire interne (L2). Cela peut être fait manuellement en programmant un mécanisme d’accès aux données, ou automatiquement avec un contrôleur de cache. Dans les deux cas afin de réduire la fenêtre utile d’accès aux données pour éviter les défauts de cache L2 (requête vers une données non mise en cache), et optimiser l’utilisation du cache L1 (de taille réduite), il convient de mettre à profiter la localité des données.

Nous avons décrit les techniques générales utilisées lors de l’implantation des al- gorithmes d’estimation de mouvement. L’exécution d’un programme non optimisé sur DSP conduit souvent à des performances pouvant être de cinq à dix fois inférieures aux performances attendues. L’étape d’optimisation ne doit donc pas être négligée. Dans le paragraphe suivant nous allons traiter des optimisations spécifiques à l’estimation de mouvement.

Dans le document Implantation optimisée d'estimateurs de mouvement pour la compression vidéo sur plates-formes hétérogènes multicomposants (Page 127-131)