Bilan des optimisations algorithmiques sp´ ecifiques pour H.264

5.4 Implantation des op´ erations sp´ ecifiques ` a H.264

5.4.3 Bilan des optimisations algorithmiques sp´ ecifiques pour H.264

Nous avons décrit dans les paragraphe précédent les optimisations liées à l’estimation de mouvement en général. Un nouvel algorithme hiérarchique (HDS) a été développé en rempla¸cant la recherche exhaustive locale de l’algorithme classique (HME) par une technique récursive en diamant. La quantité de calcul est ainsi réduite avec une faible perte de qualité. Les techniques d’optimisation de code utilisées sur DSP ont été décrites pour améliorer les performances mono-processeur.

5.4 implantation des opérations spécifiques à h.264 131

Dans ce paragraphe, nous avons décrit les implantations des opérations d’estimation de mouvement spécifiques à la compression vidéo H.264. L’augmentation de la précision des vecteurs de mouvement au quart de pixel améliore considérablement les performances de compression mais introduit un coût de calcul supplémentaire important. Grâce à une méthode prédictive avec un motif de recherche réduit, le coût de calcul supplémentaire des techniques d’estimation de mouvement à taille de bloc variable pixel entier est réduit avec un impact négligeable sur les performances de compression. Le raffinement subpixélique associé à la taille de bloc variable multiplie le coût de calcul supplémentaire. Comme ces deux techniques sont nécessaires aux performances de H.264, nous avons développé un algorithme simple de décision per- mettant de sélectionner le mode inter à partir des champs de vecteurs à la précision pixel entier. Les vecteurs de mouvement sont raffinés pour seule taille de bloc réduisant ainsi la charge de calcul.

Afin de valider les choix d’implantation effectués jusqu’à maintenant, plusieurs séquences sont compressées en augmentant les modes de prédiction. La période des images I est de 30, celle des images P est de 1 avec une image de référence (pas de B pour le moment). Pour les images P, les modes inter 16x16, 16x8, 8x16, 8x8 et skip sont activés ainsi que les modes intra. Cela permet de s’assurer que les modifications de l’algorithme d’estimation de mouvement sont justifiées avec un ensemble d’outils de l’encodeur plus complet. Les performances de compression sont regroupés dans le tableau 5.11 et les temps d’exécution sur mono-DSP dans le tableau 5.12.

Variation de débit à qualité constante (%)

S´equences SD S´equences HD

Implantation Formula1 Raid1 maroc Raid2 maroc Seq1 Horses1 SpinCalendar

HME 0 0 0 0 0 0

HDS 1

4-pel all´eg´e 3,7 2,3 2,1 0,7 1,8 4,9

HDS 16x16 1₄-pel 5 5,2 5,3 1,1 4,3 6,9

Tab. 5.11 – Comparaison des performances d’encodage entre l’estimateur de mouvement initial et l’implantation optimis´ee finale.

Les pertes introduites par les choix d’implantation en terme de performances de compression sont réduites mais peuvent aller jusqu’à 5 %. Il ne faut toutefois pas considérer ce résultat comme définitif, en effet la désactivation des images B ne permet pas d’avoir les performances finales car elles permettent d’améliorer considérablement la compression.

Sur un des DSP les plus performants du marché, l’algorithme initial avec des optimisation d’implantation poussées nécessite plus de 140 ms pour calculer les champs de vecteurs entre deux images 720p. Les optimisations algorithmiques effectuées, telles que l’algorithme hiérarchique HDS pour les champs de vecteurs 8x8, la technique récursive avec un diamant réduit pour les autres tailles de bloc, et la décision du mode à raffiner au quart de pixel, permettent de réduire ce temps d’exécution jusqu’à 65 ms. Cependant, la spécification temps réel la plus proche est de 20 ms pour le format 720p50, soit 3.25 fois moins. Nous pouvons conclure qu’un seul DSP n’est pas suffisant pour réaliser l’estimation de mouvement temps réel pour la compression vidéo H.264 en haute définition.

Temps d’ex´ecution

Implantation HME HDS HDS 1₄-pel all´eg´e

Pyramide 4 niveaux 2,4 ms 2,4 ms 2,4 ms

Padding 5 niveaux 2,7 ms 2,7 ms 2,7 ms

Estimation de mouvement 8x8 niveaux 4 `a 1 6,2 ms 4,2 ms 4,2 ms Estimation de mouvement niveau 0 (taille de

bloc variable et 1 4 pixel)

130 ms 113 ms 55 ms

Total image 1280x720 141,3 ms 122,3 ms 64.6 ms

Tab. 5.12 – Synth`ese des chronom´etrages sur DSP, par image 720p (1280x720)

5.5 Conclusion

Dans ce chapitre, nous avons présenté les étapes de vérification fonctionnelle, d’implantation et d’optimisation monoprocesseur. L’utilisation de la méthodologie de prototypage a facilité le portage sur cible. La chaˆıne de développement, en particulier la migration progressive des opérations et la vérification fonctionnelle, s’est montrée effi- cace dans ces travaux. La vérification a ainsi été simplifiée assurant des optimisations fiables. Les communications et synchronisations entre PC et DSP ont été générées automatiquement, offrant la possibilité d’évaluer aisément et rapidement plusieurs solutions d’implantation. Nous avons étudié les performances des algorithmes d’estimation de mouvement HME et EPZS en termes de complexité et de qualité des champs de vecteurs dans un but de compression vidéo. L’analyse des caractéristiques de ces techniques a conduit à la conception d’une nouvelle solution, appelée HDS, combinant robustesse et faible complexité.

Le résultat est donc un estimateur de mouvement performant, optimisé et flexible, sur DSP comme sur PC. Cette technique est utilisée dans plusieurs projets :

– HVS (Human Vision System) du laboratoire Compression de Thomson dont le but est de modéliser l’attention visuelle (détecter automatiquement les zones d’intérêt de l’image) [MTCB05],

– l’encodeur vid´eo embarqu´e de l’IETR, groupe image,

– LAR vidéo, qui consiste à étendre une méthode de compression d’images fixes scalable appelée LAR à la vidéo [FABD06].

L’optimisation de l’implantation sur DSP Texas Instruments C64 a été poussée, aussi bien en termes d’exploitation des unités de calculs qu’en termes d’accès mémoire. Toutefois, les optimisations restent évolutives dans le sens ou elles ont été réalisées avec un langage de haut niveau, de fa¸con à pouvoir être adaptées par exemple à un autre modèle de processeur. Des optimisations plus spécifiques peuvent être effectuées, mais conduiraient à un temps de développement supplémentaire conséquent pour une faible amélioration et rendraient de fait l’implantation figée. Cette démarche n’a donc qu’un intérêt limité dans un contexte de recherche et pour la réalisation de prototypes. La compression vidéo augmente la complexité de l’estimation de mouvement, notamment dans le cadre de H.264. Le traitement exhaustif de tous les modes possibles implique une puissance de calcul conséquente. Le raffinement subpixélique s’avère par- ticulièrement complexe à cause des étapes d’interpolation et de mise en correspondance supplémentaires. Le contexte de haute définition augmente davantage les contraintes

5.5 conclusion 133

et pose un problème de bande passante mémoire. En effet la quantité des données à traiter nécessite des bandes passantes élevées. L’évolution actuelle des techniques de compression vidéo accroˆıt la complexité de l’estimation de mouvement et des enco- deurs en général. Cette tendance se vérifie encore dans les futurs standards tels que MPEG-4 SVC.

L’estimation de mouvement pour la compression vidéo haute définition est trop complexe pour être traitée par un seul processeur, même pour un des DSP les plus puis- sants du marché. Nous avons donc naturellement cherché à paralléliser les opérations sur une plate-forme multicomposant afin d’augmenter la puissance de calcul dispo- nible.

Chapitre 6

Estimation de mouvement sur

plates-formes multicomposants

Dans le chapitre 5, nous avons vu que l’opération d’estimation de mouvement pour la compression vidéo haute définition nécessite une puissance de calcul conséquente. Un seul DSP ne peut pas réaliser cette tâche. Une architecture spécialisée telle celles présentées dans le chapitre 3 peut alors être développée. Cependant, le temps nécessaire au développement ne convient pas à un prototype, qui doit être fonctionnel rapidement. De plus, comme un prototype est souvent réalisé très tôt dans le pro- cessus de développement, la solution doit être évolutive, afin de prendre en compte les modifications éventuelles de l’application. Pour répondre au cahier des charges, l’architecture cible idéale doit donc être programmable et disposer d’une grande puissance de calcul. On peut noter également qu’à ce stade, le coût de la plate-forme entre moins en jeu que la complexité de programmation. La puissance de calcul est donc fournie en utilisant plusieurs composants. L’implantation est simplifié et accéléré en utilisant des outils de prototypage rapide (cf. chapitre 4).

Une première solution a été de développer un coprocesseur dédié afin d’accélérer l’opération la plus coûteuse en temps de calcul. Une deuxième solution a été d’étudier différentes techniques de parallélisation à l’aide des outils de prototypage. Nous ver- rons ici que la parallélisation sur multiprocesseur n’est pas triviale et qu’il est parfois nécessaire d’éliminer des dépendances de données entre opérations afin de faire ap- paraˆıtre du parallélisme potentiel. Cela a un impact sur le résultat, qu’il convient de minimiser. La distribution des opérations sur de multiples composants génère des transferts de données inévitables qui encombrent les liens de communication. De plus, l’accès mémoire étant pénalisant, de meilleures performances sont obtenues en grou- pant les opérations en fonction des données source, afin d’optimiser l’utilisation des mémoires caches. La solution a été d’effectuer la parallélisation en fonction des données plutôt qu’en fonction des opérations lorsque l’architecture cible est homogène. Toute- fois, une opération donnée peut tirer partie des spécificités d’un type de processeur. La parallélisation est alors effectuée en fonction du type de traitement sur une architecture hétérogène.

Dans un premier temps nous allons donner un exemple de parallélisation sur une architecture hétérogène, ou les processeurs sont adaptées à chaque type d’opération.

Dans un deuxième temps nous allons présenter des solutions de parallélisme de données.

6.1 R´ealisation d’un coprocesseur

Nous avons vu dans le chapitre 3 qu’il existait plusieurs types de processeurs. Chaque composant présente des caractéristiques matérielles différentes qui peuvent être mises `

a profit pour un type d’opération donné. Une plate-forme multiprocesseur hétérogène offre non seulement la possibilité de paralléliser les traitements, mais aussi les atouts des différentes architectures. Il est alors important de distribuer les opérations de l’application de manière à exploiter au mieux l’intérêt de chaque processeur.

Dans le chapitre 5, nous avons présenté une implantation optimisée d’un algorithme d’estimation de mouvement sur DSP. L’estimation de mouvement pixel entier est basée sur un algorithme prédictif afin de conserver une grande amplitude des vecteurs de mouvement et une quantité de calculs réduite. Il est donc conditionné et comporte des accès mémoire aléatoires. L’utilisation d’un processeur standard de type DSP est donc adapté.

Inversement, l’opération la plus coûteuse en termes de ressources matérielles est le raffinement subpixélique des vecteurs de mouvements. Malgré une fenêtre de recherche très réduite (amplitude inférieure à un pixel dans chaque direction), beaucoup de calculs sont effectués, notamment à cause de l’interpolation qui impliquent de nom- breuses opérations simples (additions et décalages). L’augmentation de la résolution conduit également à une densité de candidats importante, et donc à une quantité de calculs de distorsion et une bande passante mémoire conséquentes. De plus, les calculs systématiques du raffinement subpixélique se prêtent bien à une implantation matérielle. Nous avons donc choisi de concevoir un coprocesseur dédié sur FPGA. Ce type de composant peut assurer une bande passante interne aussi grande que nécessaire : réaliser en parallèle les calculs dès que les données sont disponibles évite d’avoir à stocker les données temporaires.

Dans ce paragraphe nous décrivons le coprocesseur de raffinement subpixélique con¸cu. La taille de bloc est variable afin de gérer plusieurs modes possibles. La bande passante mémoire est réduite et adaptée au débit de l’interface externe d’un DSP. L’estimation de mouvement pixel entier (IME : Integer-pixel Motion Estimation) est réalisée sur DSP tandis que le raffinement subpixélique (FME : Fractional-pixel Motion Estimation) est accéléré sur FPGA. Dans un premier temps, l’architecture interne est décrite et justifiée, puis dans un deuxième temps, le prototype hétérogène est présenté.

Dans le document Implantation optimisée d'estimateurs de mouvement pour la compression vidéo sur plates-formes hétérogènes multicomposants (Page 145-151)