• Aucun résultat trouvé

5.4 Implantation des op´ erations sp´ ecifiques ` a H.264

5.4.3 Bilan des optimisations algorithmiques sp´ ecifiques pour H.264

Nous avons d´ecrit dans les paragraphe pr´ec´edent les optimisations li´ees `a l’estimation de mouvement en g´en´eral. Un nouvel algorithme hi´erarchique (HDS) a ´et´e d´evelopp´e en rempla¸cant la recherche exhaustive locale de l’algorithme classique (HME) par une technique r´ecursive en diamant. La quantit´e de calcul est ainsi r´eduite avec une faible perte de qualit´e. Les techniques d’optimisation de code utilis´ees sur DSP ont ´et´e d´ecrites pour am´eliorer les performances mono-processeur.

5.4 implantation des op´erations sp´ecifiques `a h.264 131

Dans ce paragraphe, nous avons d´ecrit les implantations des op´erations d’estima- tion de mouvement sp´ecifiques `a la compression vid´eo H.264. L’augmentation de la pr´ecision des vecteurs de mouvement au quart de pixel am´eliore consid´erablement les performances de compression mais introduit un coˆut de calcul suppl´ementaire im- portant. Grˆace `a une m´ethode pr´edictive avec un motif de recherche r´eduit, le coˆut de calcul suppl´ementaire des techniques d’estimation de mouvement `a taille de bloc variable pixel entier est r´eduit avec un impact n´egligeable sur les performances de compression. Le raffinement subpix´elique associ´e `a la taille de bloc variable multiplie le coˆut de calcul suppl´ementaire. Comme ces deux techniques sont n´ecessaires aux performances de H.264, nous avons d´evelopp´e un algorithme simple de d´ecision per- mettant de s´electionner le mode inter `a partir des champs de vecteurs `a la pr´ecision pixel entier. Les vecteurs de mouvement sont raffin´es pour seule taille de bloc r´eduisant ainsi la charge de calcul.

Afin de valider les choix d’implantation effectu´es jusqu’`a maintenant, plusieurs s´equences sont compress´ees en augmentant les modes de pr´ediction. La p´eriode des images I est de 30, celle des images P est de 1 avec une image de r´ef´erence (pas de B pour le moment). Pour les images P, les modes inter 16x16, 16x8, 8x16, 8x8 et skip sont activ´es ainsi que les modes intra. Cela permet de s’assurer que les modifications de l’algorithme d’estimation de mouvement sont justifi´ees avec un ensemble d’outils de l’encodeur plus complet. Les performances de compression sont regroup´es dans le tableau 5.11 et les temps d’ex´ecution sur mono-DSP dans le tableau 5.12.

Variation de d´ebit `a qualit´e constante (%)

S´equences SD S´equences HD

Implantation Formula1 Raid1 maroc Raid2 maroc Seq1 Horses1 SpinCalendar

HME 0 0 0 0 0 0

HDS 1

4-pel all´eg´e 3,7 2,3 2,1 0,7 1,8 4,9

HDS 16x16 14-pel 5 5,2 5,3 1,1 4,3 6,9

Tab. 5.11 – Comparaison des performances d’encodage entre l’estimateur de mouve- ment initial et l’implantation optimis´ee finale.

Les pertes introduites par les choix d’implantation en terme de performances de compression sont r´eduites mais peuvent aller jusqu’`a 5 %. Il ne faut toutefois pas consid´erer ce r´esultat comme d´efinitif, en effet la d´esactivation des images B ne permet pas d’avoir les performances finales car elles permettent d’am´eliorer consid´erablement la compression.

Sur un des DSP les plus performants du march´e, l’algorithme initial avec des optimisation d’implantation pouss´ees n´ecessite plus de 140 ms pour calculer les champs de vecteurs entre deux images 720p. Les optimisations algorithmiques effectu´ees, telles que l’algorithme hi´erarchique HDS pour les champs de vecteurs 8x8, la technique r´ecursive avec un diamant r´eduit pour les autres tailles de bloc, et la d´ecision du mode `a raffiner au quart de pixel, permettent de r´eduire ce temps d’ex´ecution jusqu’`a 65 ms. Cependant, la sp´ecification temps r´eel la plus proche est de 20 ms pour le format 720p50, soit 3.25 fois moins. Nous pouvons conclure qu’un seul DSP n’est pas suffisant pour r´ealiser l’estimation de mouvement temps r´eel pour la compression vid´eo H.264 en haute d´efinition.

Temps d’ex´ecution

Implantation HME HDS HDS 14-pel all´eg´e

Pyramide 4 niveaux 2,4 ms 2,4 ms 2,4 ms

Padding 5 niveaux 2,7 ms 2,7 ms 2,7 ms

Estimation de mouvement 8x8 niveaux 4 `a 1 6,2 ms 4,2 ms 4,2 ms Estimation de mouvement niveau 0 (taille de

bloc variable et 1 4 pixel)

130 ms 113 ms 55 ms

Total image 1280x720 141,3 ms 122,3 ms 64.6 ms

Tab. 5.12 – Synth`ese des chronom´etrages sur DSP, par image 720p (1280x720)

5.5

Conclusion

Dans ce chapitre, nous avons pr´esent´e les ´etapes de v´erification fonctionnelle, d’im- plantation et d’optimisation monoprocesseur. L’utilisation de la m´ethodologie de pro- totypage a facilit´e le portage sur cible. La chaˆıne de d´eveloppement, en particulier la migration progressive des op´erations et la v´erification fonctionnelle, s’est montr´ee effi- cace dans ces travaux. La v´erification a ainsi ´et´e simplifi´ee assurant des optimisations fiables. Les communications et synchronisations entre PC et DSP ont ´et´e g´en´er´ees automatiquement, offrant la possibilit´e d’´evaluer ais´ement et rapidement plusieurs solutions d’implantation. Nous avons ´etudi´e les performances des algorithmes d’es- timation de mouvement HME et EPZS en termes de complexit´e et de qualit´e des champs de vecteurs dans un but de compression vid´eo. L’analyse des caract´eristiques de ces techniques a conduit `a la conception d’une nouvelle solution, appel´ee HDS, combinant robustesse et faible complexit´e.

Le r´esultat est donc un estimateur de mouvement performant, optimis´e et flexible, sur DSP comme sur PC. Cette technique est utilis´ee dans plusieurs projets :

– HVS (Human Vision System) du laboratoire Compression de Thomson dont le but est de mod´eliser l’attention visuelle (d´etecter automatiquement les zones d’int´erˆet de l’image) [MTCB05],

– l’encodeur vid´eo embarqu´e de l’IETR, groupe image,

– LAR vid´eo, qui consiste `a ´etendre une m´ethode de compression d’images fixes scalable appel´ee LAR `a la vid´eo [FABD06].

L’optimisation de l’implantation sur DSP Texas Instruments C64 a ´et´e pouss´ee, aussi bien en termes d’exploitation des unit´es de calculs qu’en termes d’acc`es m´emoire. Toutefois, les optimisations restent ´evolutives dans le sens ou elles ont ´et´e r´ealis´ees avec un langage de haut niveau, de fa¸con `a pouvoir ˆetre adapt´ees par exemple `a un autre mod`ele de processeur. Des optimisations plus sp´ecifiques peuvent ˆetre effectu´ees, mais conduiraient `a un temps de d´eveloppement suppl´ementaire cons´equent pour une faible am´elioration et rendraient de fait l’implantation fig´ee. Cette d´emarche n’a donc qu’un int´erˆet limit´e dans un contexte de recherche et pour la r´ealisation de prototypes. La compression vid´eo augmente la complexit´e de l’estimation de mouvement, no- tamment dans le cadre de H.264. Le traitement exhaustif de tous les modes possibles implique une puissance de calcul cons´equente. Le raffinement subpix´elique s’av`ere par- ticuli`erement complexe `a cause des ´etapes d’interpolation et de mise en correspondance suppl´ementaires. Le contexte de haute d´efinition augmente davantage les contraintes

5.5 conclusion 133

et pose un probl`eme de bande passante m´emoire. En effet la quantit´e des donn´ees `a traiter n´ecessite des bandes passantes ´elev´ees. L’´evolution actuelle des techniques de compression vid´eo accroˆıt la complexit´e de l’estimation de mouvement et des enco- deurs en g´en´eral. Cette tendance se v´erifie encore dans les futurs standards tels que MPEG-4 SVC.

L’estimation de mouvement pour la compression vid´eo haute d´efinition est trop complexe pour ˆetre trait´ee par un seul processeur, mˆeme pour un des DSP les plus puis- sants du march´e. Nous avons donc naturellement cherch´e `a parall´eliser les op´erations sur une plate-forme multicomposant afin d’augmenter la puissance de calcul dispo- nible.

Chapitre 6

Estimation de mouvement sur

plates-formes multicomposants

Dans le chapitre 5, nous avons vu que l’op´eration d’estimation de mouvement pour la compression vid´eo haute d´efinition n´ecessite une puissance de calcul cons´equente. Un seul DSP ne peut pas r´ealiser cette tˆache. Une architecture sp´ecialis´ee telle celles pr´esent´ees dans le chapitre 3 peut alors ˆetre d´evelopp´ee. Cependant, le temps n´ecessaire au d´eveloppement ne convient pas `a un prototype, qui doit ˆetre fonctionnel rapidement. De plus, comme un prototype est souvent r´ealis´e tr`es tˆot dans le pro- cessus de d´eveloppement, la solution doit ˆetre ´evolutive, afin de prendre en compte les modifications ´eventuelles de l’application. Pour r´epondre au cahier des charges, l’architecture cible id´eale doit donc ˆetre programmable et disposer d’une grande puis- sance de calcul. On peut noter ´egalement qu’`a ce stade, le coˆut de la plate-forme entre moins en jeu que la complexit´e de programmation. La puissance de calcul est donc fournie en utilisant plusieurs composants. L’implantation est simplifi´e et acc´el´er´e en utilisant des outils de prototypage rapide (cf. chapitre 4).

Une premi`ere solution a ´et´e de d´evelopper un coprocesseur d´edi´e afin d’acc´el´erer l’op´eration la plus coˆuteuse en temps de calcul. Une deuxi`eme solution a ´et´e d’´etudier diff´erentes techniques de parall´elisation `a l’aide des outils de prototypage. Nous ver- rons ici que la parall´elisation sur multiprocesseur n’est pas triviale et qu’il est parfois n´ecessaire d’´eliminer des d´ependances de donn´ees entre op´erations afin de faire ap- paraˆıtre du parall´elisme potentiel. Cela a un impact sur le r´esultat, qu’il convient de minimiser. La distribution des op´erations sur de multiples composants g´en`ere des transferts de donn´ees in´evitables qui encombrent les liens de communication. De plus, l’acc`es m´emoire ´etant p´enalisant, de meilleures performances sont obtenues en grou- pant les op´erations en fonction des donn´ees source, afin d’optimiser l’utilisation des m´emoires caches. La solution a ´et´e d’effectuer la parall´elisation en fonction des donn´ees plutˆot qu’en fonction des op´erations lorsque l’architecture cible est homog`ene. Toute- fois, une op´eration donn´ee peut tirer partie des sp´ecificit´es d’un type de processeur. La parall´elisation est alors effectu´ee en fonction du type de traitement sur une archi- tecture h´et´erog`ene.

Dans un premier temps nous allons donner un exemple de parall´elisation sur une architecture h´et´erog`ene, ou les processeurs sont adapt´ees `a chaque type d’op´eration.

Dans un deuxi`eme temps nous allons pr´esenter des solutions de parall´elisme de donn´ees.

6.1

R´ealisation d’un coprocesseur

Nous avons vu dans le chapitre 3 qu’il existait plusieurs types de processeurs. Chaque composant pr´esente des caract´eristiques mat´erielles diff´erentes qui peuvent ˆetre mises `

a profit pour un type d’op´eration donn´e. Une plate-forme multiprocesseur h´et´erog`ene offre non seulement la possibilit´e de parall´eliser les traitements, mais aussi les atouts des diff´erentes architectures. Il est alors important de distribuer les op´erations de l’application de mani`ere `a exploiter au mieux l’int´erˆet de chaque processeur.

Dans le chapitre 5, nous avons pr´esent´e une implantation optimis´ee d’un algorithme d’estimation de mouvement sur DSP. L’estimation de mouvement pixel entier est bas´ee sur un algorithme pr´edictif afin de conserver une grande amplitude des vecteurs de mouvement et une quantit´e de calculs r´eduite. Il est donc conditionn´e et comporte des acc`es m´emoire al´eatoires. L’utilisation d’un processeur standard de type DSP est donc adapt´e.

Inversement, l’op´eration la plus coˆuteuse en termes de ressources mat´erielles est le raffinement subpix´elique des vecteurs de mouvements. Malgr´e une fenˆetre de re- cherche tr`es r´eduite (amplitude inf´erieure `a un pixel dans chaque direction), beaucoup de calculs sont effectu´es, notamment `a cause de l’interpolation qui impliquent de nom- breuses op´erations simples (additions et d´ecalages). L’augmentation de la r´esolution conduit ´egalement `a une densit´e de candidats importante, et donc `a une quantit´e de calculs de distorsion et une bande passante m´emoire cons´equentes. De plus, les calculs syst´ematiques du raffinement subpix´elique se prˆetent bien `a une implantation mat´erielle. Nous avons donc choisi de concevoir un coprocesseur d´edi´e sur FPGA. Ce type de composant peut assurer une bande passante interne aussi grande que n´ecessaire : r´ealiser en parall`ele les calculs d`es que les donn´ees sont disponibles ´evite d’avoir `a stocker les donn´ees temporaires.

Dans ce paragraphe nous d´ecrivons le coprocesseur de raffinement subpix´elique con¸cu. La taille de bloc est variable afin de g´erer plusieurs modes possibles. La bande passante m´emoire est r´eduite et adapt´ee au d´ebit de l’interface externe d’un DSP. L’estimation de mouvement pixel entier (IME : Integer-pixel Motion Estimation) est r´ealis´ee sur DSP tandis que le raffinement subpix´elique (FME : Fractional-pixel Motion Estimation) est acc´el´er´e sur FPGA. Dans un premier temps, l’architecture interne est d´ecrite et justifi´ee, puis dans un deuxi`eme temps, le prototype h´et´erog`ene est pr´esent´e.