Estimateur de mouvement h´ et´ erog` ene - Implantation des op´ erations sp´ ecifiques ` a H.26

5.4 Implantation des op´ erations sp´ ecifiques ` a H.264

6.1.2 Estimateur de mouvement h´ et´ erog` ene

L’estimation de mouvement est une op´eration demandant beaucoup de bande passante m´emoire et de puissance de calcul. Sur DSP, les algorithmes rapides mettent `

a profit les capacités à faire des branchements conditionnels et des accès aléatoires à la mémoire, ce qui est difficile à mettre en oeuvre sur une architecture câblée. L’estimation de mouvement pixel entier (IME) atteint de bonnes performances sur un DSP. Par contre, Le raffinement subpixélique (FME), travaillant sur une fenêtre de recherche très réduite, est plus coûteux (cf. paragraphe 5.4). La quantité de données source réduite et les opérations régulières (interpolation et calcul de distorsion) permettent de tirer parti d’une architecture câblée. Une implantation FPGA peu coûteuse permet d’obtenir de meilleures performances qu’un DSP. L’opération d’interpolation décuple les données en interne, et permet d’atteindre un parallélisme élevé avec une faible bande passante en entrée.

Nous présentons dans ce paragraphe un prototype d’estimateur de mouvement hétérogène où IME est exécuté sur un DSP et FME est accéléré sur un FPGA, fonc- tionnant comme un coprocesseur. Les calculs sont mis en pipeline par bloc afin de les paralléliser.

6.1.2.1 Plate-forme de prototypage

Le matériel utilisé est une plate-forme de prototypage Sundance (Fig 5.8) équipée d’un module SMT395 (DSP Texas Instrument C6416 à 1 GHz avec un FPGA Xilinx Virtex II Pro XC2VP20). Le FPGA gère les transferts entre le DSP et le monde extérieur. Il n’est pas utilisé à 100% et permet donc l’implantation de fonctions dédiées. Le FPGA est branché sur le bus mémoire externe du DSP avec une largeur de 32 bits et une fréquence de 133 MHz. Afin de personnaliser le FPGA, le fabriquant fournit les sources du programme du FPGA (firmware) [Sun]. Cela concerne les liens de communications déjà implantées. La figure 6.7 présente le schéma bloc du FPGA.

On retrouve plusieurs types de blocs :

– le Processor block gère l’interface entre le DSP et le FPGA, c’est lui qui implémente le protocole du bus externe du DSP, décode les adresses et génère les interruptions,

– un Connector block interface le FPGA avec un élément extérieur (Bus PCI, autre FPGA, LED, ...), il gère le protocole du lien de communication,

– un Interface block permet de faire le lien entre les deux précédents blocs. Nous avons choisi d’intégrer nos développements au niveau d’un interface block afin de réutiliser au maximum les éléments déjà existants. Ce bloc est donc modifié pour prendre en compte les spécificités de l’application et devient un User block, auquel nous connectons le coprocesseur proprement dit. Ceci permet d’utiliser simplement les développements existants. En effet, sur les plates-formes de type Sundance, les communications inter-processeurs sont réalisées par l’intermédiaire de FIFO sur le

6.1 r´ealisation d’un coprocesseur 147

Fig. 6.7 – Schéma général du Firmware Sundance

FPGA. Dans le cadre des bibliothèques de communication (noyaux SynDEx, cf. paragraphe 4.1.6), des fonctions de communication permettant d’envoyer et de recevoir des données sur le DSP, ont donc déjà été développées. Du point de vue du DSP, il faut envoyer les données dans une FIFO, comme pour une communication avec l’extérieur, et se mettre en attente du résultat. Du point de vue du coprocesseur, dès qu’une données est re¸cue dans le User block, celui-ci est activé et et les données sont traitées. Le résultat est ensuite renvoyé vers le DSP en fin de calcul.

6.1.2.2 Parall´elisation des op´erations

L’estimation de mouvement est basée sur un algorithme prédictif. Les vecteurs de mouvements déjà calculés sont donc nécessaires pour prédire le mouvement courant ainsi que pour calculer le coût du vecteur. Cela crée des dépendances de données entre IME et FME, ce qui résulte inévitablement en une exécution séquentielle. Pour exploiter le parallélisme de la plate-forme et utiliser les composants de manière efficace il est nécessaire d’extraire du parallélisme de l’application, sans introduire de perte de performances de compression. Pour cela il est possible de modifier les dépendances de données pour créer un pipeline au niveau bloc composé de deux étages : IME et FME. Le vecteur du bloc de gauche est donc entré dans l’étage IME à la précision pixel au lieu du quart de pixel. Il est donc possible de paralléliser IME sur le bloc suivant avec FME sur le bloc courant (Fig. 6.8).

Le pipeline au niveau bloc permet donc de réaliser le raffinement des vecteurs au quart de pixel de manière transparente sur FPGA. L’impact de la modification des dépendances sur les résultats et de la latence due à la taille du pipeline sont négligeables au niveau image.

6.1.2.3 M´ethode de d´eveloppement

Le coprocesseur est utilisé de manière transparente avec l’outil de prototypage. En effet certaines limitations nous empêchent à l’heure actuelle de bien exploiter le co-

Fig. 6.8 – Implantation du pipeline au niveau bloc

processeur. Il manque une notion de multi-rythme pour dissocier le fonctionnement au niveau image des traitements au niveau bloc et une notion de pipeline permettant de parall´eliser IME et FME.

Les résultats de l’utilisation de SynDEx ont montré que la notion de boucle n’est pas bien prise en compte dans l’outil actuel. Par conséquent une description fine au niveau bloc conduit à un nombre d’opérations élémentaires trop important car les boucles sont déroulées exhaustivement. Il n’est alors pas possible de réaliser une description au niveau bloc pour faire apparaˆıtre les opérations IME et FME. L’algorithme d’estimation de mouvement est donc décrit au niveau image. De plus, la distribution et l’ordonnancement optimaux sont ici simples à identifier, ce qui limite l’intérêt de l’outil.

Les interfaces entre le DSP et le FPGA sont existantes, il est donc rapide de mettre au point les opérations de transfert et de synchronisation optimisées. Afin de simplifier le développement, le coprocesseur peut être utilisé comme un périphérique même du DSP. Une macro-instruction est donc développée selon l’algorithme 6.3.

Algorithme 6.3 Macro-instruction de raffinement subpix´elique

si (indice de bloc 6= 0) (pipeline initialisé ?) lire résultat du bloc précédent

fin de si

transférer données du bloc courant (lancer le traitement sur de nouvelles données) si (indice de bloc = dernier bloc) (fin du pipeline ?)

lire r´esultat du bloc courant fin de si

L’outil de prototypage est toutefois utilisé au niveau image pour la description globale de l’algorithme. Il permet d’exécuter l’estimation de mouvement sur la plate- forme hétérogène, et de réaliser les opérations de lecture de flux et d’affichage sur PC. Les transferts et synchronisations sont gérés automatiquement. Il permet également de faire la vérification fonctionnelle et des chronométrages (cf. paragraphe 4.1.7).

6.1.2.4 Performances

Une fois que la vérification fonctionnelle a été validée avec le modèle PC, le chro- nométrage de plusieurs configurations permettent d’évaluer les performances de la solution hétérogène. Les temps d’exécution apparaissent dans le tableau 6.4 avec pour référence les résultats de IME sur DSP, FME sur DSP et FPGA, et l’estimateur com-

6.1 r´ealisation d’un coprocesseur 149

plet (IME+FME hétérogène). Les temps d’exécution sont donnés pour seulement une taille de bloc, avec le niveau de pleine résolution de l’algorithme HDS pour IME.

IME est exécuté en 900 ns pour un bloc 8x8 et 2800 ns pour un bloc 16x16. Le raffinement quart de pixel est exécuté sur DSP en 1200 ns pour un bloc 8x8 et 4400 ns pour un bloc 16x16 alors que cela ne requiert seulement que 842 et 1925 ns sur FPGA. De plus les traitements sont parallélisés et le fonctionnement du FPGA est donc à priori transparent. Les mesures de l’application parallélisée sur l’architecture hétérogène donnent des temps d’exécution de 1250 et 3900 ns pour des blocs 8x8 et 16x16 respectivement. Le fonctionnement du FPGA n’est donc pas totalement transparent. Effectivement, le temps global devrait être celui celui du plus long traitement, soit 1200 et 4400 ns et il est supérieur. Le temps supplémentaire est dû au transfert des données entre le DSP et le FPGA. En effet Le DSP place les données (bloc courant, fenêtre de recherche, vecteur et multiplicateur de Lagrange) en mémoire interne pour les envoyer vers le FPGA de manière contiguë. De plus, les transferts de données occupent le bus mémoire et ralentissent donc légèrement les traitements.

Taille de bloc 8x8 16x16

IME sur DSP 900 ns (720p frame : 13 ms) 2800 ns (10 ms)

FME sur DSP 1200 ns (17.3 ms) 4400 ns (15.8 ms)

FME sur FPGA 842 ns (12 ms) 1925 ns (7 ms)

IME sur DSP

+ FME sur FPGA 1250 ns (720p frame : 18 ms) 3900 ns (14 ms)

Tab. 6.4 – Chronom´etrages par bloc (et par image 720p)

L’utilisation d’un FPGA pour réaliser l’opération de raffinement subpixélique des vecteurs de mouvement permet de réduire considérablement l’impact de cette opération sur le temps de traitement. Le coprocesseur cadencé à 133 MHz a des performances du même ordre de grandeur que IME sur DSP, ce qui permet une utilisation des ressources efficace avec une parallélisation des traitements sur les deux composants. Il est donc possible d’atteindre 55 (resp. 70) images par secondes pour l’estimation de mouvement au quart de pixel d’une image 1280x720 pour des blocs 8x8 (resp. 16x16). L’introduction du coprocesseur permet d’atteindre le temps-réel pour des blocs 16x16 et d’en être très proche pour des blocs de taille 8x8.

6.1.2.5 Estimateur de mouvement complet

Les performances présentées ci-dessus prennent en compte seulement le niveau pleine résolution de l’algorithme HDS, en ne considérant qu’une taille de bloc. Cependant, un estimateur de mouvement complet pour la compression vidéo H.264 suppose de prendre en compte également plusieurs tailles de bloc et les niveaux hiérarchiques. Un module DSP+FPGA n’est alors plus à même de traiter toutes les tailles de manière exhaustive en temps réel.

L’algorithme allégé décrit au paragraphe 5.4.2.5 permet de ne raffiner qu’un seul mode sur les quatre tailles considérées. Cette réduction de complexité permet d’envi- sager un estimateur de mouvement à taille de bloc variable à 25 images par seconde en 720p. Une réduction de complexité de l’algorithme pixel entier à taille de bloc variable

est nécessaire pour atteindre de meilleures performances. Par exemple un algorithme basé sur EPZS 8x8, avec un regroupement des blocs pour obtenir les vecteurs des autres tailles (sans mise en correspondance), permettrait d’atteindre les 50 images par secondes, avec une perte de qualité des vecteurs de mouvement.

Une autre solution, beaucoup plus coûteuse, consiste à réaliser l’estimation de mouvement des niveaux hiérarchiques sur un processeur dans un premier étage de pipeline, puis de dupliquer le schéma IME+FME pour chaque taille de bloc dans un deuxième étage de pipeline. Cette solution nécessite donc au total cinq DSP et quatre petits FPGA pour réaliser l’estimation de mouvement H.264 pour une image de référence en 720p 50 Hz, ce qui est cher et donc non envisageable dans un contexte industriel.

Dans le document Implantation optimisée d'estimateurs de mouvement pour la compression vidéo sur plates-formes hétérogènes multicomposants (Page 161-165)