Etat de l’art sur le codage de l’information de mouvement

1.3.1 Repr´esentation du mouvement

En compression vidéo, afin d’exploiter au mieux les redondances temporelles entre les images successives, on introduit une notion de mouvement pour caractériser les différences entre ces images. Il existe différentes manières de coder cette information de mouvement. La manière la plus intuitive est sans doute d’affecter un vecteur déplacement (vecteur mouvement en coordonnées cartésiennes) à chaque objet d’une séquence vidéo. Ces méthodes ont été largement étudiées et intégrées dans le standard MPEG-4 [MPEG4]. Dans ce type de codage, chaque élément d’une scène est codé indépendamment : on sépare le fond des objets en mouvement. Dans chaque image, un objet est représenté par la déformation de son contour et par un vecteur mouvement traduisant son déplacement. Cependant ces méthodes n’ont pas été utilisées par les industriels malgré leur intégration dans le standard MPEG-4 car la segmentation de la scène en objets est difficile à obtenir avec des algorithmes rapides. De plus, le fond d’une séquence est rarement statique à cause des défauts des capteurs, et le débit du codage des contours et de leurs déformations n’est pas négligeable.

Une stratégie opposée au codage par objet est le codage par champs denses qui consiste à utiliser un vecteur mouvement par pixel. Bien entendu, dans cette méthode, le coût de l’information de mouvement est élevé. Les algorithmes de compression utilisant les champs denses regroupent les vecteurs mouvement afin de limiter ce coût. Dans [HP01] le champ dense est calculé à l’aide d’une estimation de mouvement basée sur les champs de Markov (MRF) [KD92]. Les vecteurs lisses sont regroupés (en fonction de leur direction et de leur sens) puis un codage prédictif (cf. 1.3.3) exploitant les redondances spatiales du champ de vecteurs est appliqué. Dans [DH98] les auteurs proposent d’utiliser l’algorithme de Horn et Shunck [HS81] pour calculer les champs denses de vecteurs mouvement. Cet algorithme hiérarchique produit un champ de vecteurs pour chaque “niveau” de résolution ; les niveaux s’échelonnant de 1 vecteur pour toute l’image à 1 vecteur par pixel. Pour chaque niveau de résolution, les frontières dans le champ de vecteurs sont détectées afin de segmenter le mouvement. Les différentes zones sont ensuite lissées à l’aide d’une opération morphologique.

L’information de mouvement peut aussi être représentée par maillage. Pour la méthode de Tri- angle Motion Compensation (TMC) [NH91], [Bru90] l’image est découpée en triangles. Le mouvement est alors représenté par la déformation de ces triangles d’une image à l’autre. Cette déformation correspond à une transformation 2D affine. Dans [Cam04] une représentation du mouvement par maillage est proposée conjointement avec une transformée en ondelettes t+2D.

Enfin la représentation par bloc du mouvement est la plus utilisée dans les standards vidéo. Ce partitionnement des images implique le codage d’un vecteur mouvement en coordonnées cartésiennes pour chaque bloc. Ces algorithmes, à taille de bloc fixe, ne nécessitent pas de codage de la segmentation du mouvement et sont adaptés à la transformée carrée utilisée dans la quasi-totalité des standards d’image fixe et vidéo : la DCT 2D. Le défaut de cette méthode est qu’elle n’exploite pas les corrélations spatiales du champ de vecteurs à l’intérieur des objets. Dans [CYC90] les vecteurs issus d’un BMA sont regroupés à l’aide d’un algorithme de Split and Merge. La segmentation

Etat de l’art sur le codage de l’information de mouvement 23

engendrée est ensuite codée comme un arbre pour lequel chaque noeud contient un vecteur mouvement. Enfin la norme H.264/AVC [H.264/AVC] applique une segmentation du macrobloc allant du 16×16 jusqu’au 4×4. Cependant le codage du mouvement n’est pas hiérarchique comme dans [DH98], [CYC90] mais chaque bloc a un vecteur.

1.3.2 Codage des vecteurs mouvement avec pertes

Dans les standards de codage d’image et de vidéo avec pertes, on quantifie uniquement l’information de texture afin de réduire l’entropie de cette information. Le codage des vecteurs mouvement avec pertes [JFB95], [YYW95], [DSCW00] a pour philosophie de traiter le mouvement en tant qu’information quantifiable, comme l’information de texture. La proportion de l’information de mouvement peut être plus élevée que celle liée à la texture, notamment à bas et très bas débit. Dans [AAAB05] une quantification de vecteurs mouvement de très grande précision pixellique est introduite dans un codeur ondelettes. Le vecteur mouvement quantifié, transmis au décodeur, est

mv = round(mv/Qmv) o`u Qmv est le pas de quantification attribu´e au vecteur courant mv. Le co-

dage est fait en boucle ouverte ce qui signifie que la quantification des vecteurs mouvement est faite après la compensation de mouvement. Par conséquent la reconstruction exacte par le décodeur n’est pas possible. Cependant les applications visées sont les bas débits, pour lesquels la reconstruction exacte n’est pas essentielle [ABMD92]. Afin d’améliorer le schéma, dans [AAB06] une allocation de débit optimum entre le débit alloué au codage de la texture et celui des vecteurs mouvement quan- tifiés est proposée. Ce schéma de compression des vecteurs a été testé dans H.264/AVC [CAA+_09] en boucle fermée. Pour chaque bloc, un pas de quantification du vecteur (Qmv) est sélectionné à

l’aide du critère débit-distorsion. L’équation prend en compte le codage prédictif des vecteurs utilisé dans la norme H.264/AVC. Par conséquent, le prédicteur du vecteur est lui aussi quantifié. Cette méthode nécessite la transmission d’un Qmv pour chaque vecteur, ce qui engendre une nouvelle in-

formation de codage très coˆuteuse. En pratique, la sélection du Qmvest effectuée image par image.

Les r´esultats pr´eliminaires sont encourageants.

1.3.3 Codage pr´edictif des vecteurs mouvement

Le coût de l’information de mouvement, pour les algorithmes de compression utilisant une compensation de mouvement par bloc, dépend de trois paramètres :

– la taille des blocs utilisés (plus les blocs sont de petite taille, plus le nombre de vecteurs à coder est élevé).

– la r´esolution sous-pixellique utilis´ee pour la compensation de mouvement (la valeur d’un vecteur au 1

4 de pixel est multipli´ee par quatre). – l’entropie de l’information.

Pour réduire l’entropie de l’information, on utilise généralement un codage prédictif. Dans ce codage on considère non plus l’entropie de la source mais celle des résiduels de cette source. Pour le codage des vecteurs mouvement le résiduel εmv va être transmis à la place du vecteur mv. Le

εmv= mv − p (1.7)

o`u p est le prédicteur à transmettre. L’efficacité de la méthode dépend de la pertinence du prédicteur utilisé. Dans le cas des algorithmes hiérarchiques [DH98], [CYC90] chaque vecteur mouvement peut être prédit par la valeur du vecteur parent. Dans les standards vidéo, afin d’exploiter les redondances spatiales des champs de vecteurs mouvement, la valeur du prédicteur dépend de la valeur des vecteurs voisins déjà encodés/décodés. Ce prédicteur correspond à un médian (cf. section 1.3.4). Dans [Ebr94] le prédicteur est le module de ces vecteurs. Dans [Kri97] le prédicteur est le vecteur qui a le plus d’occurrences dans une fenêtre autour du vecteur à prédire. Les redondances temporelles entre les champs de vecteurs mouvement de deux images ont aussi été exploitées [ZZ91], [YVK95]. Dans [YVK95] les résultats obtenus pour des séquences contenant des champs de vecteurs mouvement complexes sont meilleurs que pour les séquences contenant des mouvements simples. Pour ces séquences, l’utilisation d’un prédicteur spatial est plus efficace. Pour réduire la quantité d’information, le codeur VC1 [VC106], transmet en plus de l’erreur de prédiction du vecteur, un drapeau indiquant quelle résolution pixellique a été utilisée.

D’autres méthodes plus évoluées choisissent parmi plusieurs prédicteurs. La méthode définie dans [HP01] propose un médian des vecteurs voisins appartenant à une même classe, ce qui requiert un stockage de la classe utilisée pour la prédiction de chaque vecteur. La segmentation des classes de prédicteurs dépend des différents mouvements. L’hypothèse est que les prédicteurs spatiaux sont inefficaces dans le cas d’une rupture du mouvement dans le champ de vecteurs. Cette hypothèse est aussi vérifiée dans [YVK95], avec l’utilisation de prédicteurs temporels. Pour réduire la complexité de l’estimation de mouvement dans [DNG01], une compétition entre un nombre élevé de prédicteurs est effectuée et l’indice du prédicteur est transmis au décodeur en plus de l’erreur de résiduel. Dans [CW97], les redondances spatiales et temporelles sont exploitées pour améliorer le codage des vecteurs. Le choix entre deux types de prédicteurs dépend des statistiques locales, ce qui ne permet pas un choix optimal entre les deux corrélations. Une compétition exhaustive entre un prédicteur spatial et un prédicteur temporel est utilisée dans [TWL05] mais uniquement pour le mode Direct des images B. Finalement une compétition exhaustive entre trois vecteurs voisins spatiaux est mise en oeuvre dans [DKBR99]. Dans cette méthode, seule la redondance spatiale est exploitée, ce qui peut être inefficace lors d’une grande disparité dans le champ de vecteurs mouvement. Dans ce cas, une prédiction temporelle devrait être plus efficace.

1.3.4 Codage de l’information de mouvement dans H.264/AVC

1.3.4.1 Le pr´edicteur m´edian

La norme H.264/AVC utilise un codage prédictif des vecteurs mouvement. Le prédicteur p de l’équation (1.7) est un médian spatial pour chacune des composantes (horizontale et verticale). Nous noterons ce prédicteur mvH.264. Les trois vecteurs voisins du vecteur courant mv, utilisés pour le

calcul du médian sont mva, mvb, mvc, représentés dans la figure 1.7. En fonction de la taille des

blocs voisins et du bloc courant, le vecteur mvc peut-ˆetre remplac´e par le vecteur mvd. Pour des cas

Etat de l’art sur le codage de l’information de mouvement 25

mv mvb

mvd mvc

mva

Figure 1.7 – Localisation des vecteurs spatiaux et temporels utilis´es pour la pr´ediction du vecteur courant mv.

ou mvb ou mvc ou 0. Ces caract´eristiques sont l’appartenance de ces blocs `a l’image, la taille du

bloc courant et des blocs voisins et les images de référence utilisées pour le codage des blocs voisins. Par exemple, si un seul des vecteurs voisins a la même image de référence que le vecteur courant, la valeur de p est égale à ce vecteur voisin. De même, si l’un des blocs a, b, c, ou d est codé en Intra (modes pour lesquels il n’y a pas de vecteur mouvement) le vecteur mouvement pour ce bloc est égal à 0.

Les slices B (cf. section 1.1) utilisent des images dans le futur et le passé pour la compensation de mouvement [FG03]. De plus, il est possible d’utiliser des prédictions bidirectionnelles qui sont des combinaisons linéaires de deux compensations de mouvement impliquant l’utilisation de deux vecteurs mouvement (un vecteur par prédicteur de bloc). Les images de référence pour une prédiction bidirectionnelle peuvent se trouver dans le futur et le passé ou toutes dans le futur ou toutes dans le passé. Pour le médian, ceci ajoute une contrainte supplémentaire de direction (future ou passée ou les deux) pour les vecteurs voisins mva, mvb, mvc et mvd.

1.3.4.2 L’information de mouvement pour le mode Skip

Le mode Skip est un mode particulier du codage Inter pour les slices P (cf. section 1.1). Un macrobloc codé avec ce mode n’a ni résiduel de texture ni résiduel de vecteur mouvement, la seule information transmise est le mode (mode Skip). Cependant le Skip a un vecteur mouvement. Ce vecteur mouvement est le vecteur mvH.264 pour un bloc Inter 16×16 défini précédemment, excepté

les cas o`u les blocs a et b n’appartiennent pas à l’image. En effet, le mode Skip est censé servir pour les zones d’une séquence ne contenant pas ou peu de mouvement (généralement le mouvement a une probabilité d’apparition plus élevée dans le centre des images que dans les bordures). De même si un des vecteurs mva, mvb est égal à 0, la valeur du vecteur pour le mode Skip est égale à 0. Dans ce

cas, on force le vecteur à être égal à 0, afin de favoriser la sélection du mode Skip si le mouvement est nul.

1.3.4.3 L’information de mouvement pour le mode Direct

Le mode Skip des images P a son ´equivalent pour les images B : le mode Direct [TWL05]. Dans la norme H.264/AVC il existe deux types de mode Direct : le spatial et le temporel. Ce mode a deux vecteurs mouvement : mvL0

1 et mvL11 représentés dans la figure 1.8. L0 et L1 font respectivement référence aux “listes” (images de référence P) passée et future de la figure 1.8.

ImageB courante L1 - ¾ - ¾ L0 j i i mvL1 1 mvL0 1 dL0 dL0L1 mvcolL1 -

Figure 1.8 – Pr´edicteurs du mode Direct temporel des slices B.

Les vecteurs mouvement pour le Direct spatial sont calcul´es comme le pr´edicteur d’un bloc 16×16 bidirectionnel. Le mode Direct temporel utilise le vecteur temporel (le vecteur “collocated” mvcolL1)

de l’image passée de référence L1 qui traverse l’image B courante. Ce vecteur est ensuite mis à l’échelle en fonction des distances temporelles entre l’image B courante et les images de référence. Les vecteurs mouvement pour le mode Direct temporel sont donnés par les formules suivantes :

mvL01 = mvcolL1 dL0L1 × dL0 (1.8) mvL1 1 = mvcolL1 dL0L1 × (dL0− dL0L1) (1.9)

o`u dL0est la distance temporelle entre l’image courante et l’image pass´ee L0 et dL0L1est la distance

temporelle entre l’image future et l’image de r´ef´erence L0.

Dans le document Modules de codage par compétition et suppression de l'information de compétition pour le codage de séquences vidéo (Page 47-51)