Description du sch´ema global de codage de la norme H.264/AVC

H.264/AVC

La norme H.264/AVC [H.264/AVC] est un codeur vidéo en boucle fermée, tout comme l’ensemble de ses prédécesseurs. En effet, les informations déjà décodées sont utilisées pour le codage de la partie courante. Le schéma global de codage de cette norme est représenté dans la figure 1.1. La séquence en entrée (en haut à gauche dans le schéma), est une succession d’images (matrices de pixels). Chaque image est découpée en “slices”. Un slice est une partie de l’image ou l’image entière en fonction des paramètres d’entrée. Ces slices sont découpés en macroblocs (bloc de taille 16×16), le macrobloc étant l’unité de codage dans la norme. Chaque macrobloc est codé soit en Intra (boˆıte 1), soit en Inter (boˆıte 12). Chacun de ces codages engendre plusieurs résiduels de texture, qui sont comparés avec un module de décision (boˆıte 2). Le résiduel qui donne la meilleure possibilité de codage, en terme d’un critère débit-distorsion dans le logiciel de référence [JM] de la norme, est alors sélectionné.

Ce résiduel est décorrélé avec la transformée en cosinus discrète (DCT) (boˆıte 3). Puis, ce résiduel transformé est quantifié (boˆıte 4) et les coefficients engendrés sont envoyés dans le codeur entropique sans perte (boˆıte 10) qui produit le train binaire (le flux).

Le standard H.264/AVC étant un codeur en boucle fermée, il est nécessaire d’introduire une boucle de décodage à l’intérieur de l’encodeur. Par conséquent, les résiduels transformés et quantifiés sont déquantifiés (boˆıte 5) et détransformés (boˆıte 6) à l’intérieur du codeur. Aux blocs ainsi générés, on applique la prédiction inverse. Cette opération consiste à ajouter le prédicteur sélectionné dans le module de décision (boˆıte 2) (le meilleur prédicteur Intra ou Inter). Ensuite, un filtre de deblocking est appliqué sur l’image reconstruite, permettant d’éliminer certaines dégradations produites par le module de quantification (boˆıte 4) qui engendre des pertes d’information. Ce filtre lisse les images de référence en bordure des blocs. Enfin, les macroblocs et slices décodés sont stockés en mémoire (boˆıte 9). Les blocs décodés de l’image courante, stockés dans ce module, sont utilisés pour le calcul des prédicteurs Intra. De même, les images précédemment décodées et débloquées (lissées) sont utilisées pour le codage Inter. En effet, le mouvement entre le bloc courant et ces images est estimé (boˆıte 11), le prédicteur engendré par cette estimation de mouvement servira pour la prédiction Inter que l’on appelle généralement compensation de mouvement (boˆıte 12). Afin que le décodeur soit capable de retrouver ce prédicteur Inter, un vecteur correspondant au mouvement entre le bloc courant et le prédicteur est transmis au décodeur. Les vecteurs issus du codage Inter sont prédits (boˆıte 13) puis envoyés dans le codeur entropique. Ces vecteurs prédits puis codés sont ensuite insérés dans le train binaire.

Les différentes étapes de ce schéma de codage peuvent être segmentées en deux parties : le calcul du résiduel et le codage du résiduel. Nous décrivons, alors, brièvement ces deux parties dans la suite de ce chapitre.

1.1.1 Calcul du r´esiduel

Le résiduel du bloc courant, appelé aussi erreur de prédiction, est la différence entre un prédicteur et ce bloc courant. L’expression du résiduel e est donnée dans l’équation (1.1) où p(x, y) est le pixel du bloc courant à la position (x, y) et ˆp est le prédicteur :

e(x, y) = p(x, y) − ˆp(x, y) (1.1)

L’opération de prédiction inverse est donnée dans l’équation (1.2). Le prédicteur ˆp est ajouté au

résiduel pour retrouver les pixels p(x, y) du bloc courant. Le décodeur calcule le prédicteur ˆp à partir

des informations déjà décodées et extraites du train binaire :

p(x, y) = ˆp(x, y) + e(x, y) (1.2)

Les prédictions Intra et Inter permettent d’exploiter respectivement les corrélations spatiales et temporelles des séquences vidéo. Les prédicteurs Intra sont calculés à partir des informations déjà décodées de l’image courante et plus précisément des pixels voisins du bloc courant. Nous décrirons plus en détail le codage Intra de la norme H.264/AVC dans la section 1.2.

Description du sch´ema global de codage de la norme H.264/AVC 11

Figure 1.1 – Sch´ema global d’un codeur H.264/AVC.

Dans le standard, on distingue trois types de slices : I, P, B. Les slices I dits Intra utilisent uniquement le codage Intra. Ils sont utilisés pour le codage de la première image d’une séquence, car aucune redondance temporelle ne peut être exploitée dans ce cas. Les images codées uniquement en Intra sont indépendantes des autres images du flux. Par conséquent, on les utilise aussi pour permettre un accès aléatoire à la séquence codée, ou pour réinitialiser la prédiction temporelle, en cas de pertes de paquets par exemple. Les slices P, dits prédictifs, utilisent à la fois le codage Inter et le codage Intra, car, pour chaque macrobloc, ces deux types de codage peuvent être en compétition. Les images P utilisent des images dans le passé pour la compensation de mouvement. Finalement les slices B, dits bidirectionnels, utilisent aussi ces deux modes de codages (Intra et Inter) mais la compensation de mouvement peut être effectuée à la fois sur des images dans le passé et des images dans le futur. De plus, pour ces slices B, la prédiction temporelle d’un bloc peut être la différence entre le bloc courant et un prédicteur résultant d’une moyenne entre deux blocs. Ces deux blocs peuvent provenir d’une image dans le passé et d’une image dans le futur, ou de deux images dans le passé ou de deux images dans le futur.

L’estimation de mouvement est le processus qui permet de réaliser une mise en correspondance entre des éléments de deux trames différentes, basée sur le critère de fidélité. Pour le bloc courant, ce processus a pour but de rechercher dans les images précédemment encodées un bloc de même taille représentant le même objet ou une même partie de l’objet. Ce processus de recherche du meilleur prédicteur temporel est effectué uniquement à l’encodeur, c’est donc un processus non- normatif. L’estimation de mouvement correspond à un algorithme de mise en correspondance de blocs ou “Block Matching” (BMA), avec comme critère de sélection la minimisation du critère débit-distorsion. Cependant, l’estimation de mouvement n’étant pas normative, le choix du critère

de sélection ou de l’algorithme dépend de chaque implémentation. Le codage Inter de la norme H.264/AVC offre un partitionnement variable du macrobloc. Les tailles de bloc possibles sont 16×16, 16×8, 8×16, 8×8, et chaque bloc 8×8 peut avoir un partitionnement 8×8, 8×4, 4×8 ou 4×4. Ce partitionnement variable du macrobloc permet de segmenter le mouvement lorsque c’est nécessaire, notamment pour les bords des objets. De plus, l’estimation de mouvement et la compensation de mouvement sous-pixellique sont utilisées dans le standard jusqu’au 1

4 de pixel, ceci afin de palier au caractère discret des images numériques alors que la capture se fait dans le domaine continu. Cette méthode a un impact sur le coût des vecteurs mouvement par rapport à une estimation de mouvement au pixel entier. En effet, si un vecteur indique une translation au pixel entier de (1, 1), étant donné que les vecteurs parcourent le pixel entier, le 1

2 pixel et le 14 de pixel, le vecteur a pour valeur (4, 4). Enfin, l’option des images de référence multiple [WZG99] a été intégrée au standard H.264/AVC. Dans cette méthode, deux blocs voisins peuvent avoir deux prédicteurs temporels dans deux images différentes. Une partie de nos contributions est dédiée à l’amélioration du codage des vecteurs mouvement. Nous proposons donc, dans la section 1.3, une description détaillée du codage de cette information.

Le filtre de deblocking (lissage des effets de bloc) [LJL+_{03] est un outil d’amélioration de qualité} visuelle des images décodées, dégradées par les effets de bloc engendrés par la quantification des coefficients des résiduels transformés. Cependant, ce filtre est intégré dans la boucle de décodage à l’intérieur du codeur pour améliorer la qualité des images de référence qui deviennent plus “lisses” (moins d’effets de bloc) et permettent ainsi d’améliorer l’estimation de mouvement.

1.1.2 Codage du r´esiduel

Le codage des résiduels permet à la fois d’exploiter les redondances spatiales de notre signal et d’éliminer une partie de l’information, afin de réduire la quantité d’information à transmettre. Ces résiduels issus du codage Inter et Intra sont transformés, puis les coefficients générés sont quantifiés avant d’être codés avec un codage entropique. Dans cette section nous présentons ces trois étapes.

1.1.2.1 Transformation

L’étape de transformation a pour objectif de décorréler le signal et de réduire le nombre de coefficients significatifs dans le bloc. Pour cela, on utilise une transformée par bloc permettant de mettre en évidence les fréquences spatiales du signal 2D. En effet, l’énergie des résiduels engendrés par le codage Inter et le codage Intra est concentrée dans les basses fréquences. Notons que dans la norme H.264/AVC on exploite, avec la transformée, des redondances spatiales contenues dans des résiduels de bloc et les redondances spatiales des blocs de l’image, comme dans le standard JPEG [JPEG].

Dans la majorité des standards de codage vidéo et d’image, la transformée utilisée pour décorréler le signal est la transformée DCT par bloc [ANR74]. Cette transformée est la transformée de Fourier sur la partie paire de l’image. La formule de la DCT pour un bloc de taille N×N est définie par :

Description du sch´ema global de codage de la norme H.264/AVC 13 F (u, v) = 2 Nc(u)c(v) N −1_X i=0 N −1_X j=0 xijcos[π Nu(x + 1 2)] cos[ π Nv(y + 1 2)] (1.3) avec ( c(z) = _√1 2 si z = 0 c(z) = 1 sinon

o`u xijest le pixel du bloc courant `a la position (i, j) et F (u, v) le coefficient de la matrice transform´ee

à la position (u, v). Le standard H.264/AVC utilise une transformée entière. Cette transformée a les mêmes propriétés que la DCT classique. L’avantage est qu’elle permet de transmettre des coefficients entiers et non des coefficients en virgule flottante, ce qui permet à la fois de réduire le débit et d’éviter les problèmes d’implémentation liés à la précision, comme dans les standards précédents [H.263], [MPEG2]. Cette transformée, pour des blocs de taille 4×4 est définie par :

F = C.X.CT _{avec C =}      1 1 1 1 2 1 −1 −2 1 −1 −1 1 1 −2 2 −1      (1.4)

Comme on peut le voir, l’implémentation de cette transformée ne nécessite que des décalages et des additions, ce qui engendre une faible complexité [HK01] par rapport à la DCT classique de l’équation (1.3). Notons qu’une partie de la transformée est effectuée dans l’étape de quantification, ce qui permet d’obtenir l’équation (1.4) contenant uniquement des entiers compris entre -2 et 2. Enfin la norme H.264/AVC permet d’utiliser une transformée DCT de taille 8×8 définie par :

F = C.X.CT _{avec C =}                8 8 8 8 8 8 8 8 12 10 6 3 −3 −6 −10 −12 8 4 −4 −8 −8 −4 4 8 10 −3 −12 −6 6 12 3 −10 8 −8 −8 8 8 −8 −8 8 6 −12 3 10 10 −3 12 −6 4 −8 8 −4 −4 8 −8 4 3 −6 10 −12 12 −10 6 −3                (1.5)

Cette transformée est plus complexe que la DCT 4×4, néanmoins sa complexité reste inférieure à celle de la DCT classique de l’équation (1.3).

1.1.2.2 Quantification

La quantification scalaire a pour but de réduire l’espace des valeurs des coefficients des résiduels transformés pour réduire l’entropie du signal. Cette opération Q consiste à diviser chaque coefficient du résiduel du bloc transformé par son coefficient de quantification provenant d’une matrice de quantification et à ne garder que la partie entière. Les matrices de quantification dépendent en général d’un pas de quantification (QP) relatif à la dégradation que l’on souhaite introduire sur les résiduels de bloc. Cette opération introduit naturellement des pertes d’information dans le signal. En

effet, l’opération de déquantification Q−1_{ne permettra pas de retrouver le signal original. L’opération}

conjointe de quantification et de d´equantification est donn´ee par la formule suivante :

Q−1_{Q(x) 7→ mq si x ∈ [mq −}q

2; mq +

2[ (1.6)

o`u x est un coefficient du résiduel transformé et q est le coefficient ayant la même position dans la matrice de quantification. Pour que la reconstruction du signal soit optimale, un “offset” de quantification est ajouté à chaque coefficient. Dans le logiciel de référence de la norme H.264/AVC, cet offset de quantification est fixé de manière adaptative en fonction de statistiques obtenues sur les blocs précédemment quantifiés.

1.1.2.3 Codage entropique et arithm´etique

A la suite de la quantification, la matrice du résiduel transformé contient beaucoup de valeurs égales à zéro. La matrice quantifiée va être parcourue par ordre croissant des fréquences. Notons que les basses fréquences se situent en haut à gauche et les hautes fréquences se situent en bas à droite du bloc des coefficients, comme représenté dans la figure 1.2. A la suite de ce parcours dit en zigzag on obtient un vecteur unidimensionnel qui va être codé à l’aide de l’algorithme de Run Lenght Coding (RLC). Cet algorithme remplace les coefficients égaux à zéro par la distance entre deux valeurs différentes de zéro. Le nouveau vecteur généré par le RLC est codé soit à l’aide du CAVLC (Context Adaptive Variable Length Coding), soit à l’aide du CABAC (Context Adaptive Binary Arithmetic Coding) en fonction du profil de la norme utilisé. Ces deux codages sont adaptés au contexte, ce qui signifie que pour chaque composante (résiduel, mode, vecteur, etc.) le contexte utilisé dépend des informations précédemment décodées. Par exemple, pour le codage arithmétique du module CABAC [MSW03], les probabilités utilisées pour le codage de la valeur courante dépendent de la composante courante et des valeurs voisines de cette même composante déjà décodée. Les probabilités de chaque contexte sont fixes dans la norme. Le nombre et les valeurs de ces probabilités possibles dépendent des composantes.

Dans cette section nous avons volontairement étudié uniquement le schéma du standard H.264/- AVC. Toutefois, précisons qu’il existe plusieurs codeurs normalisés : les prédécesseurs de cette norme, mais aussi les concurrents comme VC1 [VC106] ou AVS [FMW]. De même, le domaine de la recherche en compression vidéo étant vaste, de nombreux codeurs vidéo ont été développés. Ces codeurs ont parfois des schémas de codage différents de celui de H.264/AVC, néanmoins l’exploitation des redondances spatiales et/ou temporelles reste l’objectif recherché.

Dans le document Modules de codage par compétition et suppression de l'information de compétition pour le codage de séquences vidéo (Page 34-39)