Conclusion - Transformées orientées par blocs pour le codage vidéo hybride

Ce premier chapitre a caractérisé généralement la compression vidéo avant de présenter plus en détails les codeurs basés ondelettes et les codeurs de type hybride qui vont surtout nous intéressé ici tel que H.264 MPEG-4/AVC.

Les schémas de type hybride tirent ce nom de l'utilisation d'une boucle fermée de décodage permettant de réaliser la ou les étapes de prédiction (temporelle et/ou spatiale).

Ces schémas se basent sur quatres principaux modules an de réaliser la compression des données vidéo d'entrée :

Une prédiction temporelle pour les images Inter, il n'y a pas de prédiction pour les images Intra, sauf dans le cas de la norme H.264/AVC où cette prédiction est spatiale. Cette pré- diction temporelle Inter est réalisée par une estimation et une compensation en mouvement de l'image de référence (ou des images de référence pour la norme H.264/AVC).

Une transformation fréquentielle qui permet de décorréler spatialement les informations en concentrant les énergies dans les basses fréquences. La transformation classique utilisée par ces codeurs hybrides est la transformée en cosinus discrets DCT. Elle s'applique généra- lement à des blocs de taille 8×8 et est calculée en nombres ottants qui nécessitent des arrondis entraînant une divergence entre le codeur et le décodeur. Dans le cas de la norme H.264/AVC, la transformation est diérente, c'est une approximation de la DCT ottante calculée matriciellement en nombres entiers sur des blocs de taille 4×4 et/ou 8×8.

Une quantication qui est la seule étape non réversible du schéma. Elle consiste à réduire l'amplitude des coecients issus de la transformation DCT en divisant chacun d'eux par le pas de quantication choisit. Ce pas de quantication permet alors de réguler le débit de sortie en annulant plus ou moins ces coecients DCT, c'est-à-dire en diminuant plus ou moins la quantité d'informations liée à ces coecients DCT qui est à coder.

Un codage entropique qui permet de représenter ecacement, soit en s'approchant au maxi- mum de la borne entropique, les informations (c.à.d. les coecients DCT quantiés) par des symboles binaires. Ces symboles sont courts pour les informations de fortes occurrences et longs pour les faibles occurrences. Ils peuvent être à longueurs xes ou variables ou être calculés arithmétiquement. De plus, dans tous ces cas, ils peuvent être adaptés en fonction du contexte an d'être plus performants.

Les autres schémas présentés dans ce chapitre sont basés sur des approches en ondelettes. Les schémas en boucle ouverte utilisent un ltrage temporel MCTF qui permet de réaliser une transformation en ondelettes de la séquence vidéo suivant l'axe temporel. Cette transformation correspond à eectuer une décomposition temporelle multirésolution de la séquence vidéo en s'appuyant sur son mouvement estimé.

Les schémas par analyse-synthèse utilisent le même type de ltrage temporel, mais appliqué à un maillage déformé par le mouvement détecté ainsi qu'aux textures associées.

Ces deux schémas réalisent ensuite une décomposition en ondelettes spatiale de chacune des sous- bandes de la décomposition temporelle. Les coecients obtenus sont alors généralement codés à l'aide d'arbres de zéros (les coecients nuls étant redondants dans les sous-bandes plus précises). Ces schémas ondelettes sont tout aussi performants et intéressants que les schémas de type hybride, mais ils n'ont jamais été retenus pour des solutions normalisées qui vont plus nous intéresser dans ces travaux.

Chapitre 2

2.1 Présentation de l'étape de transformation

Le chapitre précédent (1) a présenté les quatres modules du codage vidéo, et a montré que la transformation tient une place importante dans ce codage. Dans la plupart des normes vidéo, il s'agit d'une transformée en cosinus discret (ou Discrete Cosine Transform), la DCT.

Dans la section 1.2, on a vu que cette transformation DCT [ANR74] [RY90] [Str99] s'applique directement sur des blocs 8×8 des images naturelles. Elle est dénie par la formule (1.2) qui est calculée en nombres ottants.

Un des inconvénients de cette transformée DCT est qu'elle soit calculée en ottants. En eet, ces calculs eectués à partir de valeurs numériques donc entières (c.à.d. les valeurs des pixels des images) donnent des coecients non entiers. Ces coecients sont ensuite quantiés ce qui a pour action de les arrondir, arrondis non réversible au décodage. De plus, au décodage, la formule de reconstruction (1.3) est elle aussi calculée en ottants sur des coecients déquantiés donc entiers. Les valeurs reconstruites obtenues sont alors arrondies an de pouvoir dénir des valeurs entières de pixels.

Ces arrondis eectués au codage et au décodage entraînent généralement une dérive entre le codeur et le décodeur et empêchent ainsi la reconstruction parfaite.

Cette version de la transformée DCT est la plus ancienne [ANR74] et est utilisée dans de nombreuses normes de codage d'images et vidéo telles que JPEG [ISO94a], MPEG-x [ISO93] [ISO94b] [ISO00a], H.26x [ITU90] [ITU94] [ITU95]. Les deux seules exceptions sont :

comme on a pu le voir dans la section 1.2.6, H.264 MPEG-4/AVC [JVT05] [JVT04] qui utilise une approximation de la transformée DCT. Cette dernière est calculée matriciellement sur des blocs de taille 4×4 (ou 8×8 avec l'Amendement FRExt [JVT04] de cette norme). Elle sera présentée plus en détail dans la chapitre 4.1 et en Annexe A.3.

JPEG2000 [ISO00b] qui utilise un autre type de transformation que la DCT : la transformée en ondelettes.

En eet, cette étape de transformation dans un codeur vidéo a toujours été normalisée avec une transformée DCT, mais beaucoup d'autres types de transformations sont possibles.

Ce chapitre présente et permet d'évaluer les performances en compression de plusieurs de ces transformations telles que :

les transformées en ondelettes continues, discrètes, sous forme lifting,. . . (cf 2.2)

des transformées associant les ondelettes et la DCT : les DCT en lifting comme la BinDCT, l'IntDCT (cf 2.3)

Dans le document Transformées orientées par blocs pour le codage vidéo hybride (Page 46-50)