Possibilit´es de codage par comp´etition - Modules de codage par compétition et suppression de

Dans cette section, nous passons rapidement en revue différentes possibilités de codage mises en compétition pour le codage vidéo, afin de déterminer nos axes de recherche pour l’introduction de nouveaux modules de codage par compétition.

2.3.1 Comp´etition de codeurs

Dans ce paragraphe, nous présentons la compétition de modes de codages/codeurs. La majorité des références étudie des codages par objets. Les compétitions se situent donc à “haut niveau”, dans le sens où ces codages sont parfois des codeurs vidéo ou d’image indépendants.

L’utilisation de plusieurs types de codage est souvent appelée codage dynamique [RELB+_{97]. Son} principe réside sur l’observation qu’une seule technique de codage ne peut être efficace pour toutes les applications [Fle99]. Le codage dynamique est une combinaison de multiples techniques de compression activées sur différentes zones de l’image [RCLB+_{96]. Dans ces méthodes, une première phase de} segmentation est généralement appliquée. Ce type de méthode est inclus dans les méthodes de codage par objets. Dans [CPN04], un codage par objets utilisant quatre codeurs vidéo mis en compétition est proposé. Les quatre codeurs sont : le “3D model-based coder” (représentation d’un GOP à l’aide d’un modèle 3D), le “Sprite coder” (utilisation d’un mouvement paramétrique et de JPEG 2000 [PMCM01]), “2D+t wavelet coder” (un codeur ondelettes spatio-temporel) et “H.264/AVC object based coder” (H.264/AVC modifié pour être compatible avec le codage par objets). Pour chaque objet, la texture et l’information de mouvement sont codées à l’aide d’un de ces codeurs. Dans [REK97], une compétition entre différents codages est aussi proposée. Chaque image est découpée en régions (union de blocs de tailles variables). Les modèles (codages) utilisés sont : le modèle de compensation de mouvement (précision du mouvement au 1

2 pixel), le modèle du fond (pour les parties sans mouvement), modèle de textes et de graphiques (la région est représentée en binaire) et le modèle fractal (compression avec une transformée fractale). Les auteurs précisent que le modèle de fond est un cas particulier du modèle de compensation de mouvement. Notons que la segmentation en régions est faite à l’aide d’une structure par arbre.

Dans [BB00], six codeurs considérés comme indépendants sont mis en compétition. Chaque codeur est chargé de coder un “événement visuel”. Cet article est en relation avec le codage dynamique. Les six codeurs sont : “Gain Expert” (compense les différences au modèle), “Remplacement Expert” (retire ou ajoute les objets contenus ou non dans le modèle), “Biais Expert” (code les pixels différents entre le modèle et l’image), “Motion Expert” (code les déplacements spatiaux des objets), “Lighting Expert” (code les variations globales dans la luminosité) et “Additive expert” (code le bruit de l’image). Cet article est différent de ceux de l’état de l’art car les “Experts” (les codeurs) ne sont pas chargés de coder uniquement des objets. L’idée est que les codeurs proposés sont chargés de coder un événement visuel et non une zone de l’image. Les codeurs présentés sont complémentaires au sens où ils peuvent être une suite de codage au sens “hybride”, ou complémentaires au sens du codage par objets. Par conséquent, il est difficile de déterminer le niveau où a lieu la compétition entre les codeurs (est relativement flou). Cette description reste théorique et est présentée comme un appel à contributions.

Possibilit´es de codage par comp´etition 37

2.3.2 Comp´etition de pr´edictions

Dans la norme H.264/AVC [H.264/AVC], le codage de la texture se fait par prédiction, que ce soit pour exploiter les redondances spatiales ou temporelles. La recherche du meilleur résiduel de texture est, dans le schéma des standards vidéo actuels, la partie du codage qui engendre le plus grand nombre de tests exhaustifs.

Pour exploiter les corrélations spatiales, le codage prédictif Intra [FPR95] utilise plusieurs par- titionnements du macrobloc : 16×16, 8×8 et 4×4. Chacun de ces partitionnements a plusieurs prédicteurs et toutes ces prédictions sont mises en compétition. L’amélioration du codage prédictif Intra est largement étudiée dans l’état de l’art, comme nous avons pu le voir dans le chapitre 1 de cette même partie. Toutes ces nouvelles méthodes sont systématiquement mises en compétition avec les modes existants.

Pour exploiter les redondances temporelles, la norme utilise la compensation de mouvement avec plusieurs tailles de blocs [YC88] ce qui offre une meilleure segmentation du mouvement lorsque cela est nécessaire [YCC90]. Pour chaque taille de bloc, une compétition de prédiction de bloc est donc effectuée. Les meilleures prédictions pour chacun des partitionnements du macrobloc sont aussi mises en compétition. Les prédictions peuvent provenir du passé et du futur pour les slices B, et de plusieurs images de référence [WZG99]. Dans le cas de l’exploitation des redondances temporelles, le partitionnement d’une image peut descendre au niveau pixel [CYC90].

2.3.3 Comp´etition de transform´ees

L’étape de transformation est cruciale en compression d’image et de vidéo. Elle permet de décorréler le signal. Plusieurs transformées ont été utilisées dans le domaine de la compression et les deux plus connues sont la DCT et la transformée en ondelettes [ABMD92]. Ces transformées ont des caractéristiques différentes et une efficacité variable selon le contenu. Il est alors intéressant de les mettre en compétition pour exploiter une efficacité de codage accrue. Dans [WK97], une compétition exhaustive entre la transformée DCT et la transformée en ondelettes au niveau bloc est implémentée. Les gains sont cependant faibles.

La norme H.264/AVC utilise deux tailles de transformée DCT, 4×4 et 8×8. L’utilisation de taille multiple de la transformée DCT est assez fréquente dans l’état de l’art [MTI00]. Les premiers articles sur le sujet sont apparus dans les années 90 [Che89]. Dans [TG96], une compétition entre une DCT 1D et une DCT 2D est proposée pour coder les résiduels de texture engendrés par la compensation de mouvement. Dans [Wie03], 4 transformations sont proposées : 4×4, 4×8, 8×4, 8×8. L’information concernant la taille de la transformée utilisée n’est pas envoyée au décodeur car elle est adaptée aux partitionnements du marobloc. Dans [Val02] des tailles de DCT 4×4, 8×8, 16×16 sont proposées avec une quantification adaptée à chacune d’elles, afin d’obtenir une distorsion équivalente. Notons que l’auteur utilise des tailles de blocs (carrés) allant du 2×2 au 16×16. Comme nous l’avons vu dans le chapitre précédent, l’outil APEC [NM06] met en compétition les transformées de la norme avec un mode de codage sans transformée. De plus, le nouveau mode de codage Intra intégré dans le KTA propose aussi une transformée KLT en plus des DCT classiques.

compétitions de transformées. Dans [REK97], un codage utilisant la transformée DCT et un codage utilisant une transformée fractale [Jac92], sont utilisés, cette dernière étant visiblement plus efficace pour le codage des contours [EWK95]. Dans [CPN04], plusieurs codeurs sont mis en compétition. Ils utilisent soit une transformée DCT soit une transformée en ondelettes.

2.3.4 Autres comp´etitions

Dans un codeur vidéo, la compétition peut se situer à d’autres étapes ou d’autres niveaux que ceux dont on a déjà parlé. Une analyse du mouvement entre deux images pour adapter le type des images (I, P, B) dans un GOP a été réalisée dans [LH97]. La mesure MSPE (Mean Square Prediction Error) est calculée entre deux images successives pour déterminer les changements. En fonction de la valeur de cette mesure, l’image est codée en I, P ou B. Le même but est recherché dans [YNYS99] où une adaptation de la structure du GOP est proposée. La taille du GOP et l’intervalle entre les images P sont déterminés en fonction des caractéristiques des images originales. Ils utilisent notamment l’activité et la variance induite par une simple compensation de mouvement pour chaque macrobloc, mais aussi la moyenne sur la luminance totale de chaque image.

Une compétition de prédicteurs de vecteurs mouvement est testée dans [DKBR99] entre trois prédicteurs spatiaux. On notera que la compétition de QP est autorisée dans la norme et a été intégrée dans le KTA avec l’outil RDOQ [KYC08a]. De même, la matrice de quantification des résiduels de texture peut être l’objet d’une compétition comme dans l’outil AQMS [TC06], lui aussi intégré dans le KTA. Enfin, une compétition d’orientations de blocs, pour améliorer l’efficacité de codage des résiduels du codage Intra et Inter, a été présentée dans [Rob08].

Dans le document Modules de codage par compétition et suppression de l'information de compétition pour le codage de séquences vidéo (Page 61-63)