S´election du meilleur codage - Modules de codage par compétition et suppression de l'informati

La sélection du meilleur codage parmi l’ensemble des codages possibles est obtenue soit par une sélection basée sur un critère exhaustif, soit par une sélection provenant de critères a priori. Dans cette section, nous définirons les critères exhaustifs utilisés pour comparer les différents codages, notamment le plus utilisé : le critère débit-distorsion. Ensuite, les compétitions basées sur des a priori seront évoquées. Nous définirons particulièrement ce que l’on entend par a priori, en expliquant l’utilité de ce mode de sélection pour limiter les tests exhaustifs impliquant la réduction de complexité de calcul.

2.2.1 Crit`eres exhaustifs

Une sélection exhaustive signifie que toutes les possibilités de codage sont évaluées avec la même métrique. La possibilité de codage minimisant (ou maximisant selon la métrique) l’ensemble des évaluations est alors sélectionnée comme meilleur codage. En compression vidéo et d’image avec pertes, la sélection est le processus qui permet de choisir la possibilité de codage qui obtient le meilleur compromis entre la qualité et le débit.

La problématique de débit qualité pour le codage d’un signal avec pertes a été définie en 1948 par Shannon [Sha48]. Le codage avec pertes est basé sur le fait qu’il n’est pas nécessaire d’envoyer l’ensemble de l’information originale pour “comprendre” l’information. La perte introduite dans l’information originale a pour but de réduire le nombre de bits à transmettre ou à stocker. Dans une technique de compression avec pertes, le nombre de bits correspond à la quantité d’information nécessaire pour décrire l’information relative à un certain critère de fidélité du signal de départ. Ce problème peut être résolu par la méthode du “Rate-Constraint” (débit contraint) [HC97], [LJO98], [SG88] qui est défini par l’équation suivante :

min{D}, avec R ≤ Rc (2.1)

o`u D, la distorsion, est la mesure inverse de la qualité, R (rate), le débit, et Rc est le débit maxi-

mum que l’on peut utiliser. Cette méthode est donc la recherche de la minimisation de la dis- torsion D et d’un débit R inférieur à la contrainte Rc. On peut aussi résoudre la problématique

débit-distorsion avec l’optimisation Lagrangienne [Eve63]. Cette méthode d’optimisation du débit- distorsion est donnée par la formule suivante :

min{J}, avec J = D + λR (2.2)

o`u λ est le paramètre de Lagrange, et J est le critère débit-distorsion que l’on notera RD dans la suite du manuscrit. L’analyse théorique du critère RD a été largement étudiée durant ces 60 dernières années. La difficulté avec ce critère est de déterminer le paramètre de Lagrange λ. En effet, l’optimi- sation du critère RD est différente selon les caractéristiques du signal d’entrée [OR98]. Les signaux 1D peuvent facilement être associés à un modèle mathématique [Ber71], [Ben48] mais les signaux 2D ou 3D comme les images ou les vidéos ne comportent pas les mêmes caractéristiques. De plus, pour le codage de ces signaux, on utilise des codeurs complexes qui exploitent des redondances spatiales

et temporelles avec des transformées, des prédictions, etc. L’analyse mathématique théorique de ces signaux est très difficile à résoudre [OR98]. Il est nécessaire d’adapter l’optimisation du critère RD en fonction des caractéristiques des codeurs vidéo [Wie02] et d’image. De même, cette sélection doit dépendre de l’utilisation de ces images et vidéos [ZM05]. En effet, certaines applications nécessitent un compromis entre l’efficacité de codage et la robustesse. Enfin, dans une méthode de compression avec pertes, l’étape de quantification, qui altère l’information, va modifier le compromis. Il est alors essentiel que le paramètre de Lagrange dépende des pertes introduites par la quantification [HC97]. Les mesures d’estimation de la distorsion sont aussi un facteur d’efficacité de la sélection avec le critère RD [SW98]. Les mesures les plus utilisées sont : le SAD, la SSD, la MSE, le PSNR etc. Cependant, ces mesures ne reflètent pas forcément la perception visuelle [JJS93]. Dans [CPN04], afin de sélectionner le meilleur codeur vidéo au niveau objet, chaque codeur est estimé à l’aide du critère RD. La mesure de la distorsion est la M SET ext : la MSE dans le “domaine texture” qui prend en

compte la distorsion géométrique engendrée par un codage.

Afin d’adapter la sélection en fonction du signal à coder, dans [WG91] il est proposé que le paramètre λ du critère RD dépende des macroblocs déjà encodés. Cependant, ces algorithmes ne prennent pas en compte les dépendances entre les macroblocs. Par exemple, dans la norme d’H.264 /AVC, le codage du macrobloc courant dépend des macroblocs voisins : les vecteurs des modes Inter sont prédits en fonction de la valeur des vecteurs voisins, le signal utilisé pour le calcul des prédicteurs Intra provient des macroblocs voisins, et les contextes adaptatifs du CABAC dépendent du codage de ces derniers. Dans [WLM+_{96], les auteurs proposent de résoudre l’optimisation de la sélection des} modes de codage. Ils formulent la problématique du débit-distorsion pour un GOP (c’est-à-dire que le choix de chaque macrobloc dépend de l’ensemble des codages des macroblocs composant le GOP). La formulation de ce problème est théorique et inapplicable en terme de complexité de calcul. Ils reformulent donc le problème en considérant que le codage dépend du codage du macrobloc précédent et du suivant. Cette méthode est implémentée en utilisant la programmation dynamique.

En considérant que le paramètre de Lagrange doit être différent selon l’étape du codage, dans [SW98], deux λ sont définis : un pour l’estimation de mouvement λM otion et un pour la sélection des

modes de codage λM ode. Ces deux paramètres dépendent du pas de quantification. Cette méthode

est implémentée dans le logiciel de référence de la norme H.264/AVC [JM] : le JM. Pour l’estimation de mouvement, le débit R est égal au débit Rmv [Gir94]. Le critère RD, pour cette étape est donné

dans l’´equation suivante :

J = D + λM otionRmv (2.3)

Dans le JM, le d´ebit des vecteurs mouvement, Rmv est estim´e pour chaque vecteur lors de

l’estimation de mouvement, pour chacun des modes Inter ayant un vecteur. Ce débit correspond au coˆut du résiduel εmvestimé à l’aide de la table de Golomb. Ce coût est le même quelque soit le type

du codage entropique utilisé (CAVLC ou CABAC). Pour la sélection au niveau macrobloc, le critère RD est donné par la formule suivante :

J = D + λM ode(Rr+ Rm+ Ro+ Rmv) (2.4)

S´election du meilleur codage 35

informations (CBP, Stuffing Bits, reference frames, etc.) et Rmv le d´ebit des vecteurs mouvement.

Pour chaque macrobloc, le débit réel au bit près est calculé pour chaque mode de codage Inter et Intra. Dans ce cas, Rmv représente le vrai nombre de bits. Pour chaque mode, le critère RD est

calcul´e avec un λM ode= (λM otion)2 comme param`etre de Lagrange.

Le mode Skip n’ayant pas de résiduel, l’équation du débit-distorsion devient pour ce mode :

JSKIP = DSKIP + λM odeRm (2.5)

o`u DSKIP est la distorsion engendr´ee par ce mode et Rmest le nombre de bits n´ecessaire au codage

de l’indice “Skip” qui est le seul débit engendré par ce mode. Le critère RD pour le mode Direct est équivalent. En pratique, le coˆut λM odeRm est négligeable comparé à la distorsion DSKIP. Le

débit Rm est souvent inférieur à un bit, que ce soit pour le CABAC ou pour le CAVLC. En effet,

les contextes du codage de l’indice pour le mode Skip, représenté par la valeur 0, sont binarisés avec un seul bit. Ce mode a une forte probabilité de sélection. Par conséquent, le codage arithmétique obtient de bonnes performances et permet de coder un macrobloc skippé avec moins d’un bit. Pour le CAVLC, un codage RLC est utilisé pour le codage de ce mode : lorsqu’un premier macrobloc est codé en Skip, on écrit la valeur 0 dans le bitstream puis on compte le nombre de macroblocs successifs codés en Skip (dans l’ordre de parcours de l’image). Si on arrive à la fin de l’image, ou si le nouveau macrobloc courant n’est pas codé en Skip, on écrit ce nombre.

2.2.2 Crit`eres “a priori”

Les critères a priori sont des choix humains, applicatifs ou statistiques. Le but de ce type de sélection est en général de réduire la complexité de calcul. Pour cela, les estimations de mouvement rapides éliminent certaines zones de la fenêtre de recherche. Ces estimations peuvent être des approches multi-résolutions [Bie88], [DK92], hiérarchiques [ZZB91], ou basées sur la descente de gradient [LKF96]. Ces méthodes utilisent les propriétés des vidéos pour réduire le nombre de calculs du critère utilisé pour l’algorithme BMA (critère RD dans le cas du codage vidéo). Comme ces estimations ne testent pas l’ensemble des possibilités de codage, la sélection de la meilleure efficacité de codage est (théoriquement) sous-optimale par rapport à une recherche exhaustive. Les recherches rapides du meilleur prédicteur Intra sont basées sur des critères statistiques ou des caractéristiques du signal d’entrée, comme dans [WLN07], où une détection de contour, basée sur la transformée de Haar, est utilisée pour sélectionner ou non un ensemble réduit de prédicteurs. Dans [YPL04], les macroblocs sont classés en fonction de leur contenu. Si ce contenu est lisse, un ensemble restreint de prédicteurs est testé. Dans ces deux cas, l’ensemble des possibilités de codage n’a pas été évalué avec le critère RD mais avec un critère “a priori”. Dans [REK97], un codage dynamique est utilisé. Plusieurs codeurs sont alors mis en compétition. Le nombre de ces compétitions étant trop large et inutile en fonction des applications visées, un ensemble de solutions admissibles est déterminé en fonction de l’application visée. Les critères d’élimination sont la complexité et l’efficacité de codage de chacun des codeurs. Le meilleur codeur parmi l’ensemble des codeurs retenus est ensuite sélectionné avec le critère RD. Le critère a priori proposé provient donc d’un choix humain ou d’un choix applicatif.

Dans le document Modules de codage par compétition et suppression de l'information de compétition pour le codage de séquences vidéo (Page 58-61)