• Aucun résultat trouvé

1.2 Méthodes d’optimisation au sens débit-distorsion

1.2.2 Approches haut niveau

1.2.2.2 Codage perceptuel

Les méthodes d’estimation du mouvement utilisent en général la somme des valeurs absolues des dif- férences (SAD) ou l’erreur quadratique moyenne (MSE) pour mesurer l’erreur de mise en correspondance entre le bloc cible courant et le bloc de référence correspondant.

La SAD, la MSE ou le PSNR sont les métriques objectives les plus couramment utilisées en raison de leur faible complexité de mise en œuvre. Cependant, elles ont été largement critiquée pour leur faible corré- lation avec le jugement humain [MS74]. Par exemple, dans certaines conditions, la qualité subjective d’une image peut être améliorée en ajoutant du bruit et donc en réduisant le PSNR. De plus, la visibilité des distor- sions est intimement liée aux effets de masquage (cf chapitre 2), qui eux dépendent du contenu fréquentiel des images. Les métriques proposées ici étant basées pixel ne peuvent rendre compte de ces aspects. Les qualités visuelles de deux images ayant le même PSNR peuvent donc s’avérer être très différentes. Dans les dernières décennies, beaucoup d’efforts ont été fournis pour développer de nouvelles métriques d’évaluation de la qualité des images basées sur la théorie de la sensibilité aux erreurs du SVH. La plupart de ces modèles sont soit trop complexes pour être implantés au sein d’applications temps-réel, soit dédiés à des applications trop spécifiques pour être réutilisés [Wat93,Wat94,WJP93,Lam96,Win99,OLL+03].

Beaucoup de ces méthodes sont fondées sur la notion de détection de la distorsion. L’idée est que le SVH peut tolérer sans gêne visuelle une certaine quantité de bruit (dans un région donnée d’une image donnée), ceci en fonction de la sensibilité du SVH au signal source et du type de bruit. De nombreuses méthodes utilisant ce concept sont proposées pour l’allocation de bits et la quantification perceptuelle. La plupart de ces méthodes sont basées sur la réponse en fréquences spatio-temporelles du SVH [Wat92, CLCB93, OHB97,PM05]. Par exemple, Osberger et al. [OHB97, OMB98] proposent un codage MPEG qui intègre une quantification adaptative basée sur des propriétés du SVH. Partant du principe que les régions de textures et de contours ont des propriétés de masquage différentes, le quantificateur proposé les distingue et prend ainsi compte du masquage spatial. C’est un phénomène connu qui traduit la modification de la visibilité d’un signal par la présence d’un autre signal dit masquant (cette propriété du SVH sera explicitée au chapitre 2). L’image est d’abord découpée en blocs 8 × 8 et chaque bloc est classé comme étant soit uniforme, soit contenant un contour, soit texturé. L’activité actb est ensuite mesurée pour chaque bloc en calculant sa

variance. Cette valeur de l’activité est ensuite ajustée en fonction de la classe du bloc :

act´b=

 

min(actb, actseuil) si best un bloc uniforme

actseuil·



actb

actseuil

si best un bloc texturé ou contenant un contour

(1.19)

où act´best l’activité ajustée du bloc b, actseuil= 0.5 est le seuil de visibilité de la variance, avec ε = 0.7

pour les zones de contours et ε = 1 pour les zones texturées. La valeur ajustée de l’activité est ensuite utilisée pour contrôler la quantification :

Nactb=

2 · act´b+ act

act´b+ 2 · act

(1.20) où Nactbest l’activité normalisée pour le bloc b et act est la valeur moyenne de act´b pour l’image précé-

dente. La valeur Nactb est ainsi comprise entre [0.5, 2]. Cette technique permet de minimiser les erreurs de

quantification dans les régions uniformes et d’augmenter graduellement en fonction de l’activité la quantifi- cation le long de contours et encore plus pour les régions texturées.

1.2.2.3 Conclusion

Les méthodes qualifiées de « haut niveau » qui permettent d’optimiser en termes de débit-distorsion les codeurs vidéos et d’images fixes, se basent sur les propriétés du SVH. Cependant, ces propriétés sont encore très peu mises en œuvre au sein des codeurs. En effet, seule la propriété de la variation de la sensibilité aux fréquences spatiales est exploitée au sein des étapes de transformation et de quantification. En parallèle,

les recherches menées depuis quelques dizaines d’années pour mettre en évidence et modéliser certaines propriétés du SVH ont contribué à l’élaboration de métriques subjectives de qualité. Mais ces modèles de qualité restent pour la plupart trop complexes pour être intégrés au sein des schémas de codage. Quelques travaux se basant sur la réponse en fréquence spatio-temporelle du SVH [Wat92,CLCB93,OHB97,PM05] ont été proposés pour l’allocation de bits et la quantification perceptuelle, confirmant ainsi l’idée que les propriétés du SVH sont les paramètres importants à prendre en considération directement au sein d’une chaîne de codage et non seulement à la fin de celle-ci pour l’évaluation de la qualité perçue.

Conclusion

Nous avons décrit la forme d’un codeur vidéo basique afin de présenter les étapes de la chaîne de co- dage et l’objectif est de cerner à quel niveau des optimisations ont été possibles. La première partie de ce chapitre nous a permis d’aborder les différentes étapes du codeur vidéo basique : la décorrélation tempo- relle, la décorrélation spatiale, la quantification et le codeur entropique. Cette étude des différents blocs de traitement, nous a conduit à mettre en évidence une lacune importante dans cette chaîne de codage : dans son principe même de fonctionnement, ce codeur vidéo ne dispose d’aucune information quant à l’évolution temporelle de la séquence (excepté pour le codage des images B). Celui-ci est donc dans l’incapacité de prendre des décisions à moyen/long terme afin d’assurer une certaine cohérence de codage. Par exemple, l’hétérogénéité temporelle des décisions prises pour coder un macrobloc à la même position spatiale entre les images successives peut occasionner l’apparition de dégradations visuellement perceptibles. C’est l’effet de papillotement (flickering effect en anglais). Pour ce codeur vidéo classique, notre solution s’oriente vers le positionnement en amont d’une méthode de pré-analyse de la vidéo. Cette étape de pré-analyse de la vidéo devra par exemple extraire des informations sur le contenu et l’évolution de la séquence vidéo, afin de les transmettre au codeur et de le guider dans ses décisions pour garantir la cohérence du codage et notamment améliorer la qualité perceptuelle de la vidéo décodée.

Dans la deuxième partie du chapitre, nous avons étudié des approches présentes dans la littérature per- mettant d’optimiser les différentes étapes du codeur vidéo classique, afin d’améliorer la qualité perçue pour un débit donné (ou inversement). La première catégorie de méthodes a présenté les approches basiques qui permettent de réduire les informations à transmettre au codeur en réalisant soit un codage adaptatif ou un codage prédictif. Ces méthodes restent limitées, puisqu’elles ne traitent l’information à réduire que d’un point de vue signal et sont donc « bas niveau ». Dans ce cas, aucun a priori sur le contenu des images successives n’est pris en considération lors du codage. Cependant, comme nous le verrons lors de la des- cription de la norme H.264 au chapitre 4, ces méthodes du fait de leur grande efficacité ont été adoptées. Au contraire, les méthodes présentées dans la dernière partie du chapitre exploitent certaines propriétés du SVH afin d’optimiser le codage au sens débit-distorsion, elles sont qualifiées de « haut niveau ». Des codeurs exploitent simplement la sensibilité variante du SVH face aux fréquences spatiales, en adaptant conjointe- ment les étapes de transformation et de quantification. Le SVH étant plus sensible aux basses fréquences qu’aux hautes fréquences spatiales, l’utilisation de matrices de quantification permet de coder plus finement les coefficients des basses fréquences par rapport à ceux des hautes fréquences. Prévenant ainsi l’apparition d’artéfacts au sein des basses fréquences. D’autres approches réalisent un codage perceptuel en fonction du contenu spatio-temporel des macroblocs.

De nombreux travaux intégrant des propriétés du SVH sont proposés pour l’évaluation de la qualité, ou améliorer les techniques de codage. Cependant, ces méthodes sont peu retenues au niveau des standards de

compression vidéo. Les efforts de recherche réalisés se portent davantage sur l’enrichissement des nouvelles normes de codage. Par exemple, nous verrons au chapitre 4 que le standard H.264 rassemble de nombreuses techniques de prédiction ainsi qu’une optimisation du codage entropique, lui permettant d’obtenir des per- formances supérieures en termes de compression par rapport aux standards existants. Ces performances sont obtenues par une minimisation conjointe du débit et de la distorsion à partir de critères « bas niveau ». Ce- pendant, les méthodes « haut niveau » présentées dans ce chapitre confirment leur intérêt pour le codage. Les standards sont compétitifs et visent à offrir de nombreuses décisions qui pourraient aussi être prises à partir d’informations « haut niveau ». Notre méthode de pré-analyse de la vidéo devra donc prendre en considéra- tion les différentes propriétés du SVH afin de transmettre au codeur des informations « haut niveau » pour le piloter et prendre rapidement les bonnes décisions (parmi toutes celles possibles). Dans la suite du document nous étudierons les propriétés et les modélisations du SVH liées au codage.

Caractéristiques et modèles du système

visuel humain et de l’attention visuelle

Sommaire

Introduction . . . 33

Documents relatifs