• Aucun résultat trouvé

Les méthodologies d’évaluation objective

Chapitre I : La mesure de la qualité de la vidéo

IV. Les méthodologies d’évaluation objective

Les méthodologies d’évaluation subjectives étant trop longues, chères et difficile à appliquer d’où l’idée apparue depuis plus de 20 ans de trouver une mesure objective pour la qualité fidèle à la mesure subjective.

Différentes métriques objectives ont été proposées, nous citons ici les plus connus :

Dans [22], Daly et al. proposent un critère objectif de qualité d’images intégrant quelques propriétés du SVH. En réalité, ce critère est une extension du “Visual Difference Predicator” de Daly (proposé en 1993) pour les images à grande échelle dynamique (High Dynamic Range : HDR). Les images HDR se distinguent des images numériques classiques par leur reproduction précise de la quasi-totalité des couleurs présentes dans une image de scène naturelle (de l’ordre des millions). Le principe du critère de Daly et al. (appelé HDR VDP) est présenté ci-dessous.

Le HDR VDP modélise tout d’abord l’œil humain et la rétine à l’aide de l’OTF (Optical Transfer Function), d’une fonction non linéaire de l’amplitude des réponses du SVH aux stimuli et la CSF. Le filtrage de l’image par l’OTF représente la diffusion de la lumière dans la cornée, le cristallin et la rétine. La compression non linéaire de l’amplitude des réponses du SVH simule la réponse non linéaire des photorécepteurs à leur stimulation par la lumière. Finalement, l’image est filtrée par la CSF.

Ensuite, le HDR VDP modélise le cortex visuel et l’effet de masquage. Durant cette phase, les deux images sont décomposées en canaux spatio-directionnels et comparées. Enfin, une série de traitements subis par les deux images résulte en une “carte de probabilités d’erreur” qui génère une note de qualité. Ces traitements sont : la décorrélation entre l’effet de masquage et la phase du signal, l’application d’une fonction psychométrique et la combinaison pondérée des probabilités d’erreur à travers tous les canaux.

Dans [22], des tests d’évaluation de la qualité visuelle sont menés pour calibrer le HDR VDP et non pas pour évaluer ses performances : nous ne disposons donc pas de matière suffisante pour juger si les notes fournies par le HDR VDP corrèlent bien avec les notes subjectives de qualité.

Gunawan et Ghanbari [23], présentent un critère objectif de qualité d’images et de vidéos avec référence réduite. Ce critère analyse les effets de blocs et le flou dans l’image (ou vidéo) de référence et dans l’image (ou vidéo) dégradée et attribue à cette dernière une note de qualité. Cette analyse, basée sur l’amplitude des harmoniques fréquentielles, permet la détection et la localisation de ces deux types de dégradations. En effet, les effets de blocs produisent un signal pseudo-périodique qui génère des harmoniques dans le domaine fréquentiel : l’importance de ces harmoniques est proportionnelle à celle des effets de blocs. Le critère commence par chercher le gradient de l’image qui est calculé par le filtrage de l’image par un filtre de Sobel 3x3. Ensuite, ce gradient est décomposé en blocs de 32x32 pixels. Une transformée rapide de Fourier (Fast Fourier Transform : FFT) appliquée aux deux images (ou vidéos) permet l’extraction des harmoniques locales. Cette référence réduite peut être interprétée comme une forme d’activité spatiale constituée des contours verticaux et horizontaux de l’image. L’indicateur de qualité est une “carte” (matrice) représentant la différence entre l’intensité et la position des harmoniques locales dans chacune des deux versions de l’image (ou vidéo). La différence peut être positive c’est-à-dire qu’il y a eu une

augmentation de l’activité spatiale (due notamment à l’apparition des effets de blocs) ou négative c’est-à-dire qu’il y a eu une diminution de l’activité spatiale (due à la perte de détails causée par le flou). Finalement, la note de qualité est obtenue en moyennant les gains et les pertes calculés séparément.

Les tests effectués par Gunawan et Ghanbari ont montré une bonne corrélation entre les notes de leur critère et les notes subjectives. Le critère s’est montré efficace en détectant les effets de blocs et le flou dans la partie uniforme de l’image et en les négligeant dans la partie fortement texturée. En effet, la présence de texture dissimule ce type de dégradations et les rend moins gênantes. Mais l’application de ce critère sur un nombre limité d’images n’est pas suffisante pour évaluer ses performances.

Le critère de Wang et Bovik appelé UIQI (Universal Image Quality Index ) fait partie des critères généralistes de qualité. En effet, l’UIQI est indépendant des conditions d’observation des images et de leur contenu. De plus, son implémentation est facile et il peut être appliqué à différents types d’images (d’où l’appellation “universal”). L’UIQI mesure la décorrélation entre l’image originale et l’image dégradée et la dégradation de la composante de luminance et du contraste entre les deux versions de l’image. Le produit de ces trois mesures donne la note finale de qualité. Les mesures sont faites de la manière suivante : une “fenêtre glissante” est appliquée au coin supérieur gauche de l’image puis cette fenêtre est déplacée d’un pixel horizontal et vertical jusqu’`a atteindre le coin inférieur droit de l’image. La note de qualité du contenu de la fenêtre est calculée à chaque étape et la moyenne de toutes ces notes donne la note de qualité finale de toute l’image.

Une autre approche est celle de Wang et al. se nome la SSIM (Structural SIMilarity) [19]. L’idée principale de la SSIM est de mesurer la similarité de structure entre deux images, plutôt qu’une différence pixel à pixel. L’hypothèse sous-jacente est que l’œil humain est plus sensible aux changements dans la structure de l’image. Cette approche ne repose pas sur une modélisation du système visuel humain, mais elle prend en compte des spécificités des images auxquelles il est sensible. Les images sont fortement structurées, c’est-à-dire que les pixels d’une image sont très dépendants les uns des autres, et en particulier lorsqu’ils sont proches les uns des autres. Ces structures jouent un rôle important dans la perception de la scène. Par conséquent, une modification de la structure de l’image impacte la perception que l’on a de cette image. Toutefois, le calcul de similarité ne se limite pas seulement à la comparaison des

structures entre les images, mais aussi les différences de luminance et de contraste entre les deux images sont également évaluées. La luminance et le contraste jouent effectivement un rôle important dans la perception.

Dans la continuité de la SSIM, d’autres méthodes basées sur les erreurs structurelles ont été proposées. On peut citer la SSIM multi-échelle (MS-SSIM multi-scale SSIM) également proposée par Wang et al. Dans [20]. Cette méthode reprend les concepts de la SSIM mais les applique à une approche multi-résolution. Les niveaux de résolutions sont calculés à partir des images de départ par filtrage passe-bas et sous-échantillonnage.

Teo et Heeger proposent une modélisation prenant en compte la PSF (Point Spread

Function), l’effet de masquage de luminance (ou adaptation à la luminance), la décomposition

multi-canal, la normalisation du contraste. La décomposition est effectuée selon une pyramide hexagonale avec des filtres QMF (Quadrature Mirror Filter) selon quatre résolutions spatiales et six orientations. L’effet de masquage est modélisé par une normalisation du contraste et une saturation de la réponse.

Watson a proposé un modèle dans le domaine DCT (Discrete Cosine Transform) [18]. Même si ce modèle ne permet pas de sortir directement des cartes de distorsions, une simple modification de l’ordre des cumuls d’erreurs permet d’obtenir une carte de distorsions au niveau bloc. Ce modèle repose sur la transformée DCT 8 × 8 couramment utilisée en traitement d’image et en compression vidéo. Contrairement aux autres méthodes citées, cette méthode décompose le spectre en 64 sous-bandes uniformes. Après la transformée DCT par bloc, des valeurs de contraste sont calculées par sous-bande, un seuil de visibilité est construit pour chaque coefficient de chaque sous-bande et cela dans chaque bloc en utilisant la sensibilité de base de la sous-bande.

Les sensibilités de base de chaque sous-bande sont déduites empiriquement. Les seuils sont corrigés en fonction du masquage de luminance et du masquage de texture. Les erreurs dans chaque sous-bande sont pondérées par les seuils de visibilité correspondants, puis cumulées par des sommations de Minkowski.

Plusieurs auteurs ont développé des métriques de qualité reposant sur une modélisation du système visuel humain, On peut citer :

Van den Branden Lambrecht a proposé plusieurs métriques de qualité. Ces métriques sont basées sur des modèles multi-canaux du SVH [33]. La métrique, appelée MPQM (Moving Picture Quality Metric) [24], est basée sur :

une définition locale du contraste,

une décomposition spatiale utilisant des filtres de Gabor, deux canaux liés à l’aspect temporel (transient et sustained), une CSF spatio-temporelle,

un modèle de masquage de contraste intra-canal.

Une version couleur du MPQM utilisant un espace couleur basé sur la théorie des signaux antagonistes a été proposée dans [25]. Une méthode moins complexe a aussi été proposée sous le nom NVFM (Normalization Video Fidelity Metric), cette méthode utilise, entre autres, une décomposition pyramidale orientée plutôt que des filtres de Gabor pour la décomposition spatiale et qui exploite le masquage inter-canal. Ces métriques ont l’avantage de reposer sur une modélisation avancée du système visuel.

Outre la complexité, un inconvénient réside dans l’application de la CSF spatio-temporel qui est une simple pondération des sous-bandes spatio-temporelles. De plus, des questions se posent sur la séparabilité des domaines spatial et temporel de la CSF utilisée. Par ailleurs, le fait que la littérature ne s’accorde pas sur le nombre de canaux temporels est aussi problématique.

La métrique DVQ (Digital Video Quality) de Watson [16,17] est une méthode d’évaluation des vidéos couleurs qui opère dans le domaine transformé (DCT). Le domaine DCT présente un avantage certain du point de vue calculatoire, parce que la DCT est implantée de façon efficace et que la plupart des codeurs vidéo sont basés sur la DCT. Une modélisation en trois dimensions des seuils différentiels de visibilité pour les sous-bandes DCT spatio-temporelles est proposée. Son principe est le suivant : calcul de la DCT de l’image originale et de l’image dégradée, calcul d’un contraste local, application une CSF temporelle, normalisation des résultats par les seuils différentiels de visibilité, enfin calcul du signal d’erreur. La méthode est appliquée à chaque composante après une transformation de l’espace colorimétrique. Dans

cette métrique, un seul canal temporel est considéré. De plus, la question de la séparabilité espace-temps est de nouveau posée.

Miyahara, Kotami et Algazi [26], ont proposé le PQS, Il incorpore les non-linéarités d’entrée, la pondération en fréquences spatiales, et détermine 5 facteurs (F1 à F5) faisant intervenir différents aspects visuels (seuillage visuel, corrélation des distorsions, effets de masquage) qui servent à construire linéairement la mesure de qualité Q. On ne peut pas dire qu’il y ait vraiment une construction basée sur une modélisation systématique et logique du Système Visuel Humain dans la formation de la qualité. En particulier l’aspect, maintenant bien établi, d’une décomposition multibande du signal d’image par le SVH n’est pas pris en compte.

Documents relatifs