• Aucun résultat trouvé

Chapitre 4 Optimisation de la représentation de l’environnement

3. Evaluation des FRT

3.1. Méthodes d’évaluation des images

3.1.1. Méthodes subjectives

Parce que la définition d'une " bonne image » ou d’une « image agréable" n'est pas facilement traduite en paramètres bien définis et non ambigus, l'évaluation humaine apparaît d’abord comme incontournable.

L'évaluation subjective de la qualité visuelle a été formalisée dans la Recommandation UIT-R BT.500-1016 , qui suggère des conditions d'observation et des protocoles d'évaluation normalisés.

On parle d'évaluation subjective par double stimulus lorsque l’évaluation est effectuée par comparaison de paires successives, entre une série d'images "de référence" et la série d'images (ou de vidéos) à tester. L'analyse est basée sur la différence de notation pour chaque paire.

Une évaluation par stimulus unique est également possible ; dans ce cas les sujets évaluent des attributs de qualité perçus, sans référence à une «image idéale», le plus souvent selon un choix forcé (les attributs à évaluer sont précisés).

Les évaluations peuvent être des tests comparatifs (classement), ou absolus. L’analyse des résultats repose en général sur le calcul de la réponse moyenne entre les sujets, accompagnée par un intervalle de confiance.

16

The ITU Radiocommunication Assembly ;Methodology for the subjective assessment of the quality of television pictures. International Telecommunication Union (2003).

152 À condition que les conditions expérimentales soient correctes, ces différents tests peuvent donner accès à la «vérité» sur la qualité perçue, cependant ils sont complexes à concevoir, chronophages et coûteux. Il est de plus difficile de pouvoir généraliser les résultats obtenus à des évaluations sur d’autres images (le contenu sémantique est connu pour influencer la perception), dans d’autres contextes, avec d’autres sujets : Simone et al [Simone 2010] comparent les valeurs de contrastes perçus par un panel de volontaires dans un environnement contrôlé (laboratoire) et dans un environnement incontrôlé (en ligne) : les résultats peuvent être significativement différents. À la recherche d'alternatives plus rapides, les chercheurs se sont tournés vers des méthodes dites objectives, avec des métriques basées sur des mesures de paramètres dans les images [Jobson 1997][Rahman 1996].

3.1.2. Méthodes objectives

La méthode la plus simple consiste à comparer les images pixel par pixel et à mesurer la distance entre ces images. Cette distance peut être représentée par l'erreur quadratique moyenne (EQM ou MSE en anglais) entre les deux images :

∑ ∑| ̂ | ( ) Où et ̂ sont les valeurs du pixel i,j dans deux images de même taille M*N

Plus EQM est faible, moins il y a de différence entre les images. Mais on constate que le résultat dépend fortement de l’image étudiée elle-même. Pour corriger cet inconvénient (pour pouvoir effectuer des comparaisons), on emploie plutôt une version "normalisée" en calculant le rapport signal-à-bruit, notée PSNR (Peak Signal-to-Noise Ratio) [Winkler 2013].

(

) ( ) L : nombre d’échelons de luminance (255 pour 8 bits)

Dans le cas d’une image couleur, cet indicateur est calculé sur chacun des plans. Cela signifie que les corrélations entre les trois plans ne sont pas prises en compte, ce qui limite grandement la pertinence de cet indicateur.

D’une manière générale, on sait que l’apparence perçue d’une image varie en fonction : - des fréquences spatiales,

- de l’adaptation, c’est-à-dire du niveau de luminance - fréquences dans le domaine temporel pour les vidéos

Chapitre 4 Optimisation de la représentation de l’environnement

153 - des phénomènes de masquage (influence du « fond » sur lequel on cherche à

distinguer une « cible »)

Les méthodes de comparaison pixel à pixel ne peuvent pas prendre en compte ces phénomènes. Des métriques plus efficaces sont celles qui tendent à imiter le système visuel humain (SVH), avec une réponse qui dépend beaucoup moins de la valeur absolue de chaque pixel et prend en compte les variations locales par rapport aux pixels voisins. La modélisation mathématique des différents processus non linéaires de la perception (sensibilité à la luminance, discrimination des couleurs, etc.) est réalisée soit par des filtres spatiaux simples soit par des séries pyramidales de filtres, par mimétisme avec l’organisation des neurones du cortex visuel, organisés en colonnes caractérisées chacune par une sensibilité à l’orientation et à la taille. Ces méthodes multi-échelles sont à la base de nombreux travaux d'évaluation de la qualité d'image, dès le premier essai de Daly pour définir un indice VDP (Visual Difference Predicator) en 1993 [Daly 1993]. Cette méthode prend en compte l'adaptation lumineuse du système visuel et ses fonctions de sensibilité dépendant du contraste et dépendant de l'orientation, les écarts sont évalués en termes de JND (Just Noticeable Difference). Mantiuk et al [Mantiuk 2005] complètent cette approche pour les images HDR. Plus récemment, Gastaldo et al utilisent des paradigmes d'apprentissage automatique [Gastaldo 2013].

Une autre approche est basée sur la structure de l’image plutôt que sur la valeur de chaque pixel : le SVH analyse d’abord l’image dans son ensemble, et les effets de floutage ou de bloc peuvent modifier la perception de l’image : une mesure de la similarité structurelle entre deux images devrait fournir une bonne approximation de l'image perçue. Une revue plus exhaustive peut être trouvée dans [Thung 2010].

3.1.3. Cas de l’évaluation des FRT

L’évaluation des FRT présente quelques caractéristiques propres, puisque elle conduit à comparer des images par essence différentes.

Beaucoup d’études utilisent des évaluations par un panel de sujets pour estimer la qualité des opérateurs, et dans la très grande majorité des cas, il s’agit d’évaluation par rapport à une référence. La référence peut être l’image affichée sur un écran HDR (par exemple [Melo 2014], [Cadik 2008], ou bien une scène réelle ([Yoshida 2007]).

Kuang propose les deux types d’évaluations : par rapport à une scène réelle, et par rapport à un affichage HDR [Kuang 2010].

Lors de ces évaluations subjectives, les sujets sont invités à noter ou à classer les opérateurs en fonction de critères perceptuels : la luminosité, le contraste, la reproduction des couleurs, la reproduction des détails, ou d’une manière plus générale : l’impression de « naturel ».

154 Dans le cas de FRT sur vidéos, des critères s’ajoutent : l’existence de scintillement (« flicker »), de bruit, de phénomènes de halos ou de fantômes (« ghosting effect »), d’incohérence temporelle dans la luminosité ou la couleur [Eilertsen 2013].

3.1.4. Nos besoins

Pour l’application qui nous concerne, ces méthodes ne sont sans doute pas les plus adaptées. Nous voulons certes que les images affichées sur le visiocasque paraissent « naturelles », « agréables ». Mais nous souhaitons surtout qu’elles soient différentes de la réalité, puisque nous voulons les utiliser pour apporter des informations supplémentaires, que l’utilisateur a des difficultés à percevoir directement. Les métriques proposées ci-dessus ne sont donc pas du tout appropriées.

Prenons comme point de départ de notre réflexion les caractéristiques de la vision résiduelle présentées par les utilisateurs potentiels, en essayant de les relier aux caractéristiques que doivent présenter les images affichées.

Ainsi, on peut se fixer les critères suivants pour évaluer les traitements que nous allons appliquer aux images :

- possibilité de fixer la luminance max inférieure ou égale à la luminance de confort de l’usager ;

- couleurs plus saturées ;

- possibilité de maintenir une luminance d’adaptation constante ou très lentement variable ;

- contraste rehaussé, principalement dans les zones de faibles luminances.

Les trois premiers points ne posent pas de problème pour leur mesure. Nous allons nous attarder davantage sur le dernier, la mesure du contraste, parce qu’elle est moins triviale.

Documents relatifs