• Aucun résultat trouvé

La structure de notre métrique “simple”

Dans le document Modèles de vision et synthèse d'images (Page 73-76)

5.3 Nos travaux

5.3.1 La structure de notre métrique “simple”

Pour atteindre l’objectif de performance, il nous faut nous inspirer d’un modèle de vision existant et éprouvé. La finalité du modèle étant d’être intégré dans une métrique perceptuelle, nous avons privilégié les modèles destinés à la détection. Nous avons choisi le modèle de Ahumada et Beard ([1]), que nous avons modifié pour qu’il puisse traiter les images en couleur. Les travaux présentés dans cette section sont la continuation directe de [17].

Pour obtenir une méthode rapide, il nous isoler et remplacer ce qui fait la lenteur des métriques précédentes : le fait qu’elles soient multi-échelles. Considérons le MMASV de Pattanaik et al : la pyramide gaussienne a sept niveaux, qu’il faut multiplier par quatre canaux, ce qui donne 28 cartes de données, toutes à traiter indépendamment jusqu’à la fin du modèle. Même si les fonctions qui suivent la décomposition pyramidale ne sont pas très complexes, elles ne sont pas linéaires et la consommation CPU, faible pour une seule carte, devient non négligeable sur 28 cartes. Notre premier objectif sera donc de remplacer la transformation multi-échelles par une transformation mono-échelle, peut être plus complexe, mais qui économisera du temps de calcul pour la suite du traitement.

La structure globale de notre modèle de vision simple est visible sur la figure 5.12. Nous allons maintenant détailler et justifier les différentes étapes de ce modèle. Signalons que tous les paramètres de ce modèle, notamment les coefficients et les filtres, sont issus de [1] et sont déterminés par un

CHAPITRE 5. MÉTRIQUES ET MODÈLES 5.3. NOS TRAVAUX R G B Tone Mapping Transfo colorimetrique A C1 C2 DCT Filtrage CSF DCT inverse Image Filtree Contrastes locaux Masquage Contrastes "visuels"

Schema de fonctionnement du modele de vision

FIG. 5.12 – Notre métrique perceptuelle

ajustement des moindres carrés sur les mesures obtenues pour des expériences de détection diverses.

Étapes préliminaires

Les données fournies en entrée par l’utilisateur sont des images couleur sur trois canaux R, V et B.

Chaque canal est une carte de flottants positifs exprimant des luminances en Cd.m−2. Les valeurs en

chaque pixel peuvent donc être vues comme une représentation spectrale minimaliste sur 3 longueurs d’ondes R,V,B.

Étape 1 : Reproduction de tons

Les données sont généralement issues d’un algorithme de rendu. Les luminances peuvent donc être très importantes, et ne seront pas visualisées directement par l’utilisateur. C’est pourquoi il nous a paru judicieux de placer en tout premier lieu un algorithme de reproduction de tons dans notre modèle. La tache qui incombe à cet ORT est de déterminer les valeurs de luminances effectivement perçues par l’utilisateur ; en d’autres termes, ce sont les luminances émises par le moniteur. Cela implique, idéalement, de connaître les caractéristiques du moniteur, et donc d’effectuer un calibrage initial. Pour ne pas alourdir la méthode plus que nécessaire, nous avons choisi d’utiliser l’opérateur de Ward ([77]), particulièrement simple puisqu’il ne calcule qu’un seul facteur pour la conversion de toute l’image. L’image est ensuite convertie pour obtenir des coordonnées colorimétriques XYZ.

Étape 2 : Transformation colorimétrique

Notre modèle est un modèle couleur : il faut donc nous préoccuper de cet aspect. Nous avons choisi d’utiliser l’espace colorimétrique AC1C2, proposé par Meyer ([46]) de manière a décoreller au maximum les différents canaux pour les traiter indépendamment. Cette transformation colorimétrique nous fournit trois canaux : un canal achromatique, un canal chromatique d’opposition rouge - vert et un canal chromatique d’opposition jaune - bleu. La transformation s’obtient à partir des coordonnées XYZ avec la matrice suivante :

5.3. NOS TRAVAUX CHAPITRE 5. MÉTRIQUES ET MODÈLES

−0,0177 1,0090 0,0073

−1,5370 1,08210 0,3209

0,1946 −0,2045 0,5264

Étape 3 : Filtrage par la fonction de sensibilité au contraste

Pour atteindre notre objectif de rapidité, nous voulions trouver un moyen de remplacer la décom-position multi-échelles inhérente à tous les modèles précédents. Pour ce faire, nous avons choisi une approche fréquentielle : nous utilisons une fonction de sensibilité au contraste dans un espace fréquen-tiel. Nous nous inspirons ici de la méthode de Neumann et al([51]). Pour remplacer la décomposition multi-échelles, les auteurs utilisent un filtrage par des rectangles dont la taille est déterminée par un processus aléatoire pondéré par une fonction de sensibilité au contraste (voir la section 5.1.3) ; ce faisant, les auteurs espèrent filtrer l’image en privilégiant les fréquences auxquelles le système visuel répond avec le plus d’intensité. Plutôt que d’utiliser des rectangles, nous avons choisi de pondérer directement les fréquences. Nous avons choisi d’utiliser les fonctions de sensibilité au contraste de Daly [11] (pour le canal achromatique A) et Mullen [47] (pour les canaux chromatiques C1 et C2), dont nous convertissons les fréquences en cycles par pixel, de manière similaire à [51]. Nous appli-quons sur notre image I une transformation en cosinus discrète, similaire à la méthode utilisée pour le format JPEG. Cette transformation peut être effectuée sur l’image entière ou par blocs, cette dernière option engendrant une précision moindre de la réponse de la métrique. Dans l’espace des fréquences, nous multiplions chaque fréquence par le coefficient correspondant dans la fonction de sensibilité au contraste. Une fois ce filtrage effectué, nous opérons une transformée en cosinus discret inverse, pour obtenir notre image filtrée F.

Étape 4 : Contraste locaux et énergie de contraste

Cette étape est similaire au calcul des contrastes locaux dans [1] : nous soustrayons l’image filtrée

Fde l’image initiale I, puis nous divisons le résultat par l’image filtrée F. Pour chaque pixel p, nous

effectuons donc :

Co(p) = (I(p) − F(p))/F(p)

Nous calculons ensuite l’énergie de contraste avec la formule suivante :

E(p) = Co(p)2

× Fe(p)

Fe est un filtre gaussien avec les caractéristiques suivantes : – Taille du filtre : 25 minutes d’arc

– Diffusion de la gaussienne : 1 minute d’arc

Étape 5 : Masquage

Le masquage des contrastes est pris en compte par la fonction “transducer” suivante, toujours extraite de [1] :

V (p) = Co(p)

(1 + (7.0.E(p))2)0.5 (5.1)

CHAPITRE 5. MÉTRIQUES ET MODÈLES 5.3. NOS TRAVAUX

Règle d’intégration et obtention de la carte de distance

Nous reprenons ici la métrique de Minkowski utilisée par Ahumada, qui est similaire à celle utili-sée par Lubin dans son VDM : les sorties du modèle de vision sont considérées comme des vecteurs ; pour calculer la carte de distance entre deux images, il faut appliquer le modèle indépendamment sur ces deux images afin d’obtenir deux vecteurs, puis calculer la distance entre ces deux vecteurs à l’aide d’une métrique de type Minkowski. Cette métrique est donnée par l’équation suivante :

d= 10.5((V1(x, y) −V2(x, y))4)0.25 (5.2)

Dans le document Modèles de vision et synthèse d'images (Page 73-76)