• Aucun résultat trouvé

Applications de CEMD pour la comparaison d’histogrammes globaux

6.2 Analyse de l’intérêt du transport pour la comparaison d’histogrammes globaux

6.2.1 Applications de CEMD pour la comparaison d’histogrammes globaux

Le principe des expériences de recherche d’image (image retrieval) que nous présentons est le sui- vant : étant donnée une base de N images, divisée en plusieurs catégories (ou classes), on cherche pour chaque image requête de la base à retrouver toutes les images de sa classe. Chaque image est décrite par un histogramme global d’un attribut (orientation du gradient, teinte, etc.). Pour une distance donnée entre histogrammes (L1ouCEMDpar exemple), et pour une image requête donnée, on peut ordonner les

(N − 1) images restantes par ordre croissant de dissimilarité. Les performances des distances utilisées seront fonction de leur capacité à bien ordonner les images (images de la même classe en premier).

Pour illustrer ces performances, nous traçons des courbes de performance moyenne, qui sont utilisées traditionnellement en recherche d’images et légèrement différentes de celles présentées au chapitre 2

pour la mise en correspondance. Nous rappelons ci-dessous leur définition.

Courbes de performance moyenne Etant donnée une image requête et une distance entre histo-

grammes, on commence par ordonner les (N − 1) images restantes. Chaque image se voit attribuer un rang, le rang 1 correspondant à l’image requête et le rang N à l’image qui en est la plus éloignée. Suppo- sons que l’on sélectionne toutes les images jusqu’au rang r. Si l’on reprend la terminologie empruntée au domaine de la classification (voir le tableau 1.1 dans le chapitre 1), le taux de rappel est alors dé- fini comme la proportion d’images correctes ainsi retrouvées parmi l’ensemble des images de la même classe. Dit autrement, le taux de rappel est le nombre #{vp(r)} de vrais-positifs parmi les r images sé- lectionnées, divisé par la somme #{vp(N) + fn(N)} des nombres de vrais-positifs et de faux-négatifs. Le taux de précision désigne la proportion d’images correctes retrouvées parmi l’ensemble des images sélectionnées (à la fois les vrais-positifs et les faux-positifs, soit #{vp(r) + fp(r)}). Les taux de rappel

et de précision sont donc :          taux de rappel(r) = #{ vp(r) } #{ vp(N) + fn(N) } , taux de précision(r) = #{vp(r) } #{ vp(r) + fp(r) } .

Une courbe de performance est tracée en faisant varier r, le nombre d’images sélectionnées. Les courbes de performance moyenne sont ensuite obtenues en utilisant chaque image de la base comme image re- quête et en calculant les moyennes en fonction du paramètre r. Dans la suite, nous traçons deux types de courbes de performance moyenne : le taux de rappel moyen en fonction du nombre d’images sélection- nées (r), ainsi que le taux de précision moyen en fonction du taux de rappel.

Un premier exemple : histogrammes d’orientation D’autres applications, en dehors de celles

utilisant les descripteurs SIFT [Low04], se basent sur des histogrammes d’orientation du gradient en tant que représentation globale d’une image. Par exemple, dans [CS02], les auteurs proposent d’utiliser ce type d’histogramme pour la reconnaissance de caractères. N’ayant pas une telle base à notre disposition, nous en avons créé une de petite taille avec le logiciel GIMP. Cette base est constituée d’imagettes en niveau de gris représentant les 10 premières lettres de l’alphabet, avec pour chacune des classes 10 occurrences dans des polices et des styles variés (gras, italique, etc.). La figure6.4montre quelques unes des ces imagettes.

La méthode de construction des descripteurs est inspirée des SIFTs (dont le principe est rappelé en annexeB). Les images sont légèrement lissées par convolution avec un noyau gaussien afin d’éviter le phénomène de crénelage (aliasing). La norme puis la phase du gradient sont calculées sur l’image, pour les pixels ayant un gradient de norme suffisamment élevée (supérieur à 1) pour être robuste au bruit (ou aux artefacts) de l’image. L’histogramme de l’orientation du gradient est ensuite construit empiriquement sur q bins (la valeur sera ultérieurement précisée), en pondérant le vote de chaque pixel par la norme du gradient. Cela permet d’être robuste au lissage effectué sur l’image, qui fait apparaître de nouvelles orientations. L’histogramme de l’image est ensuite normalisé, de telle manière que sa masse totale (norme L1) soit égale à l’unité.

Afin de mesurer l’intérêt du transport circulaire, nous traçons les courbes de performance pour les distancesCEMD, EMD (non circulaire) et L1en figure6.5pour diverses situations. On constate sur cet

exemple simple l’intérêt de tirer parti de la circularité des histogrammes, la distanceCEMDdonnant sys-

tématiquement de meilleures performances moyennes en termes de recherche d’images que la distance EMD. Les figures6.5(a)et6.5(b)montrent les performances moyennes obtenues avec une quantification des histogrammes de q = 360 bins. Globalement, on observe que la distanceCEMDdonne de meilleures

performances que la distance L1. Si l’on applique une transformation affine aléatoire sur chacune des

imagettes pour perturber les histogrammes globaux d’orientation (figures6.5(e)et 6.5(f)), on observe que la distanceCEMD est bien plus robuste que la distance L1. Cependant, avec une quantification de

seulement q = 36 bins et sans perturbation affine (figures6.5(c)et6.5(d)), l’écart de performances di- minue significativement. Nous étudierons plus en détail en section6.2.2les raisons pour lesquelles on observe de telles variations de performances.

Un second exemple : histogrammes de teinte Pour les applications de recherche d’images par le

contenu (Content Based Image Retrieval), il est courant d’utiliser – entre autres – un histogramme de la distribution des couleurs de l’image [HGS08,RTG00]. En nous inspirant de ce type d’application, nous présentons ici à nouveau une expérience d’indexation sur une petite base d’images couleurs en comparant cette fois leurs histogrammes de teinte. La teinte étant définie de manière circulaire, la distanceCEMD

est alors toute indiquée.

La base est présentée en figure6.6, divisée suivant 14 classes de 9 objets. Les images ont été obtenues en photographiant sur un fond identique différents objets selon la même pose mais sous des éclairages

FIG. 6.4 –Base de caractères de l’alphabet.

et des conditions d’acquisition différents (avec et sans flash, différents réglages de l’appareil pour le temps de pose, la sensibilité et l’ouverture, etc.). Pour extraire leur histogramme de teinte, les images sont d’abord représentées dans l’espace colorimétrique HSV (Hue Saturation Value), dont on extrait la teinte (hue) et la saturation. La teinte et la saturation, notées respectivement H et S, sont définies de la manière suivante à partir de la représentation usuelle RVB (Rouge-Vert-Bleu) :

M = max{R, V, B} et m = min{R, V, B} , M, m ∈ {0, . . . , 255} H =            0, si M = m 60·M −mV −B, si M = R 60·M −mB−R + 120, si M = V 60· R−V M −m+ 240, si M = B ∈ [0, 360] et S = ( 0, if M = 0 1Mm, si M 6= 0 ∈ [0, 1] . L’histogramme de chaque image est construit sur q bins à partir des pixels dont la saturation est plus grande qu’un certain seuil que l’on a fixé expérimentalement à Smin = 0.2. Cela permet d’éliminer les

pixels dont la couleur est très peu saturée (et dont l’apparence est proche des niveaux de gris), et qui peuvent considérablement perturber l’histogramme. La valeur de Smin = 0.2 est celle donnant sur cette

base des résultat optimaux à la fois pour L1 etCEMD. L’histogramme circulaire de teinte est finalement

0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100

nombre d images retenues

% rappel

CEMD L1 EMD

(a) Courbe de rappel moyen (q = 360)

0 20 40 60 80 100 5 10 15 20 25 30 35 40 45 50 55 % rappel % precision CEMD L1 EMD

(b) Courbe de précision-rappel moyen (q = 360)

0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100

nombre d images retenues

% rappel

CEMD L1 EMD

(c) Courbe de rappel moyen (q = 36)

0 20 40 60 80 100 5 10 15 20 25 30 35 40 45 50 55 % rappel % precision CEMD L1 EMD

(d) Courbe de précision-rappel moyen (q = 36)

0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100

nombre d images retenues

% rappel

CEMD L1 EMD

(e) Courbe de rappel moyen (q = 360 + transformation affine) 0 20 40 60 80 100 5 10 15 20 25 30 35 40 45 % rappel % precision CEMD L1 EMD

(f) Courbe de précision-rappel moyen (q = 360 + trans- formation affine)

FIG. 6.5 – Courbes de précision-rappel moyen de l’indexation d’une base de caractères. Des histo- grammes d’orientation du gradient sont comparés avec différentes distances : CEMD en trait rouge

continu, EMD en trait rouge interrompu, et L1 en trait bleu continu. La première rangée de figures

correspond à des histogrammes de q = 360 bins. La seconde rangée de figures correspond à des his- togrammes de q = 36 bins. La troisième rangée de figures correspond à des histogrammes de q = 360 bins, calculés à partir d’imagettes perturbées par une transformation affine.

Les courbes de performance moyenne pour les distances CEMD et L1 sont données en figure 6.7,

pour différentes valeurs de quantification q. Une fois encore, on observe que la distanceCEMDdonne de

meilleurs résultats que la distance bin-à-bin L1, et ce d’autant plus que le nombre de bins est élévé.

Au travers de ces deux exemples de recherche d’images, nous avons illustré l’intérêt potentiel de la distance CEMD vis à vis d’une distance bin-à-bin comme L1 pour des histogrammes circulaires.

D’autres applications de l’EMD dans le cas non circulaire confirment un tel intérêt : comparaison de signatures [RTG00] pour les images couleurs et les textures, comparaison d’histogrammes de sac de mots [ZMLS07] (bag of features, voir le paragraphe1.3.5) pour la classification d’images, comparai- son d’histogrammes mélangeant position spatiale et bi-couleurs dominantes [HGS08] pour la recherche d’images par l’organisation spatiale de la couleur. Notons également une application récente de la dis- tanceCEMDpour la comparaison d’histogrammes circulaires en imagerie médicale.

Cependant, certains résultats obtenus dans la première expérience semblent suggérer certaines limi- tations du transport, phénomène que nous allons étudier dans la section suivante.