• Aucun résultat trouvé

Analyse expérimentale sur une base de données

2.2 Évaluation expérimentale

2.2.2 Analyse expérimentale sur une base de données

Dans cette partie de la section expérimentale, nous allons présenter une analyse de performance des différents critères sur une grande base d’images. Pour évaluer la robustesse d’un algorithme, il est en effet important de le tester sur des données variables et en quantité suffisante pour en observer le comportement « moyen ».

2.2.2.1 Présentation de la base

Nous avons utilisé une base de 732 photographies variées, représentant des scènes extérieures et intérieures, dans différentes conditions d’éclairage (jour, nuit, lumière naturelle ou non), de 800 × 600 pixels4. Quelques images de cette base sont visibles en figure2.4. Nous avons extrait au total plus de 3.106 descripteurs, soit environ 4000 points d’intérêt par image. Cette base a été collectée par nos soins,

car il n’existe pas de grande base standard pour évaluer la performance de critères de mise en correspon- dance. La taille de cette base d’images est du même ordre de grandeur que celle utilisée pour l’étude de [MP07] pour la comparaison de descripteurs locaux, contenant 100 photographies d’objets 3D requêtes ainsi que 535 images indépendantes, pour un total avoisinant 105descripteurs locaux. À titre de compa-

raison, la base d’images proposée par [MS05] pour l’évaluation comparative de descripteurs locaux ne contient que 8 catégories images. Nous allons en effet illustrer par la suite le fait que les performances d’un critère peuvent varier d’une paire d’images à une autre, mais qu’une large base d’images permet d’en analyser les caractéristiques principales.

2.2.2.2 Protocoles expérimentaux

Afin d’évaluer les différents aspects d’un critère de mise en correspondance, nous avons élaboré différents « protocoles » correspondant à trois situations :

– reconnaissance d’un objet qui est présent exactement une fois dans la base de données ; – reconnaissance d’un objet présent une fois ou non dans la base de données ;

– reconnaissance multiple d’un objet présent plusieurs fois dans la base de données.

La comparaison des différents critères sur la base d’images se fera en deux temps. Tout d’abord, nous comparerons les critères restreints au plus proche voisin (NN-DT,NN-DRetNN-AC) avec différents protocoles, pour lesquels l’objet d’intérêt apparaît au plus une fois dans la base de données. Ensuite, nous étudierons le comportement des critères de mise en correspondance multiple DT et AC lorsque

l’objet apparaît potentiellement plusieurs fois.

Nous allons maintenant détailler les différents protocoles utilisés.

Protocole A → A′ Le premier protocole consiste à mettre en correspondance des points d’intérêt entre

une image A et une image A′ représentant exactement la même scène mais dans des condi-

tions de prise de vue différentes. Dans le prochain paragraphe est détaillée l’obtention de A′ en

fonction de A pour définir la vérité-terrain. Ce protocole classique, que l’on intitule A → A′,

est usuellement utilisé pour les études comparatives de descripteurs locaux (voir par exemple [Low04,MS05,MP07]). C’est néanmoins le protocole le plus simpliste dans le cadre d’évaluation des performances d’un critère de mise en correspondance. En effet, il correspond au cas très parti- culier où l’objet requête de l’image A est exactement présent une fois dans la base d’images. Cette expérience simple va néanmoins nous permettre d’illustrer la robustesse de la mesure de qualité utilisée.

Protocole A → {A′

B Afin de se placer dans des conditions d’évaluation plus réalistes, nous proposons

une simple extension du protocole précédent. En effet, dans de nombreuses applications, le cri- tère que l’on utilise pour les appariements de descripteurs doit être capable de gérer des situations dans lesquelles l’objet requête n’est pas présent dans certaines images de la base de données (par

FIG. 2.4 –Quelques images de la base de 732 photographies de scènes variées.

exemple, la construction d’une mosaïque à partir de plusieurs images). Pour quantifier ce phéno- mène, l’image A est cette fois comparée (en plus de l’image A′) à une autre image B complètement

différente de A, en utilisant le même seuil de détection. Ceci permet d’évaluer l’aptitude du cri- tère à ne valider que les bonnes correspondances (vraies-positives) de l’image A, tout en rejetant les correspondances avec B (limitation du nombre de fausses-positives). Le protocole ainsi défini, que l’on désigne symboliquement par A → {A′

B, est analogue à celui proposé dans [MP07], où

l’image requête est comparée à des images complètement différentes dans le but de mesurer la faculté du critère à limiter le nombre de fausses correspondances lorsque l’objet d’intérêt n’est pas présent dans la base.

Une extension du protocole A → {A′

comparée à A′ et à l’ensemble des images de la base (privée de l’image A). Ce protocole, désigné

par A → {A′

Base\A, vise à analyser le cas extrême où l’objet requête apparaît très rarement dans la

base de données. Protocole A → {A′+A′′

B Ce dernier protocole va nous permettre d’évaluer la faculté des critères non

restreints au plus proche voisin (ACetDT) à valider les correspondances multiples d’un descripteur

dans la base, tout en contrôlant le nombre de fausses détections. Pour réaliser cela, l’image A est comparée à une image comptant deux fois l’objet d’intérêt avec différentes transformations (image notée A′+ A′′), et à une image différente B. On désigne ce protocole par : A → {A′+A′′

B .

2.2.2.3 Vérité-terrain et évaluation des performances

Obtention de l’image ADans [MS05], des photographies de la même scène sous différents angles

de vues sont utilisées dans le but de mesurer la robustesse du descripteur. Dans l’étude de [MP07], une approche similaire est adoptée pour des objets 3D, sur une large base de 100 objets. Dans ces deux cas, la vérité-terrain requiert la calibration de la caméra utilisée, et la connaissance de son mouvement lors des différentes prises de vue, ce qui est très fastidieux pour constituer une large base de données. Or, dans notre cadre d’évaluation, l’objectif n’est pas d’évaluer le pouvoir discriminant de notre descripteur local (de type SIFT) mais d’analyser la robustesse et la fiabilité de notre critère en terme de classification.

Nous avons donc choisi de construire l’image A′ à partir d’une dégradation synthétique de l’image

A, à l’instar de [Low04]. Ce type de transformation synthétique nous permet, d’une part, d’obtenir aisé- ment une vérité-terrain pour l’évaluation des performances ; cela nous permet également de « perturber » les descripteurs locaux pour simuler les conditions réelles de reconnaissance d’objets. Pour cela, nous appliquons une transformation affine à l’image A, ainsi qu’un bruit additif.

Dans une analyse récente et approfondie de l’invariance du descripteur SIFT, les auteurs de [MY09] ont montré que ce type de descripteur était effectivement invariant à la similitude. Ils ont également montré que les SIFTs étaient robustes pour une classe de transformations affines. Le paramètre critique pour désigner cette classe de transformations est appelé tilt (voir en annexeC). Il est ainsi montré expé- rimentalement que les SIFTs sont grossièrement invariants pour des transformations affines dont le tilt n’excède pas 2. Nous avons également observé expérimentalement une valeur critique du même ordre (voir le chapitre7pour une analyse de l’influence du tilt). De manière à perturber les SIFTs, nous avons donc utilisé une transformation affine de tilt égal à 2.5, qui est illustrée par la figure2.5. Un bruit blanc gaussien est ensuite ajouté, avec un écart-type de σ = 5 pour des images quantifiées sur 256 niveaux par canal.

A

A

FIG. 2.5 –Transformation affine utilisée avant l’ajout de bruit.

Vérité-terrain Pour mesurer les performances, une vérité-terrain est nécessaire pour distinguer les

correspondances correctes (vraies-positives) des fausses correspondances (fausses-positives)5. Suivant le protocole utilisé par [MS05], une correspondance entre deux points d’intérêt est considérée comme

correcte si l’erreur de superposition est plus petite que 50%. Soient Raet Rb les régions utilisées pour

construire les descripteurs a et b dans l’image A. L’erreur de superposition d’une correspondance entre les descripteurs a et b, notée E, est définie comme le rapport entre l’aire d’intersection et l’aire d’union des régions Raet Rb. En notant |R| l’aire de la région R, l’erreur de superposition s’écrit :

E = 1 − |Ra∩ Rb|/|Ra∪ Rb| .

Remarque 2 :

Bien que le procédé ait été repris à de nombreuses reprises dans la littérature, cette définition de la vérité- terrain possède néanmoins quelques limitations. La première est donnée par les auteurs de [MS05] qui remarquent que la définition de l’erreur n’est pas invariante à l’échelle des points d’intérêt comparés. De plus, la définition de l’erreur suppose qu’un bon appariement ne peut correspondre qu’à la détection du même objet physique dans les deux images. Cela signifie que les mises en correspondance avec des struc- tures répétées sont systématiquement considérées comme fausses. Un critère de mise en correspondance tel que le critèreNN-DR, qui rejette facilement les appariements de structures répétées, s’en trouve alors

avantagé.

Courbes ROC La courbe ROC (Receiver Operating Characteristic) est couramment employée pour

représenter graphiquement les performances d’une procédure de décision (reconnaissance et détection d’objets, ou encore indexation d’images). Il en existe différentes définitions dans la littérature, suivant les normalisations et les conventions utilisées. Dans le domaine de la reconnaissance et de la détection d’objets, les courbes ROC sont généralement tracées en représentant le taux de rappel en fonction du taux de fausses alarmes. Si l’on reprend la terminologie empruntée au domaine de la classification (voir le tableau1.1), le taux de rappel est défini comme la proportion de correspondances correctes sélection- nées (vp) parmi l’ensemble des correspondances correctes existantes (vp+fn). Le taux de fausses alarmes désigne la proportion de correspondances incorrectes sélectionnées (fp) parmi l’ensemble des correspon- dances sélectionnées (vp+fp). La courbe est tracée en faisant varier le seuil de détection du critère de décision analysé. Si l’on note s le seuil de détection s ∈ [0, 1], s = 1 représentant le seuil maximum pour lequel toutes les correspondances sont validées, les taux de fausses alarmes et de rappel sont définis de la manière suivante :          taux de rappel(s) = #{ vp(s) } #{ vp(1) + fn(1) } , taux de fausses alarmes(s) = #{fp(s) }

#{ fp(1) + vp(1) } .

La courbe ROC, pour un classifieur idéal, correspond à une droite confondue avec l’axe des or- données jusqu’au point de coordonnées (0, 1) (toutes les correspondances correctes sont détectées en premier), puis à une droite parallèle à l’axe des abscisses jusqu’au point (1, 1) (les fausses correspon- dances ne sont validées qu’ensuite). Un classifieur aléatoire, au contraire, a une courbe moyenne qui correspond à la ligne médiane passant par l’origine et le point (1, 1). Un critère de décision est alors considéré comme d’autant plus performant que sa courbe est proche du classifieur idéal.

Pour chaque critère de mise en correspondance et pour chaque image A de la base d’images, selon les différents protocoles définis précédemment, nous définissons une courbe ROC. Six images de la base sont illustrées en figure2.6. Pour chacune, deux courbes ROC sont tracées, correspondant aux protocoles A → Aet A → {A′

B. Sur ces courbes ROC, les critèresNN-AC,NN-DT etNN-DR sont respectivement

représentés en rouge, bleu et vert. Rappelons que tous les critères sont évalués avec la même mesure de dissimilarité, ce qui signifie que le nombre maximal de correspondances correctes sélectionnées est identique pour toutes les méthodes. Comme nous pouvons le constater, les courbes de performance issues d’un même protocole varient beaucoup selon l’image utilisée. Il est donc tout à fait inutile de vouloir conclure en la supériorité d’une méthode à partir de quelques images. C’est la raison pour laquelle nous utilisons une grande base d’images.

FIG. 2.6 – Six photographies provenant de la base d’images et leurs courbes ROC, suivant deux

protocoles expérimentaux. Seuls les critères restreints au plus proche voisin sont ici représentés,NN-AC

étant tracé en rouge, NN-DT en bleu et NN-DRen vert. La seconde et la cinquième rangée de courbes

correspondent au protocole A → A′, où l’image A est mise en correspondance avec sa version dégradée

A′. Les courbes de la troisième et sixième rangées sont obtenues avec le protocole A → {AB′, où l’image A est à la fois comparée à A′ et à B, une image différente. Cette comparaison des différentes courbes sur quelques images illustre la variabilité des performances de chaque critère selon l’image utilisée.

Synthèse par courbes ROC globales Dans le but de faire la synthèse de l’ensemble des courbes ROC obtenues, nous allons par la suite présenter les résultats sur la base par des courbes ROC globales, en nous inspirant de [MP07]. Une telle courbe est obtenue en traçant le nombre total de bonnes et de mauvaises correspondances, en utilisant le même seuil de détection sur l’ensemble des images de la base. Ce type de courbe de performance, calculée à partir de plusieurs images, présente alors l’intérêt majeur de tester la stabilité d’un seuil de validation d’une image à une autre.

Remarque 3 :

Comme nous souhaitons par la suite comparer les performances de différents critères, avec et sans restric- tion au plus proche voisin, nous n’avons pas normalisé les courbes ROC. Nous traçons ainsi directement le nombre de correspondances, au lieu du taux, ce qui ne modifie pas l’allure des courbes. Ce choix va nous permettre par la suite de visualiser les différences de performance lorsque le nombre de mises en correspondance possibles n’est pas le même entre les différents critères comparés.

2.2.2.4 Présentation des résultats

Notre critère de mise en correspondance a contrario est comparé en deux temps aux critères présentés dans le chapitre précédent.

Dans un premier temps, nous comparons les critères restreints au plus proche voisin (NN), où chaque

descripteur requête peut seulement être mis en correspondance avec le descripteur le plus proche dans la base de données. Il s’agit des critèresNN-DTetNN-DR, qui sont les plus utilisés en pratique afin de limiter

le nombre de fausses alarmes. Pour que leurs performances puissent être comparées avec notre approche, le critère a contrario est utilisé avec une limitation au plus proche voisin (NN-AC). Afin d’évaluer leurs

performances dans un cadre où la restriction au plus proche voisin fait sens, nous utilisons les deux protocoles A → A′et A → {A′

B, pour lesquels l’objet apparaît au plus une fois dans la base de données.

Ces expériences nous permettent principalement d’illustrer la stabilité du seuil de détection suivant le critère utilisé.

Ensuite, nous étudions le cas plus général correspondant aux critères de mise en correspondance

DT etAC sans restriction au plus proche voisin, avec le protocole A → {AB′+A′′. Le nombre d’apparie-

ments potentiellement validés étant beaucoup plus important, cette expérience illustre l’intérêt de notre approche pour le contrôle du nombre de fausses alarmes. Nous allons ensuite revenir sur l’expérience A→ {AB′ pour montrer la pertinence des seuils automatiques obtenus avec notre méthodologie.

Comparaison des critères de correspondance au plus proche voisin – protocole A → ARap-

pelons tout d’abord que le critèreNN-DRutilise un seuil sur le rapport des mesures de dissimilarité au

premier et second plus proches voisins. Le critèreNN-DT consiste à utiliser un seuil fixe sur la mesure

de dissimilarité pour valider les appariements ; avec notre approcheNN-AC, ce seuil est estimé automa-

tiquement pour chaque descripteur requête. Dans ce premier protocole, le nombre de tests utilisés pour estimer la fonction de NFA (équation (2.3)) est exprimé à l’aide de NQ = NC = NA, où NAest le

nombre de descripteurs de l’image A.

Les courbes ROC globales pour le protocole A → A′ sont données en figure2.7. La courbe en trait

continu rouge correspond à notre critèreNN-AC, en bleu au critèreNN-DT, et en vert au critèreNN-DR. Les courbes ROC ont un aspect très « lisse » car elles sont obtenues à partir de millions de mises en correspondance.

La première conclusion que l’on peut tirer de cette expérience est que le critère NN-DT est très

instable, car sa courbe ROC est très proche de la ligne médiane. En effet, si le critèreNN-DTpeut offrir en

pratique des performances correctes (cependant en deça des autres critères, comme l’illustre les courbes obtenues sur la figure2.6), c’est à la condition de choisir le seuil optimal pour chaque paire d’images donnée. Si l’on souhaite utiliser le même seuil sur différents types d’images, on voit que les performances globales sont très mauvaises : ceci explique le succès du critère NN-DR qui offre en comparaison de

meilleures performances. Remarquons combien les résultats que l’on obtient sont proches de ceux de l’étude proposée dans [MP07], où un protocole similaire est utilisé. Les auteurs obtiennent des courbes

0 0.5 1 1.5 2 2.5 3 x 106 0 0.5 1 1.5 2 2.5 3 3.5x 10 5 #false matches #correct matches NN−DR NN−DT NN−AC

FIG. 2.7 – Courbes ROC globales obtenues en utilisant le même seuil de détection sur toute la base, avec le protocole A → A′, où chaque image est mise en correspondance avec sa version dégradée A.

Trois critères sont testés avec la restriction au plus proche voisin : NN-ACen rouge,NN-DTen bleu et NN-DRen vert.

ROC globales qui sont ici reproduites en figure 2.8(a). La courbe du critère NN-DT, tracée en bleu et

intitulée « raw distance »), est très proche de la ligne médiane. La courbe ROC globale du critèreNN-DR

est tracée en vert et intitulée « distance ratio ». Ces deux courbes montrent une fois de plus la supériorité du critèreNN-DRpar rapport au critèreNN-DTen terme de stabilité du seuil de détection. Cette analogie

entre nos résultats et les leurs confirme l’intérêt d’une large base d’images pour établir des courbes de performance.

Remarque 4 :

Le fait que la courbe ROC globale du critèreNN-DTsoit très proche de la ligne médiane ne signifie pas

en pratique que ce critère ne vaut pas mieux que le hasard. Si l’on calcule les courbes ROC moyennes (selon le procédé détaillé au chapitre7), on obtient les courbes tracées en figure2.8(b): on peut constater que le critèreNN-DTfait effectivement mieux en moyenne que le hasard. La comparaison avec la courbe globale de la figure2.7illustre le degré de variabilité de la mesure de dissimilarité entre descripteurs. Ceci explique le manque de robustesse du seuil sur la distance et l’intérêt d’une procédure de seuillage automatique telle que la nôtre.

La deuxième observation concerne les performances relativement similaires des critères NN-AC et NN-DR. Cela illustre le fait que, même dans le cas limité au plus proche voisin, notre méthode de sélection

automatique des seuils est bien plus pertinente qu’un simple seuil fixe. Par ailleurs, notre méthode n’offre pas d’avantages significatifs comparé au critère NN-DR. En effet, dans ce cas de figure très particulier où chaque requête apparaît exactement une fois dans l’autre image, le test réalisé par le critèreNN-DR

est très bien adapté. Ce test qui consiste à étudier le rapport des distances au premier et au second plus proches voisins peut être interprété comme un test statistique très simple, mais qui a ici du sens. Nous verrons avec le protocole A → {A′

(a) Courbes ROC globales provenant de l’étude [MP07] 0 10 20 30 40 50 60 70 80 90 100 0 2 4 6 8 10 12 false ratio averagecorrect ratio NN−DR NN−DT NN−AC

(b) Courbes ROC moyennes obtenues pour le protocole A → A′

FIG. 2.8 – Fig. 2.8(a): Courbes ROC globales provenant de [MP07] (pour un protocole similaire à

A → A′ sur une large base d’images) pour la comparaison de deux critères : NN-DT en trait bleu et NN-DRen trait vert. Fig. 2.8(b): Courbes ROC moyennes obtenues à partir des 732 courbes ROC de

la base, avec le protocole A → A′. Trois critères sont testés avec la restriction au plus proche voisin : NN-ACen rouge,NN-DTen bleu etNN-DRen vert.

Remarque 5 :

Pour les très faibles seuils de détection, notre critère se comporte légèrement moins bien que le critère

NN-DR. Une analyse plus poussée des résultats nous a amenés à constater que, dans ce protocole, les

correspondances liées à des structures répétitives sont fortement pénalisées. Prenons l’exemple de la pre- mière photographie de la figure2.6, qui possède certaines répétitions (les fenêtres par exemple). Du fait de la transformation qui permet d’obtenir l’image A′, le meilleur candidat pour une structure de A peut