• Aucun résultat trouvé

Analyse critique des bases d’´evaluation existantes

2.4 Notre approche pour l’annotation globale

2.4.6 Analyse critique des bases d’´evaluation existantes

Quelles informations peut-on obtenir en appliquant la m´ethode d´ecrite pr´ec´edemment `a une tˆache de reconnaissance d’objets ? De fac¸on g´en´erale, identifier des objets dans les images n´ecessite l’utilisation de signatures visuelles plus fines faisant intervenir des descripteurs lo-caux. Ces signatures sont calcul´ees sur des r´egions apr`es segmentation de l’image, autour de points d’int´erˆet ou, plus simplement, selon un d´ecoupage en grille fixe. Quelle que soit l’ap-proche choisie, elle implique de s’int´eresser `a certaine partie de l’image plut ˆot qu’`a sa globa-lit´e. Mais l’information contextuelle est importante pour d´etecter les objets. En effet, il est rare qu’un objet apparaisse dans un contexte auquel il n’est pas li´e. Ceci a par exemple conduit certains chercheurs `a travailler sur une int´egration de l’information contextuelle dans un des-cripteur local [ASR05]. Nous pr´esenterons notre approche de ce probl `eme `a la section 3.4. Nous ne pr´etendons donc pas ici r´esoudre le probl`eme de la d´etection d’objets en utilisant uniquement des descripteurs globaux, mais nous pensons que cette approche permet d’obtenir des informa-tions importantes sur la difficult´e de cette tˆache pour une base d’images donn´ees et de juger ainsi de son utilisabilit´e. Ce probl`eme a d´ej`a ´et´e soulev´e dans [PBE+06], nous pr´esentons ici les r´esultats obtenus sur des bases standards avec notre approche. Pour toutes les bases de donn´ees test´ees, nous avons utilis´e les mˆemes configurations exp´erimentales que celles d´ecrites par les auteurs de ces ´etudes. Nous avons utilis´e des SVM avec noyau triangulaire et notre jeu de des-cripteurs globaux. Lorsque cela s’est av´er´e n´ecessaire, nous avons utilis´e une version en niveaux de gris des descripteurs prob et lapl afin de de ne pas tenir compte de l’information couleur et d’ˆetre ainsi en mesure d’effectuer une comparaison avec les autres approches propos´ees.

Corel2000

La base de donn´ees Corel est probablement une des plus utilis´ees en recherche d’images par le contenu et en cat´egorisation. D`es 2002 des papiers expliquant la simplicit´e de cette base paraissent [MMMP02, WdV03]. On voit toutefois encore des recherches qui ne se basent que sur cette collection pour justifier du bien-fond´e d’une approche. Certaines exp´eriences utilisent un sous-ensemble de 2 000 images, divis´ees en 20 cat´egories. On peut voir quelques exemples sur la figure 2.32.

Ce jeu est partag´e al´eatoirement en une base d’apprentissage et une base de test aillant chacune 50 images par cat´egorie. Cette op´eration est effectu´ee cinq fois et le ratio de bonne

FIG. 2.32 – Quelques images de la base Corel2000

cat´egorisation moyen est report´e. Ces r´esultats confirment clairement que cette base est

beau-Approche R´esultats

Notre approche - 5 desc. 83.7

Notre approche - hsv seul 71.6

Chen - MILES [CBW06] 68.7

Chen - DD-SVM [CW04] 67.5

Csurka [CBDF04] 52.3

TAB. 2.11 – Resultats sur la base Corel2000

coup trop simple. Mˆeme en utilisant un histogramme HSV seul, les r´esultats sont meilleurs que des approches locales.

Caltech4

Cette base contient quatre classes d’objets. Pour chacune de ces cat´egories, des images d’arri`ere-plan sont ´egalement disponibles. L’objectif est de s´eparer les images contenant un objet des autres.

Il s’agit d’une tˆache de classification objet/arri`ere-plan. Nous utilisons les mˆemes ensembles d’apprentissage et de test que dans [FPZ03]. Nous utilisons les descripteurs lapl, prob en ni-veaux de gris, ainsi que four et leoh. Nous avons ainsi des signatures de 84 dimensions par image. Nous obtenons des r´esultats ´equivalents `a ceux pr´ealablement publi´es. Des taux de bonne classification qui atteignent presque les 100% avec une approche globale tendent tou-tefois clairement `a prouver que cette base n’est pas assez difficile pour tester des algorithmes de reconnaissance d’objets.

2.4 Notre approche pour l’annotation globale 71

FIG. 2.33 – Quelques images de la base Caltech4

Approche Avion Voiture (vue arri `ere) Visage Moto

Notre approche 99.2 100 98.6 98.8

Chen [CBW06] 98.0 94.5 99.5 96.7

Zhang J. [ZMLS05] 98.8 98.3 100 98.5

Willamowski [WAC+04] 97.1 98.6 99.3 98.0

Fergus [FPZ03] 90.2 90.3 96.4 92.5

Xerox7

Cette base contient 1 776 images de 7 classes (visages, v´elos, voitures, batiments, livres,

t´el´ephones et arbres). Comme dans [WAC+04], nous utilisons une classification multi-classes

FIG. 2.34 – Quelques images de la base Xerox7

avec validation crois´ee sur 10 sous-ensembles. Les performances moyennes sont rapport´ees. Nous utilisons les descripteurs en niveaux de gris. L`a encore, nos r´esultats sont vraiment proches des meilleurs publi´es. La base Xerox7 n’est donc pas adapt´ee pour la d´etection d’objets.

Pascal VOC2005

On pourra trouver une description compl `ete de la campagne d’´evaluation Pascal VOC 2005

dans [EZW+06]. Deux jeux de donn´ees sont `a notre disposition. On consid`ere quatres classes

2.4 Notre approche pour l’annotation globale 73

Approche R´esultat

Notre approche 92.5

Zhang J. [ZMLS05] 94.3

Willamowski [WAC+04] 82.0

TAB. 2.13 – Resultats sur la base Xerox7

facile et le second plus difficile. Les performances sont mesur´ees sur la courbe ROC

(Recei-ver Operating Characteristic) au point pour lequel le taux de faux positifs et de faux n´egatifs

est ´egal (Equal Error Rate). On constate effectivement que la premi`ere base est relativement

Approche V´elo Voiture Moto Personne

Notre approche 88.7 92.2 95.8 86.9

Meilleur score dans [EZW+06] 93.0 96.1 97.7 91.7

TAB. 2.14 – Resultats pour la base VOC2005-1

Approche V´elo Voiture Moto Personne

Notre approche 57.9 66.3 64.8 69.2

Zhang J. [ZMLS05] 68.1 74.1 79.7 75.3

TAB. 2.15 – Resultats pour la base VOC2005-2

simple. Notre approche obtient des performances qui sont inf´erieures de 4% aux meilleures pu-bli´ees. En revanche pour la seconde base, les approches locales montrent quelques b´en´efices. Notre approche globale est moins bonne de 13%.

La campagne VOC du r´eseau d’excellence europ´een Pascal s’est poursuivie apr`es cette premi`ere initiative. Des r´esultats sur la base VOC 2007 seront pr´esent´es dans le chapitre 3.

Caltech101

Cette base contient 101 classes d’objets, plus une d’arri`ere-plans qui n’est g´en´eralement pas utilis´ee [FFFP04]. Les objets sont toujours centr´es dans les images. On trouve entre 31 et 800 images par cat´egorie, avec de gros probl`emes sur certaines d’entre elles : il existe deux classes de visages, une rotation artificielle de45a ´et´e effectu´ee sur certaines classes, . . . . Il existe deux principaux protocoles d’´evaluation, utilisant 15 ou 30 images d’apprentissage par classe. Dans les deux cas, les approches locales sont nettement meilleures que notre approche globale.

Pour des tˆaches de reconnaissance d’objets, les bases telles que Corel, Caltech4, Xerox7 et Pascal VOC2005-1 doivent clairement ˆetre abandonn´ees pour tester les approches locales puisque de simples m´ethodes globales atteignent des performances ´equivalentes. On voit bien

FIG. 2.35 – Quelques images de la base Caltech101

Approche 30 im./classe 15 im./classe

Notre approche 39.6 32.7

Zhang H. [ZBMM06] 66.23 59.08

Lazebnick [LSP06] 64.6 56.4

TAB. 2.16 – Resultats pour la base Caltech101

sur les exemples qu’il y a un manque flagrant de diversit´e dans les images, ce qui explique les bon scores obtenus avec l’approche globale. La cas de la base Caltech101 est particulier. L’utilisation d’approches locales y est clairement b´en´efique, mais les images sont loins d’ˆetre repr´esentatives de ce que l’on peut trouver dans les bases r´eelles. Ainsi, des approches r´ecentes qui obtiennent de bons r´esultats sur cette base se focalisent sur une mod´elisation des formes et de leur localisation dans l’image [BZM07]. Le fait que toutes les images repr´esentent un objet en gros plan et que, pour certaines cat´egories, toutes les images aient ´et´e artificiellement tourn´ee pour que l’orientation principale de l’objet soit identique, favorisent grandement ce type d’approches. Toutefois nous doutons fortement qu’elles soient adapt´ees `a des bases r´ealistes. Ces bases de recherche ont permis des avanc´ees certaines dans le domaine de la vision par ordinateur, mais elles doivent maintenant ˆetre laiss´ees de cˆot´e. L’utilisation de bases r´ealistes comme celles de la campagne ImagEVAL doit ˆetre privil´egi´ee.

2.5 G´en´ericit´e des mod`eles pour l’annotation globale 75