La campagne d’´evaluation ImagEVAL

2.4 Notre approche pour l’annotation globale

2.4.4 La campagne d’´evaluation ImagEVAL - tˆache 5

Introduction

Dans le domaine de la recherche d’information, il existe une tradition de campagnes d’éva-luation apparues autour de la recherche de documents texte (TREC, CLEF, . . . ). L’évad’éva-luation est traditionnellement assurée par les publications scientifiques dans des conférences et jour-naux avec commité de lecture. Toutefois, il n’est pas rare que les conditions expérimentales soient trop différentes d’un papier à l’autre pour garantir que les performances des algorithmes puissent être comparées de façon équitable. Ainsi, l’objectif d’une campagne d’évaluation est avant tout de proposer un corpus de données unique, une définition de tâche claire et une métrique permettant de mesurer les performances. Etant plac és dans des conditions expéri-mentales identiques, on peut ainsi plus aisément comparer différentes approches et observer leurs points forts et leurs faiblesses. Le processus d’ évaluation suit généralement un schéma bien établi. Un corpus d’apprentissage mis à disposition. Un corpus et des requêtes de test sont fournis quelques mois en avance pour permettre aux équipes de calibrer leurs algorithmes et s’assurer que techniquement tout est en place. Les requêtes réelles de l’évaluation sont ensuite envoyées quelques semaines avant la date fixe de remise des résultats. Selon les campagnes, on distingue deux types de mesures utilisée pour évaluer les algorithmes. Les évaluations plutôt techniques vont considérées les courbes précision/rappel ou les MAP pour classer les approches. Des évaluation plus orientées vers l’utilisateur vont tenir compte de facteur tels que la qualité de l’interface, les temps d’indexation, de réponse ou encore la faculté d’adaptation d’un système à un nouveau domaine.

Avec la montée en puissance de la recherche de documents multimédia, on a vu apparaˆıtre quelques tâches spécifiques dans les campagnes déjà bien établies. Mais elles ne sont pas uni-quement orientées vers la recherche par le contenu et sont plus souvent ax ées sur la recherche par le texte de documents multimédia en incluant plus ou moins d’analyse d’image. C’est le cas de TRECvid et ImageCLEF. En revanche la recherche d’image sans utiliser aucune information texte n’a été que peu explorée.

ImagEVAL est une nouvelle initiative qui a été lancée en France en 2006 dans le cadre du programme TechnoVision. ImagEVAL est entièrement axée sur la recherche d’images par le contenu. Un deuxième aspect intéressant qui distingue cette initiative, est que ses caractéristiques et son organisation ont été établis conjointement par une équipe de recherche et des archivistes professionnels [MF06]. L’objectif étant de combiner une évaluation technique classique avec des critères venant des utilisateurs finaux. La définition des tâches a été examinée afin de

s’atta-quer aux problèmes auxquels font face les agences photo. Les images sur lesquelles l’évaluation a été menée sont issue du monde professionnel. Cela a permis d’obtenir un volume de données suffisant pour que l’évaluation soit pertinente d’un point de vue statistique, mais également d’assurer une certaine diversit é de qualités et d’usages. Les fournisseurs sont l’agence photo Hachette, qui regroupe plusieurs fonds photographiques, Renault, la Réunion des Musées Na-tionaux, le CNRS et le Ministère des Affaires Etrangères. Les problèmes liés aux copyright ont été surmontés partiellement et les gros volumes d’images ont ainsi été accessibles aux parti-cipants à la campagne d’évaluation. Malheureusement, ces images n’ont pas pu être diffusées plus largement dans la communauté scientifique pour d’autres tests.

Les images ont été sélectionnées et annotées par des professionnels, permettant à la vérité terrain d’être établie d’une façon originale. Deux professionnelles de Hachette ont annoté ma-nuellement toutes les images tel qu’elles ont l’habitude de le faire. La subjectivité qui est la leur dans cette étape fait partie des contraintes auxquelles nos approches scientifiques doivent se plier. Ainsi les bases d’évaluation reflètent le quotidien des utilisateurs et non pas la perception que peuvent en avoir les chercheurs [Pic06]. Nous sommes donc proches de la vie réelle avec des scénarios et des collections d’images difficiles. Plusieurs équipes françaises et européennes ont participé à l’évaluation, ainsi que des entreprises privées. ImagEVAL a cinq tâches princi-pales : détection d’images transformées, recherche d’images sur le web, détection de zones de texte, détection d’objets et extraction d’attributs.

Cette campagne a été l’occasion d’analyser différentes approches de l’annotation automa-tique. Nous avons ainsi étudié l’état de l’art et confronté les principales méthodes sur les jeux de données mis à disposition au lancement de la campagne. Nous avons développé et mis en œuvre un framework complet d’annotation automatique adossé au moteur de recherche d’images par le contenu IKONA. Nous avons participé à la tâche 4 avec d’autres membres de l’équipe et mené entièrement la participation à la tâche 5 qui est décrite dans la section suivante.

Description de la tˆache 5 - extraction d’attributs.

Le but de cette tâche est de permettre la classification des images. Deux types de sémantiques sont ciblés : la nature de l’image (représentations artistiques, photographies couleur, photo-graphies noir et blanc, images noir et blanc coloris ées) et le contexte de l’image (intérieur / extérieur, jour / nuit, paysage naturel ou urbain). La figure 2.24 montre l’organisation des concepts tels qu’ils sont présentés dans la description de la tâche. La représentation de cet arbre sous forme applatie est donnée dans la figure 2.25. Cela correspondant plus à notre approche. Une base de données d’apprentissage contenant 5 416 images a été fournie. La taille typique de ces images est d’environ 1000x700 pixels. La vérité terrain a également été fournie. La partition binaire des contextes des photographies n’est pas aussi claire que cela aurait d û l’être. Il y a des photos qui sont plus liées à l’aube ou au crépuscule qu’au jour ou à la nuit. La même ambigu¨ıté

2.4 Notre approche pour l’annotation globale 59

FIG. 2.24 – ImagEVAL-5, liste des concepts

est apparue pour des photos de scènes urbaines et naturelles, et même pour la classification intérieur / extérieur. Mais ces ambigu¨ıtés reflètent la vie réelle et ces cas doivent être traités. La seule contrainte pour les archivistes qui ont annoté ces images a été de fournir à chaque image tous les concepts pour atteindre les feuilles de l’arbre. Le tableau 2.2 résume la distribution des

Concepts Nb. images

ART 429

BlackWhite, Indoor 498

BlackWhite, Outdoor, Day, NaturalScene 159

BlackWhite, Outdoor, Day, UrbanScene 449

BlackWhite, Outdoor, Night, UrbanScene 16

Color, Indoor 1 129

Color, Outdoor, Day, NaturalScene 946

Color, Outdoor, Day, UrbanScene 1 092

Color, Outdoor, Night, NaturalScene 3

Color, Outdoor, Night, UrbanScene 368

ColoredBlackWhite 327

TAB. 2.2 – ImagEVAL-5, r´epartition des images de la base d’apprentissage

images dans la base d’apprentissage. On peut voir que ces données sont très déséquilibrées, mais cela reflète simplement la répartition naturelle de ces concepts dans les bases de données réelles. La recherche de photographies en noir et blanc prises dans un environnement naturel de nuit est en fait assez rare. On peut voir quelques exemples de cette base dans la figure 2.26. La base pour l’évaluation finale contient 23 572 images.

Pour l’´evaluation, les requˆetes sont des chemins de l’arbre des concepts (par exemple, Art ou

Color / Indoor). Pour chaque requête, les premières 5 000 images doivent être retournées. Etant

une tâche de recherche d’images, la mesure utilisée pour évaluer les algorithmes met l’accent sur la récupération des documents pertinents au plus t ôt. La MAP est utilisée. Elle diffère de la mesure utilisée dans les tâches de classification (taux de bonne classification par exemple). Par conséquent, la confiance que nous avons dans la prédiction d’un concept est importante et permet de classer les résultats.

Récemment Cutzu et al. [CHL05] ont étudié plusieurs nouveaux descripteurs permettant de distinguer les tableaux des photos. C’est à notre connaissance le seul travail sur le sujet. On peut toutefois citer [DJLW06] qui introduit des descripteurs permettant d’étudier l’esthétique dans les photos qui pourraient être utilisés. D’autres travaux sur l’art sont pr ésentés dans [DNAA06, VKSH06].

ImagEVAL-5, r´esultats officiels

Six équipes ont finalement participé à cette tâche (davantage étaient inscrites mais se sont désistés). Chaque équipe pouvait soumettre jusqu’à cinq résultats. Les équipes avaient la

pos-2.4 Notre approche pour l’annotation globale 61

FIG. 2.26 – ImagEVAL-5, quelques exemples de la base d’apprentissage. c

Shah-Jacana/Hoa-Qui, Bassignac-Gamma, Patrimoine Photo, Dufour-Gamma et Faillet-Keystone.

sibilité de fournir des résultats avec des données supplémentaires pour l’apprentissage mais aucune ne l’a fait. Il y avait un total de 13 requêtes :

1. Art 2. ColoredBlackWhite 3. BlackWhite / Indoor 4. BlackWhite / Outdoor 5. Color / Indoor 6. Color / Outdoor

7. BlackWhite / Outdoor / Night 8. BlackWhite / Outdoor / Day / Urban 9. BlackWhite / Outdoor / Day / Natural 10. Color / Outdoor / Day / Urban

11. Color / Outdoor / Day / Natural 12. Color / Outdoor / Night / Urban 13. Color / Outdoor / Night / Natural

Chaque fichier de résultat devait fournir les 5 000 premières images de chaque requête (sur un total de 23 572 images). On présente dans le tableau 2.3 le nombre d’images pour les différents concepts visuels. Le ratio par rapport à la base d’apprentissage est également indiqué.

Concepts Nb. images Ratio

ART 4500 2.41

BlackWhite, Indoor 2783 1.28

BlackWhite, Outdoor, Day, NaturalScene 225 0.33

BlackWhite, Outdoor, Day, UrbanScene 2304 1.18

BlackWhite, Outdoor, Night 70 1.01

Color, Indoor 4500 0.92

Color, Outdoor, Day, NaturalScene 2531 0.61

Color, Outdoor, Day, UrbanScene 4500 0.95

Color, Outdoor, Night, NaturalScene 70 5.36

Color, Outdoor, Night, UrbanScene 1370 0.86

ColoredBlackWhite 719 0.51

TAB. 2.3 – ImagEVAL-5, r´epartition des images de la base de test

Nous avons présenté 5 jeux de résultats, correspondant aux différentes options présentées dans le tableau 2.4.

Run Options

imedia01 Vieille version correspondant à des hypothèses du test à blanc

imedia02 Noyau GHI, pr´e-traitement puissance 0.25

imedia03 Noyau triangulaire (L1), pr´e-traitement ´echelle

imedia04 Noyau Laplace, pr´e-traitement ´echelle

imedia05 Concepts en extension, noyau triangulaire (L1), pr´e-traitement ´echelle

TAB. 2.4 – ImagEVAL-5, options pour la campagne officielle

Les résultats complets sont disponibles sur le site dédié à la campagne³. Nous fournissons ici la MAP de tous les jeux de résultats. Il avait été convenu d’anonymiser tous les résultats après la troisième équipe. Le meilleur score est obtenu avec le noyau Laplace. Viennent ensuite les trois

MAP MAP imedia04 0.6784 etis01 0.4912 imedia03 0.6556 anonymous 0.4907 imedia05 0.6532 anonymous 0.4931 imedia02 0.6529 anonymous 0.3676 imedia01 0.5979 anonymous 0.3141 cea01 0.5771 anonymous 0.1985

TAB. 2.5 – ImagEVAL-5, r´esultats officiels

jeux utilisant les noyaux non-paramétriques. Ils ont des performances strictement équivalentes. Le surco ût lié à l’optimisation d’un paramètre supplémentaire pour le noyau Laplace amène une légère amélioration des performances (+3.5%). On remarque que, comme prévu, l’utilisation des concepts en extension obtient exactement les mêmes résultats que les concepts en un-contre-tous. Toutefois, pour le jeu imedia03 on a un temps d’apprentissage de 372 secondes générant

2.4 Notre approche pour l’annotation globale 63

des modèles ayant un total de 11 252 vecteurs support. Le temps de prédiction étant alors de 0.1 seconde par image. En revanche, pour le jeu imedia05, le temps d’apprentissage est de 176 secondes, on a 6 595 vecteurs support et la prédiction nécessite 0.05 seconde par image. Tous les traitements ont été effectués sur un Pentium 4, 2.8 GHz, 2 Go, Linux. L’extraction des 6 descripteurs globaux prend en moyenne 6 secondes par photo. On peut remarquer dans les résultats détaillés [MF06] que cette approche est l’une des plus rapides. Si on ne tient pas compte des requêtes peu vraissemblables (7 et 13), c’est-à-dire celles pour lesquelles très peu d’exemples sont disponibles dans les bases d’apprentissage et de test, alors la MAP est au-dessus de 0.75. Cela représente des résultats très satisfaisants. L’approche de l’équipe du CEA est décrite dans la thèse de Millet [Mil08] et dans [Moë06]. L’approche d’ETIS est partiellement décrite dans [PFGC06, GCPF07].

Dans le document Vers une description efficace du contenu visuel pour l'annotation automatique d'images (Page 76-82)