• Aucun résultat trouvé

1.2 Aperçu du prototype d’annotation d’images AnnoTaGT

2.1.3 Obtention du « gold standard »

Pour évaluer nos propositions nous avons proposé d’utiliser deux « gold standards » (vérité terrain) pour chaque image-requête : (a) le premier créé manuellement et (b) le deuxième créé semi-automatiquement à partir du corpus présenté auparavant à l’aide d’une évaluation impliquant des utilisateurs (assesseurs).

(a) Nous avons créé manuellement le premier « gold standard » en abordant la démarche suivante : pour chaque image-requête, nous avons désigné le tag le plus spécifique et nous l’avons sauvegardé. Par exemple, pour une image-requête illustrant la cloche de « Big Ben » de Londres, le tag le plus spécifique est Big Ben plutôt que le tag Londres, qui est un tag général.

(b) Afin d’obtenir la vérité terrain pour les 30 images-requêtes, une plateforme d’expéri- mentation en ligne a été développée. Elle fédère deux composants :

– la page Web « http://www.irit.fr/~Madalina.Mitran/user_study/accueil.html» qui explique l’objectif de l’expérimentation et les tâches qu’une personne volontaire doit accomplir.

– une base de données dédiée pour stocker les réponses recueillies auprès des parti- cipants et analyser ces données.

La page Web permet à un volontaire de participer à l’expérience en prenant connais- sance des deux tâches 1) et 2) qu’il doit accomplir :

1) Pour la première tâche, illustrée dans la Figure III.2.2, les participants doivent choi- sir au moins six images qu’ils connaissent le mieux parmi les 30 images-requêtes afin de les évaluer. La motivation derrière ce choix est double. D’abord, notre in- tuition est que la pertinence des évaluations est liée à la connaissance des per- sonnes qui évaluent. Or, les photos-requêtes que nous proposons n’illustrent pas forcément des attractions touristiques connues de tout le monde. Par conséquent, nous n’attribuons pas de façon automatique les photos aux évaluateurs pour qu’ils aient la possibilité de choisir des lieux qu’ils reconnaissent. De plus, étant donné que la concentration des assesseurs peut rapidement s’étioler, dans de nombreuses évaluations une durée de 10-15 minutes est attribuée aux assesseurs pour effectuer une tâche (Kelly, 2009). Avec cet objectif, nous avons mené une évaluation pilote qui nous a permis d’estimer le nombre maximal d’images qu’un individu peut éva- luer de sorte qu’il ne faille pas plus de 15 minutes pour la réaliser.

2.1. Protocole d'expérimentation

Choose from the gallery below, at least six images that you know the more.

Figure III.2.2 – Première tâche représentée dans l’interface Web déve- loppée.

2) Les participants passent à la deuxième tâche une fois que les images-requêtes ont été choisies. Pour chaque image-requête, une liste de tags candidats présen- tée alphabétiquement est montrée aux évaluateurs (voir Figure III.2.3). Cette tâche consiste à ne conserver dans la liste que les tags qui sont considérés de bons des- cripteurs pour l’image à évaluer. Tenant compte du fait que ces tags proviennent du Web et résultent du processus d’intelligence collective, nous fournissons aux éva- luateurs des directives telles que :

– les informations temporelles, les noms de personnes ou toute autre information personnelle ne sont pas considérés des annotations pertinentes pour l’image- requête.

– seules les annotations en anglais sont pertinentes, à l’exception des noms propres d’attractions touristiques connues par tout le monde dans la langue d’origine (par exemple, la Tour Eiffel en français et Eiffel Tower en anglais).

Expérimentation 1 : qualité des descripteurs

Check the tags considered good descriptors for the image.

Date/times, numbers, people's name and any personals annotations are irrelevant. Only English annotations are relevant except the place names which are known to everyone in the original language (e.g., Tour Eiffel).

Figure III.2.3 – Deuxième tâche représentée dans l’interface Web déve- loppée.

Au total, 32 personnes ont répondu à notre sollicitation. Parmi ces personnes, nous re- trouvons des chercheurs, des doctorants et des étudiants en master de notre département informatique.

Une base de données dédiée stocke les 30 images requêtes, les données concernant ces images, ainsi que les données concernant les participants et leurs participations. Le mo- dèle conceptuel de cette base de données représenté dans la Figure III.2.4 est implémenté avec le SGBD Oracle 11g.

La vérité terrain obtenue à l’aide des assesseurs pour chaque image-requête est sto- ckée dans la table AnnotationManuelle, tandis que les scores de chaque tag candidat de l’image sont stockés dans la table ScoreDescripteur. Cette table comporte trois attributs liés aux trois descripteurs de thématique, de spatialisation et de temporalité décrits dans la section II.2. Tenant compte du fait que chaque image-requête peut être choisie par plusieurs assesseurs, à la fin nous nous retrouvons avec plusieurs listes d’annotations manuelles pour chaque requête image. Dans le but de combiner les listes des évaluations individuelles dans une seule liste, nous utilisons la méthode CombMNZ proposé par Fox et Shaw (1993). La pertinence de cette méthode a été démontrée par Lee (1997), qui l’ont utilisé pour combiner les listes de résultats de la campagne d’évaluation TREC.

2.1. Protocole d'expérimentation ImageRequête id_lieu: String nom_photo: String latitude: Float longitude: Float moment_capture: Timestamp photo: Blob ImagePanoramio id_photo: String latitude: Float longitude: Float moment_capture: Timestamp nom_photo: String url: String photo: Blob visual_nb: Float Tag id_tag: String nom_tag: String * 1..* Distance distanceTemporelle(): Float distanceSpatiale(): Float 1..* 1..* ScoreRang score: double Assesseur id_user: String identité: String âge: Integer métier: String motDePasse: String 1..* 1..* AnnotationManuelle 1..* 1..* ScoreDescripteur scoreThématique: double scoreSpatial: double scoreTemporel: double 1..* 1..*

Figure III.2.4 – Diagramme de classes UML de l’expérimentation concernant la qualité des descripteurs proposés.