• Aucun résultat trouvé

Dans cette section, nous définissons les notions utilisées dans notre contribution d’an- notation d’images. Plus spécifiquement, nous nous intéressons à la définition d’une ac- tivité d’annotation, des métadonnées d’une image-requête et des informations textuelles provenant de la contribution des individus sur le Web (tags). Puis, nous détaillons les fonc- tions de pondérations de termes de la littérature que nous exploiterons pour attribuer des scores aux termes identifiés pertinents pour une image-requête.

2.1.1 Activité d’annotation, métadonnées de l’image-requête et tags

Activité d’annotation.

Modélisation des descripteurs de thématique, de spatialisation et de temporalité

ments permettant d’accomplir la tâche d’annotation d’une image-requête. Nous énumé- rons ces éléments ci-dessous :

iq Système d'annotation T = (tg1, ..., tgr)

corpus d'images

Figure II.2.1 – Illustration de l’activité d’annotation.

a) une image-requête iqest soumise à un système d’annotation automatique.

b) le système, en effectuant une recherche sur un corpus d’images, identifie pour l’image- requête iq un ensemble d’images pertinentes (voir section II.3.1). Soit Ir l’ensemble d’images similaires retrouvées pour l’image-requête : Ir = {ir1, ir2, . . . , irn}.

c) chaque image trouvée irest représenté par le quadruplé :

ir= (annotir, geoir, tempsir, individuir) où :

– annotir représente l’ensemble des tags associés à une image ir trouvée : annotir = {tg1, tg2, . . . , tgn}.

– geoir représente le couple des coordonnées de géolocalisation de l’endroit où la photo a été prise : geoir = (latir, longir).

– tempsirreprésente le moment de la capture d’une image.

– individuirreprésente l’identifiant de la personne qui a pris la photo.

d) soit AnnotIR l’ensemble des tags candidats pour l’image-requête iq : AnnotIR = {tg1, . . . , tgr}. Ces tags proviennent des images trouvées pertinentes pour iq.

e) le dernier élément de l’activité d’annotation est représenté par le fait que le système annote l’image-requête iq par une liste des tags de l’ensemble AnnotIR ordonnés par poids décroissants : T = (tg1, . . . , tgr).

Les métadonnées de l’image-requête.

Dans notre contexte de travail, l’ensemble des métadonnées associées à une image- requête sont les suivantes : les informations de localisation et les informations du moment de la capture de l’image-requête. Ces informations sont modélisées par les fonctions geo(iq) et temps(iq).

2.1. Dénitions et notations

Les tags.

Ce sont essentiellement des mots-clés ou des expressions choisies librement par des utilisateurs pour décrire des ressources numériques. Selon les plateformes, l’étiquetage des photos peut être réalisé par son propriétaire et/ou les personnes qui consultent la photo. Dans la Figure II.2.2, nous illustrons un exemple d’image avec ses tags provenant de la plateforme de partage Panoramio. L’image du Tower Bridge illustrée dans la Fi- gure II.2.2 est étiquetée par les quatre tags : Bridges, London, Thames, Google Earth. De cette façon, n’importe quel internaute peut par la suite accéder à cette photo à partir d’un de ses tags (par navigation ou interrogation) qui sont présentés sous la forme de liens hypertextes.

Figure II.2.2 – Exemple d’une image annotée sur la plateforme de par- tage Panoramio.

Par la suite, nous présentons trois fonctions de pondération qui seront utilisées ulté- rieurement dans le processus d’annotation d’images afin de trouver les tags les plus des- criptifs pour une image-requête.

2.1.2 Principe de classement

Afin de pouvoir modéliser les descripteurs des images considérés à des fins d’annota- tion, nous pressentons dans cette section trois fonctions de pondération sur lesquelles ils reposent : (1) tf × idf, (2) entropie et (3) fonctions Kernel. Ces fonctions sont également utilisées dans plusieurs domaines scientifiques, tels que la RI classique (Spärck Jones, 1979), la détection d’opinions (Gerani et al., 2010) et la prédiction d’étiquettes sociales (Heymann et al., 2008). Nous les détaillons ci-dessous avant de les utiliser dans les sec- tions suivantes en tant que fonctions de classement pour les tags.

Modélisation des descripteurs de thématique, de spatialisation et de temporalité

(1) tf × idf

Comme le nom l’indique, cette métrique est basée sur la combinaison des deux fac- teurs : fréquence du tag (tf ) et fréquence inverse du tag (idf ) (équation 2.1) :

tf idf(t, d) = tf(t, d) × idf(t) (2.1) Dans le domaine de la RI ces facteurs sont définis comme suit :

(a) la fréquence du terme t dans un document (tf ) représente le nombre d’occur- rences du terme t dans le document donné d.

(b) la fréquence inverse du terme t dans les documents (idf ) mesure la rareté du terme t dans l’ensemble d’une collection de documents. Un terme globalement rare (idf élevé) est discriminant pour les documents qui les contiennent. Cette mesure est généralement exprimée comme suit :

idf(t) = log2

 |D|

|{d: t ∈ d}|



(2.2) où D est la collection de documents, |D| est le nombre total de documents dans la collection et |{d: t ∈ d}| le nombre des documents contenant le terme t. La manière dont nous employons cette métrique de la RI dans le cadre de nos travaux est présentée dans la section II.2.2.

(2) Entropie

Pour capturer la généralité d’un tag, nous nous sommes inspirés des travaux des sys- tèmes d’étiquetage qui utilisent la mesure d’entropie (Chi et Mytkowicz, 2008; Hey- mann et al., 2008; Song et al., 2011). Par exemple, Heymann et al. (2008) utilisent cette mesure pour analyser la prédictibilité d’un tag. Plus précisément, ils utilisent la distri- bution de cooccurrence d’un tag avec d’autre tags. D’autres travaux, comme ceux de Song et al. (2011), utilisent l’entropie pour mesurer le niveau de spécificité d’un tag (équation 2.3). Une telle approche est abordée dans le cadre de ce mémoire pour iden- tifier le degré de spécificité d’un tag t par rapport à la spatialité et temporalité d’une image-requête (voir section II.2.2.2). L’équation 2.3 définit l’entropie par :

H(t) = −

N X i=1

p(ti) log (p(ti)) (2.3)

où N représente le nombre de thèmes (c.-à-d. sujets ou domaines spécifiques tels que

programmation, photographie, voyage. . . ; chaque thème étant composé d’un nombre

de documents représentatifs pour le sujet du thème) dans lesquelles le tag t apparaît et p(ti) représente la probabilité que le tag t apparaît dans les documents du thème i.