Annotation automatique d’images contextualisées

3.3 Annotation automatique d’images

3.3.2 Annotation automatique d’images contextualisées

Les approches traitées dans cette section annotent les images en utilisant des informations qui se trouvent sur des plateformes de partage de photos (par exemple,flickr.com, panoramio.com). Ces approches supposent qu’il existe une base de données volumineuse d’images annotées (c.-à-d. des plateformes de partages d’images) qui peut être exploitée afin de trouver des images annotées similaires à une image-requête (Li et al., 2009). Ainsi, l’annotation de l’image-requête se fait en propageant les informations textuelles (tags) des images similaires.

Afin de classifier les travaux de la littérature, nous considérons le processus d’annotation automatique d’images contextualisées comme un processus en deux étapes principales, comme l’illustre la Figure I.3.3 : génération d’annotations candidates, puis affinage d’annotation.

Collection d'images

Figure I.3.3 – Processus d’annotation d’images. 1. Génération d’annotations candidates.

Le processus de génération d’annotations candidates consiste à trouver un ensemble d’images similaires à une image-requête ainsi que leurs métadonnées (par

3.3. Annotation automatique d'images

exemple, tags, informations concernant les utilisateurs, titres, commentaires. . .). Par l’extraction des informations textuelles de ces métadonnées, une liste d’annotations candidates est constituée pour une image-requête. Les techniques de sélection d’images similaires utilisées dans la littérature se basent en particulier sur les caracté- ristiques visuelles, contextuelles (par exemple, celles de spatialisation) et sociales des images. Nous pouvons les classifier en deux catégories, notées a) et b) :

a) Techniques qui se basent sur une seule caractéristique. Par exemple, (Silva et Mar- tins, 2011; Hughes et al., 2012) n’emploient que les caractéristiques de spatialisation (c.-à-d. la latitude et la longitude) pour identifier les images qui sont similaires à une image-requête. Avec le même objectif, (Barai et Cardenas, 2010; Wu et al., 2011) n’utilisent que les caractéristiques de bas niveau des images. De plus, des travaux utilisent les caractéristiques textuelles des images (Kucuktunc et al., 2008; Sigurb- jörnsson et van Zwol, 2008). Dans ces travaux, un ou deux termes initiaux (c.-à-d. attribués par un individu pour une image-requête) sont utilisés pour trouver des images similaires. Pour être considérées similaires, ces images doivent contenir tous les termes initiaux. Cette caractéristique textuelle est surtout utilisée pour étendre la liste initiale des termes. Par ailleurs, Eom et al. (2011) soulignent l’importance de la caractéristique sociale dans le processus d’annotation. Plus précisément, ils utilisent la liste d’images préférée de l’utilisateur qui a pris l’image-requête afin de réaliser une recommandation personnalisée des tags.

b) Techniques qui se basent sur l’exploitation de plusieurs caractéristiques. Par exemple, (Moxley et al., 2008; Popescu et Moëllic, 2009; Sergieh et al., 2012) utilisent conjointe- ment les caractéristiques de spatialisation et de bas niveau des images. Tout d’abord, les caractéristiques de spatialisation sont employées. Ensuite, pour être plus précis et pour restreindre l’ensemble des images similaires à considérer, ils utilisent les ca- ractéristiques de bas niveau. D’autres chercheurs (Wang et al., 2006b) utilisent les caractéristiques textuelles et de bas niveau des images.

Le choix des caractéristiques employées dans le processus d’annotation dépend notamment de la collection d’images qu’on veut annoter (c.-à-d. personnelle, spécifiques. . .) et de la scène/objet illustrée dans l’image (c.-à-d. des paysages, des lé- gumes ou fruits, des images médicales). Par exemple, les travaux spécifiques à la tâche d’annotation automatique et de recherche d’images médicales s’appuient principalement sur des caractéristiques visuelles et textuelles (Cheng et al., 2005). Les travaux spécifiques à la tâche d’annotation automatique et de recherche d’images illustrant des paysages reposent principalement sur des caractéristiques spatiales et visuelles (Ser- gieh et al., 2012).

Zoom sur le processus d'annotation sémantique d'images

2. Affinage d’annotations.

Les annotations candidates obtenues par les techniques présentées précédemment sont généralement produites dans un ordre aléatoire, ce qui ne traduit aucune importance ou pertinence par rapport à l’image-requête. Or, il est connu que les individus apportent davantage d’attention au début d’une liste qu’à la fin (order effects (Becker, 1954)). On retrouve ce biais cognitif lorsqu’on observe des utilisateurs de moteur de recherche, qui ne cliquent que sur les premiers documents de la première page des résultats. Afin de lutter contre ce biais, une étape d’affinage des annotation est nécessaire afin de renforcer celles qui sont les plus significatives (descriptives) pour une image-requête. À cet effet, nous présentons dans la suite les principales techniques d’affinage employées dans la littérature qui visent à classer les tags les plus pertinents en tête de liste.

L’une des techniques les plus utilisées consiste à compter le nombre de fois qu’un tag apparaît dans la liste des tags candidats (Wang et al., 2008a,b; Hughes et al., 2012). Ainsi, les tags comptant le plus grand nombre d’apparitions sont utilisés en tant qu’anno- tations. Au fil du temps, diverses techniques d’affinage d’annotations candidates ont été abordées dans la littérature. Ces techniques dépendent notamment de facteurs liés aux caractéristiques des images et aux données encapsulées dans celles-ci. Ces facteurs sont employés à deux niveaux : global et local.

(a) Niveau global.

La pertinence d’un tag se calcule par rapport à l’ensemble des informations as- sociées aux images similaires. Dans ce cas, les images trouvées et similaires sont considérées comme ayant le même degré de pertinence que l’image-requête. Des exemples de facteurs incluent :

– le nombre d’individus différents qui ont utilisé le tag (Silva et Martins, 2011) ; – le nombre de visites Web faites aux images contenant le tag (Silva et Martins,

2011) ;

– la popularité (fréquence) d’un tag dans l’ensemble des tags candidats (Wang et Li, 2009) ;

– le nombre de fois qu’un tag apparaît dans les titres, commentaires, images mar- quées avec l’indication « favori » par les individus (Chen et Shin, 2013).

(b) Niveau local.

La pertinence d’un tag se calcule par rapport au degré de pertinence de chaque image similaire. Dans ce cas, chaque image est plus ou moins similaire avec l’image-requête considérée. Kucuktunc et al. (2008); Sergieh et al. (2012) calculent une similarité visuelle entre l’image-requête et les images trouvées tandis que Silva

3.3. Annotation automatique d'images

et Martins (2011) calculent une similarité spatiale. En outre, d’autres chercheurs (Sergieh et al., 2012) considèrent que la pertinence d’un tag dépend du nombre de

tags employés dans chaque image similaire.

En analysant les travaux présentés ci-dessus, nous observons qu’ils recourent à dif- férents facteurs simultanément. Cela conduit à l’obtention de plusieurs classements de pertinence pour chaque tag. Dans le but d’obtenir un seul classement pour chaque tag, des méthodes d’agrégation des classements sont employées dans la littérature. Nous les présentons dans la section suivante.

Dans le document Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web (Page 66-69)