• Aucun résultat trouvé

Annotation automatique spécifique aux collections formées unique-

3.3 Annotation automatique d’images

3.3.1 Annotation automatique spécifique aux collections formées unique-

Ce type d’annotation s’appuie sur les caractéristiques visuelles des images. Les images peuvent être représentées par les caractéristiques visuelles de trois façons différentes :

– Globalement. Les méthodes globales calculent les caractéristiques des images sur la globalité de l’image (c.-à-d. l’image tout entière) ;

– Localement. Les méthodes locales divisent les images en blocs de taille fixe ou en régions, appelés aussi sous-unités d’images. Les caractéristiques visuelles sont ainsi calculées pour chaque sous-unité séparément.

Zoom sur le processus d'annotation sémantique d'images

– Hybride. Plus récemment, des chercheurs ont montré que la combinaison des mé- thodes globales et locales peut améliorer l’annotation automatique d’images pour certaines tâches, telles que la reconnaissance des visages (Fang et al., 2002; Su et al., 2009) et la détection d’objets dans les images (Lisin et al., 2005). Ces méthodes fi- gurent dans la littérature sous le nom de « méthodes hybrides ».

Une synthèse de ces méthodes est présentée dans les travaux de Bouyerbou et al. (2012).

En utilisant ces représentations différentes des images, les chercheurs proposent di- verses approches pour apprendre des concepts sémantiques (c.-à-d. annotations) à partir des informations de bas niveau (c.-à-d. visuelles). Nous avons identifié dans la littérature trois approches, notées a), b) et c).

a) Approches supervisées.

Les approches supervisées considèrent l’annotation automatique d’images comme un problème de classification, où chaque concept est une classe indépendante. Des classi- fieurs binaires (un pour chaque concept) sont entraînés et les images ou les sous-unités d’images sont ainsi classifiées. Le résultat de la classification représente l’annotation associée aux images. Parmi les algorithmes mis en œuvre dans les approches supervi- sées, nous mentionnons les plus employées dans la littérature : machines à vecteurs support (SVM — Support Vector Machine) (Chapelle et al., 1999), les k plus proches voi- sins (K-NN — k-nearest neighbors) (Guo et Luo, 2010), les réseaux de neurones (Zhao et al., 2008), les arbres de décision (Jiang et al., 2009), l’approche bayésienne (Vailaya et al., 2001), Multiple-Instance Learning (Carneiro et al., 2007), etc.

En utilisant ces techniques, les images sont classifiées en diverses classes, telles que in- térieur versus extérieur, bâtiments versus non-bâtiments, etc. Même si les approches supervisées améliorent la performance car les classes (concepts) sont connues aupa- ravant, elles sont limitées aux caractéristiques visuelles considérées au moment de la définition des classes. De plus, elles sont surtout efficaces dans des bases d’images spé- cifiques, contenant un nombre restreint d’objets.

b) Approches non-supervisées.

Par rapport aux approches supervisées, les approches non-supervisées passent davan- tage à l’échelle en termes de nombre de classes et des concepts ; elles traitent le pro- blème de l’annotation d’une manière plus générale. Ces approches utilisent majoritai- rement des modèles probabilistes pour représenter la corrélation entre les caractéris- tiques visuelles d’images et les mots-clés.

Mori et al. (1999) présentent un des premiers travaux d’annotation d’images. Ils pro- posent un modèle de co-occurrence pour représenter la relation entre mots-clés et

3.3. Annotation automatique d'images

caractéristiques visuelles. Le processus d’annotation se fait de la manière suivante : chaque image est découpée en une grille de régions rectangulaires et chaque région hérite de tous les mots-clés de l’image. Ensuite, les descripteurs visuels sont extraits de chaque région et regroupés dans des clusters. Enfin, pour une image-requête non an- notée, le même processus est employé afin de trouver le plus proche cluster de chaque région. Les mots choisis en tant qu’annotations sont les mots pour lesquels les plus fortes probabilités sont obtenues.

Par ailleurs, Duygulu et al. (2002) ont proposé un modèle de traduction (machine trans-

lation model) pour assigner à un groupe de régions d’images visuellement similaires

(blob) un ensemble de mots-clés. Une image-requête est annotée par les mots asso- ciés à chacune de ses régions. Jeon et al. (2003) améliorent les résultats de Duygulu et al. (2002) en introduisant un modèle de génération de langage — CMRM Cross Me-

dia Relevance Model — qui assigne des annotations sur la globalité des images et pas

uniquement sur des blobs spécifiques. De plus, Lavrenko et al. (2003) ont proposé le modèle CRM (Continuous-space Relevance Model) qui améliore le modèle CMRM en ne recourant pas aux techniques de clustering. Il n’est par conséquent pas impacté par le problème de la granularité.

Par rapport aux approches supervisées, les approches non-supervisées ont besoin d’un nombre plus grand de données pour le processus d’apprentissage.

c) Approches semi-supervisées.

Pour tirer des bénéfices à la fois des approches supervisées et non-supervisées, cer- tains travaux récents ont adopté les approches semi-supervisées. Lorsque les données d’apprentissage sont limitées (ce qui est souvent le cas), ces types d’approches sont plus efficaces que les approches supervisées. Cela est dû à l’utilisation simultanée des données étiquetées et non-étiquetées dans le processus de classification (Bilenko et al., 2004). Une description détaillée de ces approches est faite par Zhu (2005).

Pour résumer, l’annotation automatique d’images spécifiques aux collections formées uniquement d’images se heurte à plusieurs écueils. Il y aura toujours un effort à fournir pour produire un ensemble parfait de données qui sera utilisé comme référence dans le processus d’apprentissage. Ces approches d’annotation sont envisageables pour des col- lections spécifiques et de faible taille avec un nombre restreint de concepts. Par consé- quent, il est impossible de les utiliser sur des collections avec des millions d’images et des milliers de classes (Rohrbach et al., 2010) ; coûteuse en terme de calcul, ce qui rend plus difficile le passage à grande échelle (eu égard à la croissance des images sur le Web). Pour contrebalancer ces limites, les chercheurs utilisent des informations liées aux contextes des images disponibles sur le Web (voir section I.2.2.1). Nous détaillons ces aspects dans la

Zoom sur le processus d'annotation sémantique d'images

section suivante, dans laquelle nous traitons l’annotation automatique d’images contex- tualisées.