• Aucun résultat trouvé

2.3 Processus général de recherche d’images

2.3.2 Recherche d’images par mots-clés

Dans la Figure I.2.9, nous illustrons l’architecture générale du processus de recherche d’images par mots-clés. Cette architecture est composée de deux modules principaux : le module de rechercheet le module d’annotation, notés a) et b).

Recherche d’images par mots-clés

Module d’annotation Indexation/Annotation Représentation des images Contexte d’images Annotation Anno1 Anno2 Anno3 … Collection d’images Requête /Annotation Indexation Représentation images Représentation de la requête Module de recherche Indexation Représentation d’image Représentation de la requête Appariement requête-image Appariement requête-image Requête Traitement de la requête Requête Indexation Représentation de la requête Représentation de la requête Requête Traitement de la requête

Figure I.2.9 – Processus général de recherche d’images par mots-clés.

a) Module de recherche.

La phase d’indexation pour ce type de recherche consiste à représenter les images de la collection par des descripteurs textuels. Ainsi, dans la phase d’appariement requête-image, la requête textuelle formulée par un individu est comparée aux index

2.4. Bilan

textuels d’images de la collection indexée. Les techniques de la RI présentées dans la section précédente peuvent être employées pour restituer les images dont les descrip- teurs textuels sont les plus proches de ceux de la requête. Pour ce type de recherche, nous qualifions les systèmes suivants de « commerciaux » : Yahoo !16, Google Images17, Bing18.

b) Module d’annotation.

Le module d’annotation intervient en amont du module de recherche. Il permet d’as- socier des descripteurs textuels (mots-clés, étiquettes, termes) aux images d’une col- lection. Ensuite, ces derniers peuvent être utilisés dans la phase d’indexation, puis ultérieurement dans le processus de recherche d’images par mots-clés.

2.4

Bilan

Dans le cadre de cette thèse, nos travaux portent sur le module d’annotation des images, notre objectif étant d’associer aux images des mots-clés qui les décrivent de fa- çon pertinente. Dans cette section, nous avons détaillé les concepts fondamentaux du domaine de la recherche et de l’annotation d’images. De plus, nous avons présenté l’ar- chitecture générale d’un processus de recherche d’images par contenu et par mots-clés. La section suivante expose un état de l’art de l’annotation d’images où la problématique d’association du texte aux images est abordée.

16. http://images.search.yahoo.com 17. http://images.google.fr 18. http://www.bing.com/images

3

Zoom sur le processus

d'annotation sémantique d'images

É

TANT DONNÉque la recherche d’images par le texte (via des mots-clés) nécessite l’as- sociation de descripteurs textuels aux images, des approches pour les décrire de fa- çon automatique sont indispensables. C’est pourquoi, dans ce mémoire, nous nous in- téresserons à l’annotation automatique d’images. Elle peut être abordée de deux façons différentes en fonction des informations disponibles dans les collections d’images (voir section I.2.2.2) :

1. l’annotation automatique d’images basée sur le contenu des images : dans ce cas, les images sont décrites seulement par leurs caractéristiques visuelles ;

2. l’annotation automatique d’images contextualisées : dans ce cas, outre les caractéris- tiques visuelles des images, d’autres informations sont considérées. Ces informations font référence au contexte des images (le lieu de la prise de vue, par exemple) et à l’intelligence collective (c.-à-d. les tags que les utilisateurs des plateformes de partage d’images assignent aux images).

Quelle que soit l’approche, l’annotation d’images reste un problème ouvert. Ce pro- blème dépend surtout du type des collections (par exemple, médicales, satellitaires, de type paysage. . .), de la taille des collections, des caractéristiques des images, etc. Dans le cadre de ce mémoire nous nous sommes intéressés à l’annotation automatique d’images de type paysage en employant des caractéristiques spécifiques à cette tâche, que nous dé- taillons dans la deuxième partie (p. 53).

La présente section est consacrée au processus d’annotation d’images dont nous pré- sentons les catégories d’annotation existantes, avec leurs avantages et limites dans la sec- tion I.3.2. En nous focalisant sur l’annotation automatique d’images, nous détaillons les deux catégories d’annotation automatique mentionnées précédemment, en soulignant leurs apports et limites dans la section I.3.3. La section I.3.4 expose les systèmes d’an- notation d’images proposés dans la littérature. Dans la section I.3.5 nous identifions les

Zoom sur le processus d'annotation sémantique d'images

limites des approches d’annotation automatiques d’images au regard des collections de type paysage. Enfin, la section I.3.6 conclut la présente section.

3.1

L’annotation d’images : lien entre le contenu visuel

et la sémantique des images

Le processus d’étiquetage d’images avec des mots-clés (également appelés termes, tags ou étiquettes) est appelé dans la littérature « processus d’annotation d’images ». Plus pré- cisément, il vise à inférer les relations entre le contenu des images et des concepts séman- tiques. Les résultats d’un processus d’annotation pourraient être utilisés par la suite dans le processus d’indexation et de recherche d’images. Dans la Figure I.3.1 nous illustrons les résultats attendus pour une image-requête concernant la Tour Eiffel.

image requête

Figure I.3.1 – Processus d’annotation d’une image-requête représentant la Tour Eiffel.

Nous pouvons observer sur la figure que les termes qui annotent l’image-requête de la Tour Eiffel font référence à plusieurs aspects de l’image : son contenu (par exemple, la couleur : bleue, les étoiles), son contexte (par exemple, Paris, Tour Eiffel, 2008), etc.

Pour formaliser la façon dont les images peuvent être décrites, Shatford (1985) a em- ployé la matrice de Pansofsky. Cette matrice comporte quatre facettes : qui, quoi, où et quand sur trois niveaux : spécifique, générique et qui porte sur quelque chose. Par exemple, la facette « qui » fait référence aux travaux qui concernent la tâche de reconnaissance des visages dans les images. La combinaison « qui/spécifique » pré- cise les noms des personnes qui sont illustrées dans l’image, tandis que la combinaison « qui/générique » précise seulement le fait que l’image illustre des personnes et pas leurs noms. Pour plus de détails nous renvoyons le lecteur aux travaux de Purves et al. (2008).

Nous pouvons constater que la description textuelle des images est un processus qui dépend forcément de plusieurs critères : le contenu des images, la dépendance du type