Recherche d’images par contenu - Processus général de recherche d’images

2.3 Processus général de recherche d’images

2.3.1 Recherche d’images par contenu

Le terme « recherche d’images par le contenu » a été utilisé pour la première fois dans les travaux de Kato (1992). Cette recherche est basée sur les caractéristiques visuelles des images (c.-à-d. caractéristiques globales et locales). La recherche d’images par le contenu est composée de deux phases principales : l’indexation et l’appariement requête-image(Figure I.2.7), similaire au processus en U de la RI.

a) Phase d’indexation

La phase d’indexation est un processus hors ligne (en anglais : offline). Il consiste à représenter les images d’une collection par leurs contenus visuels. Ainsi, chaque image est indexée sous une forme condensée représentée par des vecteurs de caractéristiques visuelles, par des histogrammes de couleurs, histogrammes de texture, etc.

De la recherche d'information textuelle à la recherche d'images

Indexation/Annotation

Représentation des images Contexte d’images

Recherche d’images par contenu Collection d’images Requête /Annotation Indexation Représentation images Représentation de la requête Indexation Représentation de chaque image Représentation de la requête Appariement requête-image Appariement requête-image Requête Traitement de la requête Collection d’images Requête Indexation Représentation de la requête Représentation de la requête Requête Traitement de la requête

Figure I.2.7 – Processus général de recherche d’images par contenu. b) Phase d’appariement requête-image

La phase d’appariement requête-image permet de mesurer la pertinence des images indexées vis-à-vis d’une requête image. Cette pertinence est représentée par un score qui peut être calculé à partir des mesures de distance entre les représentations des des- cripteurs visuels d’images (par exemple, distance Euclidienne, distance de Hamming, cosinus, Manhattan, Minkowski. . .). Ces mesures sont détaillés dans les travaux de Liu et al. (2008) et de Fauqueur (2003).

Pour une description détaillée de la recherche d’images par le contenu, nous renvoyons le lecteur aux travaux de Smeulders et al. (2000) qui présentent une synthèse de 201 réfé- rences sur ce sujet, ainsi qu’aux travaux plus récents de Datta et al. (2005).

Au cours des années, plusieurs prototypes basés sur la caractéristique du contenu des images ont été développés. Certains ont été développés en tant que systèmes commer- ciaux et d’autres en tant que prototypes de recherche dans les universités et les labora- toires de recherche. Nous en détaillons quelques-uns ci-dessous.

– QBIC (Query by Image Content ) est un prototype commercial développé par IBM (Fli- ckner et al., 1995). Il recherche des images en utilisant des caractéristiques telles que la couleur, la forme et la texture. Les utilisateurs peuvent esquisser une forme, sélec- tionner des couleurs, indiquer la distribution des couleurs et prédéfinir la texture. – Photobook est un prototype développé par le MIT (Massachusetts Institute of Tech-

nology) pour la reconnaissance des visages (Pentland et al., 1996). Il emploie des ca-

ractéristiques telles que la forme et la texture et accepte conjointement des requêtes images et des requêtes textuelles.

2.3. Processus général de recherche d'images

– Virage est un prototype commercial développé par la société Virage Incorporation (Bach et al., 1996). Ce système a été intégré dans les bases de données Sybase, Objet

Design, et Objectivity et a été ajouté en tant que composant du SGBD Oracle. Les

applications AltaVista PhotoFinder et Illustra’s Visual Intelligence sont des applications qui utilisent la technologie Virage.

– Parmi les travaux les plus récents, nous mentionnons le prototype FIRE (Flexible

Image Retrieval Engine) qui se distingue des autres systèmes par l’intervention des

utilisateurs à des fin d’affinage des résultats (Deselaers et al., 2005). Ces derniers peuvent sélectionner un ensemble d’images pertinentes et non-pertinentes pour une requête afin de raffiner les résultats renvoyés par le système.

Une description plus complète des systèmes CBIR existants peut être trouvée dans les travaux de Veltkamp et Tanase (2000).

La performance de la recherche d’images basée sur le contenu est loin d’être sa- tisfaisante à cause du fossé sémantique14. Smeulders et al. (2000) définissent le fossé sémantiquecomme :

« le manque de concordance entre l’information extraite à partir des données visuelles d’une image et l’interprétation qu’un utilisateur fait de ces données dans une situation

précise »15_.

Ainsi, des images différentes du point de vue sémantique peuvent avoir des caracté- ristiques de bas niveau (visuelles) en commun. Afin d’illustrer ce problème nous prenons l’exemple des deux images de la Figure I.2.8. Ces images possèdent des histogrammes de couleurs similaires, mais, du point de vue sémantique, elles sont différentes : dans le pre- mier plan de la première image figurent des fleurs, alors que la deuxième image montre un homme en train de jouer au golf. La quantité de rouge sur la chemise du golfeur est approximativement égale à celui des fleurs.

Franchir le fossé sémantique est une problématique de recherche depuis plus de dix ans. Pour réduire la largeur du fossé, des travaux plus récents amènent de la sémantique aux images en s’appuyant sur des techniques qui associent du texte aux images. Ces techniques sont en lien avec les approches d’annotation d’images (voir section I.3). Ces approches d’annotation font également partie du processus de recherche d’images par mots-clésque nous présentons dans la section suivante.

14. en anglais : semantic gap

15. en anglais : « the semantic gap is the lack of coincidence between the information that one can extract

De la recherche d'information textuelle à la recherche d'images

(a) Fleurs (b) Homme en train de jouer au golf

Figure I.2.8 – Les deux images présentent des histogrammes de couleurs similaires. Les images sont extraites de (Pass et Zabih, 1999).

Dans le document Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web (Page 53-56)