Caractéristiques d’images - Concepts fondamentaux de la recherche d’images

2.2 Concepts fondamentaux de la recherche d’images

2.2.1 Caractéristiques d’images

Les informations ou caractéristiques associées aux images sont généralement appe- lées des métadonnées (Enser, 2000). Ces métadonnées peuvent être classifiées en deux grandes catégories : a) métadonnées basées sur le contenu des images et b) métadonnées basées sur le contexte des images. Dans la Figure I.2.3, nous illustrons la taxonomie des caractéristiques d’images que nous détaillons dans cette section.

Figure I.2.3 – Taxonomie des caractéristiques d’images. a) Métadonnées basées sur le contenu des images.

La littérature présente deux types de métadonnées, appelées également descripteurs, pour décrire le contenu des images : globales et locales. Les descripteurs globaux dé- crivent l’image dans son ensemble, tandis que les descripteurs locaux représentent

De la recherche d'information textuelle à la recherche d'images

l’image par des régions ou segments. Les informations globales et locales les plus uti- lisées dans la littérature, notamment dans le domaine de CBIR (Content Based Image

Retrieval6) sont les suivantes :

– descripteurs globaux : couleur (par exemple, histogramme des couleurs (Swain et Ballard, 1991)), forme (par exemple, transformée de Hough (Duda et Hart, 1972; So- laiman et al., 1998)), texture (par exemple, Tamura (Tamura et al., 1978), Gabor (Man- junath et Ma, 1996)) ;

– descripteurs locaux : le descripteur SIFT (Scale Invariant Feature Transform) (Lowe, 2004) et le descripteur SURF (Speeded Up Robust Features) (Bay et al., 2008). Le descripteur SIFT est utilisé pour détecter et identifier des éléments similaires entre différentes images (par exemple, éléments de paysages, personnes, etc.). Pour ce faire, il représente chaque point d’intérêt des images par un histogramme 3D des orientations du gradient de l’intensité dans une grille 4 × 4. L’angle du gradient est quantifié en 8 orientations, ce qui donne finalement un vecteur descripteur SIFT de dimension d = 128. Le descripteur SURF est inspiré par le descripteur SIFT et vise à améliorer les performances de ce dernier. L’étude comparative (Luo et Gwon, 2009) met en évidence sa robustesse aux différentes transformations d’images et sa rapidité par rapport au descripteur SIFT.

Pour une description détaillée des principaux descripteurs utilisés pour les systèmes CBIR, nous renvoyons le lecteur aux travaux de synthèse de Smeulders et al. (2000) et de Fournier (2002).

b) Métadonnées basées sur le contexte des images.

Nous considérons que le contexte d’une image peut être représenté par deux types de caractéristiques : a) internes et b) externes. Ces métadonnées ne concernent pas le contenu des images et font référence à des métadonnées disponibles à la fois via le Web, ainsi que dans les spécifications des formats des fichiers d’images (le format EXIF (JEIDA, 2002), par exemple).

a) Caractéristiques internes.

Nous présentons ci-dessous quelques caractéristiques internes des images :

– La localisation est représentée par des informations géographiques (c.-à-d. la la- titude et la longitude) provenant éventuellement d’un système GPS connecté à l’appareil (téléphone mobile, caméra, par exemple) ;

– La temporalité est représentée par les informations de date et heure correspon- dant au moment de la capture d’image. Cette caractéristique a été utilisée dans

2.2. Concepts fondamentaux de la recherche d'images

la littérature pour améliorer la navigation dans une collection de photos numé- riques (Graham et al., 2002), pour la visualisation des tags au fil du temps dans Flickr (Dubinko et al., 2006), etc. ;

– Le réglage de l’appareil est représenté par des informations telles que la marque et le modèle de l’appareil, l’orientation, la résolution, la sensibilité, etc. ;

– Des informations concernant l’auteur qui a pris la photo ; – Des informations relatives au copyright, etc.

Dans le cadre de cette thèse nous explorons essentiellement deux types d’informations : celles de localisation et de temporalité. Ce type d’informations internes peut être obtenu à l’aide de trois techniques présentées ci-dessous, notées (i), (ii) et (iii).

(i) Le moyen le plus pratique pour accéder à ces d’informations consiste à les ex- traire à partir des fichiers d’images. La littérature présente plusieurs formats d’images, y compris :

– Le format EXIF (EXchangeable Image File) a été développé par l’association JEIDA (Japan Electronic Industry Development Association) en 1995 (JEIDA, 2002). Dans la Figure I.2.4, nous présentons un exemple avec le contenu d’un fichier EXIF extrait à l’aide du logiciel Opanda Power EXIF7 pour une image prise au Sacré-Cœur de Montmartre. Les informations de localisation et du moment de la capture de l’image se trouvent dans les champs Camera et GPS (voir Figure I.2.4).

– Le format IPTC Information Interchange Model (IIM) (International

Press Telecommunications Council) a été développé au début des années

1990 et revu en 1994 par Adobe Systems qui définit les métadonnées inclues dans les images numériques. Ce format contient des informations relatives au copyright, à l’auteur, au lieu de la prise de vue, etc.

– Le format XMP (Extensible Metadata Platform) publié par Adobe Systems en 2001. Il est basé sur le langage de balisage XML (Extensible Markup Lan-

guage) et comprend tout type de métadonnées, y compris EXIF et IPTC.

Pour une présentation détaillée de ces formats et d’autres formats nous renvoyons le lecteur au chapitre 8 du livre (Schallauer et al., 2011).

(ii) Une deuxième technique d’accès aux informations de localisation et de tem- poralité des images peut être constituée par la connaissance des individus. Par exemple, ils peuvent spécifier ces informations lorsque les images sont sau- vegardées sur le disque dur d’un ordinateur ou publiées sur le Web. Actuelle- ment, les plateformes de partage d’images en ligne offrent aux utilisateurs la possibilité de localiser une image à l’aide d’une carte. Nous prenons l’exemple

De la recherche d'information textuelle à la recherche d'images

Figure I.2.4 – Exemple de contenu du fichier EXIF d’une image prise au Sacré-Cœur de Montmartre.

de la plateforme de partage d’images Panoramio et nous illustrons dans la Fi- gure I.2.5 sa fonctionnalité de localisation à l’aide d’une image prise à proxi- mité de la Cathédrale Sainte-Cécile d’Albi. Les internautes qui utilisent cette plateforme ont à leur disposition deux possibilités pour localiser des images : – premièrement, ils peuvent directement cliquer sur la carte pour sélectionner

l’emplacement des images ;

– deuxièmement, lorsque les internautes connaissent le nom de l’endroit où la photo a été prise, ils peuvent le saisir à l’aide d’une boîte de recherche (Figure I.2.5).

De ce fait, les images peuvent être automatiquement enrichies avec les méta- données de localisation.

(iii) Enfin, une troisième technique employée dans la littérature est basée sur les approches de classification d’images (Hays et Efros, 2008; Crandall et al., 2009; Serdyukov et al., 2009). Ces approches reposent en général sur le contenu des images et, plus précisément, sur une similarité visuelle calculée entre les

2.2. Concepts fondamentaux de la recherche d'images

Figure I.2.5 – Image de Cathédrale Sainte-Cécile d’Albi géolocaliséé à l’aide de la plateforme Panoramio.

images. Hays et Efros (2008) utilisent des caractéristiques visuelles des images et des méthodes de classification afin de prédire leur localisation. Crandall et al. (2009) proposent un système basé sur des caractéristiques visuelles et textuelles pour placer les images sur une carte. De plus, avec le même objectif, Serdyukov et al. (2009) proposent un modèle de langue basé sur des caractéris- tiques textuelles (c.-à-d. tags) fournies par les utilisateurs.

Les deux dernières techniques, (ii) et (iii), sont moins précises et plus coûteuses que la première technique (i). Elles peuvent être employées lorsque l’information de localisation n’est pas accessible de façon automatique à partir des formats d’image. Ces travaux ne font pas partie des objectifs de ce mémoire. Par conséquent, dans notre recherche nous faisons l’hypothèse que les informations de localisation et de temporalité sont déjà disponibles dans les formats d’images.

b) Caractéristiques externes.

Nous classons les caractéristiques externes des images en deux catégories, notées (i) et (ii) :

(i) Caractéristiques Textuelles.

Les caractéristiques textuelles font référence à des mots-clés (termes) associés aux images. Ces caractéristiques textuelles d’images peuvent provenir de deux

De la recherche d'information textuelle à la recherche d'images

sources :

– premièrement, elles peuvent être extraites à partir du voisinage textuel d’images, tel que le titre du document qui les contiennent ou les paragraphes qui les entourent dans les documents. Cette technique est notamment utili- sée par le moteur de recherche Google Images8_{: en réponse à une requête}

constituée de mots-clés, le moteur de recherche restitue les images conte- nues dans les pages qu’il juge pertinentes.

– deuxièmement, elles peuvent être issues de plateformes de partage d’images dans lesquelles les individus publient leurs images et les annotent eux- mêmes à l’aide de tags (mots-clés) qu’ils choisissent librement.

(ii) Caractéristiques Sociales.

Les caractéristiques sociales font référence aux activités sociales des internautes sur le Web, dans notre cas sur les plateformes de partage d’images. Parmi les activités sociales d’un individu, nous mentionnons quelques-unes qui ont été employées dans les travaux de Rae et al. (2010) et Chen et Shin (2013) : les notes qu’il attribue, les commentaires qu’il écrit, les réseaux sociaux auxquels il participe, la liste de ses images préférées. . .

Dans le cadre de cette thèse, nous nous intéressons à l’annotation d’images basée sur les métadonnées internes des images (c.-à-d. localisation et temporalité) et sur les informations textuelles.

Dans le document Annotation d'images via leur contexte spatio-temporel et les métadonnées du Web (Page 45-50)