Indexer des photos via leur contexte spatio-temporel

Avec la démocratisation de dispositifs mobiles et connectés tels que les smartphones, prendre une photo est désormais chose aisée : plus de 880 milliards de photos seraient prises en 2014 selon Yahoo (AFP,2013). Ces photos sont stockées sur nos disques durs et parfois publiées en ligne pour constituer des albums ou illustrer des documents. Des sites spécialisés en partage de photos, tels que Flickr¹, permettent également de les dé-crire à l’aide de diverses métadonnées. Certaines métadonnées sont extraites du fichier stockant la photo : des appareils y mémorisent leurs caractéristiques techniques (marque et modèle, réglages de la lentille, etc.) et le contexte de la prise de vue (coordonnées GPS,

date et heure). D’autres métadonnées sont renseignées par les photographes eux-mêmes, comme les tags qui décrivent la photo par des mots librement choisis par l’individu.

Comment accéder aux photos qui sont typiquement prises, stockées sur nos disques durs, visionnées une fois et plus jamais accédées faute de possibilité d’interrogation ? C’est la problématique de la thèse de M˘ad˘alina Mitran (2014), que nous avons initiale-ment formulée dans (Mitran et al.,2011).

Nous sommes partis du constat suivant : les individus sont familiers de la recherche par mots-clés. La question devient alors : comment indexer des photos dont on ne connaît que le contenu et les métadonnées afin de les restituer via un moteur de recherche par mots-clés ?

L’approche proposée vise à exploiter l’intelligence collective (Surowiecki,2005) des individus qui ont pris des photos, les ont postées sur un site de partage et ont fait l’ef-fort de les décrire avec des tags (dimension thématique). Nous avons formulé l’hypothèse suivante : une photo est indexable par les tags récurrents des photos prises à proximité (dimension spatiale) et au même moment (dimension temporelle). L’hypothèse de simi-larité entre images par cooccurrence spatiale n’est pas originale (voir, par ex. Silva & Mar-tins, 2011). Cependant, elle nous est apparue insuffisante pour la recommandation de tags. En effet, la description d’un lieu photographié devrait, selon toute vraisemblance, être adaptée selon les événements qui y ont lieu, comme l’illustre la figureI.2.1. L’origina-lité de notre approche d’indexation de photo par crowdsourcing repose sur l’exploitation conjointe des dimensions thématique, spatiale et temporelle qui sont associées aux pho-tos contribuées par les internautes.

time Eiffel Tower Paris France fireworks sparks 14 July

Paris Eiffel Tower

t2 t1 Pi t2

Recommended tags ^{- Eiffel Tower} - Paris - France Versiunea 3 fréquence du tag temps Eiffel Tower Paris France

fireworks ^sparks 14 July

Paris Eiffel Tower

t0: 12 mai 2006 t1: 14 juillet 2010 t2: 20 février 2012 Tags recommandés ^{- Eiffel Tower}

- Paris - France

fréquence du tag

Figure I.2.1 – Illustration du rôle de la dimension temporelle dans l’indexation de photos similaires au

re-gard de la dimension spatiale, c.-à-d. prises sensiblement au même endroit (Mitran,2014, p. 74). Les photos prises autour de la Tour Eiffel ne devraient pas être indexées de la même manière qu’elles soient prises un jour quelconque de l’année (le 20 février 2012, par exemple) ou un 14 juillet, jour de la fête nationale. Cette limite des approches de l’état de l’art est illustrée dans la présentation de thèse de M˘ad˘alina Mitran à l’aide de nombreux autres exemples réels :http://www.irit.fr/publis/SIG/2014_TheseExpose_M.pdf.

Le processus d’indexation d’une « photo-requête » se déroule en deux étapes. Pre-mièrement, les métadonnées spatio-temporelles sont extraites du fichier photo pour sé-lectionner les photos contribuées qui lui sont proches spatialement et temporellement, à l’aide de fonctions de similarité expérimentées dans (Mitran et al.,2013). Les tags des photos sélectionnées sont considérés comme candidats pertinents pour indexer la photo-requête. Deuxièmement, un modèle de langue estime la probabilité de pertinence d’un

tag pour la photo-requête selon les trois dimensions : thématique, spatiale et temporelle. La formalisation est détaillée dans (Mitran et al.,2014; Mitran,2014, chap. 3). Au final, la photo-requête est indexée avec les n tags de plus fort poids : ce sont les plus présents sur les photos prises « autour de » et « simultanément à » la capture de la photo-requête. Nos expérimentations synthétisées en figureI.2.2montrent que l’emploi des caractéristiques de spatialisation, de thématique et de temporalité des photos améliore la qualité de l’in-dexation comparativement aux approches de la littérature (Hsiao, Chen & Chen, 2008; Sergieh et al.,2012; Silva & Martins,2011).

0,261 0,345 0,301 0,361 0,414 0,391 0,493 0,566 0,543 0,4 0,6 0,8 baselineTF baselineSM GT-TRM 0,0 0,2 P@5 MAP Rprec

Figure I.2.2 – Résultats de l’expérimentation du modèle d’indexation des photos à partir de caractéristiques

de spatialisation, de thématique et de temporalité (Mitran,2014, p. 124). La collection de test comprend ∼200 000 photos géolocalisées, datées et étiquetées avec des tags sur la zone de Paris. La qualité de l’in-dexation est mesurée selon la P@5, la MAP et la Rprec sur un échantillon de 200 photos. La vérité terrain est constituée des tags initialement associés aux photos. Notre approche GT-TRM est comparée à deux ap-proches de référence : baselineTF est thématique (Hsiao, Chen & Chen,2008; Sergieh et al.,2012), tandis que baselineSM exploite notamment la localisation des photos (Silva & Martins,2011). Notre approche est significativement plus performante que ces deux lignes de référence (respectivement +64% et +37% sur la

MAP).

Dans un second temps, nous avons fait l’hypothèse que la liste des tags générée par le processus précédemment décrit pourrait être étendue en exploitant les ressources disponibles sur le web. Nous avions l’intuition que les tags des photos proches spatio-temporellement pourraient être complétés par des mots présents sur des pages web trai-tant de l’événement ou du lieu photographié (Mitran,2014, chap. 4). Ainsi, nous avons proposé d’interroger un moteur de recherche du web à partir des tags initiaux (tels que AC/DC,Wembley,stadium, London,26 June 2009) pour identifier les pages po-tentiellement pertinentes et en extraire des mots pertinents, sur le modèle de l’expansion de requête. Nos expérimentations synthétisées en figureI.2.3valident notre hypothèse en soulignant l’intérêt d’utiliser conjointement 1) les tags des photos prises dans la même fe-nêtre spatio-temporelle que la photo à indexer et 2) les pages web susceptibles de traiter du sujet de la photo.

0,261 _0,256 0,496 0,447 _0,436 0,510 0,4 0,6 0,8 baseline (GT-TRM) AppExTg 0,261 0,198 _0,180 0,256 0,0 0,2

P@30 MAP GMAP R-précision

AppExTg

Figure I.2.3 – Résultats de l’expérimentation du modèle d’indexation des photos initial (GT-TRM) et de son

extension (AppExTg) (Mitran,2014, p. 134). La collection de test comprend ∼3 millions de photos géolo-calisées, datées et étiquetées avec des tags sur la zone de Londres. La qualité de l’indexation est mesurée selon la P@30, la MAP, la GMAP et la Rprec sur un échantillon de 25 photos. La vérité terrain est constituée des tags proposés a priori par 4 annotateurs par photo en moyenne. Le modèle d’indexation étendu

App-ExTg est comparé au modèle initial GT-TRM. L’exploitation des ressources du web pour compléter les tags

identifiés par GT-TRM améliore significativement la qualité de l’indexation des photos (+90% sur la MAP).

Dans le document Interroger le texte scientifique (Page 30-33)