• Aucun résultat trouvé

2 Résolution de la portée géographique des géo textes

Ces dernières années, les RSNs tels que Facebook, Twitter ou Instagram sont de- venus des espaces populaires d’échanges permettant d’établir des liens sociaux et de partager de l’information textuelle et audiovisuelle. Avec l’augmentation de la connectivité des utilisateurs et la prédominance des smartphones, de plus en plus de ressources associées à des coordonnées géographiques, c.-à-d. des géotextes, sont créés chaque jour. Cela ouvre de nombreuses opportunités pour faire le lien entre le monde social en ligne et le monde physique, et développer des nouvelles applications de RIG permettant de répondre aux besoins du monde réel. Twitter est par exemple connu pour être une plateforme efficace pour détecter les sujets émergents, notamment les foyers d’épidémies ou les régions touchées par des ca- tastrophes naturelles (Cheong et Cheong, 2011; Kumar et al., 2011). Connaître la

porté géographique des publications sur les RSNs, permet de comprendre ce qui se passe dans la vie réelle et peut ainsi aider aux rapports d’urgence (Imran et al.,

2015;Kumar et Singh,2019) et la gestion de crise (Vieweg et al.,2010;Lingad et al., 2013), mais pas seulement. De nombreuses applications de RIG ont vu le jour,

en particulier pour l’assistance touristique, avec la recommandation d’événements (Yuan et al.,2013;Yin et al.,2015) ou de POIs (Deveaud et al., 2015; Bothorel et al., 2018), ou encore le résumé spatio-temporel (Rakesh et al.,2013;Mallela et al.,2017).

La maturité croissante des approches d’apprentissage automatique et la nécessité de méthodes généralisables applicables à de très grands volumes de données en temps réel ont conduit à une nouvelle famille de méthodes qui, plutôt que d’ex- plorer les toponymes explicitement contenus dans le texte, cherchent à apprendre comment l’emplacement est décrit de manière plus générale dans le texte (Ahern et al., 2007; Kinsella et al., 2011; O’Hare et Murdock, 2013). L’idée est qu’à partir

des nombreux documents associés à des coordonnées, il est possible d’identifier des ensembles de mots qui sont associés à des régions particulières de l’espace. L’ensemble des fréquences de mots pour une région donnée est appelé modèle de langue. Un premier exemple a été proposé par Ahern et al.(2007), qui ont utilisé

des méthodes de clustering (k-moyennes) combinées avec le TfIdf pour sélection- ner les mots-clés significatifs contenus dans les tags Flickr, qui ont ensuite été attribués aux cellule d’une grille à différents niveaux de granularité.

Ainsi, si le problème de résolution de la portée géographique des documents, sous l’angle de la prédiction de l’emplacement a largement été étudié pour des documents traditionnels (Wikipedia, pages web), il reste aujourd’hui un défi pour ceux issus des RSNs. Par exemple, la taille des tweets, limitée à 280 caractères, exige de la brièveté dans l’écriture, ce qui donne lieu à un vocabulaire informel uniquement utilisé dans les RSNs. De plus, les publications en ligne ont tendance

2 r é s o l u t i o n d e l a p o r t é e g é o g r a p h i q u e d e s g é o t e x t e s 33

à comporter de nombreuses abréviations non standards, des erreurs typogra- phiques, l’utilisation d’émoticônes, d’ironie, de sarcasmes et de sujets populaires, appelés hashtags (Cheng et al.,2010;Liu et al.,2012). Ces textes non conventionnels

et non structurés rendent les approches classiques de TALN et de RI peu efficaces, conduisant à un défi intéressant pour l’analyse de contenu social. L’étude de l’état- de-l’art sur l’appariement géographique des contenus générés par les utilisateurs des RSNs révèle l’existence de trois grands axes de recherche : la prédiction de l’emplacement du contenu généré par l’utilisateur, la prédiction de l’emplacement mentionné dans le texte et la prédiction sémantique de l’emplacement (Ajao et al.,

2015;Zheng et al.,2018;Haldar et al.,2019).

Dans cette section, nous décrivons les trois principales approches pour la pré- diction de l’emplacement. Nous commençons par aborder dans laSection 2.1, la prédiction de l’emplacement du contenu généré par l’utilisateur. Nous continuons ensuite dans laSection 2.2en présentant les approches pour la prédiction de l’em- placement mentionné dans le texte. Enfin, dans la Section 2.3, nous abordons la tâche de la prédiction sémantique de l’emplacement, que nous adressons dans nos travaux de recherche.

2.1

Prédiction de l’emplacement du contenu généré par l’uti-

lisateur

Le premier axe de recherche consiste à prédire l’emplacement du contenu gé- néré par l’utilisateur. La plupart de ces travaux portent plus particulièrement sur le réseau social Twitter, qui a gagné en popularité pour communiquer, partager des idées et diffuser des publicités (Kwak et al., 2010; Teevan et al., 2011). La fi-

nalité de cette tâche consiste à estimer l’emplacement géographique des contenus publiés en ligne, qu’ils soient géotaggés ou non. Par exemple, dans laFigure 2.12, l’objectif de cette tâche serait de déterminer l’emplacement du tweet, c.-à-d. son lieu d’émission (tweet location) ou le lieu de résidence de l’utilisateur (home loca- tion). Toutefois, concernant Twitter, il a été rapporté qu’entre 1% et 4% des tweets contiennent un géotag explicite (Hecht et al., 2011; Graham et al., 2014; Ryoo et Moon,2014). De ce fait, inférer le géotag ou l’emplacement d’où ces contenus ont

été publiés a fait l’objet de nombreuses études (Li et al., 2011a; Lee et al., 2014; Ajao et al., 2015; Chong et Lim, 2018; Hoang et Mothe, 2018; Zheng et al., 2018),

permettant ainsi de mieux comprendre leur contexte, et dresser un portrait plus complet de la mobilité des utilisateurs.

Deux niveaux de granularité des emplacements ont été étudiés dans la littéra- ture. Le premier, connu sous le nom de granularité grossière de l’emplacement, vise à géolocaliser les publications en fournissant une estimation des coordonnées

2

recognition and disambiguation of Twitter-related locations

should also depend heavily on tweet texts. Users living in