• Aucun résultat trouvé

Représentations distribuées de géotextes augmentées par les contextes spatiau

Nous l’avons évoqué dans laSection 2, les plongements lexicaux ont été le point de départ de nombreux de travaux de recherche sur l’appariement de textes. Les nouvelles approches proposées s’appuient ainsi sur la sémantique des mots et des documents, au travers des vecteurs de représentation qui capturent la sémantique distributionnelle. Cependant, plusieurs travaux ont montré l’existence de langages sensibles à la localisation qui sont suivis par une variation de mots et de sujets en fonction des contextes géospatiaux (Backstrom et al.,2008; Han et al., 2012;Laere et al., 2014). En étudiant les distributions des occurrences des mots, Laere et al.

2 r e p r é s e n tat i o n s d i s t r i b u é e s d e t e x t e s e t d e g é o t e x t e s 79

(2014) ont par exemple remarqué que les distributions de certains mots divergent

de la distribution générale de la collection dans certaines régions, révélant ainsi des spécificités locales. Han et al. (2012) ont quant à eux découvert, par le biais

de mesures d’entropies s’appuyant sur la fréquence des termes, que les mots pou- vaient être révélateurs de localisation. Enfin, grâce à un topic modelling,Eisenstein et al. (2010) ont montré que les sujets avaient des variantes lexicales régionales.

L’intégration de ces spécificités locales semble donc essentielle pour résoudre des tâches de RIG.

La prolifération croissante des réseaux sociaux s’appuyant sur la localisation a entraîné la création de larges volumes données, aujourd’hui exploitées dans de nombreuses tâches de RIG, notamment pour la recommandation de POIs. Plu- sieurs travaux récents se sont ainsi focalisés sur la représentation d’objets issus des réseaux sociaux dans un espace de faible dimension en utilisant conjointe- ment diverses informations telles que la localisation, la temporalité et le contenu textuel. La plupart des recherches récentes sur l’apprentissage de représentations de géotextes s’appuient sur les techniques d’apprentissage des plongements lexi- caux utilisées dans les NNLM, et notamment sur les modèles Skip-Gram et CBOW (Mikolov et al., 2013a,b). Les travaux peuvent être regroupés en deux catégories,

une première qui considère l’influence du contexte géographique sur les représen- tations des mots, une seconde qui modélise directement les représentations des géotextes.

2.2.1 Représentations distribuées des mots

Une première catégorie de travaux s’est concentrée sur la modélisation carto- graphique entre les mots et les sujets à l’aide des plongements lexicaux (Cocos et Callison-Burch,2017;Zhang et al.,2017b).

Dans une première tentative d’étudier l’impact du contexte géographique sur la sémantique des mots,Cocos et Callison-Burch(2017) ont exploité l’idée d’infé-

rer des représentations vectorielles régionales de mots, de telle sorte que les mots spatialement proches aient des significations similaires. Pour cela, ils adaptent le modèle Skip-Gram (Mikolov et al., 2013b) pour déterminer les représentations

des mots issus d’une collection de tweets géolocalisés, en utilisant des contextes géographiques dérivés de Google Places et OpenStreetMap, décrivant le type des lieux (p. ex. théâtre, restaurant, université) situés autour des tweets, comme illus- tré dans la Figure 3.11. Plus spécifiquement, pour chaque tweet de taille n, ils récupèrent tous les objets situés dans un rayon r autour du tweet et énumèrent la liste de taille m des tags associés à ces objets. Par exemple, le tweet illustré dans la

Figure 3.11contient, dans un rayon de 30 mètres, m=10 objets (p. ex.point7728,

tokens in these tweets were normalized by con- verting to lowercase, replacing @-mentions, num- bers, and URLs with special symbols, and apply- ing the lexical normalization dictionary of Han et al. (2012a).

To enrich our collected tweets with geospa- tial features, we used publicly-available geospatial data from OpenStreetMap and the Google Places API. OpenStreetMap (OSM) is a crowdsourced mapping initiative. Users provide surveyed data such as administrative boundaries, land use, and road networks in their local area. In addition to ge- ographic coordinates, each shape in the data set in- cludes tags describing its type and attributes, such as shop:convenience and building:retail for a con- venience store. We downloaded metro extracts for our 20 cities in shapefile format. To maximize coverage, we supplemented the OSM data with Google Places data from its web API, consisting of places tagged with one or more types (i.e. aquar- ium, ATM, etc).

We enrich each geolocated tweet by finding the coordinates and tags for all OSM shapes and Google Places located within 50m of the tweet’s coordinates. The enumerated tags become geo- graphic contexts for training word embeddings. Figure 1 gives an example of geospatial data col- lected for a single tweet.

3 Geo-Word Embeddings

SKIPGRAM learns latent fixed-length vector rep-

resentations vw and vcfor each word and context

in a corpus such that vw · vc is highest for fre-

quently observed word-context pairs. Typically a word’s context is modeled as a fixed-length win- dow of words surrounding it. Levy and Gold- berg (2014) generalized SKIPGRAMto accept ar-

bitrary contexts as input. We use their software (word2vecf) to train word embeddings using geospatial contexts.

word2vecf takes a list of (word, context) pairs as input. We train 300-dimensional geo-word embeddings denoted GEOD – where D indicates a

radius – as follows. For each length-n tweet, we find all shapes within D meters of its origin and enumerate the length-m list of the shapes’ geo- graphic tags. The tweet in Figure 1, for example, has m = 10 tags as context when training GEO30

embeddings. Under our model, each token in the tweet shares the same contexts. Thus the input

graphic coordinates.

Radius

(m) Intersecting Shapes Geographic Tags

15 line575 route:bus

line580 highway:tertiary 30 poly1903 building:yes,GP:university

poly3301 building:university,GP:university poly5146 building:university,GP:university point7728 tourism:information,poi:marker 50 poly5146 building:yes,GP:university

point3971 highway:crossing GooglePlaces2948 GP:bus station

Figure 1: Geoenriching an example tweet with ge- ographic contexts at increasing radii D (meters). For each D ∈ {15, 30, 50}, geographic contexts include all tags belonging to shapes within D me- ters of the origin. In this example there are 10 tags for the tweet at D = 30m. GP denotes tags ob- tained via Google Places; others are from Open- StreetMap.

to word2vecf for training GEO30 embeddings

produced by the example tweet is an m × n list of (word, context) pairs:

(it’s, route:bus), (good, route:bus), ...

(#TechTuesday, poi:marker), (#UPenn, poi:marker)

The mean number of tags (m) per tweet under each threshold is 12.3 (GEO15), 21.9 (GEO30),

and 38.6 (GEO50). The mean number of tokens

(n) per tweet is 15.7. 4 Intrinsic Evaluation

To determine the extent to which geo-word em- beddings capture useful semantic information, we first evaluate their performance on three seman- tic relatedness and four semantic similarity bench- marks (listed in Table 1). In each case we calcu- 100

Figure 3.11 – Enrichissement d’un tweet avec des contextes géographiques situés à des rayons D croissants (Cocos et Callison-Burch,2017).

highway:tertiary, building:yes). Dans leur modèle, chaque mot du tweet par- tage le même contexte. Ainsi, le contexte utilisé comme entrée du Skip-Gram, gé- néré à partir du tweet d’exemple, est une liste de dimension m×n de paires (mots, contexte) : [(it’s,route:bus),(good,route:bus), . . . ,(#UPenn,poi:marker)]. L’éva- luation intrinsèque des plongements lexicaux ainsi créés a montré que le contexte spatial permet d’encoder efficacement des informations sur la relation sémantique. Par ailleurs, d’après les résultats de l’évaluation extrinsèque, bien que le contexte géospatial ne soit pas aussi riche en sémantique que le contexte textuel, il fournit des informations pertinentes sur la relation sémantique, qui peuvent être complé- mentaires dans le cadre d’un modèle multimodal.

Zhang et al. (2017b) ont abordé le problème du glissement lexical entre les ré-

gions, en proposant un modèle permettant aux utilisateurs de faire des recherches à partir d’exemples analogiques. Par exemple, un utilisateur américain recherchant des informations sur la « NASA Japonaise », devrait recevoir des informations sur l’équivalent de la NASA au Japon, c.-à-d. JAXA. Les auteurs proposent de trans- former l’espace vectoriel sous différentes distributions thématiques pour générer un mapping entre différents contextes géographiques.

Plus formellement, soit deux espaces vectoriels (c.-à-d. des plongements lexi- caux) entraînés sur des collections différentes (Figure 3.12) : un espace de base noté Sb = {wb

1, . . . , wbm}(wbi ∈ Vb) à partir duquel les requêtes sont sélectionnées,

et un espace cible St = {wt1, . . . , wtm}(wti ∈ Vt) où la réponse doit être recherchée.

L’objectif est de déterminer un objet wt (p. ex. JAXA) qui est contextuellement similaire à l’objet wb (p. ex. NASA). Pour cela, Zhang et al. (2017b) proposent

de calculer une matrice de transformation permettant de passer d’un espace à l’autre. En supposant que nous disposions de termes ancres, c.-à-d. des termes pour lesquels nous connaissons un équivalent dans les deux espaces vectoriels,

2 r e p r é s e n tat i o n s d i s t r i b u é e s d e t e x t e s e t d e g é o t e x t e s 81

Figure 3: Computing similarity between query q and term v in the target space using the topic-biased term transformation plus the topic transformation.

5. EXPERIMENTAL SETUP