• Aucun résultat trouvé

Évaluation intrinsèque du facteur d’amortissement spa tial (QR1)

SGM I l − F LCH X X Évaluer l’effet des

5.1 Évaluation intrinsèque du facteur d’amortissement spa tial (QR1)

Notre premier objectif est d’évaluer l’impact intrinsèque du facteur d’amortis- sement spatial F(d∗) (Section 5.2.2). Pour cela, nous procédons en deux étapes. Premièrement, nous explorons les distributions du facteur d’amortissement spa- tial F(d∗) sur les collections de NY et de SG en étudiant ses valeurs pour des paires de tweet-POI pertinentes et non pertinentes. Ensuite, nous tentons de vé- rifier empiriquement l’Hypothèse 2portant sur la distribution spatiale des mots. Ainsi, nous étudions quantitativement et qualitativement si le facteur d’amortis-

5 r é s u ltat s d e l’évaluation 167

sement spatial F(d∗) a un impact intrinsèque sur les similarités mot à mot. Cette étape est essentielle puisque la composante des interactions locales du modèle

SGMrepose fortement sur ces similarités.

5.1.1 Comparaison des distributions du facteur d’amortissement spatial.

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 Valeur de F(d*) 0 5 10 15 20 25 30 35 40 Densité Positif Négatif (dist) Négatif (BM25)

(a) Jeu de données de NY

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 Valeur de F(d*) 0 10 20 30 40 50 Densité Positif Négatif (dist) Négatif (BM25) (b) Jeu de données de SG

Figure 5.6 – Comparaison des distributions de F(d∗)pour les paires tweet-POI pertinentes (Positif) et non pertinentes (Négatif).

Nous commençons cette analyse en étudiant les distributions du facteur d’amor- tissement spatial F(d∗). Cela nous permet de voir, d’une part, si les distributions sont comparables dans les deux collections de NY et de SG, et d’autre part, si les distributions de F(d∗)issues des paires positives sont les mêmes que celles issues des paires négatives. Par conséquent, pour chaque ensemble de données, nous cal- culons F(d∗) pour toutes les paires tweet-POI pertinentes. Ensuite, pour chaque tweet, nous récupérons un ensemble de 2 POIs non pertinents, à savoir le POI le plus proche spatialement et le POI les plus similaires selon la mesure BM25. Nous calculons ensuite les distributions des valeurs de F(d∗) associées et traçons dans laFigure 5.6 les histogrammes de densité pour les collections de NY (Figure 5.6a) et de SG (Figure 5.6b).

Tout d’abord, nous pouvons voir qu’une majorité des valeurs de F(d∗) sont proches de 0, 38, quel que soit le type de paires (c.-à-d. positive ou négative) et la collection considérée. Deuxièmement, nous remarquons que la distribution des paires négatives est sensiblement identique à celle des paires positives, pour les deux collections. En effet, nous retrouvons des pics de densité pour les mêmes va- leurs de F(d∗)pour les paires positives et négatives, malgré des valeurs de densité légèrement différentes. En ce qui concerne la collection de NY (Figure 5.6a), nous constatons un pic de densité pour des valeurs de F(d∗)comprises entre 0, 01 (ce qui correspond au seuil α) et 0, 08, ce qui suggère une forte utilisation de mots généraux dans les géotextes, en particulier dans l’ensemble négatif BM25. Pour la

collection de SG, les paires tweet-POI tirées de l’ensemble positif semblent plus im- pliquées dans l’utilisation de mots locaux. La distribution étant particulièrement concentrée sur des valeurs de F(d∗)supérieures à 0, 35.

5.1.2 Impact du facteur d’amortissement sur les similarités mot à mot

Nous réalisons maintenant une seconde étude visant à vérifier si les similarités mot à mot suivent des tendances différentes avec et sans utilisation du facteur d’amortissement F(d∗) (Équation 5.5). Pour atteindre cet objectif, nous construi- sons, pour chaque paire pertinente tweet-POI issues des jeux de données de NY et de SG, deux matrices d’interaction : l’une avec l’utilisation du facteur F(d∗) telle que décrite par l’Équation 5.3et donc notée Il, et l’autre, sans l’utilisation du

facteur F(d∗), que nous notons Il0. Après avoir calculé les deux matrices d’interac- tion Il et Il0, nous convertissons les valeurs de leurs éléments en variables de rang, respectivement notées rgIl et rgIl0. Enfin, pour déterminer si les deux variables

suivent les mêmes tendances ou non, autrement dit, pour identifier si les rangs rgIl et rgIl0 sont corrélés, nous calculons le coefficient de corrélation du rang de Spearman, noté ρ. La corrélation entre les deux variables sera élevée (ρ proche de 1) lorsque les observations auront un rang similaire, et faible (ρ proche de -1) lorsqu’il sera différent. Nous répétons ce processus, et calculons le coefficient de corrélation pour tous les tweets de nos collections de NY et de SG et affichons la distribution des résultats obtenus dans laFigure 5.7.

−1.0 −0.6 −0.2 0.2 0.6 1.0 Corrélation de Spearman 0 1000 2000 3000 Fréquence cumulée NY SG

Figure 5.7 – Distribution des coefficients de corrélation de Spearman calculés entre les variables de rang rgIl et rgIl0 issues des matrices d’interaction Il et Il0. La matrice d’interaction Il est calculée selon l’Équation 5.3et fait donc intervenir le facteur d’amortissement F(d∗), contrairement à Il0.

Comme nous pouvons le constater sur la Figure 5.7, presque tous les coeffi- cients calculés (90, 2%) ont une valeur de corrélation de Spearman proche de 0 (0, 1 ρ ≤ 0, 1), quel que soit le jeu de données considéré. En d’autres termes,

5 r é s u ltat s d e l’évaluation 169

en corrigeant les similarités des paires de mots par un facteur spatial, nous avons complètement bouleversé l’importance de leur similarité sémantique. Cela fournit donc un indice sur l’influence de l’utilisation conjointe de caractéristiques syn- taxiques et spatiales pour déterminer la similarité de paires de mots. Par la suite, dans laSection 5.2.2, nous verrons si l’influence est positive ou négative.

Dans le but d’obtenir un aperçu qualitatif du rôle du facteur d’amortissement spatial pour le calcul de la matrice d’interaction, nous analysons quelques or- donnancements de paires de mots issues d’un couple tweet-POI pertinent. Dans l’exemple présenté dans le Tableau 5.4, nous utilisons le tweet « First Yankee vs. RedSox game ! #bronx #summer », publié par un utilisateur depuis le Yankee Stadium dans le Bronx, un quartier de New York, au cours d’une rencontre de baseball entre les Yankees et les Red Sox. Nous affichons les rangs de quelques paires de mots issues des matrices Il (calculée avec F(d∗)) et Il0 (calculée sans F(d∗)).

Paires de mots Rangs Valeurs

(w(t)i , w(p)j ) rgIl0(w(t)i , w(p)j ) rgIl(w(t)i , w (p) j ) du facteur F(d∗) redsox - homeruns 86 11M 0,398 redsox - berra 69 15M 0,381 yankee - yanks 184 27M 0,398 bronx - yankee 211 34M 0,399 redsox - good 15 29O 0,319 redsox - time 39 52O 0,322 summer - original 21 87O 0,316

Tableau 5.4 – Exemple d’ordonnancement de paires de mots (wi(t), w(p)j ) issues des ma- trices d’interaction Il0 (sans le facteur F(d∗)) et Il (avec le facteur F(d∗)). Le symbole «M» (resp. «O») indique une augmentation (resp. une diminution) du rang suite à l’utilisation du facteur dans le calcul de la similarité.

Dans le Tableau 5.4, nous remarquons que quatre paires de mots, situées dans la partie supérieure, ont une similarité qui a augmentée (c.-à-d. un meilleur rang) lorsqu’elle a été corrigée par le facteur F(d∗). Au contraire, dans la partie basse, nous retrouvons trois paires de mots avec une similarité plus faible (c.-à-d. un rang moindre) lorsqu’elle a été corrigée par le facteur F(d∗).

Considérons d’abord les paires de mots les plus populaires comme (bronx, yankee) ou (reddsox, homeruns), qui passent respectivement du rang 211 à 34 et du rang 86 à 11. Intuitivement, il y a plus de chance de parler de baseball près d’un stade de baseball, ce qui se refléterai par de fortes similarités entre les mots considérés. De fait, cette stimulation de similarité que nous pouvons observer est tout a fait naturelle. En effet, « Yankees » (ou « Yanks ») est une équipe de baseball du Bronx,

dont le « Yankee Stadium » est le principal stade. Cette similarité spatiale est corro- borée par le facteur d’amortissement qui atteint une valeur approximative de 0, 39. En revanche, les paires restantes, incluant par exemple (reddsox, good) et (summer, original), sont respectivement passées du rang 15 à 29 et du rang 21 à 87 avec une valeur de F(d∗) d’environ 0, 31 seulement. Cela pourrait être dû au caractère gé- nérique de ces mots puisqu’ils peuvent être utilisés dans des contextes spatiaux complètement différents. L’introduction du facteur d’amortissement permet de les écarter de manière significative.