• Aucun résultat trouvé

Graphe social de Twitter

Dans le document How information propagates on Twitter ? (Page 94-96)

comptes actifs ou le nombre de tweets envoyés en un seul jour.

A.1.4 Structure de la thèse

Cette thèse a la structure suivante. Le chapitre 2 contient la description de l’état de l’art. Dans le chapitre 3, nous présentons l’étude de la structure du graphe social Twitter, nous identifions huit composants sur la base de la connectivité du graphe et associons ces com- posants à un usage particulier de Twitter. Dans le chapitre4, nous étudions la diffusion des articles des mass-médias sur Twitter en surveillant les URL de cinq médias populaires. Dans le chapitre 5, nous reconnaissons que compte tenu de la croissance rapide des RSL et des contraintes posées par les RSL sur l’accès à leurs données, il sera difficile, voire impossible, de recueillir des grands jeux des données, nous discutons du problème de l’échantillonnage des RSL et adressons la biais de ces échantillons. Le chapitre6conclut la thèse.

A.2

Graphe social de Twitter

Twitter est l’un des plus grands réseaux sociaux qui utilisent des liens exclusivement dirigés entre comptes. Cela rend le graphe social Twitter beaucoup plus proche du graphe social qui permet les communications de la vie réelle que, par exemple, Facebook. Cependant, on sait peu de choses sur la façon dont la propagation de l’information sur Twitter est limitée par sa structure interne.

Dans ce chapitre, nous présentons une étude approfondie de la structure macroscopique du graphe social de Twitter en dévoilant les routes sur lesquelles les tweets se propagent, l’activité des utilisateurs associée à chaque composante de cette structure macroscopique, et l’évolution de cette structure macroscopique avec le temps sur les 6 dernières années. Pour cette étude, nous avons crawlé Twitter pour récupérer tous les comptes et toutes les relations sociales (liens de follow) entre les comptes; le crawl s’est achevé en juillet 2012 avec 505 millions de comptes reliés entre eux par 23 milliards de liens10. Ensuite, nous présentons une méthodologie pour dévoiler la structure macroscopique du graphe social de Twitter. Cette structure macroscopique se compose de 8 composants définis par leurs caractéristiques de connectivité. Chaque composant regroupe les utilisateurs avec une utilisation spécifique de Twitter. Par exemple, nous avons identifié des composants qui rassemblent des spammeurs ou des célébrités. Enfin, nous présentons une méthode pour approximer la structure macro- scopique du graphe social de Twitter dans le passé, nous validons cette méthode en utilisant des anciens jeux des données, et nous discutons de l’évolution de la structure macroscopique du graphe social de Twitter au cours des 6 dernières années.

Ce travail a été accepté et présenté à ACM SIGMETRICS 2014 à Austin, TX, USA [Gabielkov 2014b].

Twitter est l’un des plus grands réseaux sociaux avec plus de 500 millions de comptes enregistrés. Cependant, il se distingue des autres grands réseaux sociaux, tels que Facebook et Google+, car il utilise exclusivement des arcs entre les comptes11. Par conséquent, la façon 10

http://j.mp/soTweet 11

Les arcs — qui sont des liens dirigés — représentent la relation de follow (ou suivi) sur Twitter. Si A suit B, A reçoit tweets de B, mais B ne recevra pas des tweets de A, à moins que B suive A.

dont l’information se propage sur Twitter est proche de la façon dont l’information se propage dans la vie réelle. En effet, les communications de la vie réelle se caractérisent par une forte asymétrie entre les producteurs d’information (tels que les médias, les célébrités, etc.) et les consommateurs de contenu. Par conséquent, la compréhension de la façon dont l’information se propage sur Twitter a des implications au-delà de l’informatique.

Cependant, l’étude de la propagation de l’information sur un grand réseau social est une tâche complexe. En effet, la propagation de l’information est une combinaison de deux phénomènes. Tout d’abord, le contenu des messages envoyés sur le réseau social déterminera sa chance d’être relayé. D’autre part, la structure du graphe social limitera la propagation des messages. Dans ce chapitre, nous nous concentrons particulièrement sur la façon dont la structure du graph social de Twitter contraint la propagation de l’information. Ce problème est important parce qu’il permet d’identifier les routes utilisées par les flux d’information. Pour atteindre cet objectif, nous devons surmonter deux défis. Tout d’abord, nous avons besoin d’un graphe social à jour et complet. Les plus récents jeux des données de Twitter accessibles au public datent de 2009 [Kwak 2010,Cha 2010], à l’époque Twitter était 10 fois plus petit qu’en juillet 2012. De plus, ces jeux des données ne sont pas exhaustifs, donc certaines propriétés subtiles peuvent ne pas être visibles. Deuxièmement, nous avons besoin d’une méthodologie révélant les relations sociales sous-jacentes entre les utilisateurs, une méthodologie qui peut passer à l’échelle de centaines de millions de comptes et de dizaines de milliards d’arcs. Les métriques standards globales telles que la distribution du degré ne sont d’aucune aide parce que nous avons besoin d’identifier les routes du graphe suivi par les messages. Par conséquent, nous avons besoin d’une méthodologie pour à la fois réduire la taille du graphe social et garder sa structure principale.

Dans ce chapitre, nous surmontons ces défis avec les contributions suivantes.

1. Nous avons recueilli l’ensemble du graphe social de Twitter, qui représente 505 millions de comptes connectés grâce à 23 milliards d’arcs. C’est le plus grand graphe social complet jamais collecté.

2. Nous dévoilons une structure macroscopique dans le graphe social de Twitter qui préserve les routes de propagation de l’information. Notre méthode étend celle de Broder et al. [Broder 2000] et peut être appliquée à tous types de graphes dirigés. 3. Nous montrons que non seulement la structure macroscopique du graphe social de Twit-

ter limite la propagation de l’information, mais que chaque composant de la macrostruc- ture correspond à un groupe d’utilisateurs avec une utilisation spécifique de Twitter. En particulier, nous montrons que les comptes réguliers, abandonnés et malveillants ne sont pas uniformément répartis sur les composants de la structure macroscopique du graphe social de Twitter. Ce résultat est important pour comprendre comment Twitter est utilisé, où sont les utilisateurs avec un usage spécifique, et comment échantillonner Twitter sans biais significatif.

4. Nous présentons une méthodologie simple pour explorer l’évolution de la structure macroscopique de Twitter avec le temps, nous validons cette méthodologie, et montrons que les anciens jeux des données à partir de 2009 ne représentent pas la structure actuelle du graphe social de Twitter. Nous explorons cette évolution dans le temps pour comprendre les changements dans l’utilisation de Twitter depuis sa création.

Dans le document How information propagates on Twitter ? (Page 94-96)

Documents relatifs