How information propagates on Twitter ?

(1)

HAL Id: tel-01336218

https://hal.inria.fr/tel-01336218v2

Submitted on 20 Sep 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Maksym Gabielkov

To cite this version:

Maksym Gabielkov. How information propagates on Twitter ?. Other [cs.OH]. Université Nice Sophia Antipolis, 2016. English. �NNT : 2016NICE4031�. �tel-01336218v2�

(2)

UNIVERSITE NICE SOPHIA ANTIPOLIS

ECOLE DOCTORALE STIC

SCIENCES ET TECHNOLOGIES DE L’INFORMATION ET DE LA COMMUNICATION

THESE

pour l’obtention du grade de

Docteur en Sciences

de l’Université Nice Sophia Antipolis

Mention : Informatique

présentée et soutenue par

Maksym Gabielkov

Comment se propagent les

informations sur Twitter ?

Thèse dirigée par Arnaud Legout

et préparé au sein du laboratoire Inria, équipe DIANA

soutenue le 15 juin 2016

Jury :

Directeur : Arnaud Legout - Inria (DIANA) Rapporteurs : Ashish Goel - Université Stanford

Krishna Gummadi - MPI-SWS

President : Guillaume Urvoy-Keller - Université Nice Sophia Antipolis Examinateurs : Laurent Massoulié - Centre de Recherche Commun

Inria - Microsoft Research Laurent Viennot - Inria (GANG)

(3)

(4)

Comment se propagent les informations sur Twitter ?

Résumé: Cette thèse présente une étude sur la mesure des réseaux sociaux en ligne avec un accent particulier sur Twitter qui est l’un des plus grands réseaux sociaux. Twitter utilise exclusivement des liens dirigés entre les comptes. Cela rend le graphe social de Twitter beaucoup plus proche que Facebook du graphe social représentant les communications dans la vie réelle. Par conséquent, la compréhension de la structure du graphe social Twitter et de la manière dont les informations se propagent dans le graph est intéressant non seulement pour les informaticiens, mais aussi pour les chercheurs dans d’autres domaines, tels que la sociologie. Cependant, on sait peu de choses sur la propagation de l’information sur Twitter. Dans la première partie, nous présentons une étude approfondie de la structure macro-scopique du graphe social de Twitter dévoilant les routes sur lesquelles les tweets se propagent. Pour cette étude, nous avons crawlé Twitter pour récupérer tous les comptes et toutes les relations sociales (liens de following et follower) entre les comptes. Nous présentons une méthodologie pour dévoiler la structure macroscopique du graphe social de Twitter qui se compose de 8 composants définis par leurs caractéristiques de connectivité. Nous avons dé-couvert que chaque composant regroupe les utilisateurs avec un usage spécifique de Twitter. Enfin, nous présentons une méthode pour explorer la structure macroscopique du graphe so-cial de Twitter dans le passé, nous validons cette méthode en utilisant des anciens ensembles de données, et nous discutons l’évolution de la structure macroscopique du graphe social de Twitter durant les 6 dernières années.

Dans la deuxième partie, nous étudions la propagation de l’information sur Twitter en étudiant les articles de presse partagés sur Twitter. Les médias en ligne comptent de plus en plus sur les médias sociaux pour générer du trafic vers leur site Web. Pourtant, nous savons étonnamment peu de choses sur la façon dont les conversations sur les médias sociaux mentionnant un article en ligne génèrent un clic “social” vers cet article. Nous présentons une étude validée et reproductible des clics sociaux en collectant un mois de clics vers des articles mentionnés dans Twitter vers 5 grands journaux en ligne. Nous montrons que les clics et les clics par follower impactent plusieurs aspects de la diffusion de l’information, tous jusque-là inconnus. Par exemple, les ressources secondaires (non promues dans les gros titres des jour-naux) génèrent plus de clics que les gros titres. De plus, alors que l’attention des utilisateurs des médias sociaux est courte en ce qui concerne les postes, elle est étonnamment longue lorsque l’on regarde les clics. Pour finir, on montre que l’influence réelle d’un intermédiaire ou d’une ressource est mal prédite par le comportement d’envoi, et nous montrons comment cette prédiction peut être rendu plus précise.

Dans la troisième partie, nous présentons une étude expérimentale d’échantillonnage du graphe social de Twitter. Les réseaux sociaux en ligne (RSL) sont une source importante d’information pour les scientifiques dans différents domaines tels que l’informatique, la sociologie, ou l’économie. Cependant, il est difficile d’étudier les RSL car ils sont très grands. En outre, les entreprises prennent des mesures pour prévenir les analyses de leurs RSL et s’abstiennent de partager leurs données avec la communauté des chercheurs. Pour ces raisons, nous affirmons que les techniques d’échantillonnage sont une option efficace pour étudier les RSL à l’avenir. Dans cette dernière partie, nous prenons une approche expérimentale pour étudier les caractéristiques des techniques d’échantillonnage bien connues sur un graphe social complet de Twitter nous avons crawlé en 2012.

Mots clé: Twitter, réseaux sociaux, propagation de l’information, analyse de graphes, clics sociaux, échantillonnage de graphes