• Aucun résultat trouvé

The DART-Europe E-theses Portal

N/A
N/A
Protected

Academic year: 2022

Partager "The DART-Europe E-theses Portal"

Copied!
191
0
0

Texte intégral

(1)

HAL Id: tel-02310536

https://tel.archives-ouvertes.fr/tel-02310536v2

Submitted on 10 Oct 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Une approche pour estimer l’influence dans les réseaux complexes : application au réseau social Twitter

Lobna Azaza

To cite this version:

Lobna Azaza. Une approche pour estimer l’influence dans les réseaux complexes : application au réseau social Twitter. Web. Université Bourgogne Franche-Comté; Université de Tunis. Institut supérieur de gestion (Tunisie), 2019. Français. �NNT : 2019UBFCK009�. �tel-02310536v2�

(2)

TH `ESE DE DOCTORAT DE L’ ´ETABLISSEMENT UNIVERSIT ´E BOURGOGNE FRANCHE-COMT ´E PR ´EPAR ´EE `A L’UNIVERSIT ´E DE BOURGOGNE EN COTUTELLE INTERNATIONALE AVEC

L’UNIVERSIT ´E DE TUNIS

Ecole doctorale n°37´

Sciences Pour l’Ing ´enieur et Microtechniques

Doctorat d’Informatique

par LOBNA

A

ZAZA

Une approche pour estimer l’influence dans les r ´eseaux complexes Application au r ´eseau social Twitter

Th `ese pr ´esent ´ee et soutenue `a Dijon, le 23 mai 2019 Composition du Jury :

BENSLIMANEDJAMAL Professeur, Universit ´e de Lyon I Pr ´esident COMYN-WATTIAU ISABELLE Professeur, ESSEC Rapporteur LATIRICHIRAZ Professeur, Universit ´e de la

Manouba

Rapporteur CHERIFIHOCINE Professeur, Universit ´e de

Bourgogne

Examinateur RALYTE´ JOLITA Maˆıtre d’enseignement et de

recherche, Universit ´e de Gen `eve

Examinateur

FAIZRIM Professeur, Universit ´e de

Carthage

Directeur de th `ese LECLERCQ ´ERIC Maˆıtre de Conf ´erences, Universit ´e

de Bourgogne

Co-encadrant de th `ese SAVONNETMARINETTE Maˆıtre de Conf ´erences HDR,

Universit ´e de Bourgogne

Directeur de th `ese

(3)
(4)

écol e doctoral esciences pour l ’ingénieur et microtechniques

Universit ´e Bourgogne Franche-Comt ´e 32, avenue de l’Observatoire 25000 Besanon, France

Titre : Une approche pour estimer l’influence dans les r ´eseaux complexes Application au r ´eseau social Twitter

Mots-cl ´es :Influence, R ´eseaux sociaux,Twitter, R ´eseaux multiplexes, Th ´eorie des fonctions de croyance

R ´esum ´e :

L’ ´etude de l’influence sur les r ´eseaux sociaux et en particulier Twitter est un sujet de recherche intense. La d ´etection des utilisateurs influents dans un r ´eseau est une cl ´e de succ `es pour parvenir `a une diffusion d’information `a large ´echelle et `a faible co ˆut, ce qui s’av `ere tr `es utile dans le marketing ou les campagnes politiques. Dans cette th `ese, nous proposons une nouvelle approche qui tient compte de la vari ´et ´e des relations entre utilisateurs afin d’estimer l’influence dans les r ´eseaux sociaux tels que Twitter. Nous mod ´elisons Twitter comme un r ´eseau multiplexe h ´et ´erog `ene o `u les utilisateurs, les tweets et les objets repr ´esentent les nœuds, et les liens mod ´elisent les diff ´erentes relations entre eux (par exemple,retweets,mentions etr ´eponses). Le PageRank multiplexe est appliqu ´e aux donn ´ees issues de deux corpus relatifs au domaine politique pour classer les candidats selon leur influence. Si le classement des candidats refl `ete la r ´ealit ´e, les scores de PageRank multiplexe sont difficiles

`a interpr ´eter car ils sont tr `es proches les uns des autres. Ainsi, nous voulons aller au-del `a d’une mesure quantitative et nous explorons comment les diff ´erentes relations entre les nœuds du r ´eseau peuvent d ´eterminer un degr ´e d’influence pond ´er ´e par une estimation de la cr ´edibilit ´e. Nous proposons une approche,

TwitBelief, bas ´ee sur la r `egle de combinaison conjonctive de la th ´eorie des fonctions de croyance qui permet de combiner diff ´erents types de relations tout en exprimant l’incertitude sur leur importance relative. Nous exp ´erimentons TwitBelief sur une grande quantit ´e de donn ´ees collect ´ees lors des ´elections europ ´eennes de 2014 et de l’ ´election pr ´esidentielle franc¸aise de 2017 et nous d ´eterminons les candidats les plus influents. Les r ´esultats montrent que notre mod `ele est suffisamment flexible pour r ´epondre aux besoins des sp ´ecialistes en sciences sociales et que l’utilisation de la th ´eorie des fonctions de croyances est pertinente pour traiter des relations multiples. Nous ´evaluons

´egalement l’approche sur l’ensemble de donn ´ees CLEF RepLab 2014 et montrons que notre approche conduit `a des r ´esultats significatifs. Nous proposons aussi deux extensions deTwitBelief traitant le contenu des tweets. La premi `ere est l’estimation de la polarisation de l’influence sur le r ´eseau Twitter en utilisant l’analyse des sentiments avec l’algorithme des for ˆets d’arbres d ´ecisionnels. La deuxi `eme extension est la cat ´egorisation des styles de communication dansTwitter, il s’agit de d ´eterminer si le style de communication des utilisateurs deTwitter est informatif, interactif ou ´equilibr ´e.

Title: Une approche pour estimer l’influence dans les r ´eseaux complexes Application au r ´eseau social Twitter

Keywords:Influence, Social Network,Twitter, Multiplex network, Belief functions theory

Abstract:

Influence in complex networks and in particular Twitter has become recently a hot research topic. Detecting most influential users leads to reach a large-scale information diffusion area at low cost, something very useful in marketing or political campaigns. In this thesis, we propose a new approach that considers the several relations between users in order to assess influence in complex networks such asTwitter. We modelTwitter as a multiplex heterogeneous network where users, tweets and objects are represented by nodes, and links model the different relations between them (e.g., retweets,mentions, and replies).The multiplex PageRank is applied to data from two corpuses in the political field to rank candidates according to their influence. Even though the candidates’ ranking reflects the reality, the multiplex PageRank scores are difficult to interpret because they are very close to each other. Thus, we want to go beyond a quantitative measure and we explore how relations between nodes in the network could reveal about the influence and propose TwitBelief, an approach to assess weighted influence of a certain node. This is based on the conjunctive combination rule from

the belief functions theory that allow to combine different types of relations while expressing uncertainty about their importance weights. We experiment TwitBelief on a large amount of data gathered from Twitter during the European Elections 2014 and the French 2017 elections and deduce top influential candidates.

The results show that our model is flexible enough to consider multiple interactions combination according to social scientists needs or requirements and that the numerical results of the belief theory are accurate. We also evaluate the approach over the CLEF RepLab 2014 data set and show that our approach leads to quite interesting results. We also propose two extensions of TwitBelief in order to consider the tweets content. The first is the estimation of polarized influence in Twitter network. In this extension, sentiment analysis of thetweetswith the algorithm of forest decision trees allows to determine the influence polarity.

The second extension is the categorization of communication styles inTwitter, it determines whether the communication style ofTwitterusers is informative, interactive or balanced.

(5)
(6)

R EMERCIEMENTS

Je voudrais tout d’abord t ´emoigner mes sinc `eres remerciements et ma profonde recon- naissance `a mes encadrants du laboratoire LIB, Madame Marinette Savonnet et Monsieur Eric Leclercq, qui m’ont accueilli au sein de l’ ´equipe Science des Donn ´ees, et qui m’ont´ encadr ´e durant la r ´ealisation de cette th `ese. Madame Savonnet et Monsieur Leclercq ont

´et ´e toujours pr ´esents pour ´ecouter mes propositions et r ´epondre `a mes questions. Ils m’ont orient ´e constamment vers la bonne direction. Je les remercie beaucoup pour la qualit ´e de leur encadrement, leur soutien moral, leurs conseils et les qualit ´es humaines qu’ils poss `edent. Je resterai toujours reconnaissante pour l’attention qu’ils ont apport ´ee `a mon regard.

Mes remerciements s’adressent ´egalement `a mon encadrante du laboratoire LARODEC, Madame Rim Faiz, pour l’aide et l’encadrement qu’elle m’a apport ´es durant cette th `ese.

J’adresse ´egalement mes remerciements les plus distingu ´es `a Messieurs les membres du jury qui ont bien accept ´e d’ ´evaluer mon travail.

Durant cette th `ese, j’ai partag ´e des moments exceptionnels avec les membres des la- boratoires LIB et LARODEC, je leur exprime ma profonde sympathie et remerciement, en particulier `a Monsieur Sergey Kirgizov. Aussi une pens ´ee sp ´eciale `a Monsieur Malek Jebabli qui nous a quitt ´e tr `es t ˆot, paix `a son ˆame.

Je tiens aussi `a remercier toutes les personnes avec qui j’ai travaill ´e, et `a tous ceux qui ont particip ´e de pr `es ou de loin `a l’aboutissement de mon travail de th `ese.

Finalement, je remercie mon mari, mes parents, mes fr `eres et soeurs, ainsi que ma belle famille de m’avoir soutenue et de m’avoir fourni un environnement merveilleux dans lequel j’ai pu progresser. Je remercie ´egalement tous mes amis pour leur soutien, leur aide et leurs conseils lors de toutes les p ´eriodes difficiles.

Enfin, je d ´edie cette th `ese `a ma famille et `a ma ch `ere fille Jasmine.

v

(7)
(8)

S OMMAIRE

I Contexte et Probl ´ematique 1

1 Introduction 3

1.1 Cadre de la th `ese . . . 3

1.1.1 Contexte g ´en ´eral . . . 3

1.1.2 Motivations . . . 6

1.2 Objectifs et probl ´ematique de la th `ese . . . 7

1.3 Contributions . . . 8

1.4 Structure du manuscrit . . . 9

2 Etat de l’art´ 11 2.1 Concepts fondamentaux . . . 11

2.1.1 La plateformeTwitter . . . 11

2.1.2 Crit `eres pour l’analyse deTwitter . . . 13

2.1.3 Notions relatives `a l’influence . . . 16

2.2 Probl ´ematiques connexes : diffusion et maximisation d’influence . . . 18

2.3 L’influence dans les r ´eseaux sociaux etTwitter . . . 20

2.3.1 Approches bas ´ees sur des mesures de popularit ´e . . . 21

2.3.2 Approches bas ´ees sur la topologie du r ´eseau . . . 22

2.3.2.1 Utilisation du degr ´e de centralit ´e d’un nœud et de son voisinage . . . 22

2.3.2.2 Utilisation du r ´eseau dans sa globalit ´e . . . 27

2.3.2.3 Utilisation des algorithmes de prestige . . . 28

2.3.3 Approches bas ´ees sur la fusion d’information . . . 32

2.4 Synth `ese et conclusion . . . 35

II Contributions 39 3 Mod ´elisation des r ´eseaux sociaux : des mod `eles de graphes th ´eoriques aux r ´eseaux multiplexes – Application `aTwitter 41 3.1 Mod `eles th ´eoriques . . . 41

vii

(9)

viii SOMMAIRE

3.2 Mod ´elisation sous forme de graphe . . . 43

3.2.1 Graphe simple et multi-graphe . . . 44

3.2.2 Hypergraphe . . . 45

3.3 Mod ´elisation par r ´eseaux multi-couches . . . 48

3.3.1 Typologie des r ´eseaux multi-couches . . . 48

3.3.2 Mod ´elisation deTwitter . . . 53

3.3.3 Exploitation de la mod ´elisation sous forme d’un r ´eseau multiplexe h ´et ´erog `ene deTwitter vial’utilisation d’algorithme PageRank ´etendu `a un r ´eseau multiplexe . . . 55

3.4 Conclusion . . . 64

4 Estimation de l’influence dans Twitter :TwitBelief 65 4.1 Introduction . . . 65

4.2 Th ´eorie des fonctions de croyance . . . 65

4.3 TwitBelief . . . 70

4.3.1 Choix des param `etres . . . 72

4.3.2 Estimation du degr ´e d’influence d’un utilisateur . . . 74

4.3.2.1 Exemple d’illustration . . . 77

4.3.3 Classement des utilisateurs . . . 79

4.3.3.1 Exemple d’illustration . . . 80

4.4 Conclusion . . . 81

5 Extension deTwitBelief au contenu des tweets 83 5.1 Influence polaris ´ee . . . 83

5.1.1 Analyse de sentiment dansTwitter . . . 83

5.1.2 M ´ethode suivie pour l’analyse de sentiments desTweets . . . 85

5.1.2.1 Pr ´eparation des tweets . . . 85

5.1.2.2 Algorithme des for ˆets d’arbres d ´ecisionnels . . . 85

5.1.2.3 Mod `ele d’analyse de sentiments . . . 86

5.1.3 Estimation de l’influence polaris ´ee et r ´esultats . . . 88

5.2 Styles de communication dansTwitter . . . 91

5.2.1 R ˆole des op ´erateurs deTwitter dans le discours . . . 92

5.2.2 Le mod `eleI to I . . . 92

5.2.3 Cat ´egorisation des styles de communication dansTwitter et r ´esultats 93 5.3 Conclusion . . . 94

6 Etude exp ´erimentale´ 97

(10)

SOMMAIRE ix

6.1 Collecte et description des donn ´ees . . . 97

6.2 Corpus TEE’2014 . . . 100

6.2.1 Application deTwitBelief . . . 100

6.2.1.1 Choix des param `etres . . . 100

6.2.1.2 Estimation de l’influence directe . . . 102

6.2.1.3 Classement des utilisateurs . . . 103

6.2.1.4 Prise en compte de l’influence indirecte . . . 105

6.2.2 Comparaison avec les travaux existants . . . 106

6.2.3 Discussion . . . 107

6.3 Corpus de l’ ´election pr ´esidentielle franc¸aise de 2017 . . . 108

6.3.1 Description des donn ´ees . . . 108

6.3.2 Application deTwitBelief et discussion . . . 108

6.4 Corpus REPLAB 2014 . . . 110

6.4.1 Description des donn ´ees . . . 110

6.4.2 Application deTwitBelief et discussion . . . 111

6.5 Conclusion . . . 113

III Conclusion 115 7 Conclusion g ´en ´erale 117 7.1 Bilan . . . 117

7.2 Perspectives . . . 118

IV Annexes 145 A D ´emonstrations math ´ematiques 147 A.1 Propri ´et ´es li ´ees `a la r `egle de combinaison . . . 147

A.2 Etude de la convergence de l’op ´eration´ α . . . 148

A.2.1 La fonction de croyance g ´en ´eralis ´ee . . . 148

A.2.2 Chaˆınes de Markov . . . 149

A.2.3 Question de convergence . . . 151

A.2.3.1 De α vers une chaˆıne de Markov . . . 151

A.2.3.2 Propri ´et ´es de la chaˆıne de Markov construite . . . 153

A.2.3.3 Poset d’ ´etats non n ´ecessairement r ´eflexif . . . 154

A.2.3.4 Poset strict des classes de communication . . . 155

(11)

x SOMMAIRE

B D ´etails et exemples d’illustrations des extensions deTwitBelief 159

B.1 Influence polaris ´ee . . . 159

B.2 Les styles de communication dansTwitter . . . 163

B.2.1 Etapes de la m ´ethode . . . .´ 163

B.2.2 Illustrations . . . 163

C Autres graphes multi-couches 167 C.1 Graphes de nœuds color ´es . . . 167

C.2 Graphes de liens color ´es . . . 168

C.3 Graphe K-parti . . . 168

D Figures et tableaux suppl ´ementaires du Pagerank multiplexe 169 D.1 Classements des candidats Franc¸ais du corpus TEE 2014 selon les Page- rank des relationsretweet,mentionetr ´eponse . . . 169

D.2 D ´etails des r ´esultats du Pagerank multiplexe multiplicatif, additif et combin ´e des candidats Franc¸ais du corpus TEE 2014 . . . 171

D.3 Classements des candidats du corpus TEP 2014 selon les Pagerank des relationsretweet,mentionetr ´eponse . . . 173

D.4 D ´etails des r ´esultats du Pagerank multiplexe multiplicatif, additif et combin ´e des candidats du corpus TET 2017 . . . 175

E Publications scientifiques 179

(12)

I

C ONTEXTE ET P ROBL EMATIQUE ´

1

(13)
(14)

1

I NTRODUCTION

D

ans ce chapitre introductif, nous pr ´esentons tout d’abord le cadre de la th `ese, son contexte g ´en ´eral et ses motivations. Nous pr ´esentons ensuite nos objectifs et contri- butions ainsi que la description de la structure du manuscrit.

1.1/ C

ADRE DE LA THESE

`

1.1.1/ CONTEXTE GEN´ ERAL´

Le Web ´evolue `a un rythme exponentiel, aujourd’hui, il joue un r ˆole de plus en plus important en raison de ses ressources riches et vari ´ees. Dans son ´edition 2018 du Digital Economy Compass, Statista, un site de statistiques et ´etudes de march ´e1, montre qu’une minute suffit pour que des millions de donn ´ees `a travers le monde soient g ´en ´er ´ees.

Par exemple, en une minute, 3,8 millions de requ ˆetes Google sont enregistr ´ees, 29 millions de messagesWhatsApptrait ´es, 350 000tweetspost ´es, 243 000 photosFacebook t ´el ´echarg ´ees, etc. Les applications Web telles que les plateformes de r ´eseaux sociaux (commeTwitter, Facebook, Instagram) se d ´eveloppent pour rassembler des individus et renforcer leurs relations avec de nouvelles formes de coop ´eration et de communication.

Un r ´eseau social est un concept th ´eorique dans les sciences sociales se r ´ef ´erant `a une structure sociale compos ´ee d’individus ou d’organisations. Les r ´eseaux sociaux en ligne sont utilis ´es par des millions de personnes li ´ees entre elles par diff ´erents types de relations avec pour objectif de rencontrer d’autres utilisateurs afin de produire et partager des informations et des exp ´eriences sur divers sujets et int ´er ˆets. Par exemple, lors de l’ ´election pr ´esidentielle am ´ericaine de 2016, 40 876 345tweetsont ´et ´e ´emis entre le 8 et 9 novembre en r ´eaction `a l’ ´election de Donald Trump2. Le contenu de l’information partag ´ee d ´epend du r ´eseau lui-m ˆeme, beaucoup de membres dans une communaut ´e en ligne montrent des int ´er ˆets communs dans les loisirs, la religion, la politique ou les modes de vie alternatifs. Ainsi, les r ´eseaux sociaux constituent un reflet important de la structure de la soci ´et ´e du XXIe si `ecle car il s’agit de r ´eseaux de donn ´ees portant sur une grande vari ´et ´e d’int ´er ˆets et de pratiques.

Les r ´eseaux sociaux en ligne sont parfois utilis ´es comme une chambre d’ ´echo, dans laquelle un ´echantillon restreint et/ou non repr ´esentatif est cit ´e `a plusieurs reprises

1. https ://www.statista.com/study/52194/digital-economy-compass/

2. Source Visibrain, une plateforme de veille des r ´eseaux sociaux en ligne :https://www.visibrain.com/fr/

blog/reseauxsociaux-antichambre-elections-americaines/

3

(15)

4 CHAPITRE 1. INTRODUCTION

pour cr ´eer un ´elan autour d’un sujet ou d’une proposition politique [Goldie et al., 2014, Evans et al., 2018]. Comme par exemple les all ´egations, rendues publiques en octobre 2017, de harc `elements et d’agressions sexuelles attribu ´es `a Harvey Weinstein, person- nalit ´e influente de l’industrie du cin ´ema am ´ericain. Ces all ´egations ont d ´ebouch ´e sur un mouvement f ´eministe d’ampleur mondiale avec l’utilisation des hashtags #MeTooet sa d ´eclinaison franc¸aise#balancetonporc, ce qui a encourag ´e de nombreuses victimes `a parler en Europe mais aussi en Asie, ou encore en Afrique. R ´ecemment, en octobre 2018, une agression survenue dans un lyc ´ee de Cr ´eteil, dans le Val-de-Marne, a lib ´er ´e la parole des enseignants sur les r ´eseaux sociaux o `u `a travers le hashtag#PasDeVague, ils d ´enoncent une absence de soutien de leur hi ´erarchie en cas d’agression.

En effet, l’augmentation spectaculaire des r ´eseaux sociaux et du contenu g ´en ´er ´e par les utilisateurs a cr ´e ´e un nouveau ph ´enom `ene, qui est l’interaction sociale et le!r ´eseautage". Des chercheurs de diff ´erentes disciplines ont uni leurs efforts pour ´etudier les r ´eseaux sociaux. La recherche interdisciplinaire s’est d ´evelopp ´ee dans une nouvelle direction appel ´ee informatique sociale (Computational Social Science[Lazer et al., 2009]). La fouille des r ´eseaux sociaux a ´emerg ´e avec pour objectif de collecter et analyser les donn ´ees sociales [Tang, 2017]. Ainsi, plusieurs th ´ematiques de recherche ont ´et ´e propos ´ees. En g ´en ´eral, les recherches sont autour des individus, de leurs comportements r ´ecurrents, de leurs interactions et de la structure topologique du r ´eseau form ´e par les utilisateurs.

L’exploitation de tels r ´eseaux permet la d ´etection de communaut ´es, la pr ´ediction de liens, l’analyse de sentiment des utilisateurs, la classification d’utilisateurs, l’analyse de l’influence, etc.

Les applications de l’informatique sociale cit ´ees ci-dessus peuvent ˆetre class ´ees en trois cat ´egories [Cohen, 2016]. La premi `ere est la fouille de structure du Web (Web Structure Mining) qui analyse des relations, inconnuesa priori, entre les utilisateurs. Il y a plusieurs techniques de fouille telles que la classification et le classement. La d ´etection de communaut ´e et la recherche des utilisateurs influents font partie de cette cat ´egorie.

La deuxi `eme cat ´egorie est la fouille de contenus du Web (Web Content Mining) qui est le processus d’extraction d’informations contenues dans les documents stock ´es sur le Web. Parmi les applications de cette cat ´egorie, nous trouvons l’analyse de sentiments, la recherche d’information et la classification th ´ematique. La troisi `eme cat ´egorie est la fouille des usages du Web (Web Usage Mining), c’est un processus de d ´ecouverte d’informations sur le comportement de l’utilisateur sur internet. Parmi les applications de cette cat ´egorie, nous retrouvons la description des utilisateurs du r ´eseau social sous la forme d’un profil d ´etaill ´e.

La d ´etection de communaut ´es dans les r ´eseaux sociaux est l’un des sujets les plus popu- laires de la fouille de la structure du Web. Les communaut ´es sont des groupes d’individus ayant une probabilit ´e plus ´elev ´ee d’ ˆetre reli ´es les uns aux autres qu’aux membres d’autres groupes [Newman, 2001,Newman, 2004,Girvan et al., 2002,Basaille et al., 2018]. Une autre branche de recherche dans la fouille de la structure de Web est de pr ´edire et de recommander des liens inconnus dans les r ´eseaux sociaux. Liben-Nowell et al.

[Liben-Nowell et al., 2003] ´etudient le probl `eme d’inf ´erence de nouvelles interactions entre les individus. Ils d ´eveloppent plusieurs approches non supervis ´ees pour traiter ce probl `eme

`a partir de mesures d’analyse de la!proximit ´e"des nœuds dans un r ´eseau. Le principe est bas ´e sur la similarit ´e du contenu ou de la structure entre les individus. Leskovecet al.

[Leskovec et al., 2010] utilisent un mod `ele de r ´egression logistique pour pr ´edire les liens positifs et n ´egatifs dans les r ´eseaux sociaux en ligne, o `u les liens positifs indiquent les relations telles que l’amiti ´e, tandis que les liens n ´egatifs indiquent l’opposition.

(16)

1.1. CADRE DE LA TH `ESE 5

Dans le cadre de la fouille du contenu du Web, Tan et al. [Tan et al., 2011] ont ´etudi ´e comment le sentiment des utilisateurs peut ˆetre inf ´er ´e `a partir du contenu des messages

´echang ´es dans un r ´eseau social. En outre, en raison de probl `emes de confidentialit ´e, les utilisateurs de r ´eseaux sociaux ont tendance `a cacher leurs profils. Pour les fournisseurs de services de r ´eseaux sociaux, les informations sur les profils des utilisateurs leur sont utiles pour personnaliser leurs services aux utilisateurs de diverses mani `eres, telles que des re- commandations d’amis et de contenus ou une recherche personnalis ´ee [Tang et al., 2014].

Etant donn ´e un r ´eseau social et certaines informations sur des utilisateurs (attributs,´ pr ´ef ´erences ou comportements), la classification des utilisateurs est conc¸ue pour d ´eduire les informations d’autres utilisateurs du m ˆeme r ´eseau [Getoor et al., 2005].

La mod ´elisation du comportement et des caract ´eristiques des individus est un champ de recherche de la fouille de l’usage du Web dans laquelle se produit la construction d’un mod `ele/profil utilisateur pour caract ´eriser ses comp ´etences et connaissances. Firanet al.[Firan et al., 2007] construisent des profils utilisateur pour le site de musiquelast.fm en utilisant la musique stock ´ee dans l’ordinateur de l’utilisateur et ses votes. Abel et al.[Abel et al., 2011] mod ´elisent les int ´er ˆets des utilisateurs en analysant le contenu de leurstweets. Basailleet al.[Basaille-Gahitte et al., 2013] proposent un profil th ´ematique utilisateur dans le cadre de la relation client.

R ´ecemment, les plateformes de micro-blogging attirent l’attention des utilisateurs et des chercheurs en raison de la facilit ´e et de la rapidit ´e du partage de l’information. Ces plate- formes peuvent ˆetre consid ´er ´ees comme un tr `es grand r ´epertoire d’informations contenant des millions de messages textes g ´en ´eralement organis ´es en r ´eseaux complexes impliquant des utilisateurs interagissant les uns avec les autres `a des moments pr ´ecis. En raison de son immense popularit ´e,Twitter est consid ´er ´e comme la plateforme de micro-blogging num ´ero un dans le monde entier, il offre des APIs permettant de collecter gratuitement les donn ´ees servant de support pour d ´evelopper des applications ou effectuer des analyses, c’est la raison pour laquelle nous l’avons choisi pour nos diff ´erentes exp ´erimentations.

De nombreux travaux ´etudient les donn ´ees issues deTwitter dans des domaines tr `es diff ´erents : marketing, politique, catastrophes naturelles, etc. En effet, aujourd’hui,Twitter est une des !meilleures opportunit ´es disponibles" pour une marque d’acqu ´erir de la visibilit ´e parmi des consommateurs potentiels. Les sp ´ecialistes du marketing prennent note des nombreuses possibilit ´es offertes parTwitter et commencent `a mettre en œuvre de nouvelles initiatives sociales `a un rythme jamais atteint auparavant. Ainsi, les entreprises mondiales ont reconnuTwitter comme une plateforme de marketing `a part enti `ere, et l’utilisent avec des innovations pour alimenter leur campagne de publicit ´e.Twitter est aussi exploit ´e comme une plateforme pour les campagnes politiques [Ausserhofer et al., 2013]

en devenant un m ´edia int ´egr ´e au cœur de la strat ´egie de communication politique.

L’une des caract ´eristiques de Twitter est la diffusion d’information par l’utilisation d’op ´erateurs, tweeter, mentionner ou citer un utilisateur, utiliser un hashtag ou une URL par exemple. Les liens entre les utilisateurs d ´eterminent le flux de l’information et conditionnent ainsi l’influence d’un utilisateur sur un autre. Certains utilisateurs, appel ´es influents, sont plus capables que d’autres de diffuser des informations `a un grand nombre d’utilisa- teurs, d’influencer et de persuader les utilisateurs avec lesquels ils sont connect ´es. Par cons ´equent, la d ´etection des utilisateurs influents dans un r ´eseau est une cl ´e de succ `es pour parvenir `a une diffusion d’information `a large ´echelle et `a faible co ˆut. La notion d’in- fluence joue un r ˆole essentiel dans le fonctionnement des entreprises et le fonctionnement de la soci ´et ´e. L’ ´etude de l’influence surTwitter peut nous aider `a mieux comprendre pour-

(17)

6 CHAPITRE 1. INTRODUCTION

quoi certaines tendances ou innovations sont adopt ´ees plus rapidement que d’autres et comment nous pourrions aider les annonceurs et les sp ´ecialistes du marketing `a concevoir des campagnes plus efficaces. L’ ´etude de l’influence est cependant un sujet difficile. En effet, une telle ´etude ne se pr ˆete pas `a une mesure facilement disponible, et des ´el ´ements essentiels tels que les choix humains et le fonctionnement de nos soci ´et ´es ne peuvent pas ˆetre reproduits dans les limites du laboratoire. Ainsi, l’ ´etude de l’influence des utilisateurs sur Twitter est devenue un sujet de recherche de premier ordre pour les chercheurs en sciences de la communication et pose de nombreux probl `emes de mod ´elisation et d’estimation aux chercheurs en r ´eseaux complexes.

1.1.2/ MOTIVATIONS

Cette th `ese se place dans le cadre de l’analyse des donn ´ees des r ´eseaux sociaux. En effet, durant mon travail de recherche, j’ai eu l’occasion d’interagir et de collaborer avec des chercheurs des sciences de la communication dans le cadre des projets TEE’2014 et TEP’2017. TEE’2014 est un projet international interdisciplinaire r ´eunissant pr `es de quarante-cinq chercheurs (majoritairement des politologues, sociologues, chercheurs en communication) de dix laboratoires de recherche r ´epartis dans six pays europ ´eens (France, Allemagne, Belgique, Italie, Espagne et Royaume-Uni). Il a pour objectif d’ ´etudier la communication politique surTwitter `a l’occasion des ´elections au parlement europ ´een de mai 2014. L’objectif scientifique g ´en ´eral est de faire progresser les connaissances sur l’utilisation de ce m ´edia social `a travers l’analyse de la construction du discours de la campagne, dans plusieurs pays. Dans ce cadre, j’ai pu assister `a des r ´eunions qui m’ont permis d’interagir avec les chercheurs, notamment `a Dijon, Metz et Bonn (Allemagne) et valider de fac¸on qualitative mon approche. TEP’2017 reprend les m ˆemes principes `a travers l’ ´etude de la campagne pr ´esidentielle franc¸aise de 2017.

R ´ecemment, l’analyse de l’influence a suscit ´e beaucoup d’int ´er ˆet de la part des milieux de la recherche acad ´emique et industrielle. L’influence se produit lorsque les opinions, les ´emotions ou les comportements d’une personne sont affect ´es par d’autres, intentionnellement ou non [Kelman, 1958]. En g ´en ´eral, les recherches existantes sur l’analyse de l’influence sociale peuvent ˆetre class ´ees en trois cat ´egories : test d’influence o `u il s’agit d’identifier l’existence de l’in- fluence [Leavitt et al., 2009, Cha et al., 2010, Lee et al., 2010a], mesure d’in- fluence [Sun et al., 2011, Romero et al., 2011, Chen et al., 2013a, Silva et al., 2013, Zhao et al., 2015, Jendoubi et al., 2017] et mod `eles de diffusion d’influence [Kempe et al., 2003,Leskovec et al., 2007,Zhang et al., 2014,Riquelme et al., 2016].

Plusieurs ´etudes d’influence ont ´et ´e pr ´esent ´ees dans la litt ´erature. Souvent, le principal aspect sur lequel se sont focalis ´es les chercheurs fut le classement des utilisateurs de Twitter selon leur influence. Cependant, il est important de mesurer l’influence d’un certain utilisateur ind ´ependemment des autres utilisateurs. La m ´ethode de calcul de l’influence est g ´en ´eralement bas ´ee sur les interactions pr ´esentes dans le r ´eseau, par exemple, un utilisateur deTwitter qui poss `ede un grand nombre de mentionsest g ´en ´eralement consid ´er ´e comme plus influent que d’autres. Mais il est difficile de savoir quel type d’interaction permet d’indiquer le mieux l’influence des utilisateurs.

L’estimation de l’influence pose trois d ´efis principaux. Le premier est la diversit ´e des interactionssur lesquelles nous pouvons baser les calculs de l’influence. Il faut combiner l’influence respective des diff ´erentes interactions afin d’ ´etablir une mesure g ´en ´erale d’in-

(18)

1.2. OBJECTIFS ET PROBL ´EMATIQUE DE LA TH `ESE 7

fluence tout en prenant en compte l’incertitudelors de la combinaison des interactions.

Dans le cas des r ´eseaux multi-relationnels tel queTwitter, il est difficile d’attribuer des pond ´erations aux diff ´erentes interactions avant de les combiner. Le second d ´efi est la consid ´eration de l’influence indirecte. L’influence est indirecte lorsqu’elle atteint un uti- lisateur `a travers des utilisateurs interm ´ediaires. Par exemple, un utilisateur peutretweeter untweet d’un autre utilisateur indirectement `a travers un utilisateur interm ´ediaire. Il est donc n ´ecessaire de mesurer l’influence en tenant compte des interactions directes et indirectes dans le r ´eseau. Le troisi `eme d ´efi est lapolarit ´e destweets, il est important d’analyser le contenu destweets afin de d ´eduire si l’influence exerc ´ee est positive ou n ´egative.

1.2/ O

BJECTIFS ET PROBLEMATIQUE DE LA TH

´

ESE

`

La probl ´ematique principale de nos travaux de recherche est formul ´ee de la mani `ere suivante :

Comment exploiter les donn ´ees d’un r ´eseau social pour estimer l’influence des utilisateurs ?

L’ ´etude de l’influence des utilisateurs se base sur les interactions pr ´esente dans le r ´eseau social. Notre cadre d’application estTwitter car il fournit des API permettant un acc `es facile aux donn ´ees en grande quantit ´e. Les donn ´ees issues destweetssont riches pour ce qui est des interactions, en effetTwitter offre plusieurs op ´erateurs qui ´etablissent des liens entre les donn ´ees.

Ainsi, nous classifions les questions de recherche abord ´ees dans cette th `ese selon le d ´efi auquel nous devons r ´epondre pour estimer l’influence d’un utilisateur surTwitter :

— `A partir destweetscollect ´es, il est difficile de d ´eduire directement les interactions entre les utilisateurs. Ainsi, pour estimer l’influence d’un utilisateur, nous avons besoin de mod ´eliser les donn ´ees deTwitter afin de repr ´esenter les utilisateurs ainsi que toutes leurs interactions. Nous ´etudions alors :

D1: Comment mod ´eliser les donn ´ees deTwitter afin de repr ´esenter toutes les interactions entre les utilisateurs ainsi que lestweetset leurs contenus ?

— Les interactions dans Twitter sont nombreuses et de diff ´erents types. Dans les travaux de recherche existants, la mesure de l’influence se base souvent sur un seul type d’interaction quelque soit la m ´ethode utilis ´ee. Or, les diff ´erents types d’interactions contribuent `a l’influence des utilisateurs. Nous avons donc besoin de connaˆıtre le ou les types d’interactions sur lesquelles nous pouvons nous baser afin d’estimer l’influence. Ainsi, il est important de combiner ces interactions alors que nous ne disposons que d’informations incertaines sur l’importance des diff ´erents types d’interactions. Nous r ´epondons ainsi au d ´efi suivant :

D2: Comment combiner les informations sur les interactions du r ´eseau tout en exprimant l’incertitude que nous avons sur leur importance les unes par rapport

aux autres ?

— Il est aussi important de connaˆıtre si l’influence exerc ´ee est positive, n ´egative ou neutre. Le contenu destweets doit ˆetre alors exploit ´e dans le but d’analyser le sentiment exprim ´e dans ces derniers et de d ´eduire ainsi la polarit ´e de l’influence.

(19)

8 CHAPITRE 1. INTRODUCTION

Nous r ´epondons alors au d ´efi :

D3: Comment analyser le contenu destweetspour d ´eduire la polarit ´e de l’influence ?

— Nous nous int ´eressons aussi `a connaˆıtre la mani `ere dont certains utilisateurs interagissent avec les autres pour devenir influents. Pour ce faire, il est important d’ ´etudier le style de communication des diff ´erents utilisateurs de Twitter. Nous

´etudions alors :

D4: Comment exploiter le contenu destweets et l’usage des diff ´erents op ´erateurs pour d ´eduire le style de communication utilis ´e ?

1.3/ C

ONTRIBUTIONS

Dans ce qui suit, nous pr ´esentons les principales contributions scientifiques de cette th `ese.

Notre objectif principal est de proposer une approche qui permet d’exploiter les donn ´ees deTwitter afin d’estimer l’influence des utilisateurs. Les contributions suivantes sont des mod `eles que nous proposons en r ´eponse aux diff ´erents d ´efis. Ces contributions ont abouti

`a la publication de plusieurs articles scientifiques que nous citons dans l’annexeE.

C1 Mod ´elisation de Twitter

Pour r ´epondre `a notre premier d ´efi, nous proposons une mod ´elisation deTwitter. Dans la litt ´erature, Twitter a ´et ´e souvent mod ´elis ´e sous forme d’un graphe o `u les nœuds repr ´esentent les utilisateurs, et les liens sont les diff ´erentes interactions existantes entre eux. Avec une telle repr ´esentation, nous ne parvenons pas `a voir le contenu destweets publi ´es et ´echang ´es dans le r ´eseau. Pour ceci, nous proposons une nouvelle mod ´elisation deTwitter comme un r ´eseau multiplexe h ´et ´erog `ene. En effet, le r ´eseau est repr ´esent ´e

`a travers plusieurs couches, chaque couche constitue une dimension (interactions entre utilisateurs, actions des utilisateurs et contenu destweets). Les nœuds dans le r ´eseau propos ´e sont h ´et ´erog `enes puisque nous avons plusieurs types de nœuds possibles : utilisateurs,tweets, hashtags, URLs.

C2 Estimation de l’influence par la th ´eorie des fonctions de croyance

Cette contribution r ´epond au deuxi `eme d ´efi. Afin d’estimer l’influence d’un utilisateur dans Twitter, il est important de consid ´erer toutes les interactions se produisant dans le r ´eseau.

Comme il est difficile de connaˆıtre l’importance des diff ´erentes interactions les unes par rapport aux autres, nous employons la th ´eorie des fonctions de croyance qui permet d’exprimer l’incertitude par la notion de masses de croyance port ´ees par les diff ´erentes interactions. La th ´eorie des fonctions de croyance permet la combinaison des masses de croyance `a travers la r `egle de combinaison conjonctive. L’influence d’un utilisateur dans le r ´eseau social est estim ´e avec un degr ´e de certitude puis nous classons les utilisateurs selon leur influence.

C3 Polarit ´e de l’influence sur Twitter

Dans le but de d ´eterminer la polarit ´e de l’influence, nous exploitons le contenu destweets

(20)

1.4. STRUCTURE DU MANUSCRIT 9

collect ´es. Nous ´etudions ainsi le sentiment exprim ´e `a travers lestweets en utilisant un algorithme de machine learning (random forest). Une fois que nous avons d ´etermin ´e la polarit ´e destweets, nous divisons le r ´eseauTwitter en trois sous-r ´eseaux, chaque sous- r ´eseau repr ´esentant une polarit ´e (positif, n ´egatif ou neutre). La m ´ethode d’estimation de l’influence propos ´ee dansC2est utilis ´ee dans chaque sous-r ´eseau pour obtenir l’influence dans chaque sous-r ´eseau. Enfin, les mesures d’influence des trois sous-r ´eseaux sont combin ´ees pour obtenir une estimation de l’influence globale polaris ´ee.

C4Analyse des styles de communication sur Twitter

L’approche propos ´ee dansC2peut ˆetre adapt ´ee afin d’ ´etudier les styles de communication dansTwitter. En effet, certains utilisateurs adaptent un style de communication sp ´ecifique pour atteindre un maximum de visibilit ´e surTwitteret devenir ainsi influent. Nous proposons trois styles de communication : 1) le style interactif `a travers lequel l’utilisateur a plut ˆot tendance `a interagir avec d’autres utilisateurs ; 2) le style informatif dans lequel l’utilisateur maximise la visibilit ´e de sontweet en identifiant par exemple des utilisateurs populaires dans sontweet; 3) enfin, le style balanc ´e o `u l’utilisateur alterne entre les styles interactif et informatif.

1.4/ S

TRUCTURE DU MANUSCRIT

Ce manuscrit est compos ´e de six chapitres en compl ´ement de cette introduction. Dans le chapitre 2, nous d ´efinissons tout d’abord les principaux concepts relatifs au sujet de la th `ese. Nous pr ´esentons par la suite des probl ´ematiques connexes `a l’ ´etude de l’influence.

Enfin, nous pr ´esentons les travaux de recherche qui ´etudient l’influence dans les r ´eseaux sociaux et plus particuli `erement Twitter afin de mieux se positionner par rapport aux travaux existants.

Dans le chapitre 3, nous d ´ecrivons la mod ´elisation du r ´eseauTwitter comme un r ´eseau multiplexe h ´et ´erog `ene. Cette mod ´elisation est bas ´ee sur les concepts des r ´eseaux mul- tiplexes. Elle prend en compte `a la fois le contenu destweets et les interactions entre les utilisateurs. Cette mod ´elisation nous a permis d’exploiter l’algorithme du PageRank multiplexe afin de classer les utilisateurs selon leur influence.

Dans le chapitre 4, nous proposonsTwitBelief, une approche d’estimation de l’influence dans Twitter. En se basant sur la th ´eorie des fonctions de croyance, nous combinons les informations des diff ´erentes interactions du r ´eseau. L’incertitude sur l’importance des diff ´erents crit `eres consid ´er ´es est exprim ´ee. Le contenu des tweets n’est pas pris en compte dans le processus de l’estimation, nous consid ´erons seulement les interactions pr ´esentes dans le r ´eseau.

Dans le chapitre 5, nous proposons l’extension de la m ´ethode de l’estimation de l’influence au contenu destweets. Nous pr ´esentons d’abord une approche d’estimation de l’influence polaris ´ee afin de consid ´erer le sentiment exprim ´e `a travers destweets, nous d ´eduisons ainsi la polarit ´e de l’influence exerc ´ee. Ensuite, nous d ´etaillons une deuxi `eme extension, Twitter styles, qui d ´etermine les styles de communication des utilisateurs en fonction de leurstweets.

Dans le chapitre 6, nous pr ´esentons l’ ´etude exp ´erimentale des diff ´erentes contributions.

Cette ´etude est effectu ´ee sur trois jeux de donn ´ees. Le premier s’appuie sur des donn ´ees

(21)

10 CHAPITRE 1. INTRODUCTION

Twitter collect ´ees dans le cadre du projet inter-disciplinaire TEE’2014 lors de la campagne pour les ´elections europ ´eennes de 2014. Le deuxi `eme est relatif aux donn ´ees de l’ ´election pr ´esidentielle franc¸aise de 2017. Nous menons ´egalement des exp ´eriences sur l’ensemble des donn ´ees CLEF RepLab 20143, qui sont des donn ´eesTwitter contenant des utilisateurs Twitter manuellement annot ´es en fonction de leur influence. Ces derni `eres exp ´eriences nous permettent de comparer notre approche avec les annotations pos ´ees.

Dans le chapitre 7, nous concluons notre travail en revenant sur les principales contri- butions apport ´ees dans cette th `ese dans le domaine de l’estimation de l’influence dans Twitter. Ce chapitre contient ´egalement une partie discussions, pr ´esentant nos obser- vations finales concernant notre travail. Nous expliquons ensuite la pertinence de nos contributions et leur capacit ´e `a ˆetre applicables/g ´en ´eralisables `a d’autres domaines. Et enfin nous identifions les limites de notre approche et les perspectives de recherche ainsi que d’autres pistes prometteuses corr ´el ´ees `a notre travail.

3. https://www.damianospina.com/projects/the-replab-2014-dataset/

(22)

2

E ´ TAT DE L ’ ART

L

’objectif de ce chapitre est de d ´efinir tout d’abord les concepts fondamentaux utilis ´es dans cette th `ese : la plateformeTwitter et les crit `eres relatifs `a son analyse puis les notions autour de l’influence. Nous pr ´esentons par la suite des probl ´ematiques connexes `a l’influence puis nous d ´etaillons l’ ´etat de l’art sur l’estimation de l’influence dans les r ´eseaux sociaux et en particulier dansTwitter afin de les comparer et de positionner notre travail vis- `a-vis de ces derniers.

2.1/ C

ONCEPTS FONDAMENTAUX

Dans cette section, nous pr ´esentons les concepts fondamentaux relatifs `a notre travail

`a savoir la plateformeTwitter qui nous sert `a valider nos r ´esultats ainsi que les termes utilis ´es dans ce manuscrit afin de lever toute ambigu¨ıt ´e.

2.1.1/ LA PLATEFORME Twitter

Twitter est un r ´eseau social et une plateforme de micro-blogging cr ´e ´e et lanc ´e en 2006 par Jack Dorsey, Evan Williams, Biz Stone et Noah Glass. Il permet `a ses utilisateurs de partager des informations sous forme de messages de 280 caract `eres maximum appel ´es

!tweets". La syntaxe d’untweetest assez simple : il peut contenir, en plus des caract `eres, des m ´edias (images, vid ´eos), des hashtags (mots-cl ´es commenc¸ant par #) qui permettent de signaler un sujet d’int ´er ˆet, des URLs (liens vers d’autres sites) ou bien d’autres comptes d’utilisateurs (pr ´efix ´es par @) permettant ainsi d’interpeller, citer ou r ´epondre `a un autre utilisateur (voir la figure2.1). Par d ´efaut, lestweetssont publics, c’est- `a-dire visibles par tous ; il existe cependant des cas o `u lestweetspeuvent ˆetre priv ´es.

Les interactions entre utilisateurs sont un point important de ce r ´eseau social : un utilisateur peutsuivreun autre utilisateur, lui permettant ainsi de voir les informations de l’utilisateur qu’il suit et d’ ˆetre inform ´e des nouveauxtweets de ce dernier. Les personnes qui suivent l’utilisateur sont appel ´ees desabonn ´es, et les personnes que l’utilisateur suit sont appel ´ees abonnements. Dans le but de relayer de l’information, un utilisateur peutretweeter un tweet, ce qui expose cetweet `a ses abonn ´es, qui `a leur tour peuvent leretweeter (chaˆıne deretweets). Un utilisateur peutmentionner un autre utilisateur en utilisant le pr ´efixe

!@"s’il veut lui adresser letweet, ce m ˆemetweetpouvant ˆetre retweet ´epar un autre

utilisateur. De plus, un utilisateur peut r ´epondre `a untweet et cr ´eer ainsi une conversation avec l’utilisateur dutweet initial.

11

(23)

12 CHAPITRE 2. ´ETAT DE L’ART

FIGURE2.1 – Un exemple detweet

Twitter est l’un des r ´eseaux sociaux les plus utilis ´es : au troisi `eme trimestre 2018, on d ´enombrait 326 millions d’utilisateurs actifs chaque mois, postant au total environ 504 millions detweetspar jour1. Aujourd’hui, pour les personnes publiques et les c ´el ´ebrit ´es, Twitter est devenu incontournable pour parler de son actualit ´e et exister dans les m ´edias.

Comme la drosophile, qui est l’esp `ece mod `ele dans la recherche en g ´en ´etique,Twitter est le!mod `ele repr ´esentant"dans le domaine des Sciences Humaines et Sociales pour des recherches sur diff ´erents sujets d’int ´er ˆet. Ce ph ´enom `ene a abouti `a diff ´erentes ´etudes sur les donn ´ees issues deTwitter.

Dans le domaine politique, les politiciens utilisent Twitter pour communiquer sur leurs campagnes, par exemple, pendant les ´elections europ ´eennes 2014, un grand nombre de tweets, ´emis par les candidats, ont ´et ´e ´etudi ´es par des chercheurs afin de comprendre la circulation des discours politiques [Frame et al., 2015,Thimm et al., 2016]. Durant l’ann ´ee 2016, le pr ´esident am ´ericain Donald Trump s’est distingu ´e pendant sa campagne par une utilisation de Twitter offensive et tr `es diff ´erente de celle des autres personnalit ´es politiques. Avec pr `es de 1 800tweetsentre sa nomination en tant que candidat r ´epublicain, en mi-juillet 2016, et quelques jours avant son ´election en tant que pr ´esident, en mi-janvier 2017, Donald Trump a ´et ´e tr `es actif sur le r ´eseau social, non seulement pour commenter les ´ev ´enements, mais aussi et surtout pour r ´epondre `a des critiques ou attaquer ses rivaux, ´ecrivant jusqu’ `a 88tweetsen une journ ´ee2. Ainsi, des ´etudes explorent la mani `ere dont le pr ´esident am ´ericain Donald Trump utiliseTwitter comme instrument strat ´egique dans la politique pour diffuser son discours [Ott, 2017,Kreis, 2017,Anderson, 2017]. Les citoyens utilisent aussi ce r ´eseau pour ´emettre leurs opinions, par exemple, les chercheurs

1. http://www.journaldunet.com/ebusiness/le-net/1159246-nombre-d-utilisateurs-de-twitter-dans-le-monde/

2. https://urlz.fr/86eI

(24)

2.1. CONCEPTS FONDAMENTAUX 13

montrent queTwitter et les r ´eseaux sociaux ont jou ´e un r ˆole primordial dans la r ´evolution Tunisienne et le printemps arabe [Dakhli, 2011,Huygue, 2011].

Dans le domaine du marketing,Twitter a constitu ´e une plate-forme pour les ´etudes de la r ´eputation des produits `a travers l’analyse des sentiments exprim ´es dans lestweets

´emis par les consommateurs [Keller et al., 2007,Jansen et al., 2009,Vidya et al., 2015].

Ils existent ´egalement des ´etudes sur l’utilisation de Twitter pendant les catastrophes naturelles telles que la d ´etection de l’ ´epicentre de tremblement de terre [Earle et al., 2012]

ou l’ ´etude du comportement des utilisateurs suite `a des situations d’urgence (crimes, accidents de voiture, etc.) [Li et al., 2012] ou l’ ´etude de discours de haine apr `es l’acte terroriste de Woolwich en Angleterre [Williams et al., 2015].

Nous retrouvons aussi des ´etudes sur l’utilisation deTwitter par des journalistes et des m ´edias dans le but de diffuser les actualit ´es [Alvarez, 2012,´ Debeaux, 2015]. Cependant, avec l’utilisation croissante deTwitter dans le domaine politique, les fausses informations (!fake news") et la v ´erification des faits (!fact-checking") ont pris une nouvelle significa- tion. Lefact-checking d ´esigne un mode de traitement journalistique, consistant `a v ´erifier de mani `ere syst ´ematique des affirmations et l’exactitude des faits, chiffres ou citations rapport ´es par les journalistes, les experts. Dans [Coddington et al., 2014], les auteurs examinent dans quelle mesure les techniques defact-checkingont ´et ´e utilis ´ees surTwitter

`a travers une analyse de contenu du discours surTwitter des journalistes politiques sur les d ´ebats pr ´esidentiels de l’ ´election pr ´esidentielle am ´ericaine de 2012. Une typologie detweets indique que lefact-checkinga jou ´e un r ˆole notable mais secondaire dans le discours des journalistes surTwitter.

2.1.2/ CRITERES POUR L` ’ANALYSE DETwitter

De nombreux travaux li ´es `a Twitter visent `a caract ´eriser les utilisateurs de diff ´erentes mani `eres, par exemple : son r ˆole dansTwitter (spammeurs, robots, organisations, etc.), sa nature (cat ´egorie socioprofessionnelle, ˆage, etc.), ses sujets d’int ´er ˆet, etc. Cependant, pour un probl `eme de classification d’utilisateur donn ´e, il est tr `es difficile de s ´electionner un ensemble de crit `eres appropri ´es, car, dans la litt ´erature, les nombreux crit `eres d ´ecrits sont tr `es h ´et ´erog `enes et apparaissent sous diff ´erents noms.

Dans [Cossu et al., 2016], les auteurs examinent les crit `eres qui peuvent ˆetre extraits de Twitter dans le but de cat ´egoriser les utilisateurs et de les appliquer pour d ´etecter les utilisateurs influents dans la vie r ´eelle sur la base de leur profil Twitter. Ils divisent les crit `eres en sept cat ´egories. La premi `ere cat ´egorie est le profil de l’utilisateur, par exemple, s’assurer qu’il a une photographie de profil, que son compte est v ´erifi ´e ou non, qu’il indique sa page Web dans son profil, etc. D’autres crit `eres sont inclus dans cette cat ´egorie comme le nombre de caract `eres dans le nom d’utilisateur, la description et l’ ˆage du profil ainsi que le nombre d’URLs pr ´esentes dans la description du profil.

La deuxi `eme cat ´egorie est l’activit ´e de l’utilisateur. L’activit ´e est ´etudi ´ee `a travers le nombre detweetspubli ´es par l’utilisateur, de sources m ´edias publi ´ees, d’auto-mentions, detweets g ´eolocalis ´es et d’intervalle de temps entre deuxtweetscons ´ecutifs.

Les connections locales de l’utilisateur repr ´esentent la troisi `eme cat ´egorie. Les crit `eres de cette cat ´egorie d ´ecrivent comment l’utilisateur est connect ´e avec le reste du r ´eseau Twitter. Par exemple, le r ´eseau des relations abonn ´es-abonnements o `u deux valeurs repr ´esentent un utilisateur : le nombre d’abonn ´es et le nombre d’abonnements. Nous

(25)

14 CHAPITRE 2. ´ETAT DE L’ART

pouvons consid ´erer aussi dans cette cat ´egorie le nombre de tweets publi ´es par les abonn ´es et lesabonnementsd’un utilisateur, ce qui repr ´esente le niveau de l’activit ´e de publication dans le voisinage direct de l’utilisateur.

La cat ´egorie suivante repr ´esente les interactions de l’utilisateur avec les autres personnes.

Les interactions sont repr ´esent ´ees par le nombre deretweet,mentionetr ´eponse.

La cinqui `eme cat ´egorie couvre l’aspect lexical des tweets en prenant en compte le contenu produit par l’utilisateur. Les crit `eres utilis ´es sont par exemple, la taille du lexique de l’utilisateur, c’est- `a-dire le nombre de mots qu’il utilise, le nombre d’entit ´es identifi ´ees dans sestweets. Les entit ´es correspondent aux noms propres permettant d’identifier des personnes, des organisations, des lieux, des marques, etc.

La cat ´egorie suivante repr ´esente les particularit ´es d’ ´ecriture d’un tweet. Les crit `eres sont alors le nombre de caract `eres par mot et partweet, la longueur d’untweetparfois exprim ´ee en nombre de mots au lieu des caract `eres mais aussi le nombre de hashtags, d’URLs, l’auto-similarit ´e destweetsde l’utilisateur. Ces crit `eres peuvent aider `a caract ´eriser certains types d’utilisateurs, ainsi le contenu ´emis par certains spammeurs est form ´e d’un ensemble de mots sans structure grammaticale propre.

Enfin, la derni `ere cat ´egorie repr ´esente les donn ´ees externes, cette cat ´egorie contient des crit `eres correspondant aux donn ´ees non r ´ecup ´er ´ees directement depuisTwitter, par exemple, le nombre de r ´esultats de recherches Web pour la page de l’utilisateur.

Le tableau 2.1 synth ´etise les sept cat ´egories de crit `eres sur lesquels les chercheurs de diff ´erents domaines peuvent baser leur analyse des donn ´ees issues deTwitter. Des exemples de r ´ef ´erences de travaux de recherche sont donn ´es cat ´egorie par cat ´egorie.

(26)

2.1. CONCEPTS FONDAMENTAUX 15

TABLE2.1–Synth`esedescrit`erespourl’analyseTwitter[Cossuetal.,2016] Cat´egorieDescriptionExemplesdetravauxderecherche Profildel’utilisateurPhotodeprofil[Pennacchiottietal.,2011,Vilaresetal.,2014] Comptev´erifi´e[Zietal.,2012,Leeetal.,2010b,Uddinetal.,2014,Vilaresetal.,2014] PageWeb[Leeetal.,2013,Vilaresetal.,2014] Ageduprofil[Benevenutoetal.,2010,Pennacchiottietal.,2011,Uddinetal.,2014] Nombredecaract`eresdanslenomd’utilisateur[Leeetal.,2011,Leeetal.,2013] Descriptionduprofil[Leeetal.,2011,Leeetal.,2013] Nombred’URLs[Ram´ırez-de-laRosaetal.,2014] Activit´edel’utilisateurNombredetweets[Raoetal.,2010,Leeetal.,2011,Zietal.,2012,Vilaresetal.,2014] Nombredesourcesm´edias[Ram´ırez-de-laRosaetal.,2014] Nombred’auto-mentions[Ram´ırez-de-laRosaetal.,2014] Nombredetweetsg´eolocalis´es[Huangetal.,2014,Vilaresetal.,2014] Intervalledetempsentredeuxtweetscons´ecutifs[Benevenutoetal.,2010,Pennacchiottietal.,2011] [Ram´ırez-de-laRosaetal.,2014] ConnectionslocalesRelationsabonn´es/abonnements[Ram´ırez-de-laRosaetal.,2014,Vilaresetal.,2014] [Tommaseletal.,2015] Nombredetweetspubli´esparlesabonn´es/abonnements[Benevenutoetal.,2010,Ram´ırez-de-laRosaetal.,2014] Interactionsdel’utilisateurNombrederetweets[Raoetal.,2010,Benevenutoetal.,2010,Chaetal.,2010] Nombredementions[Chaetal.,2010,Uddinetal.,2014,Danischetal.,2014] Nombreder´eponses[Pennacchiottietal.,2011,Uddinetal.,2014] AspectlexicaldestweetsTailledulexique[Benevenutoetal.,2010,Werenetal.,2014] Nombred’entit´es[Ram´ırez-de-laRosaetal.,2014] TraitsstylistiquesNombredecaract`eresparmot/tweet[Ram´ırez-de-laRosaetal.,2014] Longueurd’untweet[Benevenutoetal.,2010,Makazhanovetal.,2014,deArrudaetal.,2014] Nombredehashtags[Pennacchiottietal.,2011,deArrudaetal.,2014,Uddinetal.,2014] Nombred’URLs[Zietal.,2012,Leeetal.,2010b,Ram´ırez-de-laRosaetal.,2014] Auto-similarit´edestweets[Wang,2010,Leeetal.,2011,Leeetal.,2013] Don´eesexternesRecherchesWeb[Cossuetal.,2015]

(27)

16 CHAPITRE 2. ´ETAT DE L’ART

Par cons ´equent, nous pouvons conclure que les crit `eres d’analyse deTwitter sont nom- breux rendant la t ˆache de leur s ´election difficile. Un autre fait important concernant la s ´election des crit `eres est leur disponibilit ´e, les donn ´ees fournies pour l’ ´etude pourraient ˆetre incompl `etes par rapport aux crit `eres `a traiter. Par exemple, pour utiliser les crit `eres issues de la cat ´egorie connections locales, il faut remonter `a partir de l’ensemble des tweets collect ´es `a tous les comptes abonn ´es aux utilisateurs qui ont ´emis cestweets. Les limitations de l’APITwitter peuvent emp ˆecher d’acc ´eder `a ces donn ´ees ou les comptes concern ´es peuvent ne plus exister ou avoir chang ´e leur param `etre de confidentialit ´e. Il existe ´egalement des contraintes li ´ees au temps : les donn ´ees collect ´ees ne correspondent qu’ `a celles qui peuvent ˆetre obtenues dans un d ´elai raisonnable. En outre, m ˆeme si nous parvenons `a collecter toutes les donn ´ees n ´ecessaires, le traitement de certains crit `eres peut ˆetre tr `es lent si l’ensemble des donn ´ees `a traiter est trop volumineux. De plus, les donn ´esTwitter ne peuvent pas ˆetre r ´eduites `a des propri ´et ´es statistiques mais demandent des outils riches pour les analyser.

2.1.3/ NOTIONS RELATIVES A L` ’INFLUENCE

Dans cette sous-section, nous commenc¸ons par d ´efinir l’influence sociale, ensuite, nous d ´efinissons quelques notions relatives `a l’ ´etude de l’influence et d’autres souvent confon- dues avec la notion d’influence.

D ´efinition 1 : Influence sociale

Pouvoir social d’une personne qui am `ene les autres `a se ranger `a son avisa.

a. Dictionnaire culturel en langue Franc¸aise sous la direction d’Alain Rey.

En psychologie sociale, l’influence sociale est le changement dans les pens ´ees, les sentiments, les attitudes ou les comportements d’un individu r ´esultant de l’interaction avec un autre individu ou un groupe [Rashotte, 2007]. L’ ´etude de l’influence sociale peut s’effectuer sur trois niveaux : le niveau d’analyse individuelle quand l’influence se produit entre deux individus, le niveau d’analyse communautaire quand l’influence est effectu ´ee entre une communaut ´e3et un individu, dans ce niveau, l’influence est visible `a travers l’ ´evolution de la communaut ´e, et enfin, le niveau d’analyse d’influence dans le r ´eseau, cette influence s’effectue entre les communaut ´es ce qui entraˆınent l’ ´evolution de l’ensemble du r ´eseau. La plupart des changements et des ´evolutions des r ´eseaux sociaux peuvent ˆetre consid ´er ´es comme le r ´esultat de l’influence sociale individuelle. L’influence sociale est distincte du conformisme, de l’innovation et de la soumission `a l’autorit ´e. Le conformisme ou influence majoritaire se produit lorsqu’un individu change son comportement pour le mettre en ad ´equation avec le comportement d’un groupe majoritaire. L’innovation est d ´efinie comme l’influence d’un individu ou d’une minorit ´e de personnes sur une majorit ´e.

Contrairement au conformisme, c’est la minorit ´e qui r ´eussit `a imposer son point de vue. On parle de soumission `a l’autorit ´e (l’ob ´eissance) lorsqu’un individu change de comportement afin de se soumettre aux ordres ´emanant d’une autorit ´e perc¸ue comme l ´egitime. Il existe

´egalement d’autres ph ´enom `enes comme la r ´esistance qui s’oppose aux ph ´enom `enes pr ´ec ´edents.

3. Une communaut ´e est, dans le sens courant, un ensemble de personnes vivant ensemble ou ayant des interactions entre elles.

Références

Documents relatifs

Vous venez de d´ ecouvrir une propri´ et´ e fondamentale du r´ eseau r´ eciproque : la normale au plan d’indices de Miller (hkl) est la rang´ ee r´ eciproque de composantes

c) En s’appuyant sur ce qui précède, indiquer une construction géométrique du point w, a et θ étant connus.. Baccalauréat 1990 Page 2 sur 2 Adama Traoré

Faire une figure en prenant BC= 3cm, BP = 1cm et en plaçant (BC) horizontalement sur la feuille. c) Quelle est la nature des triangles RAQ et PAS ?.. b) Quel est le lieu

On note ( C ) la courbe de f dans le plan muni d’un repère orthonormé d’unité graphique 3cm.. EXERCICE II

Soit n, un entier naturel et x un réel quelconque.. Soit x un

( C ) est la courbe représentative de f dans un repère orthonormal d’unité graphique 2 cm. I- 1°) Prouver que la courbe ( C ) admet deux asymptotes dont on donnera

Prouver que toutes courbes (C n ) passent par un même point fixe A dont on déterminera les coordonnées. a) Étudier le sens de variation de φ en précisant ses limites aux bornes

[r]