• Aucun résultat trouvé

5.2 Diagramme de corrélations intertemporelles

5.2.6 Perspectives

Cette méthode de reconstruction des diagrammes d’influence entre catégories de sources pourrait profiter de nombreux développements. Une première piste consisterait, en augmentant sensiblement le nombre de concepts, à en proposer une catégorisation susceptible de donner lieu à des motifs d’influence différents en fonction des catégories de concepts. Ainsi, on peut s’interroger sur la stabi- lité de notre diagramme selon le type de concepts employés. Est-ce que la dyna- mique d’influence des concepts ayant trait à des thématiques particulières (par exemple, des concepts exclusivement liés aux questions économiques ou écolo- giques) serait susceptible d’être reconstruite par un diagramme différent ? Cer- taines sources deviennent-elles plus “influentes”, ou moins “influençables” selon le type de concept mobilisé ? Nous avons, dans ce travail, construit un diagramme qui agrège l’ensemble des influences observées sur l’ensemble de nos concepts. En ce sens, c’est une caractérisation des influences moyennes entre nos catégories de sources qui n’interdit pas à certaines catégories d’être dotées d’un pouvoir de prescription supérieur lorsque le débat se déplace dans leur domaine de spécialité.

Une autre amélioration consisterait à augmenter l’histoire des états possibles. Il existe sans doute des corrélations intertemporelles qui dépendent d’histoires de tailles supérieures à un jour ; on peut songer par exemple à une classe de sources devant systématiquement persister à discuter un concept pendant plu- sieurs jours d’affilée avant que d’autres ne lui “emboîtent le pas”. La difficulté que nous risquons de rencontrer dans ce cas tient à la multiplication des états cau- saux construits par l’algorithme. Effectuer une seconde opération de catégorisation pourrait résoudre cette difficulté. Rassembler les états causaux les plus semblables (ayant des futurs “proches” en probabilité à défaut d’être stochastiquement iden-

tiques) pourrait permettre de conserver une représentation synthétique de notre diagramme d’influence tout en intégrant des histoires plus longues.

Une dernière piste d’approfondissement consisterait à tenter de corréler les diagrammes d’influence propres aux blogs avec les réseaux sociaux reliant les sources de contenus sous-jacentes. Notre méthode permet de retracer des in- fluences systématiques d’un groupe de sources sur un autre. Le réseau social (comme le réseau de citations entre blogs) est-il un bon prédicteur des transitions entre états que nous avons exhibées ?

Enfin, dans une perspective plus large, nous pouvons nous interroger sur l’ap- plication de ce type de méthode à l’activité scientifique. Le même cadre pourrait être employé pour suivre les influences croisées induites par tel ou tel groupe de communautés scientifiques sur tel ou tel autre. Cette méthode permettrait ainsi de repérer les flux systématiques de concepts transitant entre communautés.

Résumé du chapitre:

Nous avons présenté une méthodologie générique de reconstruction des corrélations intertemporelles apparaissant entre les contenus produits par dif- férentes catégories de sources. Nous nous sommes appuyés sur l’algorithme

CSSR qui permet, à partir d’une dynamique discrète symbolique, de recons-

truire l’ensemble des états causaux, définis comme des classes d’équivalence d’états du système ayant le même futur en probabilité. Cette méthode permet également de décrire la dynamique du système comme une chaîne de Markov cachée dont les éléments sont des états causaux, accompagnée de l’ensemble des probabilités de transitions entre états causaux et des symboles émis (les états du système) à chaque transition. La dynamique du système est ainsi reconstruite de façon statistiquement optimale.

Nous avons appliqué ce formalisme à la dynamique de production de contenus d’un ensemble de sources au sein de la blogosphère politique fran- çaise ainsi que dans la presse. Notre objectif était de montrer qu’il est possible par la seule observation des profils sémantiques d’un ensemble de sources, d’exhiber les motifs d’influence systématiques entre ces sources afin de ten- ter de répondre aux questions concernant notamment la subordination d’une classe de sources à une autre (une forte activité observée autour d’un concept au sein des blogs est-elle susceptible d’être “reprise” le lendemain dans la presse ?) et plus largement d’exhiber des motifs d’activations de sources qui induisent de façon systématique un certain comportement du système.

Plus précisément, nous avons construit trois classes de blogs partageant les mêmes inclinations politiques (droite, gauche, centre), ainsi qu’une dernière classe regroupant un ensemble de quotidiens représentant l’activité des media durant les élections présidentielles françaises de 2007. L’examen des profils d’activité de chacune de ces classes nous a permis de définir une dynamique symbolique discrète sur les quatre classes déjà définies, i.e. la dynamique de l’ensemble du système peut être décrite comme une série temporelle discrète sous la forme d’un vecteur binaire dont les 4 éléments (correspondant aux 4 classes de source) valent 1 ou 0 selon que les différentes sources sont actives ou non vis-à-vis d’un concept à un moment donné. L’alphabet des états décrits par le système comprend 16 éléments. La totalité des transitions entre états est a priori possible, et la dynamique symbolique empirique observée en com- prend un grand nombre. La reconstruction que nous en proposons permet de réduire cette dynamique sur l’ensemble de nos concepts à une chaîne de mar- kov cachée que nous appelons diagramme d’influence, révélant les corrélations intertemporelles systématiques existant entre des profils d’activité de sources

réunies au sein d’états causaux. Le diagramme d’influence ainsi construit per- met de faire différentes observations : d’une part repérer les états du système équivalents, i.e. appartenant à un même état causal - ces états sont équiva- lents d’un point de vue dynamique, ils induisent le même futur en probabilité, d’autre part observer à un niveau synthétique les dynamiques à l’œuvre dans le système de façon à représenter et quantifier les influences existantes entre groupes de sources.

Du rôle de la topologie des

réseaux sur la diffusion

Sommaire

6.1 Protocole de simulation . . . 186

6.1.1 Protocole de simulation . . . 186

6.1.2 Topologies de réseaux . . . 188

6.2 Dynamiques de diffusion . . . 191

6.2.1 Résultat des simulations . . . 191

6.2.2 Interprétation . . . 193

6.3 Rôle des règles de transmission . . . 196

6.3.1 Directionalité de la transmission . . . 196

6.3.2 Hypothèses de transmission réalistes . . . 199

6.3.3 Modèles de transmission stylisés . . . 201

6.3.4 Résultats des simulations . . . 202

Les processus de diffusion de connaissance sont intimement conditionnés par la combinaison des comportements des agents (en situation d’incertitude, on peut s’attendre à différents comportements vis-à-vis d’une innovation (voir (Granovet- ter, 1978a) par exemple) et d’effets de structure inhérents au réseau social support des transmissions entre individus. Ce chapitre, qui s’appuie en grande partie sur un article (Cointet and Roth, 2007) publié en collaboration avec Camille Roth, vise, à travers un protocole simulatoire, à caractériser les paramètres topologiques sus- ceptibles d’influencer la vitesse d’un processus de diffusion pour différentes hy- pothèses de transmission inter-individuelle.

Les modèles de diffusion d’innovation, de maladies ou de connaissance dans les réseaux sociaux ont suscité un intérêt accru ces dernières années. L’analyse des

phénomènes de diffusion de connaissance remonte au milieu du XXeme` siècle et a

initialement été abordée en sociologie, en économie ou en gestion (Coleman et al., 1957a; Rogers, 2003; Robertson, 1967; Rogers, 1976; Granovetter, 1978a; Burt, 1987; Valente, 1995).

Dès les premières études empiriques des processus de diffusion (Ryan and Gross, 1943; Menzel and Katz, 1955; Coleman et al., 1957b), une attention particu- lière a été portée à certaines propriétés du réseau social sous-jacent semblant liées à

la dynamique de diffusion (centralité des premiers innovateurs par exemple) tan- dis que Rogers (1976) insistait sur la nécessité de mettre en place des protocoles expérimentaux d’observation longitudinale des phénomènes de diffusion :

“For network analysis to fulfill its potential, however, I feel we must improve the methods of data gathering and measurement (...). Longitu- dinal panel designs for networks analysis of diffusion process are also needed ; along with field experiments, they help secure the necessary data to illuminate the over-time process of diffusion.” Rogers (1976)

L’analyse des grands réseaux d’interaction par des approches de type “phy- sique statistique” a également insufflé un courant formalisateur dans l’appréhen- sion des questions liées à la diffusion, dans un premier temps en s’appuyant sur la littérature en épidémiologie (Pastor-Satorras and Vespignani, 2001; Lloyd and May, 2001), avant de se pencher plus directement sur des processus plus spé- cifiques aux sciences sociales tels que la diffusion des rumeurs (Newman, 2002; Kempe et al., 2003), ou les dynamiques d’opinions (Axelrod, 1997b; Deffuant et al., 2002).

Néanmoins, même si certains auteurs ont insisté sur la nécessité de prendre en compte des topologies de réseau et des mécanismes de transmission réalistes à l’aide de mesures empiriques (Valente, 1996; Wu et al., 2004; Leskovec et al., 2007b), on peut s’interroger sur le degré d’adéquation des résultats analytiques ou simulatoires obtenus à partir des modèles de diffusion actuels par rapport aux phénomènes de diffusion “réels”. Nous adresserons la question du réalisme de ces modèles en envisageant successivement les deux dimensions : topologie du réseau sous-jacent et mécanismes de transmission inter-individuelle.

Premièrement, la topologie de réseau retenue dans les études sur la diffusion est souvent basée sur des modèles classiques de morphogenèse de réseaux. Ainsi, les réseaux aléatoire dits à la Erdös-Renyi (que nous noterons ER par la suite) (Erdös and Rényi, 1959) ont été massivement employés (Barbour and Mollison, 1990; Wasserman and Faust, 1994; Zegura et al., 1996), tandis que d’autres ont pri- vilégié des modèles plus simples ou plus géométriques (notamment fondés sur des grilles) (Ellison and Fudenberg, 1995; Deroian, 2002). Les modèles de type small-world (Watts and Strogatz, 1998) ont également suscité récemment un in- térêt particulier (Cowan and Jonard, 2004b; Kuperman and Abramson, 2001), ainsi que d’autres modèles moins “classiques” (Bala and Goyal, 1998; Morris, 2000).

Mais le modèle de topologie qui a récemment attiré le plus d’attention, notam- ment dans le cadre de l’analyse des dynamiques de diffusion, est sans doute le réseau “sans échelle” (“scale-free”) dont la distribution de degré suit une loi de puissance, caractéristique topologique dont les anciens modèles ne rendaient pas compte. Il existe différentes méthodes pour construire un réseau sans échelle. La plus populaire d’entre elles, introduite par Barabási and Albert (1999), s’appuie sur un processus de morphogenèse dans lequel de nouveaux nœuds sont ajou-

tés au réseau et sont connectés préférentiellement aux nœuds de fort degré. Un résultat en particulier a reçu un large écho dans les études ultérieures sur la dif- fusion : Pastor-Satorras and Vespignani (2001) ont montré que les réseaux dont la distribution de degré suit une loi de puissance ont un comportement radica- lement différent d’un réseau aléatoire (ER) vis-à-vis d’un processus de diffusion.

Plus précisément, ce travail prouve que le seuil épidémique1est nul sur un réseau

sans échelle de taille infinie2alors qu’il est toujours positif dans le cas d’un réseau

aléatoire de typer ER. Ainsi nombre d’études récentes sur la diffusion s’appuient sur des réseaux de type sans-échelle (Amblard and Deffuant, 2004; Ganesh et al., 2005; Crépey et al., 2006).

Au delà du choix d’une typologie ou d’un modèle de morphogenèse, il est im- portant de noter que l’approche classique des processus de diffusion supportés par des réseaux, autant du point de vue des études simulatoires qu’analytiques, consiste à travailler à partir de réseaux stylisés. Les modèles de diffusion de connais-

sance ont rarement été simulés sur la base de réseaux réels3.

Deuxièmement, les hypothèses employées quant au mécanisme de transmis- sion même si elles paraissent plausibles n’ont que très rarement donné lieu à un contrôle empirique. Comme le mentionnent Leskovec et al. (2007b)

“[while former] models address the question of maximizing the spread of influence in a network, they are based on assumed rather than measured influence effects.”

Généralement, on postule un modèle de comportement individuel stylisé à par- tir de modèles “psychologiques” (Granovetter, 1978b; Goldenberg et al., 2001)), de modèles économiques (Ellison and Fudenberg, 1995; Morris, 2000), ou de mo- dèles de connaissance visant à suivre l’évolution de profils d’opinions continus ou discrets, prenant la forme de vecteurs unidimensionnels (Axelrod, 1997a; Deroian, 2002; Deffuant et al., 2002) ou multidimensionnels (Gilbert et al., 2001; Cowan and Jonard, 2004b; Klemm et al., 2005).

Notre objectif est donc de caractériser la façon dont la dynamique de diffusion sur un réseau est modifiée en fonction du type de modèle stylisé retenu, autant au niveau de la topologie du réseau sous-jacent que des hypothèses de transmission. 1. Le seuil épidémique désigne le ratio d’agents infectés en-dessous duquel une épidémie suivant le modèle SIS (les agents du système peuvent se être dans trois états : Susceptible, Infecté ou Sain) s’interrompt

2. ce résultat est néanmoins limité à des réseaux de taille infinie, et ne tient plus pour des modèles de type SIR (Susceptible, Infected, Recovered).(May and Lloyd, 2001; Eguiluz and Klemm, 2002)

3. Wang et al. (2003) ont comparé les prédictions de leur modèle de diffusion à celui de Pastor- Satorras and Vespignani (2001) sur différentes topologies, dont un réseau informatique réel, mais sans s’interroger sur la façon dont leur modèle appliqué à différentes topologies pouvait modifier la dynamique de diffusion. De la même façon, Wu et al. (2004) ont simulé un processus de diffusion sur un réseau d’e-mail réel ; mais à nouveau sans chercher à estimer la façon dont leurs résultats seraient modifiés avec d’autres hypothèses de topologie.

Nous souhaitons donc comparer les résultats obtenus sur des modèles styli- sés avec les résultats observés sur des réseaux ou des mécanismes de transmission réels. Malheureusement, nous manquons de données permettant de mesurer si- multanément les comportements de transmission et la topologie du réseau sous-

jacent4. Nous découplerons donc notre analyse en deux parties : d’une part, nous

examinerons la façon dont un réseau réel et des réseaux stylisés dont la topologie est dépréciée à partir de ce dernier se comportent vis-à-vis d’un processus de dif- fusion, d’autre part, nous comparons un comportement de transmission réel et ses modèles stylisés vis-à-vis d’une dynamique de diffusion.

6.1

Protocole de simulation

Notre objectif étant de comparer les différents modèles de réseau et modèles de transmission à leur instance réelle, nous cherchons à définir un protocole aussi basique que possible.