Un processus empirique à valeurs mesures pour un système de particules en interaction appliqué aux réseaux complexes

(1)

Un processus empirique à valeurs mesures pour un

système de particules en interaction appliqué aux

réseaux complexes

Thèse

Ahmed Sid-Ali

Doctorat en mathématiques

Philosophiæ doctor (Ph. D.)

Québec, Canada

(2)

Un processus empirique à valeurs mesures pour un

système de particules en interaction appliqué aux

réseaux complexes

Thèse

Ahmed SID-ALI

Sous la direction de:

(3)

Résumé

On propose dans cette thèse une modélisation des réseaux sociaux par des processus aléa-toires à valeurs mesures. Notre démarche se base sur une approche par espace latent. Cette dernière a été utilisée dans la littérature dans le but de décrire des interactions non-observées ou latentes dans la dynamique des réseaux complexes. On caractérise les individus du réseau par des mesures de Dirac représentant leurs positions dans l’espace latent. On obtient ainsi une caractérisation du réseau en temps continu par un processus de Markov à valeurs mesures écrit comme la somme des mesures de Dirac représentant les individus. On associe au réseau trois événements aléatoires simples décrivant les ar-rivées et les départs d’individus suivant des horloges exponentielles en associant chaque événement à une mesure aléatoire de Poisson. Cette thèse est composée essentiellement d’un premier chapitre réservé à l’état de l’art de la littérature de la modélisation des ré-seaux complexes suivi d’un second chapitre introductif aux processus aléatoires à valeurs mesures. Le 3-ème et 4-ème chapitres sont constitués de deux articles co-écrits avec mon directeur de thèse, Khader Khadraoui, et sont soumis pour publication dans des journaux. Le premier article, inclus dans le chapitre 3, se compose essentiellement de la description détaillée du modèle proposé ainsi que d’une procédure de Monte Carlo permettant de générer aléatoirement des réalisations du modèle, suivi d’une analyse des propriétés théo-riques du processus aléatoire à valeurs mesures sous-jacent. On explicitera notamment le générateur infinitésimal du processus de Markov qui caractérise le réseau. On s’inté-ressera également aux propriétés de survie et d’extinction du réseau puis on proposera une analyse asymptotique dans laquelle on démontrera, en utilisant des techniques de renormalisation, la convergence faible du processus vers une mesure déterministe solution d’un système intégro-différentiel. On terminera l’article par une étude numérique démon-trant par des simulations les principales propriétés obtenues avec notre modèle. Dans le second article, inclus dans le chapitre 4, on reformule notre modèle du point de vue des graphes géométriques aléatoires. Une introduction aux graphes géométriques aléatoires est d’ailleurs proposée au chapitre 1 de cette thèse. Le but de notre démarche est d’étudier les propriétés de connectivité du réseau. Ces problématiques sont largement étudiées dans la littérature des graphes géométriques aléatoires et représentent un intérêt théorique et pratique considérable. L’idée proposée est de considérer notre modèle comme un graphe géométrique aléatoire où l’espace latent représente l’espace sous-jacent et la distribution sous-jacente est celle donnée par le processus génératif du réseau. À partir de là, la ques-tion de la connectivité du graphe se pose naturellement. En particulier, on s’intéressera à la distribution des sommets isolés, i.e. d’avoir des membres sans connexion dans le réseau. Pour cela, on pose l’hypothèse supplémentaire que chaque individu dans le graphe peut être actif ou non actif suivant une loi de Bernoulli. On démontrera alors que pour certaines valeurs du seuil de connectivité, le nombre d’individus isolés suit asymptotiquement une loi de Poisson. Aussi, la question de la détection de communautés (clustering) dans le réseau est traitée en fonction du seuil de connectivité établi. Nous terminons cette thèse par une conclusion dans laquelle on discute de la pertinence des approches proposées ainsi que des perspectives que peut offrir notre démarche. En particulier, on donne des éléments permettant de généraliser notre démarche à une classe plus large de réseaux complexes. La fin du document est consacrée aux références bibliographiques utilisées tout au long

(4)

de ce travail ainsi qu’à des annexes dans lesquelles le lecteur pourra trouver des rappels utiles.

(5)

Abstract

This thesis concerns the stochastic modelling of complex networks. In particular, we introduce a new social network model based on a measure-valued stochastic processes. Individuals in the network are characterized by Dirac measures representing their posi-tions in a virtual latent space of affinities. A continuous time network characterization is obtained by defining an atomic measure-valued Markov process as the sum of some Dirac measures. We endow the network with a basic dynamic describing the random events of arrivals and departures following Poisson point measures. This thesis is essen-tially consists of a first introductory chapter to the studied problems of complex networks modelling followed by a second chapter where we present an introduction to the theory of measure-valued stochastic processes. The chapters 3 and 4 are essentially composed of two articles co-written with my thesis advisor, Khader Khadraoui and submitted to journals for publication. The first article, included in chapter 3, mainly concerns the detailed description of the proposed model and a Monte Carlo procedure allowing one to generate synthetic networks. Moreover, analysis of the principal theoretical proper-ties of the models is proposed. In particular, the infinitesimal generator of the Markov process which characterizes the network is established. We also study the survival and extinction properties of the network. Therefore, we propose an asymptotic analysis in which we demonstrate, using a renormalization technique, the weak convergence of the network process towards a deterministic measure solution of an integro-differential sys-tem. The article is completed by a numerical study. In the second article, included in chapter 4, we reformulate our model from the point of view of random geometric graphs. An introduction to random geometric graphs framework is proposed in chapter 1. The purpose of our approach is to study the connectivity properties of the network. These issues are widely studied in the literature of random geometric graphs and represent a considerable theoretical and practical interest. The proposed idea is to consider the model as a random geometric graph where the latent space represents the underlying space and the underlying distribution is given by the generative process of the network. Therefore, the question of the connectivity of the graph arises naturally. In particular, we focus on the distribution of isolated vertices, i.e. the members with no connections in the network. To this end, we make the additional hypothesis that each individual in the network can be active or not according to a Bernoulli distribution. We then show that for some values of the connectivity threshold, the number of isolated individuals follows a Poisson distri-bution. In addition, the question of clustering in the network is discussed and illustrated numerically. We conclude this thesis with a conclusion and perspectives chapter in which we discuss the relevance of the proposed approaches as well as the offered perspectives. The end of the thesis is devoted to the bibliographical references used throughout this work as well as appendices in which the reader can find useful reminders.

(6)

Table des matières

Résumé iii

Abstract v

Table des matières vi

Remerciements x

Avant-propos xii

Introduction 1

1 Modélisation des réseaux complexes : l’état de l’art de la littérature 7

1.1 Le modèle d’Erdős-Rényi-Gilbert . . . 8

1.2 Les modèles de graphes échangeables . . . 9

1.3 Le modèle p1 de Holland et Leinhardt pour les réseaux sociaux . . . 11

1.4 Le modèle à blocs stochastiques . . . 12

1.5 Modèles à espace latent . . . 13

1.6 Le modèle de Barabási-Albert . . . 15

1.7 Les modèles du petit monde . . . 16

1.8 Les modèles de duplication-attachement . . . 17

1.9 Les modèles par chaînes de Markov en temps continu . . . 18

1.10 Modèles markoviens à temps discret . . . 19

1.11 Modèle d’amitié contextuel dynamique . . . 21

1.12 Les graphes géométriques aléatoires . . . 22

1.12.1 Le modèle . . . 23

1.12.2 Quelques problèmes classiques sur les graphes géométriques aléatoires 23 2 Processus aléatoires à valeurs mesures 33 2.1 Mesures aléatoires . . . 34

2.1.1 Espérance d’une mesure aléatoire . . . 39

2.1.2 Mesures aléatoires infiniment divisibles : . . . 39

2.1.3 Mesures aléatoires de Poisson . . . 40

2.1.4 Mesures de comptage et intégrale de Poisson : . . . 42

2.2 Processus aléatoires à valeurs mesures . . . 45

2.2.1 Processus de Markov à valeurs mesures : . . . 46

2.2.2 Continuité des trajectoires des processus à valeurs mesures . . . 48

(7)

3 A random geometric social network with Poisson point measures 52

Résumé 52

Abstract 53

3.1 Introduction . . . 53

3.2 Network model specification . . . 55

3.2.1 General assumptions and notations . . . 55

3.2.2 Description of the dynamic . . . 56

3.3 Poisson measures of the network . . . 61

3.4 Size evolution and extinction . . . 64

3.5 Asymptotic analysis of the network . . . 71

3.5.1 Martingale properties and renormalization . . . 72

3.5.2 Convergence in distribution . . . 76

3.6 Numerical simulations . . . 84

3.7 Discussion . . . 89

4 Asymptotic adaptive threshold for connectivity in a random geometric social network 92 Résumé 92 Abstract 92 4.1 Introduction . . . 93

4.2 Preliminaries: Generation of the point sets . . . 94

4.2.1 Heuristics of the network . . . 95

4.2.2 Explicit representation of the network . . . 97

4.2.3 Monte Carlo algorithm . . . 99

4.3 Asymptotic adaptive threshold . . . 103

4.4 Dynamic clustering with a?_f . . . 115

4.5 Discussion . . . 118

4.6 Proofs . . . 118

5 Conclusion et perspectives 130

A Quelques rappels sur les graphes 138

B Propriétés des réseaux réels 140

C Espace de Skorokhod 143

(8)

(9)

’C’est au moment où le doute commence à nous envahir que nous devons le plus espérer’.

(10)

Remerciements

Mes premiers remerciements vont naturellement à mon directeur de thèse Khader Khadraoui qui m’a fait confiance en acceptant de diriger mes travaux de recherche durant cette thèse. Je le remercie également de m’avoir fourni un sujet de thèse aussi riche et passionnant. Aussi, je tiens à remercier Khader qui a toujours cru en moi et qui m’a toujours guidé et encouragé même dans les moments les plus difficiles scientifiquement.

Je remercie particulièrement Michel Carbon et ce pour plusieurs raisons : tout d’abord, je le remercie d’avoir accepté d’être membre de mon jury de thèse et de m’avoir posé d’aussi intéressantes questions qui m’ont permis de voir les problématiques traitées lors de ma thèse à partir d’un nouvel angle. Ensuite, je tiens à remercier Michel pour la relecture très soigneuse de ma thèse. Je lui suis très reconnaissant. Pour finir, je tiens également à remercier Michel pour ses remarquables notes de cours de statistiques mathématiques qui m’ont été d’un grand secours pour la préparation de mes examens pré-doctoraux.

Un grand merci à Damir Kinzebulatov qui a accepté d’être membre de mon jury de thèse. Je le remercie pour toutes les questions pertinentes qu’il m’a posé lors de ma soutenance. J’ai particulièrement apprécié la discussion que nous avons eu après ma présentation et j’espère que nous aurons l’occasion d’approfondir nos échanges dans un avenir proche.

Je suis particulièrement reconnaissant à Pierre Ribereau d’avoir accepté d’être membre de mon jury de thèse et ce malgré un calendrier chargé. Je n’ai malheureusement pas pu rencon-trer Pierre en personne étant donné qu’il n’a pas pu se déplacer à Québec, mais il m’a fait l’honneur d’être présent par vidéoconférence à ma soutenance. Son expertise statistique m’a permis de m’ouvrir à de nouvelles problématiques tout à fait intéressantes. Je tiens également à remercier Line Baribeau d’avoir remarquablement présidé ma soutenance de thèse.

Je profite de ces quelques lignes pour remercier les professeurs et membres du département de mathématiques et de statistique de l’université Laval qui travaillent soigneusement pour permettre la réussite des étudiants. En particulier, je remercie les professeurs Claude Bélisle et Thierry Duschesne qui ont été membres du jury lors de mes examens pré-doctoraux. Je

(11)

remercie particulièrement Claude pour le formidable cours de Probabilités Avancées que j’ai eu la chance de suivre avec lui. Je le remercie également pour les discussions intéressantes que j’ai eu avec lui ainsi que pour ses précieux conseils. Un grand merci également à Jean Deteix et Driss Yakoubi avec qui j’ai eu la chance de collaborer pendant plusieurs mois sur un projet de recherche et qui m’ont permis d’approfondir mes connaissances dans le domaine des equations aux dérivées partielles stochastiques. Je tiens aussi à remercier tout le personnel passé et présent du département de mathématiques et de statistique.

Un grand merci à mes collègues et amis Adnan Bras Ali, Abdelkarim Chakhar, Mamadou Yauck et Marwa Essid. Je les remercie pour le soutien qu’ils m’ont apporté ainsi que pour les bons moments que nous avons partagé tout au long de ces années de thèse. Je leur souhaite toute la réussite dans la poursuite de leurs formations ainsi qu’un avenir professionnel et per-sonnel des meilleurs.

Je profite également de ces quelques lignes pour remercier des personnes qui me sont chers et qui ont toujours cru en moi. Je remercie particulièrement Ariana Pirela Sanchez qui m’a ac-compagné depuis les premiers mois de ma thèse et qui m’a toujours soutenu, écouté, réconforté et encouragé même dans les moments de doute. Je lui serai pour toujours reconnaissant et je lui souhaite toute la réussite et le bonheur qu’elle mérite. Je remercie également Véronique Méar de m’avoir aidé à la préparation de ma soutenance en acceptant de m’écouter répéter ma présentation, cela m’a été d’un grand réconfort dans ces moments de stress et de doute ! Je tiens également à remercier mon ami de longue date Mohamed ’Élias’ Belkacemi pour ses conseils et son support.

Je terminerai mes remerciements en rendant hommage à mes parents qui ont fait tant de sacrifices pour nous élever et nous donner la meilleure éducation possible même dans les conditions les plus difficiles. Que Dieu leur donne la santé et les récompense. De la même façon, je remercie mes frères et sœurs et je leur souhaite une longue vie remplie de bonheur.

(12)

Avant-propos

Les dernières décennies ont vu l’étude des réseaux complexes devenir un champ de recherche très actif. Cela est du en partie à la prolifération de l’utilisation du web. En particulier, l’émer-gence des nouvelles technologies web comme les réseaux sociaux numériques ont donné accès à de gigantesques bases de données issues de systèmes complexes dont la compréhension et l’analyse représentent des défis majeurs. De ce fait, la communauté scientifique s’est lancée dans l’étude de ces systèmes avec des approches aussi différentes que complémentaires. Parallèlement, la théorie des processus aléatoires à valeurs mesures a connu un développe-ment rapide depuis quelques décennies et une multitude d’applications ont émergé où les auteurs ont utilisés cette théorie pour la modélisation et l’analyse de phénomènes variés que l’on peut regrouper sous le nom de systèmes de particules en interaction.

Mon travail de recherche lors de cette thèse, avait comme but de jeter un regard nouveau sur la modélisation des réseaux complexes, en particulier les réseaux sociaux, en proposant une approche probabiliste s’appuyant sur la théorie des processus aléatoires à valeurs mesures. Cette dernière a été appliquée avec succès à de nombreux domaines de la modélisation mathé-matiques. Notre objectif était d’élargir ses applications à la modélisation des réseaux sociaux et, d’une manière plus générale, à la modélisation des réseaux complexes.

Cette thèse de doctorat se compose de quatre chapitres principaux. Le premier chapitre com-porte l’état de l’art de la littérature de la modélisation des réseaux complexes. Le second chapitre est dédié à une introduction à la théorie des processus aléatoires à valeurs mesures. Les deux chapitres suivants sont essentiellement composés de deux articles écrits en collabo-ration avec mon directeur de recherche Khader Khadraoui, précédés de résumés en français.

Le premier article, intitulé A random geometric social network with Poisson point measures, et présenté au chapitre 3, est soumis à la revue Annales de l’Institut Henri Poincaré (B) Pro-babilités et Statistiques depuis le 13 septembre 2018. Le second article, intitulé Asymptotic adaptive threshold for connectivity in a random geometric social network, est présenté au cha-pitre 4 et est soumis à la revue Foundations of Computational Mathematics (FoCM) depuis le

(13)

26 juin 2018.

Cette thèse de doctorat s’inscrit dans la continuité des efforts et de la stratégie du dépar-tement de mathématiques et de statistique de l’université Laval de mettre en œuvre d’un côté, des recherches dans l’analyse des systèmes complexes et des données massives qui en résultent, dite Big Data, et d’un autre coté, encourager des recherches multidisciplinaires incluant les différentes disciplines des mathématiques et de la statistique ainsi que d’autres sciences. Cette volonté s’est manifestée par la création du nouveau centre CIMMUL regroupant différents chercheurs en mathématiques et en statistique.

(14)

Introduction

L’étude des réseaux complexes est devenue depuis quelques années un champs de recherche très actif regroupant de nombreuses disciplines scientifiques. Cet intérêt est justifié par l’omnipré-sence des réseaux dans de nombreux systèmes physiques, biologiques ou encore informatiques. Du point de vue physique, un réseau est un ensemble d’éléments interconnectés entre eux. Cette description est assez générale et regroupe une large variété de systèmes : les réseaux alimentaires qui sont au centre du fonctionnement des écosystèmes, les réseaux de neurones qui composent le cerveau, les réseaux cellulaires où une cellule accomplit ses tâches grâce aux complexes interactions entre protéines, gènes et autres molécules, ou encore les systèmes sociaux composés d’individus en interactions collaboratives ou concurrentielles. En outre, on peut dire que derrière chaque système complexe, il existe une structure sous-jacente sous forme de réseau. En d’autres termes, la compréhension des systèmes complexes passe par la compré-hension des réseaux sous-jacents.

Cette omniprésence des réseaux dans les différents systèmes complexes a suscité l’intérêt de chercheurs de tout bord : mathématiciens, sociopsychologues, statisticiens, physiciens ou en-core informaticiens. Cet intérêt a pris une nouvelle ampleur depuis le début du 21-ème siècle, grâce notamment au développement du web et à l’émergence des nouvelles technologies nu-mériques comme les réseaux sociaux en ligne permettant une récolte de données en grande dimension. Depuis, l’étude des réseaux complexes ou ’la science des réseaux ’ (Barabási, 2016) est devenue une branche de recherche à elle seule dont le but est de mieux comprendre les lois régissant ces systèmes (Albert & Barabási, 2002), leurs architectures et analyser ces gi-gantesques bases de données. Un phénomène observé a suscité en particulier l’intérêt des chercheurs : l’universalité de l’architecture des réseaux. Des observations menées sur différents réseaux réels ont révélées des similitudes dans l’architecture des réseaux émergeant de diffé-rents domaines de la science, de la nature et de la technologie (Barabási, 2016). Les deux propriétés les plus populaires sont le phénomène du petit monde (’Small world phenomenon’) ou le paradoxe de Milgram, et la propriété d’invariance d’échelle (’Scale free property ’). Du point de vue mathématique, cette universalité permet d’aborder la modélisation des

(15)

ré-seaux complexes d’une manière globale, les modèles proposés pour un réseau particulier restent valides pour les autres réseaux moyennant des modifications plus ou moins importantes. L’étude des réseaux complexes peut être abordée à partir de différents angles. Du point de vue physique, on peut décomposer principalement l’étude des réseaux en deux problématiques :

• Problèmes directs : Prédire le résultat d’une perturbation du réseau.

• Problèmes inverses : Déduire les paramètres du système à partir d’observations. Les problèmes directs consistent à prédire le comportement du réseau face à des pertur-bations. Le but est d’étudier l’efficacité et la robustesse des systèmes en forme de réseau en présence des différents phénomènes qui peuvent s’y produire : effet d’une faille ou d’une attaque sur le fonctionnement du réseau, conséquence de la rupture d’un câble sur le fonc-tionnement d’un réseau électrique, cyberattaque visant un système web ou encore la diffusion d’informations dans les réseaux sociaux numériques à partir de laquelle de nombreuses infor-mations latentes peuvent être extraites. Ces dernières peuvent être utilisées pour la prévision du marché, le contrôle des rumeurs ou encore la surveillance des opinions. De nombreux mo-dèles pour la diffusion d’informations dans les réseaux sociaux numériques ont été proposés, le lecteur intéressé peut consulter Li et al. (2017) pour un tour d’horizon des modèles existants. D’un autre côté, les problèmes inverses consistent à étudier la topologie des réseaux com-plexes et à concevoir des modèles reproduisant ses propriétés. Cette problématique se pose par exemple en ingénierie et en théorie du contrôle lorsqu’on veut concevoir des systèmes ayant un certain comportement donné ou encore lorsque les variables d’intérêt ne sont pas facilement mesurables. L’idée est alors de pouvoir simuler efficacement ces variables, ce qui permet d’ob-tenir des résultats similaires avec des expériences beaucoup moins coûteuses en moyens et en temps.

L’étude des réseaux complexes du point de vue des problèmes inverses vise alors à construire des modèles qui reproduisent les propriétés des réseaux réels. Cependant, au vu de la com-plexité des réseaux réels et de la difficulté à décrire tous les phénomènes menant à leur généra-tion, on cherche à décrire un cadre général assez simple, en prenant en compte les principaux mécanismes responsables de l’émergence des propriétés observées. Ce cadre peut ensuite être enrichi en rajoutant les spécificités d’un système particulier. Il s’agit alors d’obtenir des mo-dèles simples et assez généraux pouvant être adaptés à différents systèmes. En particulier, un modèle simple de systèmes complexes peut conduire à des comportements non triviaux et quelque peu inattendus, similaires à ceux observés dans les réseaux réels. La modélisation phy-sique d’un système peut alors être considérée comme une recherche de sa description la plus simple possible, capable de reproduire certaines de ses caractéristiques d’intérêt. L’idée est alors d’élaborer des modèles permettant de reproduire les propriétés observées dans des sys-tèmes complexes. Ces graphes synthétiques permettent d’un côté de comprendre la topologie

(16)

des réseaux réels observés, et d’un autre côté de tester les prédictions, ainsi que leur sensibilité aux hypothèses sous-jacentes. En outre, afin de mieux comprendre les propriétés sous-jacentes du système (par exemple, un réseau social), il est important de développer des modèles de réseaux qui capturent avec précision les caractéristiques observées dans la structure du réseau réel. Les simulations obtenues à partir de ces modèles permettent alors d’avoir un aperçu et une compréhension du système complexe. De plus, la qualité des inférences statistiques dépend en partie de la fidélité du modèle. Cela dit, la construction de modèles réalistes de réseaux est difficile : les modèles doivent être suffisamment simples pour être maniables, tout en étant suffisamment flexibles pour représenter avec précision un large éventail de phénomènes. Mathématiquement, une manière naturelle de représenter un réseau est via un graphe où les sommets (nœuds) représentent des entités (par exemple, des utilisateurs) et les arêtes (liens) représentent des relations (par exemple amitiés). Cela dit, le caractère évolutif (souvent aléa-toire) des réseaux a mené à l’élaboration de modèles incluant une dynamique caractérisant cette évolution. Les premiers modèles ont émergé dans les années 50 avec les travaux de Paul Erdős et Alfréd Rényi (Erdős & Rényi, 1959) et, indépendamment, ceux de Gilbert (Gilbert, 1959). Ces modèles probabilistes, bien que assez simples et à premier abord assez peu réalistes, ont néanmoins posé les bases de la théorie des graphes aléatoires et en même temps celles d’un cadre mathématique adéquat à l’étude des réseaux complexes. Par la suite, une série d’articles a paru dans les années 60, principalement par les même auteurs (Erdős & Rényi, 1960, 1961a,b, 1963, 1966a,b, 1968) traitant principalement des propriétés mathématiques des graphes aléa-toires. En parallèle, dans les années 60 et 70, des sociologues et psychologues ont repris le relais de l’étude des réseaux complexes en s’intéressant aux réseaux qui décrivent les dynamiques sociales. Des expériences empiriques de psychologie sociale et de sociologie ont été menées, et ce dans le but de récolter des données permettant de comprendre certaines propriétés liées aux comportements sociaux. On peut citer à titre d’exemple la célèbre expérience dites du ’petit monde’ conduite en 1967 par le psychosociologue Stanley Milgram (Milgram, 1967) dans le but de comprendre l’interconnexion des individus composant la société américaine, ou encore les célèbres travaux de Granovetter (Granovetter, 1973). Par la suite, l’étude des réseau com-plexes a commencé à apparaître dans la littérature statistique à la fin des années 70 et au début des années 80, où des modèles génératifs de graphes aléatoires présentant des caractéristiques particulières ont été proposés. Mais c’est à partir des année 90, et plus encore depuis le début des années 2000, que l’étude des réseaux complexes a littéralement explosée, due notamment à la croissance du web (World Wide Web) et à l’émergence des nouvelles technologies web. Parmi les nombreux réseaux complexes étudiés, les réseaux sociaux ont suscité un intérêt particulier, spécialement depuis l’émergence des réseaux sociaux en ligne (dit aussi réseaux sociaux numériques) tels que Facebook, MySpace, LinkedIn, etc. Ces derniers sont des sys-tèmes complexes générant une importante quantité de données. La compréhension et l’analyse

(17)

de ces systèmes passe par l’élaboration de modèles exploitables qui permettent de générer des réseaux synthétiques qui reproduisent la dynamique de tels réseaux. On propose dans cette thèse une modélisation des réseaux sociaux par une approche probabiliste en se basant sur la théorie des processus aléatoires à valeurs mesures.

Les processus aléatoires à valeurs mesures sont apparus dans une variété de contextes théo-riques et appliqués. Initialement, ces objets ont été introduits pour décrire le comportement asymptotique de populations subissant des reproductions et des migrations spatiales aléa-toires. Depuis, la théorie des processus aléatoires à valeurs mesures a connu un développement rapide et a été stimulée à partir de différents points de vue : processus de branchement, mo-dèles de génétique des populations, systèmes d’interaction de particules ou encore equations aux dérivées partielles stochastiques. Les processus aléatoires à valeurs mesures ont permis l’émergence de nombreux concepts théoriques comme le super-mouvement brownien (Perkins, 1999), les super-martingales (Schwartz, 1973), les martingales-mesures (Métivier, 1982) ou encore les diffusions à valeurs mesures (Perkins, 1999). En outre, les processus aléatoires à valeurs mesures offrent un cadre adéquat à la modélisation des phénomènes continus.

Formellement, un processus aléatoire à valeurs mesures est une famille de mesures aléatoires in-dexées dans un ensemble T . Par ailleurs, une mesure aléatoire peut être vue comme un élément aléatoire dont les réalisations sont des mesures. En particulier, considérons (E, d) un espace polonais muni d’une métrique d et MF(E) l’espace des mesures de Borel finies sur E. Soit

M = B(MF(E)) la tribu borélienne de MF(E). Alors une mesure aléatoire est un élément

aléa-toire d’un certain espace probabilisé (Ω, A, P) vers l’espace mesurable (MF(E), B(MF(E))).

Nous reviendrons dans le chapitre 2 sur le cadre général de l’étude des processus aléatoires à valeurs mesures incluant les définitions de base et quelques résultats classiques.

Les processus aléatoires à valeur mesures apparaissent ainsi naturellement dans la modéli-sation stochastique des populations spatialement distribuées. Partant de là, on propose une modélisation des réseaux sociaux se basant sur un espace latent décrivant les affinités entre les membres du réseau. Les individus sont représentés par des positions spatiales dans l’es-pace latent. De ce fait, on caractérise le réseau par un processus aléatoire à valeurs mesures défini sur l’espace latent. Notre but est de construire un modèle génératif dynamique permet-tant d’obtenir des réalisations de réseaux sociaux en temps continu, avec des caractéristiques comparables à celles observées dans les réseaux réels. On introduit un modèle simplifié qui caractérise la dynamique d’un réseau social numérique par un processus aléatoire à valeurs mesures, prenant en compte les événements d’arrivées et de départs ainsi que les principales interactions entre les membres du réseau. L’idée de l’introduction d’un espace latent est de représenter les membres du réseau par des positions dans un espace géométrique de faible dimension caractérisant l’interaction ou l’affinité entre les membres du réseau en fonction de

(18)

la distance les séparant dans cet espace. Le but d’une telle démarche est de tenir compte de variables caractéristiques pertinentes de chaque individu de la population, puis de considérer que les observations sont engendrées conditionnellement à ces variables. Ces caractéristiques sont latentes ou cachées dans le sens où elles sont inaccessibles dans les données. Ce type de modélisation diffère des modèles dit de graphes homogènes où le schéma de construction est commun à tous les nœuds. Plus précisément, et contrairement aux modèles de type Erdős-Rényi, les connexions ne sont pas indépendantes et de même loi et leur loi est régie par les positions latentes des nœuds correspondants. Ces modèles sont donc hétérogènes, et leur struc-ture est décrite par les positions latentes et leur loi.

Par ailleurs, on caractérise la dynamique du réseau par des mesures aléatoires de Poisson, obtenant ainsi une représentation trajectorielle du modèle. Notons que l’utilisation des pro-cessus ponctuels en modélisation des réseaux complexes n’est pas nouvelle. De nombreux auteurs ont proposé des modèles de réseaux en utilisant des processus ponctuels, aboutissant par exemple à la classe de modèles dite de graphes échangeables. On reviendra dans le chapitre 1 sur le concept de graphes échangeables ainsi que la pertinence de l’utilisation des processus ponctuels dans la modélisation des réseaux complexes.

Cette thèse est structurée comme suit. Le premier chapitre sera consacré essentiellement à une introduction au problème de la modélisation des réseaux complexes au travers d’un état de l’art des principaux modèles existants. Bien que la richesse et la variété de la littérature rende la tache difficile, on se donne comme objectif de mettre l’accent sur les différentes caté-gories de modèles afin de donner au lecteur une vue assez exhaustive de la littérature existante. On passera en même temps en revue les modèles de graphes géométriques aléatoires qui consti-tueront notre élément de base dans le second article inclus dans ce document. Dans le second chapitre, on proposera une introduction de la théorie des processus aléatoires à valeurs me-sures. On rappellera les principales définitions ainsi que des résultats de base. En particulier, l’accent sera mis sur les résultats qui seront utilisés dans la suite du manuscrit.

Les chapitres 3 et 4 sont constitués de deux articles soumis pour publications dans des jour-naux, précédés par des résumés en français.

Dans le premier article, on introduira notre modèle à espace latent pour réseaux sociaux construit comme un processus de Markov à valeurs mesures. Le générateur infinitésimal ainsi qu’une procédure de Monte Carlo correspondante seront détaillés. On démontrera la non-explosion de la taille du réseau ainsi que la convergence faible du processus caractérisant le réseau vers une mesure déterministe solution d’un système intégro-différentiel. La fin de l’ar-ticle sera dédiée à des simulations numériques.

(19)

Dans le chapitre 4, on s’intéressera au problème de la connectivité du réseau en reformulant notre modèle du point de vue des graphes géométriques aléatoires. Ce problème est largement traité dans la littérature des graphes géométriques aléatoires pour lesquels une introduction sera donnée au chapitre 1. L’idée proposée est de considérer notre modèle comme un graphe géométrique aléatoire où l’espace latent représente l’espace jacent et la distribution sous-jacente est celle donnée par le processus génératif du réseau. À partir de là, on propose de traiter le problème de la connectivité du graphe. En particulier, on s’intéressera à la loi des sommets isolés dans le réseau. Pour cela, on introduira l’hypothèse supplémentaire que chaque individu dans le graphe peut être actif ou non actif suivant une loi de Bernoulli. On démontrera ensuite que pour certaines valeurs du seuil de connectivité, le nombre d’individus isolés suit asymptotiquement une loi de Poisson. De plus, la question de la détection de communautés (clustering) dans le réseau sera discutée et illustrée numériquement.

Le dernier chapitre de cette thèse sera dédié à une conclusion générale dans laquelle on dis-cutera de la pertinence des approches proposées ainsi que des perspectives offertes par notre démarche. En particulier, on présentera des idées pouvant être exploitées pour de futures re-cherches dans la continuité des approches proposées dans cette thèse.

À la fin du document, le lecteur trouvera des annexes contenant des rappels supplémen-taires. L’annexe A sera dédiée à quelques rappels sur la théorie de graphes. À l’annexe B, nous rappellerons brièvement deux propriétés importantes des réseaux complexes : la propriété du petit monde et l’invariance d’échelle. Bien que ces propriétés ne fassent pas l’objet d’une at-tention particulière dans cette thèse, nous pensons que leur présentation est bénéfique pour plusieurs raisons, d’une part pour satisfaire l’éventuelle curiosité du lecteur, mais surtout pour mettre en avant le caractère ’universel’ de l’architecture des réseaux complexes. Cela donne la possibilité d’envisager une généralisation d’un modèle de réseau particulier à d’autres réseaux issus de domaines différents. Pour finir, on proposera dans l’annexe C des rappels sur l’espace de Skorokhod des fonctions càdlàg. En particulier, les processus aléatoires définis dans notre modèle sont des processus càdlàg, le lecteur pourra visiter cette section pour des brefs rappels des propriétés de l’espace de Skorokhod. Notons pour finir que des petits paragraphes seront insérés entre les chapitres de ce document permettant une transition plus facile. Les références bibliographiques seront introduites à la toute fin du document.

(20)

Chapitre 1

Modélisation des réseaux complexes :

l’état de l’art de la littérature

On propose dans ce chapitre un état de l’art de la littérature traitant de la modélisation des réseaux complexes en présentant les principales approches existantes. Notre but est d’intro-duire le lecteur aux enjeux et aux objectifs visés par les modèles des réseaux complexes. On passera également en revue le cas particulier des graphes géométriques aléatoires. Ces derniers feront l’objet d’une attention particulière dans la suite de cette thèse, on introduira alors le modèle classique ainsi que les principales problématiques liées à leur étude.

L’intérêt pour les réseaux est en plein essor. La littérature traitant du sujet est conséquente et les deux dernières décennies ont vu apparaitre des livres populaires traitant des réseaux complexes (voir par exemple Barabási (2002); Buchanan (2002); Christakis & Fowler (2009); Watts (1999, 2003); Kolacyzk (2009)). En outre, l’émergence des réseaux sociaux en ligne per-met d’accéder à d’importantes quantités de données dont le traitement et l’analyse reposent sur des modèles permettant la compréhension de l’architecture de ces systèmes.

On propose ici de faire un tour d’horizon des principales familles de modèles de réseaux exis-tantes. Le but n’est pas de faire une étude exhaustive de toute la littérature, ce qui parait être une tâche déraisonnable, mais plutôt de présenter les modèles les plus répandus afin de pouvoir mieux cerner les enjeux et les objectifs de la modélisation des réseaux. Le lecteur désireux d’avoir un portrait plus large et mieux détaillé peut consulter l’article de Goldenberg et al. (2009). Ces modèles sont construits dans le but d’expliquer l’émergence de propriétés globales observées dans les réseaux réels à partir de mécanismes simples de formation de struc-tures topologiques locales. Notons que nous utiliserons dans notre présentation les notations et les appellations standards de la théorie des graphes et de la théorie des réseaux de manière interchangeable. On utilisera par exemple les appellations sommet ou nœud pour désigner la

(21)

même chose, tout comme arête ou lien. Le lecteur peut se réferer à l’annexe A pour un bref rappel sur les graphes.

1.1 Le modèle d’Erdős-Rényi-Gilbert

Le modèle d’Erdős-Rényi-Gilbert a été proposé dans une série d’articles par Erdős & Rényi (1959, 1960, 1961a,b, 1963, 1966a,b, 1968) et indépendamment par Gilbert (1959), comme un graphe dont les arêtes sont réparties aléatoirement. Dans ce modèle simple, on part avec N nœuds et on place L liens entre ces nœuds suivant une loi uniforme. Dans une autre version du modèle, on prend N nœuds et on pose p la probabilité que deux nœuds soit connectés entre eux. Un tel modèle peut facilement être simulé par la procédure suivante

1. On prend N nœuds isolés.

2. On sélectionne uniformément deux nœuds i₁ et i₂ dans le réseau. 3. On simule u ∼ U [0, 1], si u > p on crée un lien entre i₁ et i₂.

4. On répète l’étape 2 pour toutes les N (N − 1)/2 paires de nœuds dans le réseaux. On obtient de cette façon un graphe aléatoire d’Erdős et Rényi. Le nombre de liens obtenus avec cette procédure suit une loi binomiale B(N (N −1)₂ , p), i.e.

pL= N (N −1) 2 L pL(1 − p)N (N −1)2 −L,

où p_Lest la probabilité que le graphe aléatoire obtenu ait exactement L liens. L’espérance du nombre de liens est donc égale à E[L] = pN (N −1)2 et le degré moyen hki des nœuds est égal à

hki = p(N − 1).

Le modèle d’Erdős-Rényi-Gilbert a engendré un nombre considérable d’études et a été à l’ori-gine de la théorie des graphes aléatoires, qui est devenue un champ de recherche actif où les auteurs s’intéressent aux propriétés mathématiques de ces graphes. De nombreuses généra-lisations de ce modèle ont aussi été proposées (voir Bollobás (2001)). Cela dit, bien que ce modèle présente des propriétés mathématiques intéressantes, son utilisation en modélisation des réseaux complexes est limitée car il est peu réaliste. En effet, l’ensemble des nœuds dans ce modèle est fixe, ce qui omet le caractère évolutif caractérisant les réseaux réels. De plus, la création de liens entre les nœuds se fait uniformément. En d’autre termes, chaque nœud dans le graphe a approximativement le même degré et il y a peu de réseaux observés avec une structure aussi simple (Barabási, 2016). En outre, ce modèle ne permet pas l’émergence de propriétés empiriquement observables telle que la propriété d’invariance d’échelle ou celle du petit monde (voir annexe A).

(22)

1.2 Les modèles de graphes échangeables

Les modèles de graphes aléatoires échangeables sont apparus à la base comme un outil à la fois théorique et appliqué de l’analyse des réseaux densément connectés. Bon nombre de mo-dèles de réseaux relèvent de ce cadre. On passe en revue ici les principales caractéristiques de ces modèles. On invite le lecteur à consulter Orbanz & Roy (2015) pour un exposé plus détaillé.

Un graphe aléatoire est échangeable si sa loi est invariante par permutation des nœuds. Plus précisément, soit G un graphe aléatoire sur un ensemble N de nœuds et soit A sa matrice d’ad-jacence dont les éléments Aij sont à valeurs dans {0, 1}. Le graphe G est alors échangeable si

sa matrice d’adjacence est conjointement échangeable, i.e. (Aij)

D

= (Aσ(i)σ(j)),

pour toute permutation σ de l’ensemble N .

La génération de graphes aléatoires échangeables passe par la définition de fonctions appelées graphons. Un graphon est une fonction symmétrique mesurable de [0, 1]2 → [0, 1]. L’idée est d’introduire une forme de dépendance faible entre les arêtes du graphes en utilisant des attri-buts non observables sur les nœuds (voir les modèles à espace latent plus bas). Ces graphes sont alors échangeables au sens de De Finetti (voir Airoldi (2009)). Une procédure simple per-mettant de générer des graphes aléatoires échangeables à partir de graphons est la suivante : Soit W un graphon. Le W -graphe aléatoire sur un ensemble de sommets N , noté G(N, W ), possède une matrice d’adjacence (Gij)ij∈N définie par la procédure suivante :

• Uiiid∼ U [0, 1],

• G_ij|U_i, Uj iid

∼ Bernoulli(W (U_i, Uj)) pour tout i < j.

Tout W -graphe aléatoire est alors échangeable, et tout mélange de W -graphes est échangeable. Inversement on a, d’après le théorème de représentation d’Aldous-Hoover (Aldous, 1981; Hoo-ver, 1979), que tout graphe échangeable peut s’écrire comme mélange de W -graphes aléatoires pour une certaine mesure de probabilité définie sur le graphon W (voir Kallenberg (2005a)). À partir de là, plusieurs modèles de réseaux complexes peuvent s’écrire comme mélange de W -graphes obtenus par la procédure précédente (voir Hoff (2007)). Les modèles à blocs sto-chastiques ou les modèles à espaces latents décrits plus bas en sont de parfaits exemples. Aussi, plusieurs modèles bayésiens non paramétriques (Hoff, 2007), le processus de Mandrian pour les graphes (Roy & Teh., 2008), le modèle à fonction aléatoire (Lloyd et al., 2012) se basent sur le théorème de représentation d’Aldous-Hoover. De plus, de nombreux autres modèles de ce type sont exprimés en termes de loi sur les graphons (voir Lloyd et al. (2012); Orbanz & Roy (2015); Palla et al. (2012); He (2015)). Notons également que le modèle d’Erdős-Rényi-Gilbert peut être considéré comme un cas particulier des modèles de graphes échangeables où la fonction graphon est constante, i.e. W (x, y) = p avec p ∈ [0, 1].

(23)

Les modèles à base de graphons posent la question naturelle de l’estimation de la fonction graphon. Un cadre général pour estimer un graphon est l’utilisation de fonctions étagées ob-tenues en partitionnant les nœuds du graphe suivant un algorithme de partitionnement de données (clustering) (voir par exemple D. Cai (2015); Wolfe & Olhede (2013); Gao et al. (2015)).

Une autre propriété des graphes échangeables qui découle du théorème d’Aldous-Hoover (Al-dous, 1981; Hoover, 1979) est que ces graphes sont presque sûrement denses1 ou vides. Ce-pendant, de nombreux graphes réels sont creux2 (Newman, 2009). Une récente série d’articles a alors introduit un cadre pour les graphes creux échangeables comme une généralisation du cadre de graphon pour les graphes denses (D. Cai, 2016; Veitch & Roy, 2015; Cai & Brode-rick, 2016; Borgs et al., 2018; Caron & Fox, 2017). L’idée de base, introduite par (Caron & Fox, 2017), est de représenter le graphe comme une structure continue, à savoir, représenter le graphe comme une mesure sur R2+. La définition d’échangeabilité associée à l’espace continu

est alors issue du théorème de représentation de Kallenberg (Kallenberg (2005b), chapitre 9) qui peut être vu comme l’homologue du théorème d’Aldous-Hoover pour les espaces continus. Veitch & Roy (2015) ont proposé un cadre généralisant le modèle de Caron & Fox (2017) comme candidat solide à la modélisation statistique des réseaux, étant donné que les graphes qu’ils obtiennent avec leur modèle sont à la fois peu denses et admettent une riche structure proche de celle observée en pratique, notamment la propriété du petit monde et d’invariance d’échelle caractérisée par une loi de puissance des degrés.

Une configuration de base de ces modèles, donnée dans Caron & Fox (2017), introduit une famille de processus ponctuels finis symétriques Γ_s _{∈ [0, s] × [0, s], s ∈ R}+_{, où chaque Γ}

s est

interprété comme l’ensemble des arêtes d’un graphe aléatoire et où l’ensemble des nœuds du graphe est l’ensemble des points dans l’intervalle [0, s]. Par conséquent, pour θ, θ0 ∈ [0, s], il existe une arête entre θ et θ0 si et seulement si (θ, θ0) ∈ Γs. L’ensemble des arêtes Γs

dé-termine le graphe sur l’ensemble de ses nœuds actifs : l’ensemble des éléments θ ∈ [0, s] tel que θ présente une arête dans Γs. En particulier, (Γs)s∈R+ sont des variables aléatoires ’à

va-leurs graphe’ indexées dans R+et qui sont imbriquées dans le sens où Γ_r ⊂ Γ_spour tout r ≤ s.

La loi d’un tel graphe aléatoire est caractérisée par trois composantes (potentiellement aléa-toires) définies sur un certain espace mesuré (ϑ, Bϑ, ν) : un réel positif I ∈ R+, une fonction

intégrable S : ϑ → R+ et une fonction mesurable symétrique W : ϑ2 → [0, 1] qui satisfait cer-taines conditions d’intégrabilité (voir Veitch & Roy (2015, 2016)). On appelle alors le triplet W = (I, S, W ) un graphex. Ici la fonction W joue le même rôle que joue la fonction

gra-1. Un graphe dense (dense graph) est un graphe dans lequel le nombre d’arêtes est proche du nombre maximal, par exemple un nombre quadratique par rapport au nombre de sommets.

2. Un graphe creux (sparse graph) est un graphe avec peu d’arêtes par rapport au nombre de noeuds, par exemple un nombre linéaire.

(24)

phon pour les graphes aléatoires échangeables denses. Notons également que l’espace mesuré (ϑ, Bϑ, ν) se résume souvent à (R+, BR+, ν), l’espace des réels positifs muni de sa tribu

boré-lienne et où ν représente la mesure de Lebesgue sur R+. Le composant I caractérise les sommets isolés du graphes et le composant S correspond aux sous-graphes sous forme d’étoiles. Dans le cas particulier où W = (0, 0, W ), i.e. d’un graphe aléatoire sans sommet isolé et sans sous-graphes en forme d’étoile, la construction du processus associé est donnée comme suit (Veitch & Roy, 2015) : Soit Π un processus ponctuel de Poisson défini sur R+×ϑ d’intensité Lebesgue×ν, i.e. pour deux intervalles J1, J2∈ R+et deux sous-ensembles mesurables B1, B2 ⊂ ϑ, le nombre

de points de Π dans, respectivement, J1×B1et J2×B2, sont des variables aléatoires de Poisson

de paramètres, respectivement, |J₁| × ν(B₁) et |J2| × ν(B2), avec |Ji| la longueur de l’intervalle

Ji. De plus, ces variables sont indépendantes si J1× B1∩ J2× B2 = ∅. Notons alors {θi, ϑi}i∈N

l’ensemble des points de Π. Définissons maintenant, pour tout s ∈ R+, par Πsla restriction de

Π à l’ensemble [0, s]2 et soit (ζ_{i,j})_i≤j∈N une suite de variables aléatoires i.i.d uniformes dans [0, 1]. Alors, pour chaque paire de points distincts (θ, ϑ), (θ0, ϑ0) ∈ Πs, l’ensemble des arêtes Γs

comprend l’arête (θ, θ0) indépendamment des autres points de Πs avec probabilité W (ϑ, ϑ0).

L’ensemble des sommets du graphe correspondant à l’ensemble des arêtes Γ_sest défini comme étant les points qui apparaissent dans l’une des arêtes. Par conséquent, ce modèle ne permet pas d’avoir de sommets isolés. Toute famille de graphes Γs, pour s ∈ R+, est une famille

projective respectivement à la restriction de sous-ensemble, c’est-à-dire Γ_r= Γs∩ [0, r]2 pour

tout r, s ∈ R+ avec r ≤ s. On note alors par (Γs)s∈R+ le processus associé au graphex W.

La généralisation aux graphes comportant des sommets isolés et des sous-graphes en forme d’étoiles (i.e. I 6= 0 et S 6= 0) est possible en introduisant des processus de Poisson associés (voir Veitch & Roy (2015)).

En s’appuyant sur les travaux de Kallenberg (1990), Veitch & Roy (2015) ainsi que Borgs et al. (2016) ont démontré un théorème de représentation des graphes creux échangeables en prouvant que chaque graphe creux échangeable est un processus généré par un certain graphex. Veitch & Roy (2016) ainsi que Orbanz (2017) ont proposé des méthodes d’échantillonnage et d’estimation des paramètres sous-jacents à ces modèles.

1.3 Le modèle p

1

de Holland et Leinhardt pour les réseaux

sociaux

Holland et Leinhardt (1981) ont proposé le modèle p1 pour l’analyse de données des graphes

orientés. Ce modèle fournit des informations sur l’attractivité et l’expansion des nœuds du réseau, ainsi que la tendance d’une paire de nœuds à établir des liens relationnels réciproques. Une construction de base pour ce modèle est la suivante. Considérons un graphe orienté sur un ensemble de n nœuds sur lequel on définit les paramètres suivants :

(25)

• α_i : paramètre d’expansion qui représente l’effet d’un arc sortant de i. • βj : paramètre de popularité représentant l’effet d’un arc entrant vers j.

• ρij : paramètre de réciprocité / mutualité : effet additionnel d’arcs réciproques entre i

et j.

Notons par P (0, 0) la probabilité d’absence d’arc entre i et j, Pij(1, 0) (resp. Pij(0, 1)) la

probabilité d’avoir un arc de i vers j (resp. de j vers i) et enfin par Pij(1, 1) la probabilité

d’avoir simultanément un arc de i vers j et de j vers i. Ces probabilités sont ensuite données par les formules suivantes :

log Pij(0, 0) = λij,

log Pij(1, 0) = λij + αi+ βj+ θ,

log Pij(0, 1) = λij + αj+ βi+ θ,

log Pij(1, 1) = λij + αi+ βj+ αj+ βi+ 2θ + ρij,

où λij est une constante de normalisation qui assure que la somme des probabilités pour

chaque paire (i, j) de nœuds soit égale à 1. Ces quatre probabilités correspondent alors aux quatre états possibles pour chaque paire de nœuds (i, j). L’effet de réciprocité, ρij, implique

que la probabilité d’observer une paire d’arcs mutuelle, avec un arc du nœud i vers le nœud j et un arc de j vers i, est supérieure par un facteur exp(ρij) par rapport au cas où les deux

arcs se produisent indépendamment l’un de l’autre. En d’autres termes, on met l’accent dans ce modèle sur l’idée intuitive que deux individus ont plus de chance d’être connectés récipro-quement s’il existe déjà une connexion dans un sens.

Plusieurs généralisations de ce modèle existent, par exemple van Duijn et al. (2004) consi-dèrent l’ensemble des effets d’expansion et/ou de popularité comme étant aléatoires et tirés d’une loi sous-jacente, on parle alors de modèles p2. Dans le même ordre d’idées, Zijlstra et al.

(2006) ont proposé une famille de modèles multi-niveaux avec des mélanges d’effets fixes et aléatoires.

Le modèle p₁ de Holland et Leinhardt élabore alors une dynamique non-uniforme pour la construction des liens entre les membres, ce qui est en corcondance avec les réseaux réels où les nœuds n’ont pas la même probabilité d’être connectés (voir Barabási (2016)).

1.4 Le modèle à blocs stochastiques

Le modèle à blocs stochastiques est un modèle génératif de graphes aléatoires dont le but est de produire des graphes contenant des communautés, i.e. des sous-ensembles caractérisés par des densités d’arêtes particulières. Les arêtes sont généralement plus denses au sein des com-munautés qu’entre les comcom-munautés. Ce modèle est apparu indépendamment dans différentes

(26)

communautés scientifiques et de nombreuses variantes existent. On présente ici la version la plus générale du modèle, le lecteur peut consulter Abbe (2017) pour un exposé détaillé sur les différentes généralisations du modèle à blocs stochastiques.

Soit un graphe à n nœuds et soit k un entier positif représentant le nombre de communautés (blocs) dans le graphe. Soit p = (p1, ..., pk) un vecteur de probabilités défini sur [k] = {1, ..., k}

représentant la proportion de chaque communauté. On pose W une matrice k × k symétrique dont les éléments sont à valeurs dans [0, 1] représentant les probabilités de connectivité intra-classes sur la diagonale et inter-intra-classes sur le reste de la matrice. Le modèle à blocs stochastique est alors défini par la paire (X, G) où X est un vecteur aléatoire de dimension n d’éléments i.i.d distribués selon p et représentant la communauté de chaque nœud et G un graphe à n nœuds où deux nœuds i et j sont connectés avec une probabilité WXi,Xj indépendamment des

autres nœuds. On défini alors l’ensemble des communautés par : Ωi = {v ∈ [n] : Xv = i}, i ∈ [k].

1.5 Modèles à espace latent

L’intuition derrière les modèles à espace latent est que chaque nœud i ∈ N peut être représenté par un point z_i _{dans un espace de faible dimension, par exemple R}kreprésentant une certaine propriété latente, ou non-observée. L’existence d’une arête entre deux nœuds dans la matrice d’adjacence, i.e. Y (i, j) = 1, est ensuite déterminée par la distance d(z_i, zj) entre la paire de

nœuds correspondante dans l’espace de faible dimension, et par les valeurs d’un nombre de covariables mesurées sur chaque nœud individuellement. Initialement, Hoff et al. (2002) ont introduit ce modèle pour l’analyse des réseaux sociaux, par la suite, différentes applications sont apparues comme le traitement de la transitivité ou la classification et l’hétérogénéité des nœuds (Hoff, 2003; Handcock et al., 2007; Krivitsky et al., 2009).

Dans le modèle de base introduit dans Hoff et al. (2002), les auteurs définissent un ’espace social’ qui se définit comme un espace des caractéristiques latentes non-observées qui repré-sentent des tendances transitives potentielles dans les relations entre les membres d’un réseau. Une mesure de probabilité sur ces caractéristiques induit un modèle dans lequel la présence d’un lien entre deux individus dépend de la présence d’autres liens. De cette façon, les re-lations sont de nature transitive probabiliste, i.e. l’observation de i → j et j → k suggère que i et k ne sont pas trop éloignés les uns des autres dans l’espace social et sont donc plus susceptibles d’être liés. Les auteurs développent alors un modèle à variables latentes pour des relations transitives dans lequel ils supposent que chaque individu a une position inconnue z_i dans l’espace social. Les liens dans le réseau sont supposés être conditionnellement indépen-dants étant donné ces positions, et la probabilité d’un lien spécifique entre deux individus est modélisée comme une fonction de la distance entre les deux individus dans l’espace social.

(27)

Plus précisément, le modèle est brièvement décrit comme suit. On se donne une matrice Y de taille n × n dont les éléments y_ij représentent les relations de i vers j et on définit par X l’information supplémentaire sur les covariables. On définit ensuite une approche d’indépen-dance conditionnelle en supposant que la probabilité de présence/absence de liens entre deux individus donnés sachant leurs positions dans l’espace social est indépendante des autres liens du réseau. Le modèle des probabilités conditionnelles pour la matrice d’adjacence Y est donné par :

P (Y |Z, X, θ) =Y

i6=j

P (yi,j|zi, zj, xij, θ),

où X et x_ij sont des caractéristiques potentiellement observables par paires, où θ représente les paramètres du modèle et Z les positions des individus dans l’espace social. Z et θ sont donc des paramètres à estimer. Chaque arête Y (i, j) est échantillonnée à partir d’une loi de Bernoulli dont le paramètre dépend de Z_i, Zj, Xij et θ. Dans leur modèle, Hoff et al. (2002)

proposent une approche par régression logistique pour la paramétrisation de P (Y |Z, X, θ) = Q

i6=jP (yi,j|zi, zj, xij, θ) dans laquelle la probabilité d’un lien dépend de la distance euclidienne

entre z_i et z_j, ainsi que des covariables observées x_ij qui mesurent les caractéristiques de la paire (i, j). Le ’log odds ratio’3 est alors donné par :

ηij = log P(y(i, j) = 1)

1 − P(y(i, j) = 1) = α + β

0_X

ij− d(zi, zj),

où d(., .) est une distance choisie arbitrairement satisfaisant l’inégalité triangulaire. Ce modèle a une interprétation simple : pour deux individus j et k équidistants de i, l’odds ratio de i → j contre i → k est β0(xi,j− xi,k). De plus, ce modèle est intrinsèquement réciproque et

transitive. En effet, si i → j et j → k, alors les distances d(i, j) et d(j, k) sont probablement pas grandes, ce qui fait que les événements j → i et i → k sont plus probables.

Une caractéristique intéressante de ce modèle est qu’il s’ajuste à de nombreux jeux de données de réseaux sociaux avec des relations non orientées, dans un espace de paramètres de dimen-sion beaucoup plus faible que celui des données (nk contre n(n − 1)), où k est la dimendimen-sion de l’espace latent. Comme les distances sont des distances euclidiennes dans un certain espace de dimension k, on dit alors qu’un réseau est d_k-représentable s’il existe des points zi ∈ Rk

pour les membres du réseau tel que i ∼ j si et seulement si i et j se trouvent dans une boule d’un certain rayon r de dimension k centrée autour de l’un des deux sommets. On dit alors que l’ensemble des distances d(i, j) représentent le réseau Y si,

{d(i, j) < r ∀i, j : yi,j = 1},

et

{d(i, j > r ∀i, j : yi,j = 0},

3. L’odds ratio également appelé rapport des chances ou risque relatif rapproché, est une mesure statistique souvent utilisée en régression logistique qui permet de mesurer l’effet d’un facteur.

(28)

pour un certain rayon r > 0.

Dans Hoff et al. (2002), les auteurs notent que de nombreux réseaux sociaux sont dk-représentables

avec des dimensions k assez faibles. À titre d’exemples, il citent les deux cas suivants : • Réseaux sous forme d’étoile à n-nœuds composés d’un nœud central connecté à n − 1

autres nœuds non connectés entre eux. Un tel réseau est trivialement d_n/2−1-représentable pour tout n, en positionnant des paires de nœuds de chaque côté du nœud central le long de l’un des n/2 axes de coordonnées.

• Réseau sous forme de chaîne de taille n, dans lequel les n nœuds sont ordonnés de telle sorte que 1 ∼ 2 ∼ 3 ∼ ... ∼ n ∼ 1. Ce réseau est d2-représentable pour tout n en plaçant

les nœuds à distances égales de l’origine et séparés par des angles égaux.

Ces exemples suggèrent que les modèles à espaces latents peuvent constituer une bonne mé-thode de réduction des données et de présentation pour les données relationnelles non orien-tées. Dans Hoff et al. (2002), les auteurs analysent un réseau réel composé de 15 acteurs d2-représentable. Les auteurs proposent ensuite un cadre bayésien pour faire de l’inférence sur

l’espace social et proposent une procédure de Monte Carlo par chaînes de Markov (MCMC) pour inférer sur les positions latentes et sur les effets des covariables observées. Dans Goodreau et al. (2009), les auteurs proposent des méthodes MCMC pour inférer sur des réseaux de tailles de plusieurs milliers de nœuds. Cela dit, pour des réseaux de plus grande taille, des problèmes d’échelle restent à résoudre.

1.6 Le modèle de Barabási-Albert

Barabási & Albert (1999) propose une méthode de génération de réseaux invariants d’échelle (voir la définition dans l’annexe A). Ce modèle inclut un mécanisme de croissance du réseau (ajout de nouveau nœuds), et la création de liens entre les nœuds du réseau suit un mécanisme d’attachement préférentiel : l’attractivité d’un nœud donné est corrélée à son degré. Ces deux propriétés sont observées dans de nombreux réseaux réels (Barabási, 2016). En effet, les nou-veaux nœuds ont tendance à être reliés aux nœuds les plus connectés4 et les réseaux réels ont pour la plus part une dynamique de croissance en terme de nombre de nœuds5. Le graphe de Barabási-Albert est construit suivant les étapes suivantes :

État initial du réseau

On commence avec un état initial décrit par m₀ nœuds reliés aléatoirement entre eux de telle sorte que chaque nœud soit relié par au moins un lien.

4. On peut par exemple penser à un réseau social où les individus les plus connus ont tendance à attirer plus de connections.

5. En effet, le nombre de nœuds dans les réseaux réels est souvent dynamique. Une prise en compte de cette propriété est important dans l’optique d’obtenir des modèles réalistes.

(29)

Attachement préférentiel

La probabilité π(k) qu’un lien du nouveau nœud se connecte à un nœud i dépend du degré ki

de i. On pose alors π(ki) = ki P jkj . (1.6.1)

En d’autre termes, un nœud de degré quatre a deux fois plus de chance d’être connecté au nouveau nœud qu’un nœud de degré deux.

Dynamique de croissance

À chaque pas de temps, un nouveau nœud rejoint le réseau avec m ≤ m₀ liens qui relient le nouveau nœud à m nœuds dans le réseau. Le choix de ces nœuds se fait suivant le mécanisme d’attachement préférentiel.

Barabási & Albert (1999) ont démontré que les propriétés d’attachement préférentiel et de croissance permettent d’obtenir des graphes invariants d’échelle, i.e. des graphes dont la loi des degrés est une loi de puissance, ce qui correspond à de nombreux réseaux réels observés (Barabási, 2016). Cela dit, ce modèle suggère que plus un nœud est ancien dans le réseau, plus il a de chance d’être fortement connecté et donc être plus attractif. Ce modèle ne prend donc pas en compte le cas où un nœud peut rapidement devenir attractif6. Bianconi & Barabási (2001) ont alors proposé une généralisation de ce modèle prenant en compte des particularités propres à des réseaux spécifiques.

1.7 Les modèles du petit monde

Watts & Strogatz (1998) ont initialement proposé un modèle du ’petit monde’ qui interpole entre un réseau ordonné en forme de treillis de dimension finie et un graphe aléatoire d’Erdős-Rényi-Gilbert afin de produire des graphes présentant les propriétés du ’petit monde’ avec notamment un coefficient de clustering élevé et des longueurs courtes de chemins moyens (voir annexe A). L’algorithme de Watts et Strogatz commence par un graphe sous forme de treillis de taille N fixée de telle sorte que chaque nœud soit de degré K fixé et tel que N K ln N 1. Ce treillis est construit suivant les étapes suivantes : on note les N nœuds du réseau n0, n1, ..., nN −1 et on connecte chacun des nœuds à K voisins, K ≤ 2 de

chaque côté, i.e. pour une paire de nœuds (n_i, nj), on construit une arête les reliant si et

seulement si :

0 < |i − j| mod (N − 1 −K 2 ) ≤

K 2.

6. On peut penser aux sites ou applications web dont la popularité n’est pas forcément corrélée à leur ancienneté sur la toile

(30)

On définit ensuite un paramètre 0 ≤ β ≤ 1 et on reconnecte chaque nœud avec une probabilité β. On obtient ainsi un graphe structuré localement en agrégats (clusters) et dont les longueurs moyennes des chemins sont réduites.

Kleinberg (2001) a introduit une variante de ce modèle où des arêtes sont ajoutées aléa-toirement à une grille fixe. En commençant par une grille sous-jacente de dimension finie, des arêtes sont rajoutées aléatoirement, courcircuitant les liens existants dans la grille et tel que la probabilité que deux nœuds soient connectés par une longue arête dépend de la distance entre eux dans la grille. Plus précisément, la probabilité que deux nœuds non-adjacents x et y soit connectés est proportionnelle à d(x, y)−α où α représente la dimension du treilli. De nombreux auteurs ont par la suite proposé des ajustements de la procédure de reconnection de Kleinberg afin d’améliorer la compréhension et l’efficacité de la navigabilité des réseaux (voir par exemple Clauset & Moore (2003); Sandberg (2005, 2008)).

Les modèles du petit monde sont utilisés par exemple pour effectuer des analyses empiriques impliquant des résumés d’agrégats statistiques (voir par exemple Newman et al. (2006)). Dur-rett (2006) a de son côté étudié le lien entre les modèles de graphes du petit monde et les processus stochastiques.

1.8 Les modèles de duplication-attachement

Les modèles de duplication-attachement sont apparues dans la littérature informatique dans le but d’étudier le World Wide Web (WWW) sous la forme d’un graphe orienté. Il existe plusieurs variantes de ce modèle. On présente ici une version basique proposée par Kumar et al. (2000).

Soit G_t = (Nt, Et) un graphe orienté indexé par t ≥ 0 représentant le temps où Nt est

l’en-semble des sommets au temps t et Et l’ensemble des arcs. À chaque étape, disons t + 1, on

rajoute un nouveau nœud N à Gt. Le nouveau nœud est connecté à un nœud prototype m

choisi uniformément dans l’ensemble N_t. Par la site, d nœuds sortants sont connectés à N tel que le i-ème nœud sortant est choisi comme suit : avec probabilité α, le nœud de destination est choisi uniformément dans l’ensemble des nœuds présents dans le graphe et avec la probabilité 1 − α, le nœud de destination est le i-ème nœud de destination du nœud m. Le modèle repose alors sur les paramètres α et d. Cependant, dans Kumar et al. (2000), les auteurs ne s’inté-ressent pas aux stratégies d’estimation des deux paramètres (α, d) mais leur analyse consiste à obtenir des résultats sur les propriétés topologiques des graphes de duplication-attachement, décrits comme des fonctions des deux paramètres (α, d). L’idée derrière ce modèle provient du WWW : on considère une page Web A nouvellement ajoutée, qui est représentée par un nouveau nœud dans le graphe représentant le Web. Le créateur de la page Web A y ajoutera alors des hyperliens, qui fourniront de nouveaux arcs dans le graphe. En particulier, certains

(31)

de ces hyperliens pointent vers d’autres pages Web, dont le contenu peut ne pas correspondre au contenu de la page Web A. Cependant, la plupart de ces hyperliens renvoient à des pages Web dont le contenu correspond étroitement au contenu de la page Web A. On peut aussi noter que ce modèle produit un graphe de degré constant. Dans une extension de ce modèle, des fractions des deux arcs sortant et rentrant du nœud prototype m sont copiées par le nœud nouvellement ajouté N (voir Leskovec et al. (2005)).

Ratmann et al. (2007, 2009) ont utilisé les modèles de duplication-attachement en biologie pour la modélisation des réseaux d’interaction protéine-protéine. Les auteurs proposent des méthodes MCMC pour estimer la loi a posteriori des paramètres du réseau. Les modèles duplication-attachement ont l’avantage d’être évolutifs, c’est-à-dire que leurs propriétés évo-luent dans le temps.

1.9 Les modèles par chaînes de Markov en temps continu

Holland & Leinhardt (1977) ainsi que Wasserman (1977) ont proposé des modèles de dyna-mique des réseaux basés sur des processus de Markov. Plus récemment, Snijders (2005, 2006) a étudié les propriétés de trois modèles pour l’évolution des réseaux basés sur des processus de Markov continus. D’une manière générale, les modèles de réseaux par processus de Mar-kov continus se présente comme suit. On considère un réseau de taille N (un graphe avec N nœuds) non pondéré et on considère une dynamique évolutive pour l’ensemble des liens (arêtes) du réseau de telle manière que l’évolution se produit sur un lien à la fois7. On consi-dère ensuite un processus de Markov continu {Y (t) : t ≥ 0} à valeurs dans l’espace Y de toutes les configurations possibles des arêtes du graphes. En d’autres termes, y ∈ Y est un vecteur binaire de taille N₂ tel que yk ∈ {0, 1} indique la présence/absence de lien entre la paire de

nœuds k = (i, j) pour k = 1, ..., N₂ et i, j = 1, ..., N . Par la suite, la dynamique du réseau est caractérisée par une fonction qij(y) qui définit la propension pour le lien entre i et j de

basculer vers sa valeur opposée sous la configuration y. Il existe plusieurs variantes pour la fonction q_ij(y), on en passe en revue ici quelques unes.

Modèle à arcs indépendants

Dans ce modèle simple, la fonction qij(y) est définie par qij(y) = λyij, i.e. yij bascule de 0 à

1 au taux λ0 ∈ R+ et de 1 à 0 au taux λ1 ∈ R+ constants. Par conséquent, l’évolution d’un

arc se fait indépendamment de l’état des autres arcs. Taylor & Carlin (1998) ont explicité les probabilités de transition de ce modèle et Snijders & van Duijin (1997) ont proposé une estimation des paramètres par maximum de vraisemblance.

7. Il existe néanmoins des variantes du modèle où plusieurs changements peuvent s’opérer à un même instant donné (voir par exemple Koskinen & Snijders (2007) et Mayer (1984))