Etat de l’art

Etant donné un lien dirigé e = (s, t), on appelle s la source et t la destination du lien. La fonction succ(v) retourne tous les successeurs de v, c’est-à-dire tous les nœuds w tels qu’il existe un lien (v, w) et la fonction pre(v) retourne tous les prédécesseurs de v, c’est-à-dire tous les nœuds w tels qu’il existe un lien (w, v).

Avec une distribution de degrés fournie pour tous les nœuds d’un graphe non dirigé, nous attribuons initialement à chaque nœud le nombre d’extrémités (stubs) qui doivent y être connectées afin que la distribution de degrés soit réalisée. Durant la génération aléatoire, les extrémités sont reliées pour former des liens. Dans les cas des graphes dirigés, on attache des extrémités entrantes (in-stubs) et sortantes (out-stubs). Les fonctions ost(v) et ist(v) retournent respectivement le nombre restant d’extrémités sortantes et entrantes de v.

8.3 Etat de l’art^´

Dans cette section, nous présentons l’état de l’art dans le domaine des modèles aléatoires et des algorithmes de génération de graphes aléatoires, afin de mieux mettre en lumière les bénéfices de l’approche que nous présenterons par la suite.

8.3.1 Mod`eles de graphes al´eatoires

Dans le cadre du modèle de graphe aléatoire d’Erdos-Renyi [60], les mathématiques et la physique ont été les premières disciplines à étudier les graphes aléatoires et les modèles probabilistes de génération de graphes aléatoires. Ces études avaient initialement pour objectif d’étudier les propriétés locales et globales des graphes quand n tendait vers l’infini. On peut lire [33] pour une étude plus complète des travaux dans cette direction.

Le problème majeur des graphes aléatoires définis par Erdos et Renyi dans le cadre de la modélisation de réseaux sociaux est que ces graphes possèdent une distribution de degrés

en loi de Poisson. Or, des études ont montré que la grande majorité des graphes de terrain ont une distribution fortement hétérogène qui suit asymptotiquement une distribution en loi de puissance. Ces réseaux sont souvent appelés des réseaux sans-échelle (scale-free networks) [26].

Ces observations et leurs conséquences pratiques ont mené à l’étude de nouveaux modèles de graphes aléatoires qui peuvent être paramétrés afin de mieux correspondre à des distributions de degrés données [155]. Il existe également des modèles respectant à la fois une distribution de degrés prescrite et d’autres propriétés topologiques [112]. Ces modèles sont très intéressants car ils peuvent être étudiés formellement et permettent d’obtenir des résultats, notamment asymptotiques, sur les propriétés globales ou locales des graphes générés.

A la suite de l’article de Watts et Strogatz [157], les chercheurs en analyse de réseaux sociaux ont pris l’habitude de comparer des réseaux réels à des graphes générés aléatoirement afin d’identifier des différences structurelles non triviales. Le paramétrage pour la génération de ces graphes pour un réseau donné, ainsi que l’étude formelle de nouvelles propriétés d’intérêt sont des problèmes de recherche généralement complexes.

C’est l’une des raisons pour lesquelles les études pratiques utilisent toujours des méthodes exploratoires et descriptives qui sont très utiles pour débuter une étude, mais ne permettent pas de tirer des conclusions fortes. L’état de l’art actuel utilise des instances de graphes générés aléatoirement et compare les propriétés de ces graphes avec celles de graphes réels (avec des méthodes de statistique descriptive). Ceci fournit des résultats suffisamment concluants sous réserve d’avoir assez d’échantillons.

Nous ne souhaitons pas décourager l’étude des modèles aléatoires. Mais, reconnaissant que leur utilisation est très difficile et qu’il y a toujours de nombreuses propriétés pour lesquelles aucun résultat formel n’est disponible, nous nous concentrons sur des évaluations plus classiques avec des graphes générés aléatoirement.

8.3.2 Génération de graphes aléatoires

Tout d’abord il faut distinguer deux types de génération aléatoire. La première, la génération d’instances de modèles, est utilisée pour des questions générales, par exemple l’étude empirique des modèles ou l’impact des paramètres. Pour ces modèles, les réseaux peuvent être générés très efficacement [29] en utilisant les propriétés mathématiques des distributions de degrés. Le second type de génération nécessite une distribution de degrés donnée que l’on souhaite obtenir exactement. Cela sert pour l’évaluation de graphes de terrain particuliers et est l’objectif de ce chapitre. Cela nécessite d’utiliser une approche différente que nous étudions dans la suite.

Milo et al. effectuent un très bon survol de ce domaine [106] ; nous utiliserons leur terminologie pour la présentation et la discussion de notre algorithme.

a b

d

c

Figure 8.1 – Exemple de graphe avec extrémités pour la génération de liens.

Le mod`ele conﬁgurationnel

L’approche la plus classique est le modèle configurationnel, qui est bien résumé par Newman [114]. La génération d’un graphe avec distribution de degrés fixée est assez simple et s’effectue en choisissant aléatoirement des paires d’extrémités et en les connectant pour former des liens. Cet algorithme est la méthode développée par défaut dans la plupart des outils disponibles qui permettent de générer des graphes avec distribution de degrés fixée, par exemple NetworkX http://networkx.lanl.gov/ pour Python.

Cependant, cette méthode souffre d’un inconvénient majeur pour les études pratiques car elle permet de générer des graphes avec des boucles (si un lien est créé avec deux extrémités d’un même sommet) ou des liens multiples (si deux paires d’extrémités sont choisies pour la même paire de sommets). Dans les réseaux réels ces propriétés sont souvent interdites i.e., les réseaux réels sont souvent des graphes simples1. L’utilisation de ce modèle ne permet pas des comparaisons rigoureuses. La figure 8.1 montre un graphe non dirigé avec une distribution de degrés fixée pour lequel on souhaite créer des liens aléatoires. Avec le modèle configurationnel, toute paire d’extrémités peut être choisie, ce qui autorise initialement les 8 connexions différentes. Si on se limite aux graphes simples, par contre, il y a seulement 5 connexions possibles. En effet, (b, b) et (d, d) créeraient une boucle et (a, c) imposerait de créer un lien multiple entre b et d par la suite.

Ce problème décroˆıt quand n augmente mais en utilisant le modèle configurationnel il faut toujours supprimer les boucles et les liens multiples a posteriori, ce qui a pour conséquence de modifier la distribution de degrés fournie initialement. Un algorithme basé sur une telle modification est évalué par Milo et. al. [106], sous le nom de matching al-gorithm. La création de liens multiples n’arrête pas l’algorithme mais de tels liens sont rejetés. Cela augmente la probabilité de se rapprocher de la distribution prescrite. Cepen-dant le rejet des liens multiples a pour conséquence la perte de l’uniformité des graphes générés. Viger et Latapy [153] ont montré empiriquement que cela introduit un biais dans les propriétés du graphe généré. Au contraire, Milo et al. défendent que les conséquences sont relativement faibles dans leurs expériences. Ils recommandent cependant d’utiliser une

M´ethode de Monte-Carlo par chaˆınes de Markov (Markov Chain Monte Carlo (MCMC) en anglais).

Méthode de Monte-Carlo par chaˆınes de Markov Comme affirmé par Viger et Latapy [153] :

Although it has been widely investigated, it is still an open problem to directly generate such a random graph, or even to enumerate them in polynomial time [...]

Cette énumération a été accomplie par Snijders [139] mais, à cause de la complexité temporelle exponentielle, la plupart des chercheurs se sont tournés vers les méthodes de Monte Carlo pour la génération de graphes aléatoires.

Selon Milo et al. [106], la méthode la plus rapide est Markov Chain Monte Carlo (MCMC). Cette méthode a l’avantage supplémentaire de permettre la création de graphes simples, et même connexes si nécessaire au prix d’un temps de génération accru. Ces al-gorithmes de type MCMC ne permettent pas de créer directement des graphes aléatoires mais procèdent de la manière suivante :

1. générer un graphe simple respectant la distribution de degrés prescrite ; 2. le rendre connexe avec des permutations de liens si nécessaire ;

3. effectuer une suite de permutations de liens jusqu’à ce que le graphe semble suffi-samment aléatoire. C’est un mélange (shuffling) du graphe.

L’étape 1 peut être réalisée avec l’algorithme de Havel-Hakimi [72] qui réalise exacte-ment la distribution voulue de manière déterministe. Si la connexité du graphe n’est pas obligatoire, Viger et Latapy [153] ont validé empiriquement que O(m) échanges de liens suffisent pour avoir un échantillonage uniforme, mais la preuve est toujours un problème ouvert. Milo et al. [106] ont estimé que le facteur constant de cette borne est environ 100. De plus ils décrivent une implémentation na¨ıve avec connexité garantie dont la complexité est en O(m2). Cet algorithme na¨ıf est appelé switching algorithm. Viger et Latapy [153] proposent une amélioration en O(m· log(m)) pour les graphes non dirigés en se basant sur des validations empiriques mais sans preuve formelle. L’utilisation de l’amélioration pour les graphes dirigés n’est pas étudiée.

La méthode a été généralisée par Tabourier et al. [145] afin de conserver des propriétés du graphe autres que la distribution des degrés, comme par exemple le nombre de triangles. La méthode peut nécessiter de faire des inversions de liens avec plus de 2 liens et de rejeter une inversion si elle change la propriété voulue.

Bien que notre proposition n’offre pas une meilleure complexité que MCMC et qu’elle ne génère pas que des graphes connexes, nous voyons deux avantages à notre méthode par rapport à MCMC. Tout d’abord, notre algorithme est beaucoup plus simple à implémenter et pourrait donc remplacer les matching algorithms dans les logiciels. Ensuite, il est beau-coup plus simple d’introduire des règles de connectivité spécifiques dans des algorithmes de génération directe qu’avec des inversions de liens. Avec ces dernières approches il faut

a b

d

c

Figure 8.2 – Exemple de graphe durant le processus de g´en´eration.

en effet contraindre les échanges autorisés pour garantir que les graphes restent simples. Pour ces raisons nous pensons qu’il reste encore des verrous à lever pour la conception d’algorithmes de génération directe.

Echantillonnage s´equentiel

Un algorithme d’échantillonnage séquentiel est proposé par Blitzstein et Diaconis [31]. Comme notre proposition, il génère un graphe séquentiellement en for¸cant un ordre pour une extrémité des nouveaux liens et en choisissant au hasard l’autre extrémité. En conséquence, il ne permet pas d’échantillonner uniformément. Notre méthode est une al-ternative viable pour deux raisons. Tout d’abord la méthode de Blitzstein et Diaconis est uniquement décrite et prouvée pour les graphes non dirigés, même si une adaptation semble possible. Ensuite, leur méthode nécessite de vérifier à chaque étape si la création du lien va permettre d’atteindre la distribution de degrés voulue, ce qui ralentit l’exécution à une complexité en O(m· n2) et est moins efficace que les autres méthodes et en particulier, la nôtre.

Un algorithme d’échantillonnage séquentiel est proposé par Del Genio et al. [54] qui est plus rapide que le précédent : il est en O(m· n) ; par contre il ne permet pas d’avoir un échantillonage uniforme, mais la probabilité d’avoir une configuration donnée peut être calculée, ce qui permet de faire des moyennes pondérées en générant plusieurs graphes lorsque l’on s’intéresse à des propriétés particulières. L’algorithme est généralisé à des graphes dirigés par Kim et al. [81].

Dans le document Mesures de proximité appliquées à la détection de communautés dans les grands graphes de terrain (Page 129-133)

8.3 Etat de l’art´

8.3.1 Mod`eles de graphes al´eatoires

8.3.2 Génération de graphes aléatoires

a b

d

c

a b

d

c

8.3 Etat de l’art^´