Algorithme de Louvain orienté - Évolution des capitalistes sociaux entre 2009 et 2013

1.5 Évolution des capitalistes sociaux entre 2009 et 2013

2.1.3 Algorithme de Louvain orienté

Puisque notre réseau est orienté, nous adaptons aux réseaux orientés le code de l’al-gorithme de Louvain fourni par les auteurs de la méthode de Blondel et al. [10]. Pour cela, nous utilisons la définition de la modularité orientée de Leicht et Newman [73] :

Définition 2.3 (Modularité orientée). La modularité orientée d’un réseau est calculée

comme suit : Qo= ¹ 2m X i , j (Ai j−^d −(i )d⁺( j ) 2m ⁾δ(ci, cj)

avec d⁻(i ) le degré entrant du noeud i , d⁺( j ) le degré sortant du noeud j , m le nombre

d’arêtes du réseau, A_{i j}le poids de l’arête entre i et j ou 0 s’il n’y en a pas, c_i la communauté

du noeud i etδ(ci, cj) égal à 1 si i et j sont dans la même communauté, 0 sinon.

Ainsi, la nouvelle méthode du Louvain orienté optimise non plus la modularité mais la modularité orientée. Pour évaluer l’efficacité du Louvain orienté, nous utilisons l’outil de génération de réseaux artificiels introduit par Lancichinetti et Fortunato [65] que nous ap-pelons LFR.

LFR benchmark. L’outil permet de faire varier des paramètres importants et ainsi de générer des réseaux artificiels réalistes avec une structure de communautés. La structure

2.1. DÉTECTER LES COMMUNAUTÉS D’UN GRAND RÉSEAU ORIENTÉ 53

Algorithm 1: Pseudo-code de l’algorithme de Louvain. // Initialisation G = (V,E) i = 0 for v ∈ V do v.com = i i + + modularityGain=true while modularityGain do

// Phase 1, calcul des communautés modularityGain2=true modularityGain=false while modularityGain2 do modularityGain2=false for v ∈ V do gain=0 bestCom=-1 for u ∈ N (V ) do

newG ai n = cal cul er G ai n(v,u.com)

if newG ai n > g ai n then g ai n = newGai n bestCom=u.com if g ai n > 0 then v.com = bestCom modularityGain=true modularityGain2=true // Phase 2, création du métagraphe

V_new= {}

for v ∈ V do

if v.com ∉ Vnewthen

Vnew.ad d (v.com)

de communautés existant par construction sur ces réseaux, il est ainsi possible de disposer d’une vérité à laquelle comparer les sorties de notre algorithme.

Les paramètres à faire varier lors de l’utilisation du LFR sont :

— La loi de puissance t₁suivie par les degrés des noeuds du réseau ; — La loi de puissance t2suivie par la taille des communautés à détecter ;

54 CHAPITRE 2. RÔLES COMMUNAUTAIRES

— Le degré moyen des noeuds ¯d ;

— Le degré maximum des noeuds max(d ) ;

— Les tailles minimum mi nc et maxium maxc des communautés ;

— Le paramètre de mixageµ qui sert à définir la netteté des communautés : quand µ

est petit (resp. grand), les communautés sont faciles (resp. difficiles) à détecter.

Mesures de qualité. Pour comparer les résultats retournés par un algorithme de détec-tion de communautés à une partidétec-tion de référence, nous utilisons dans ce manuscrit trois mesures d’évaluation. La première mesure, appellée V-Mesure [100] est basée sur deux critères : l’homogénéité et la complétude. Une partition maximise l’homogénéité si, pour chaque partie, on trouve seulement des éléments de la même communauté. De manière symétrique, la complétude est maximisée quand pour chaque partie, tous les éléments sensés être réunis le sont. En calculant la moyenne harmonique de ces mesures, on obtient la V-Mesure.

La seconde mesure est la NMI [109] pour Normalized Mutual Information. Cette mesure est basée sur des concepts de la théorie de l’information. Nous utilisons la normalisation introduite par Strehl et Ghosh [109].

La dernière mesure que nous utilisons est la Pureté [129]. Pour la calculer, il s’agit d’as-signer à chaque communauté détectée, la partie de la structure de communauté de ré-férence dont le plus de noeuds y sont représentés. Ensuite, en sommant tous les noeuds correctement classifiés pour chaque partie et en divisant par le nombre de sommets, on obtient la Pureté.

Résultats. Afin d’évaluer la qualité des partitions retournées par le Louvain orienté, nous générons un benchmark d’évaluation en utilisant le LFR. À l’identique de Fortunato [36], deux jeux de paramètres sont utilisés dans lesquels ¯d et max(d ) sont respectivement fixés

à 20 et 50. Les lois de puissance t1et t2sont également respectivement fixées à 2 et 1. Dans le premier jeu de paramètres, n = 1000 et mi nc et maxc ont respectivement pour valeur 10 et 50. Dans le second jeu de paramètres, n = 5000 et mi nc et maxc ont respectivement pour valeur 20 et 100. Enfin, nous faisons varier le paramètreµ entre 0,1 et 0,6.

Nous comparons tout d’abord les résultats de Louvain orienté à la méthode de Louvain [10] sur ces réseaux artificiels. Pour exécuter Louvain sur un réseau orienté, nous ne tenons simplement pas compte de l’orientation des liens. Nous montrons dans la Table 2.1 que la méthode de Louvain adaptée aux réseaux orientés fournit de meilleurs résultats que l’originale sur les benchmarks orientés du LFR [65]. L’algorithme de Louvain qui maximise la modularité orientée est meilleur dans 75% des cas. Nous le comparons également à une

2.1. DÉTECTER LES COMMUNAUTÉS D’UN GRAND RÉSEAU ORIENTÉ 55

n µ NMI V-mesure Homogénéité Complétude Pureté

1000 0, 1 0, 987 0, 987 1, 000 0, 975 1, 000

1000 0, 6 0, 965 0, 964 0, 999 0, 932 0, 999

5000 0, 1 0, 966 0, 965 1, 000 0, 934 1, 000

5000 0, 6 0, 909 0, 905 0, 999 0, 828 0, 999

n µ NMI V-mesure Homogénéité Complétude Pureté

1000 0, 1 0, 995 0, 995 1, 000 0, 990 1, 000

1000 0, 6 0, 978 0, 978 1, 000 0, 958 1, 000

5000 0, 1 0, 978 0, 978 1, 000 0, 957 1, 000

5000 0, 6 0, 920 0, 917 0, 999 0, 848 0, 999

TABLE 2.1 – Résultats obtenus sur les réseaux du LFR avec l’algorithme de Louvain qui optimise d’abord la modularité classique, puis celle orientée dans le tableau du dessous. Chaque mesure indique la moyenne obtenue sur 100 graphes.

approche statistique, OSLOM [67]. OSLOM recherche des partitions significatives statisti-quement : une communauté est significative si la probabilité de la trouver dans un réseau aléatoire est faible [67]. OSLOM est adaptée à tous types de réseaux, qu’ils soient orientés ou non. Par ailleurs, cette méthode montre en général de meilleures performances que celle de Louvain : ses résultats sont plus proches de ceux attendus dans le cas de tests effectués sur les réseaux artificiels du LFR [65] comme le montre la Table 2.2. En revanche, contrairement à la méthode du Louvain, OSLOM est incapable de passer à l’échelle de réseaux contenant des centaines de millions de liens. Son temps d’exécution est supérieur à 10 heures sur des réseaux d’un peu plus de 300.00 liens.

n µ NMI V-mesure Homogénéité Complétude Pureté

1000 0, 1 0, 999 0, 999 0, 999 0, 999 0, 999

1000 0, 6 0, 999 0, 999 0, 999 0, 999 0, 999

5000 0, 1 0, 999 0, 999 0, 999 0, 999 0, 999

5000 0, 6 0, 999 0, 999 0, 999 0, 999 0, 999

TABLE2.2 – Resultats obtenus en utilisant OSLOM sur les réseaux du LFR. Chaque valeur est une moyenne obtenue sur 100 graphes.

Les meilleures performances de la méthode du Louvain orienté par rapport au Louvain en justifient l’utilisation dans la suite de ce Chapitre. En effet, même si les performances

56 CHAPITRE 2. RÔLES COMMUNAUTAIRES

d’OSLOM sont encore meilleures, cet algorithme n’est pas une option envisageable à cause de sa complexité. OSLOM ne passe pas à l’échelle d’un réseau de la taille de celui de Twitter. Nous précisons que des résultats plus complets à propos du Louvain orienté sont présentés Annexe B.

Nous avons donc une méthode de détection de communautés capable de passer à l’échelle du réseau Twitter et de tenir compte de l’orientation de ses liens. Il s’agit maintenant de décrire la position des capitalistes sociaux relativement à la structure de communautés détectée. Pour cela, nous introduisons dans la prochaine Section la notion de rôles com-munautaires.

Dans le document Analyse du capitalisme social sur Twitter (Page 53-57)