Approches d’´ evaluation de communaut´ es dans les graphes de terrain
Rushed Kanawati
LIPN, CNRS UMR 7030 Universit´ e Paris 13 http://lipn.fr/∼kanawati rushed.kanawati@lipn.univ-paris13.fr
February 11, 2014
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 1 / 15
Rappel : D´ efinitions & Notations
Soit G =< V , E > un graphe de terrain. N = |V |, m = |E|, d (u) degr´ es de u
Une communaut´ e est un sous-graphe dont les nœuds sont plus li´ es entre eux qu’avec d’autres nœuds
On s’int´ eresse ici ` a l’´ evaluation des algorithmes qui calculent des partitions du graphe.
Structure communautaire : C = {S 1 , . . . , S n } :
∀i, S i ⊆ V S n
i =1 S i = V
∀i, j : S i ∩ S j = φ n s
i= |S i |
m s
i= |{(u, v) ∈ E : u ∈ S i , V ∈ S i }|
Introduction
Evaluation des algorithmes de d´ etection de communaut´ es
3 grandes approches :
Qualit´ es structurelles des communaut´ es retrouv´ ees.
Comparaison avec une v´ erit´ e de terrain.
Evaluation orient´ es tˆ aches
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 3 / 15
Fonctions d’´ evaluation structurelle
La qualit´ e de C = {S 1 , . . . , S i } est donn´ ee par :
Q (C) = P
i
f (S i )
|C| (1)
f () est une fonction de qualit´ e d’une communaut´ e.
4 familles de fonctions de scoring :
Fonctions bas´ ees sur la connectivit´ e interne.
Fonctions bas´ ees sur la connectivit´ e externe.
Fonctions hybrides
Fonctions inform´ ees par des mod` eles.
Fonctions d’´evaluation structurelle
Fonctions d’´ evaluation de la connectivit´ e interne
Densit´ e interne : f (S) = n 2×m
SS
×(n
S−1)
Degr´ es moyen : f (S) = 2×m n
SS
FOMD: Fraction over Median Degree : f (s ) = |{u:u∈S ,|(u,v),v∈S |>d
m}|
n
S,
d m est le m´ edian de degr´ es des nœuds dans V
TPR: Triangle Participation Ratio : |{u∈S}:∃v,w∈S:(u,v),(w,v),(u,w)∈E|
n
SR. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 5 / 15
Fonctions d’´ evaluation de la connectivit´ e externe
Expansion : f (S ) = C n
SS
Cut : f (S ) = n C
sS
×(N−n
S)
Fonctions d’´evaluation structurelle
Fonctions hybrides
Conductance : f (S ) = 2m C
SS
+C
SMAX-ODF : Out Degree Fraction : f (S ) = max u∈S |{(u,v)∈E,v6∈S}|
d(u)
AVG-ODF : f (S) = n 1
S
× P
u∈S
|{(u,v)∈E,v6∈S}|
d(u)
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 7 / 15
Fonctions guid´ ees par un mod` ele
La modularit´ e : f (s ) = 1 4 (m S − E (m S ))
E (m S ) le nombre attendu de liens dans un graphe al´ eatoire ayant la
mˆ eme distribution de degr´ es.
Fonctions d’´evaluation structurelle
Comparaison avec une v´ erifi´ e de terrain
Principe : calculer une similarit´ e (ou distance) entre une partition calcul´ ee et une partition de r´ ef´ erence.
La partition de r´ ef´ erence peur ˆ etre : annot´ ee par un expert
ou g´ en´ er´ ee par un mod` ele.
Deux types de mesures :
Mesures bas´ ees sur le compte des accords.
Mesures bas´ ees sur la th´ eorie de l’information.
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 9 / 15
Mesures bas´ ees sur le comptes des accords
Soient U, V deux partitions d’un graphe G Indice de Rand :
a pairs plac´ es dans une mˆ eme communaut´ e selon U et V b pairs plac´ es en mˆ eme communaut´ e selon U et en diff´ erents communaut´ e selon V
c pairs plac´ es en mˆ eme communaut´ e selon V et en diff´ erents communaut´ e selon V
d pairs plac´ ees en diff´ erentes communaut´ e selon U et selon V.
rand = a+b+c+d a+d
ARI = C
n2(a+d)−[(a+b)(a+c)+(c+d)(b+d)]
(C
n2)
2−[(a+b)(a+c)+(c+d)(b+d)]
E(ARI)=0
rappel : C n k = k!(n−k)! n!
Fonctions d’´evaluation structurelle
L’information mutuelle
Rappel : L’information mutuelle entre deux variables al´ eatoires X , Y est : I (X , Y ) = H(X ) + H(Y ) − H(X , Y )
H(X ) = P n
xi=1 p(x i ) × log ( p(x 1
i
) ) Normalisation : NMI (U, V ) = √ I(U,V )
H(U)H(V )
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 11 / 15
Probl` eme de v´ erit´ e de terrain
Existence de quelques graphes de benchmark (Zachary, Football, . . . , etc.),
Graphe de tr` es petits tailles.
Difficile de trouver de grands graphes avec v´ erit´ e de terrain.
Fonctions d’´evaluation structurelle
Benchmarks artificiels : Le mod` ele LFR
But : G´ en´ eration d’un graphe compos´ e d’un ensemble de k communaut´ es plus au moins interconnect´ es entre elles.
Algorithme :
Soit N le nombre de nœuds du graphe ` a g´ en´ erer. La distribution de degr´ es est tir´ ee selon une loi de puissance de param` etre γ tel que le degr´ es d’un nœud est dans un intervalle [K min , K max ].
µ est un param` etre de connexion entre communaut´ e : µ ∈ [0, 1]
La distribution des tailles de communaut´ es suit une autre lois de puissance de param` etre β.
Par it´ eration : assigner un nœud ` a une communaut´ e
al´ eatoirement choisi de sorte que la taille de la communaut´ e soit sup´ erieur au degr´ es interne du nœud.
Si la communaut´ e ´ elue est complet on exclue un de ses membres choisi d’une mani` ere al´ eatoire. Le nœud exclu devint un nœud non assign´ e.
L’algorithme s’arrˆ ete lorsque tous les nœuds sont assign´ es ` a des communaut´ es.
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 13 / 15
Mini projet INFO3 : Approches d’optimisation
multi-objectif pour la d´ etection de communaut´ es locales
1 Objectif: comparer diff´ erentes approches de combinaisons des fonctions objectives.
2 Fonctions ` a combiner : la densit´ e interne, l’expansion et la conductance.
3 Exp´ erimentation sur : Zachary et football.
4 Comparer trois approches de combinaison :
Combinaison lin´ eaires des fonctions de qualit´ e (apr` es normalisation)
Choix des meilleures solutions Pareto-optimales.
Application des techniques d’ensemble clustering (cœrus de
communaut´ es
Fonctions d’´evaluation structurelle
TP5
1 Tester les algorithmes de d´ etection de communaut´ e : Louvain, edge-betweeness et label propagation sur les deux r´ eseaux : Zachary, football. Comparer les r´ esultats.
2 Implementer l’algorithme de calcul de cœurs de communaut´ es et comparer le r´ esultat obtenu sur football en utilisant label propagation avec celui obtenu par Louvain.
R. Kanawati (LIPN) Evaluation de communaut´es February 11, 2014 15 / 15