Clustering de nœuds dans les r ´ eseaux ` a l’aide de mixer
Pierre Latouche
Universit ´e Paris 1 Panth ´eon-Sorbonne Laboratoire SAMM
Semin-R, 29/03/2012
R ´ eseaux “r ´ eels”
I Utilis ´es dans de nombreux domaines scientifiques:
I WWW
I Biologie, sociologie, physique, ...
I Nature des donn ´ees:
I Interactions entreN objets
I O(N2)interactions possibles
I Topologie d’un r ´eseau:
I D ´ecrit la mani `ere dont
En Biologie
R ´eseau m ´etabolique d’Escherichia coli(Lacroix et al., 2006).
En Biologie
R ´ eseaux “r ´ eels”
I Propri ´et ´es:
I Creux
I Composante g ´eante
I H ´et ´erog ´en ´eit ´e
I Attachement pr ´ef ´erentiel
I Petit monde
,→Structures (groupes de nœuds)
R ´ eseaux “r ´ eels”
I Propri ´et ´es:
I Creux
I Composante g ´eante
I H ´et ´erog ´en ´eit ´e
I Attachement pr ´ef ´erentiel
I Petit monde
,→Structures (groupes de nœuds)
Clustering dans les r ´ eseaux
I Les m ´ethodes existantes cherchent:
I Communaut ´es
I Attachement “inverse”
(disassortative mixing)
I Structures h ´et ´erog `enes
Clustering dans les r ´ eseaux
I Les m ´ethodes existantes cherchent:
I Communaut ´es
I Attachement “inverse”
(disassortative mixing)
I Structures h ´et ´erog `enes
Clustering dans les r ´ eseaux
I Les m ´ethodes existantes cherchent:
I Communaut ´es
I Attachement “inverse”
(disassortative mixing)
I Structures h ´et ´erog `enes
Clustering dans les r ´ eseaux
I Les m ´ethodes existantes cherchent:
I Communaut ´es
I Attachement “inverse”
(disassortative mixing)
I Structures h ´et ´erog `enes
Plan
Introduction
R ´eseaux “r ´eels”
Clustering dans les r ´eseaux
Mod `ele `a blocs stochastiques Le mod `ele
Probl `emes, limites Package R mixer
Premiers pas
G ´en ´erer et afficher des r ´eseaux Clustering `a l’aide de mixer
S ´erie d’exp ´eriences (Latouche et al. 2012) Package osbm ..
Mod ` ele ` a Blocs stochastiques
I Stochastic Block Model (SBM) en anglais
I Nowicki et Snijders (2001)
I Zivariables ind ´ependantes, cach ´ees:
I Zi ∼ M(1, α)
I Ziq= 1: nœudiappartient au groupeq
I X|Zarˆetes tir ´ees ind ´ependamment : Xij|{i∈q, j∈l} ∼ B(πql)
1 2 3
4 5
6
7
8 4 5
6
7
8
π••
9
π•• 10
π••
π••
π••
Maximum de vraisemblance
I Maximum de vraisemblance:
I Donn ´ees observ ´ees :logp(X|α,Π) ,→Maximisation=Probl `eme
I Solutions classiques (EM) pas applicables !
I Donn ´ees compl ´et ´ees :logp(X,Z|α,Π)
S ´ election de mod ` eles
Crit `eres “classiques”
Commelogp(X|α,Π)n’est pas calculable, impossible d’utiliser les crit `eres classiques tels que:
I AIC = logp(X|α,ˆ Π)ˆ −K
I BIC = logp(X|α,ˆ Π)ˆ −K2 logN(N2−1) Crit `ere ICL pour SBM
I Daudin et al. (2008)
Package R mixer, premiers pas
>install.packages("mixer")
>library(mixer)
>help(mixer)
G ´ en ´ erer des r ´ eseaux
I R ´eseau avec communaut ´es
>g<-graph.affiliation(n=100,c(1/3,1/3,1/3),0.6,0.1)
I Attachement “inverse”
>g<-graph.affiliation(n=100,c(1/3,1/3,1/3),0.1,0.6)
I str(g)
Afficher des r ´ eseaux
>library(sna)
>gplot(g$x, vertex.col=g$cluster+1)
Afficher des r ´ eseaux
>library(sna)
>gplot(g$x, vertex.col=g$cluster+1)
Plusieurs algorithmes d’optimisation
I variationnel EM + ICL (Daudin et al. 2008)
I classification EM + ICL (Zanghi et al. 2008),→Plus rapide mais biais ´e
I variationnel Bayes EM + ILvb (Latouche et al. 2012),→Plus lent mais meilleurs r ´esultats
Utilisation de mixer
>xout<-mixer(g$x, qmin=2, qmax=5, method="variational")
>plot(xout)
●
●
●
●
2.0 2.5 3.0 3.5 4.0 4.5 5.0
−2450−2400−2350−2300
Integrated Classification Likelihood
Number of classes
ICL
Reorganized Adjacency matrix
classes
classes
Degree distribution
Density 0.010.020.030.040.050.060.07
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
Inter/intra class probabilities
Utilisation de mixer
>xout<-mixer(g$x, qmin=2, qmax=5, method="bayesian")
>plot(xout)
●
●
●
●
2.0 2.5 3.0 3.5 4.0 4.5 5.0
−2450−2400−2350−2300
Bayesian criterion vs class number
Number of classes
Bayesian criterion
Reorganized Adjacency matrix
classes
classes
Degree distribution
0.060.07
●
●
●
● ●
●
●
●
●
Inter/intra class probabilities
Utilisation de mixer
>plot(xout, frame=5)
Graph
S ´ erie d’exp ´ eriences (Latouche et al. 2012)
I Deux types de structures:
I Affiliation :
Π=
λ . . .
λ ...
... . ..
. . . λ
I Affiliation et une classe de hubs :
λ . . . λ
..
R ´ eseaux d’affiliation
(a) QT rue\QICL
2 3 4 5 6 7
3 0 100 0 0 0 0
4 0 0 100 0 0 0
5 0 0 23 77 0 0
6 0 1 28 59 12 0
7 0 8 49 42 1 0
(b) QT rue\QILvb
2 3 4 5 6 7
3 0 100 0 0 0 0
4 0 0 100 0 0 0
5 0 0 0 99 1 0
6 0 0 4 23 73 0
7 0 2 14 44 27 13
R ´ eseaux d’affiliation et une classe de hubs
(c)QT rue\QICL
2 3 4 5 6 7
3 0 100 0 0 0 0
4 0 0 100 0 0 0
5 0 0 12 88 0 0
6 0 0 19 59 22 0
7 0 3 29 56 12 0
(d) QT rue\QILvb
2 3 4 5 6 7
3 0 100 0 0 0 0
4 0 0 100 0 0 0
R ´ eseau m ´ etabolique d’Escherichia coli
I Lacroix et al. (2006)
I Lab : Biom ´etrie et Biologie ´Evolutive (Lyon 1)
I 605 nœuds, 1782 arˆetes
R ´ eseau m ´ etabolique d’Escherichia coli
R ´ esultats (1)
Repr ´esentation “dot blot” du r ´eseau m ´etabolique apr `es classification des nœuds enK = 22classes.
R ´ esultats (2)
I Parmi les classes, huit sont des cliques
I Six ont une probabilit ´e intra-classe sup ´erieure `a 0.5
I Les cliques et pseudo-cliques partagent des r ´eactions faisant intervenir un mˆeme compos ´e
I Cliques : chorismate, pyruvate, L-aspartate, L-glutamate, D-glyceraldehyde-3-phosphate and ATP
I Les classes 1 and 17 sont associ ´ees au pyruvate
Contents
Introduction
R ´eseaux “r ´eels”
Clustering dans les r ´eseaux
Mod `ele `a blocs stochastiques Le mod `ele
Probl `emes, limites Package R mixer
Premiers pas
G ´en ´erer et afficher des r ´eseaux Clustering `a l’aide de mixer
S ´erie d’exp ´eriences (Latouche et al. 2012) Package osbm ..
Chevauchement dans les r ´ eseaux
Palla et al. (2005)
Mod ` ele ` a blocs stochastiques (SBM)
I Nowicki et Snijders (2001)
I Ziind ´ependantes, cach ´ees :
Zi∼ M(1, α)
Mod ` ele ` a blocs stochastiques chevauchants (OSBM)
I Latouche et al. (2011)
I Ziq ind ´ependantes, cach ´ees :
Zi∼
Q
Y
q=1
B(Ziq; αq) =
Q
Y
q=1
αZqiq(1−αq)1−Ziq
Mod ` ele ` a blocs stochastiques chevauchants (OSBM)
I Latouche et al. (2011)
I Ziq ind ´ependantes, cach ´ees :
Zi∼
Q
Y
q=1
B(Ziq; αq) =
Q
Y
q=1
αZqiq(1−αq)1−Ziq
I X|ZTirage des arˆetes :
Xij|Zi,Zj ∼ B Xij; g(aZi,Zj)
I g(t) = 1/(1 + exp(−t))fonction logistique
aZi,Zj =Z|i W Zj+Z|i U+V|Zj+W∗
Package osbm : tr ` es bientˆ ot ..
I Autorise le chevauchement entre les groupes
I S ´election de mod `eles
cluster 1
cluster 2
cluster 3
cluster 4 UMP
30 + 3
2 + 3
0
0 UDF
0 + 1
29 + 1
0
0 + 2 liberal
0
0
24
0 PS
0
0
0
40 analysts
0 + 1
1 + 3
1 + 1
0 + 4 others
0
0
0
1
R ´ ef ´ erences
I Groupe SSB ! ANR NeMo !
I Package R mixer = Christophe Ambroise, Gilles Grasseau, Mark Hoebeke, Vincent Miele, Franck Picard, Pierre Latouche
I J-J. Daudin, F. Picard et S. Robin (2008), A mixture model for random graphs. Statistics and Computing, 18, 2, 151-171.
I H. Zanghi, C. Ambroise et V. Miele (2008), Fast online graph clustering via Erdos-Renyi mixture. Pattern Recognition, 41, 3592-3599
I P. Latouche, E. Birmel ´e, C. Ambroise (2011), Overlapping stochastic block models with application to the French political blogosphere network. Annals of Applied Statistics, 5, 1, 309-336
I P. Latouche, E. Birmel ´e, C. Ambroise (2012), Variational Bayesian inference and complexity control for stochastic