• Aucun résultat trouvé

Clustering de nœuds dans les r ´eseaux `a l’aide de mixer

N/A
N/A
Protected

Academic year: 2022

Partager "Clustering de nœuds dans les r ´eseaux `a l’aide de mixer"

Copied!
37
0
0

Texte intégral

(1)

Clustering de nœuds dans les r ´ eseaux ` a l’aide de mixer

Pierre Latouche

Universit ´e Paris 1 Panth ´eon-Sorbonne Laboratoire SAMM

Semin-R, 29/03/2012

(2)

R ´ eseaux “r ´ eels”

I Utilis ´es dans de nombreux domaines scientifiques:

I WWW

I Biologie, sociologie, physique, ...

I Nature des donn ´ees:

I Interactions entreN objets

I O(N2)interactions possibles

I Topologie d’un r ´eseau:

I D ´ecrit la mani `ere dont

(3)

En Biologie

R ´eseau m ´etabolique d’Escherichia coli(Lacroix et al., 2006).

(4)

En Biologie

(5)

R ´ eseaux “r ´ eels”

I Propri ´et ´es:

I Creux

I Composante g ´eante

I H ´et ´erog ´en ´eit ´e

I Attachement pr ´ef ´erentiel

I Petit monde

,→Structures (groupes de nœuds)

(6)

R ´ eseaux “r ´ eels”

I Propri ´et ´es:

I Creux

I Composante g ´eante

I H ´et ´erog ´en ´eit ´e

I Attachement pr ´ef ´erentiel

I Petit monde

,→Structures (groupes de nœuds)

(7)

Clustering dans les r ´ eseaux

I Les m ´ethodes existantes cherchent:

I Communaut ´es

I Attachement “inverse”

(disassortative mixing)

I Structures h ´et ´erog `enes

(8)

Clustering dans les r ´ eseaux

I Les m ´ethodes existantes cherchent:

I Communaut ´es

I Attachement “inverse”

(disassortative mixing)

I Structures h ´et ´erog `enes

(9)

Clustering dans les r ´ eseaux

I Les m ´ethodes existantes cherchent:

I Communaut ´es

I Attachement “inverse”

(disassortative mixing)

I Structures h ´et ´erog `enes

(10)

Clustering dans les r ´ eseaux

I Les m ´ethodes existantes cherchent:

I Communaut ´es

I Attachement “inverse”

(disassortative mixing)

I Structures h ´et ´erog `enes

(11)

Plan

Introduction

R ´eseaux “r ´eels”

Clustering dans les r ´eseaux

Mod `ele `a blocs stochastiques Le mod `ele

Probl `emes, limites Package R mixer

Premiers pas

G ´en ´erer et afficher des r ´eseaux Clustering `a l’aide de mixer

S ´erie d’exp ´eriences (Latouche et al. 2012) Package osbm ..

(12)

Mod ` ele ` a Blocs stochastiques

I Stochastic Block Model (SBM) en anglais

I Nowicki et Snijders (2001)

I Zivariables ind ´ependantes, cach ´ees:

I Zi ∼ M(1, α)

I Ziq= 1: nœudiappartient au groupeq

I X|Zarˆetes tir ´ees ind ´ependamment : Xij|{i∈q, j∈l} ∼ B(πql)

(13)

1 2 3

4 5

6

7

8 4 5

6

7

8

π••

9

π•• 10

π••

π••

π••

(14)

Maximum de vraisemblance

I Maximum de vraisemblance:

I Donn ´ees observ ´ees :logp(X|α,Π) ,Maximisation=Probl `eme

I Solutions classiques (EM) pas applicables !

I Donn ´ees compl ´et ´ees :logp(X,Z|α,Π)

(15)

S ´ election de mod ` eles

Crit `eres “classiques”

Commelogp(X|α,Π)n’est pas calculable, impossible d’utiliser les crit `eres classiques tels que:

I AIC = logp(X|α,ˆ Π)ˆ −K

I BIC = logp(X|α,ˆ Π)ˆ −K2 logN(N2−1) Crit `ere ICL pour SBM

I Daudin et al. (2008)

(16)

Package R mixer, premiers pas

>install.packages("mixer")

>library(mixer)

>help(mixer)

(17)

G ´ en ´ erer des r ´ eseaux

I R ´eseau avec communaut ´es

>g<-graph.affiliation(n=100,c(1/3,1/3,1/3),0.6,0.1)

I Attachement “inverse”

>g<-graph.affiliation(n=100,c(1/3,1/3,1/3),0.1,0.6)

I str(g)

(18)

Afficher des r ´ eseaux

>library(sna)

>gplot(g$x, vertex.col=g$cluster+1)

(19)

Afficher des r ´ eseaux

>library(sna)

>gplot(g$x, vertex.col=g$cluster+1)

(20)

Plusieurs algorithmes d’optimisation

I variationnel EM + ICL (Daudin et al. 2008)

I classification EM + ICL (Zanghi et al. 2008),→Plus rapide mais biais ´e

I variationnel Bayes EM + ILvb (Latouche et al. 2012),→Plus lent mais meilleurs r ´esultats

(21)

Utilisation de mixer

>xout<-mixer(g$x, qmin=2, qmax=5, method="variational")

>plot(xout)

2.0 2.5 3.0 3.5 4.0 4.5 5.0

−2450−2400−2350−2300

Integrated Classification Likelihood

Number of classes

ICL

Reorganized Adjacency matrix

classes

classes

Degree distribution

Density 0.010.020.030.040.050.060.07

● ●

Inter/intra class probabilities

(22)

Utilisation de mixer

>xout<-mixer(g$x, qmin=2, qmax=5, method="bayesian")

>plot(xout)

2.0 2.5 3.0 3.5 4.0 4.5 5.0

−2450−2400−2350−2300

Bayesian criterion vs class number

Number of classes

Bayesian criterion

Reorganized Adjacency matrix

classes

classes

Degree distribution

0.060.07

● ●

Inter/intra class probabilities

(23)

Utilisation de mixer

>plot(xout, frame=5)

Graph

(24)

S ´ erie d’exp ´ eriences (Latouche et al. 2012)

I Deux types de structures:

I Affiliation :

Π=

λ . . .

λ ...

... . ..

. . . λ

I Affiliation et une classe de hubs :

λ . . . λ

..

(25)

R ´ eseaux d’affiliation

(a) QT rue\QICL

2 3 4 5 6 7

3 0 100 0 0 0 0

4 0 0 100 0 0 0

5 0 0 23 77 0 0

6 0 1 28 59 12 0

7 0 8 49 42 1 0

(b) QT rue\QILvb

2 3 4 5 6 7

3 0 100 0 0 0 0

4 0 0 100 0 0 0

5 0 0 0 99 1 0

6 0 0 4 23 73 0

7 0 2 14 44 27 13

(26)

R ´ eseaux d’affiliation et une classe de hubs

(c)QT rue\QICL

2 3 4 5 6 7

3 0 100 0 0 0 0

4 0 0 100 0 0 0

5 0 0 12 88 0 0

6 0 0 19 59 22 0

7 0 3 29 56 12 0

(d) QT rue\QILvb

2 3 4 5 6 7

3 0 100 0 0 0 0

4 0 0 100 0 0 0

(27)

R ´ eseau m ´ etabolique d’Escherichia coli

I Lacroix et al. (2006)

I Lab : Biom ´etrie et Biologie ´Evolutive (Lyon 1)

I 605 nœuds, 1782 arˆetes

(28)

R ´ eseau m ´ etabolique d’Escherichia coli

(29)

R ´ esultats (1)

Repr ´esentation “dot blot” du r ´eseau m ´etabolique apr `es classification des nœuds enK = 22classes.

(30)

R ´ esultats (2)

I Parmi les classes, huit sont des cliques

I Six ont une probabilit ´e intra-classe sup ´erieure `a 0.5

I Les cliques et pseudo-cliques partagent des r ´eactions faisant intervenir un mˆeme compos ´e

I Cliques : chorismate, pyruvate, L-aspartate, L-glutamate, D-glyceraldehyde-3-phosphate and ATP

I Les classes 1 and 17 sont associ ´ees au pyruvate

(31)

Contents

Introduction

R ´eseaux “r ´eels”

Clustering dans les r ´eseaux

Mod `ele `a blocs stochastiques Le mod `ele

Probl `emes, limites Package R mixer

Premiers pas

G ´en ´erer et afficher des r ´eseaux Clustering `a l’aide de mixer

S ´erie d’exp ´eriences (Latouche et al. 2012) Package osbm ..

(32)

Chevauchement dans les r ´ eseaux

Palla et al. (2005)

(33)

Mod ` ele ` a blocs stochastiques (SBM)

I Nowicki et Snijders (2001)

I Ziind ´ependantes, cach ´ees :

Zi∼ M(1, α)

(34)

Mod ` ele ` a blocs stochastiques chevauchants (OSBM)

I Latouche et al. (2011)

I Ziq ind ´ependantes, cach ´ees :

Zi

Q

Y

q=1

B(Ziq; αq) =

Q

Y

q=1

αZqiq(1−αq)1−Ziq

(35)

Mod ` ele ` a blocs stochastiques chevauchants (OSBM)

I Latouche et al. (2011)

I Ziq ind ´ependantes, cach ´ees :

Zi

Q

Y

q=1

B(Ziq; αq) =

Q

Y

q=1

αZqiq(1−αq)1−Ziq

I X|ZTirage des arˆetes :

Xij|Zi,Zj ∼ B Xij; g(aZi,Zj)

I g(t) = 1/(1 + exp(−t))fonction logistique

aZi,Zj =Z|i W Zj+Z|i U+V|Zj+W

(36)

Package osbm : tr ` es bientˆ ot ..

I Autorise le chevauchement entre les groupes

I S ´election de mod `eles

cluster 1

cluster 2

cluster 3

cluster 4 UMP

30 + 3

2 + 3

0

0 UDF

0 + 1

29 + 1

0

0 + 2 liberal

0

0

24

0 PS

0

0

0

40 analysts

0 + 1

1 + 3

1 + 1

0 + 4 others

0

0

0

1

(37)

R ´ ef ´ erences

I Groupe SSB ! ANR NeMo !

I Package R mixer = Christophe Ambroise, Gilles Grasseau, Mark Hoebeke, Vincent Miele, Franck Picard, Pierre Latouche

I J-J. Daudin, F. Picard et S. Robin (2008), A mixture model for random graphs. Statistics and Computing, 18, 2, 151-171.

I H. Zanghi, C. Ambroise et V. Miele (2008), Fast online graph clustering via Erdos-Renyi mixture. Pattern Recognition, 41, 3592-3599

I P. Latouche, E. Birmel ´e, C. Ambroise (2011), Overlapping stochastic block models with application to the French political blogosphere network. Annals of Applied Statistics, 5, 1, 309-336

I P. Latouche, E. Birmel ´e, C. Ambroise (2012), Variational Bayesian inference and complexity control for stochastic

Références

Documents relatifs

Le Comité d’honneur pour la reconnaissance d’Ambroise Croizat Le Comité d’histoire de la Sécurité sociale. Le Comité d’histoire des administrations chargées du travail, de

In this paper, we start by including all these models into a com- mon probabilistic model called the Pairwise Markov Model (PMM) [13]. This model has been introduced in a

Dimanche 13 septembre 8 h Messe anniversaire Simone Raymond 8 h Thérèse Coulombe / Fernande Genest Dimanche 13 septembre 10 h 45 Messe anniversaire Marie-Paule Lavoie 10 h 45

Toutes les existences, dit-il, n’ont qu’une conclusion : «  La vérité de cette vie, ce n’est pas qu’on meure, c’est qu’on meurt volé. » L’art de Louis Guilloux est, tour

VOILLEMAIN KATCHOURA GOSSET BOCQUEL GUYOT Mlle VALENTIN BOCQUENTIN HAUERT Mlle CORBILLON GUIBÉ PESCAROLO.. CALCOLËOL Rachitisme, Troubles de croissance, Spasmophile,

Le service social se tient à votre disposition pour résoudre avec vous toute difficulté d’ordre personnel ou familial.. Il vous conseille dans vos démarches administratives

The use of Variational Bayesian learning allows a somehow similar effect; if we initialize speaker models with an initial high gaussian number, VB automatically prunes together with

Un manuscrit inédit, conservé à Turin, contient le dessin d'une gemme en agate figurant une Gorgone (fig 4b-c) qui appartint à la collection de Pirro Ligorio