Détection de communautés, disjointes ou chevauchantes, dans les réseaux

(1)

D´ etection de communaut´ es, disjointes ou chevauchantes, dans les r´ eseaux

Jean-Baptiste Angelelli, Alain Gu´enoche et Laurence Reboul IML, 163 Av. de Luminy, 13288 Marseille cedex 9

guenoche@iml.univ-mrs.fr

Résumé : Dans les grands réseaux, la détection de sous-ensembles de sommets plus densément connectés que d’autres, appelés des communautés, est un problème que l’on retrouve dans plusieurs disciplines - Biologie (réseaux d’interactions entre protéines), Informatique (recherche d’informations sur le Web), mais aussi, Recherche Opérationnelle (détermination d’équipes), Sociologie (groupes dans des réseaux sociaux). Ces communautés jouent un rôle important dans l’organisation ou la structuration des réseaux.

De fait, il s’agit de déterminer des classes dans un graphe. Ce problème est donc fortement lié à celui du partitionnement, avec la spécificité suivante : suivant l’usage que l’on veut faire de ces communautés, les classes peuvent (doivent) être disjointes ou non. En Biologie, où l’on analyse les réseaux d’interactions protéine-protéine pour, entre autres, prédire leurs fonctions, nombreuses sont celles qui ont plusieurs fonctions et dans ce cas il est raisonnable de construire non pas une partition, mais un recouvrement, c’est-à-dire un système de classes chevauchantes. Il en est de même dans les réseaux sociaux, où les individus peuvent appartenir à plusieurs groupes.

Ainsi, les méthodes traditionnelles en Classification peuvent être utilisées ; en particulier les méthodes de construction d’une partition des sommets du graphe qui maximisent un certain critère. Parmi les nombreux critères qui évaluent la qualité d’une partition, nous ne faisons ici référence qu’à la notion de modularité introduite par Newman.

Malheureusement, son optimisation sur l’ensemble de toutes les partitions des sommets d’un graphe est un problème NP-difficile ; il en est évidemment de même pour les recouvrements. Il faut donc utiliser des méthodes heuristiques, dès lors que les graphes étudiés sont de grande taille. Dans ce chapitre, nous proposons deux nouvelles méthodes approchées, l’une pour les partitions, l’autre pour les recouvrements, qui permettent d’optimiser la modularité. Elles sont basées sur un processus qui part d’un système de classes initiales chevauchantes et converge vers un système de classes. Pour les partitions, une méthode de fusion-fission de classes est réalisée, jusqu’à ce que les classes courantes ne soient plus chevauchantes ; pour les recouvrements, seule la partie fusion est appliquée. Une étude de performances, dans laquelle nos méthodes et leurs variantes sont comparées à d’autres algorithmes, sur des graphes simulés, atteste de leur pertinence.

Mots clés : Détection de communautés, modularité, partitionnement, classes chevauchantes, optimisation combinatoire, heuristique.

1 Introduction

Les grands réseaux permettent de décrire des systèmes complexes issus de différents domaines. Afin d’étudier et de comprendre la structure des relations entre leurs entités, on les modélise généralement par des graphes, c’est-à-dire par un ensemble de sommets (les entités du réseau) et d’arêtes (les relations entre ces entités). Ainsi, en Biologie, un réseau d’interactions protéine-protéine (IPP), spécifique d’une espèce, est un graphe dont les sommets sont des protéines et les arêtes leurs éventuelles interactions,

(2)

qui correspondent à des contacts physiques à un moment donné, dans un ou plusieurs tissus [FAC⁺05, SLM⁺04]. En Sociologie, les graphes représentent des individus liés par des relations sociales [WS05], telles que l’amitié [Zac77] ou les relations de travail [New01]. En Informatique, le réseau Web consiste en un ensemble de pages connectées par des hyperliens [KL01].

L’existence dans un réseau de communautés correspond à la présence de groupes de sommets plus fortement connectés entre eux que vers les autres sommets du graphe ; ce sont des classes connexes, qui ont une densité plus forte que le graphe en son entier. L’identification de ce type de structure est intéressante à plusieurs points de vues. D’une part, elle existe dans de nombreux réseaux réels et, la plupart du temps, elle a une signification concrète en termes d’organisation. Dans les réseaux IPP par exemple, les communautés correspondent généralement à des ensembles de protéines qui collaborent à une même fonction cellulaire. De ce fait, les méthodes de détection de communautés sont un outil précieux pour la prédiction fonctionnelle [BCM⁺03, BHG04]. Dans les réseaux sociaux, les communautés peuvent représenter des groupes d’individus ayant des intérêts communs, des activités communes, comme les fameuses co-publications, qui placent tout informaticien plus ou moins loin de Erdös [MW03]. Dans le Web, les groupes de pages ou de sites fortement connectés traitent souvent de thèmes apparentés [KL01]

et la détection de ces communautés permet d’améliorer les moteurs de recherche [FLGC02].

Les méthodes de détection de communautés ont fait l’objet de nombreux travaux, depuis l’article fondateur de Girvan et Newman [GN02]. La plupart d’entre elles consistent à déterminer une partition des sommets du graphe optimisant un certain critère de qualité d’un partitionnement, défini à partir de la structure du graphe (voir [BE05] pour un aper¸cu des critères utilisés). La modularité est un critère très naturel, car très proche de la définition des communautés ; voir [GGW07] et [FB07] pour une étude détaillée et critique de cette notion. Ce critère indique à quel point une partition des sommets du graphe correspond à ses communautés. De fa¸con informelle, la modularité d’une partition mesure la différence entre la proportion d’arêtes internes aux classes et la même quantité, sous l’hypothèse que le graphe n’est pas structuré en communautés. Maximiser la modularité conduit généralement à des partitions pertinentes sur les graphes réels [NG04, DA05, CNM04].

L’inconvénient majeur de ce critère, comme de la plupart des critères de qualité utilisés, est que son optimisation sur l’ensemble des partitions des sommets est un problème NP-difficile [BDG⁺08]. De ce fait, l’optimum est impossible à calculer en un temps raisonnable, dès lors que les graphes sont de grande taille. On a donc recours à des méthodes d’optimisation approchées conduisant, en temps et espace polynomiaux, à des partitions que l’on espère proches de l’optimum.

Les heuristiques les plus répandues sont basées sur les principes de la classification hiérarchique. On retrouve :

– les méthodes ascendantes (agglomératives) [New04, DMn04, PL06, CNM04, WT07] : partant de la partition atomique (ensemble des singletons), on réunit deux classes à chaque itération. Les classes

`a fusionner sont celles qui promettent une modularit´e maximum ;

– les m´ethodes descendantes (de subdivision) [NG04, New06, WS05], dans lesquelles on part du graphe entier. A chaque it´eration, on scinde une classe en deux sous-classes disjointes suivant des principes similaires.

Dans l’un ou l’autre cas, l’algorithme produit une hi´erarchie de communaut´es, et l’on retient une partition

à nombre de classes voulu, ou composée de classes qui maximisent la modularité. C’est un procédé très général qui peut s’appliquer à bien d’autres critères. Alternativement, d’autres approches basées sur le recuit simulé [RB06, GSPA04] ou l’optimisation extrêmale [DA05] reposent sur une optimisation plus directe du critère.

Les méthodes précédemment citées ont l’avantage d’être efficaces et de s’appliquer à de grands graphes.

Mais elles produisent des partitions en classes disjointes, ce qui n’est pas toujours désiré ni justifié. En particulier dans les réseaux sociaux, où un individu peut appartenir à plusieurs groupes (de travail ou de relation). De même en Biologie et dans les graphes IPP, dans lesquels on cherche à identifier des classes fonctionnelles. En effet, de nombreuses protéines ont plusieurs fonctions suivant les différents tissus, et

(3)

l’affectation à une classe unique n’est pas justifiable. C’est pourquoi nous nous posons le problème de construire, toujours par optimisation de la modularité, soit des partitions strictes, soit des partitions en classes chevauchantes, aussi appelées dessystèmes de classes.

Les systèmes de classes chevauchantes sont apparus dans les années 80 par le biais d’études théoriques sur des familles de distances, pour une revue voir [BB07]. Hormis le cas des pyramides [Did86], très liées

à l’existence d’un ordre total sur les sommets, l’application de ces modèles à des données réelles n’a pas connu le même succès que les méthodes hiérarchiques, ou celles de partitionnement.

Dans ce texte, nous développons une approche unifiée pour la construction de systèmes de classes qui cherchent à maximiser la modularité. Dans le second paragraphe, nous montrons comment la modularité de Newman, définie sur les partitions strictes, s’étend aux systèmes de classes. Ce faisant, nous définissons un critère équivalent, qui est à valeurs entières et permet de matérialiser les fusions ou fissions de classes.

Dans le troisième paragraphe, nous développons un algorithme de fusion-fission adapté à la recherche de partitions strictes, qui est basé sur un recouvrement initial particulier des sommets du graphe. Dans le paragraphe suivant, nous l’étendons aux classes chevauchantes, en n’appliquant plus que les opérations de fusion, et en partant de recouvrements initiaux différents. Les performances des algorithmes sont comparées à celles d’autres méthodes d’optimisation de la modularité, sur des graphes aléatoires qui possèdent des communautés et/ou des classes chevauchantes connues.

2 La modularit´ e des partitions et des recouvrements

Considérons un graphe simple, connexe, sans boucle, non orienté et non pondéréG= (V, E) à|V|=n sommets et|E|=marêtes. Soit P ={V1, V2, ..Vp} une partition deV en pclasses. L’objectif étant de détecter les communautés de G, nous allons rechercher une partition de modularité élevée, en temps et espace polynomiaux. De fa¸con plus précise, la modularité d’une partition est la différence entre la proportion d’arêtes internes aux classes et cette même quantité pour une partition aléatoire du graphe ayant des classes de même cardinalité ; c’est l’écart entre ce qui est observé et ce qui est dû au hasard.

Plus formellement, soit eij le pourcentage d’arêtes ayant une extrémité dans la classeVi et l’autre dans la classe Vj :

eij=|E∩(Vi×Vj)|/m.

La probabilité qu’une arête tirée au hasard ait une extrémité dans la classeVi est alors : ai =eii+ 1/2!

j!=i

eij

et la modularit´e de la partitionP est d´efinie par : M(P) = !

i=1..p

(eii−a²_i). (1)

Cette formule a été remaniée de plusieurs fa¸cons équivalentes dans la littérature (voir par exemple [DA05] et [New06]). Dans la suite, nous nous référons à la formule donnée dans l’équation (18) de [New06] :

M(P) = 1 2m

!n

x=1

!n

y=1

"

Axy−dxdy

2m

#αxy, (2)

où (Axy) est la matrice d’adjacence deG,dxest le degré du sommetxetαxyest la matrice carrée d’ordre ntelle que

αxy =

$ 1 si les sommetsxet y appartiennent `a une mˆeme classe deP

0 sinon. (3)

(4)

Bien que M d´epende deG, etαdeP, nous ne les mentionnons pas dans les notations.

La modularité est une fonction croissante de la densité des arêtes à l’intérieur des classes ; elle est comprise entre -1 et 1. Elle permet en outre de comparer plusieurs partitions sur un même graphe et elle est, à ce titre, fréquemment utilisée pour comparer les algorithmes de partitionnement d’un graphe donné.

Bien évidemment, elle sert de critère à maximiser pour trouver la meilleure partition en communautés de G, du point de vue de la modularité. Malheureusement, la maximisation de (2) sur l’ensemble des partitions de V est un problème NP-difficile, si bien que la partition solution ne peut généralement pas être obtenue pour les grands graphes. Pour pallier ce problème, de nombreuses heuristiques ont été proposées. Nous établissons tout d’abord un critère équivalent, qui conduit à une valeur entière du critère

`a optimiser. Il est fond´e sur une simple reformulation de (2) :

M(P) = 1 2m

%!ⁿ

x=1

"

Axx− d²_x 2m

#αxx+ 2

!n

x=2 x−1!

y=1

"

Axy−dxdy

2m

#αxy

&

. (4)

En remarquant queAxx= 0 etαxx= 1, nous avons :

M(P) =K(G) + 1 2m²

!n

x=2 x−1!

y=1

Bxyαxy, (5)

o`u

K(G) =− 1 4m²

!n

x=1

d²_x (6)

et

Bxy= 2mAxy−dxdy. (7)

Les quantitésK(G) etBxysont des caractéristiques intrinsèques deGqui ne dépendent pas de P. A l’inverse,αxy ne dépend que deP. Lorsque la relationαest transitive et désigne une partitionP,

Q(α) =Q(P) = 2m²M(P) + 1/2 !

x∈1..n

d²_x.

Q(P) est donc proportionnelle à la modularitéM, à une constante près, qui ne dépend que du grapheG.

OptimiserM(P) sur l’ensemble des partitions deV revient donc `a optimiser le crit`ere :

Q(P) =

!n

x=2 x−1!

y=1

Bxyαxy, (8)

o`uBxy et αxy sont d´efinis respectivement par (7) et (3).

Cette formulation permet de mieux comprendre le comportement de la modularit´eQ:

– Qest à valeurs entières, puisque c’est la somme des poids des paires réunies ; ceci correspond à un gain en mémoire non négligeable ;

– la matriceαest d´efinie pour tout syst`eme de classes, qu’il s’agisse d’une partition ou d’un recouvrement ;

– lorsque deux classes Vi et Vj sont fusionn´ees, seules sont modifi´ees les valeurs αxy telles que les

élémentsx∈Vi et y ∈Vj sont nouvellement réunis. Ainsi, on ajoute à la modularitéQ la somme des valeursBxy correspondantes. La modularité croˆıt si et seulement si cette somme est positive ;

(5)

– Qest born´ee sup´erieurement par la somme des valeurs positives deB : Qmax=!

x!=y

Bxy.

AinsiQmax est atteint pour tout système de classes au sein duquel les classes sont exclusivement constituées par les paires (x, y) à valeurs positives ou nulles dansB, comme les cliques maximales ou les arêtes.

Nous proposons dans les deux paragraphes suivants des algorithmes qui fournissent des solutions approch´ees au probl`eme d’optimisation de (8).

3 M´ ethode de partitionnement

L’algorithme présenté dans [New04] pour maximiser la modularité des partitions strictes est constitué de deux phases. Dans la première, le point de départ est l’ensemble des singletons. Cette partition, dite atomique, est de modularité nulle puisqu’il n’y a pas d’arêtes internes. A chaque étape, et tant que la mo- dularité croˆıt, deux classes, telles que la partition résultante offre un gain de modularité maximum, sont réunies. L’algorithme s’arrête lorsque les classes ne peuvent plus être fusionnées sans faire décroˆıtre la mo- dularité. Dans une seconde phase, Newman applique une procédure de transfert qui permet d’augmenter la modularité et aboutit à une partition qui n’est plus dans la hiérarchie.

Nous nous inspirons de la première phase qui correspond à la méthode de Ward [War63]. Elle a l’avantage de fixer automatiquement le nombre de classes, mais l’inconvénient de partir de la valeur minimale de la modularitéQet d’être tributaire des choix faits aux premières itérations puisque elle ne revient sur ces choix que dans la seconde phase.

Nous explorons la voie qui consiste à partir du maximum Qmax, donc d’un système de classes qui contient toutes les arêtes (de poids positif dansB). Nous avons tout d’abord écarté les cliques et pris le recouvrement de V par toutes les arêtes, R⁽⁰⁾ ={(x, y)|Bxy≥0}, qui fournit une solution optimale (en recouvrement) du problème d’optimisation. Nous convergeons vers une partition en construisant une suite de recouvrements{R⁽⁰⁾, R⁽¹⁾, . . . , R^(t), . . .}jusqu’à obtenir une partitionP deV telle queQ(P) soit aussi proche que possible deQmax. A chaque étape, nous essayons de fusionner ou de scinder itérativement les paires de communautés chevauchantes deR^(t).

3.1 Fusions et/ou fissions de classes

C’est une heuristique qui combine les deux types d’approches, ascendantes et descendantes. L’algorithme est basé sur un processus itératif de fusion-fission, c’est-à-dire qu’à chaque étape soit on réunit deux classes, soit on les sépare, en attribuant à l’une ou l’autre les éléments de leur intersection¹. On part d’un recouvrement particulier du graphe, correspondant à toutes ses arêtes, recouvrement qui maximise la modularité et qui va donc décroˆıtre au fil des itérations. A chaque étapet de l’algorithme, on choisit la paire de classes et l’opération - fusion ou fission - conduisant à la baisse de modularité la plus faible, qui fournit donc le recouvrementR^(t+1)de valeur maximum parmi toutes les fusions ou fissions étudiées.

Plus pr´ecis´ement, pour tout couple (Vi, Vj) de classes deR^(t) tel queVi∩Vj &=∅,on commence par

établir les classes résultant de la fusion et de la fission de ces deux classes : – la fusion est le simple remplacement des deux classes par leur union ; – la fission consiste à remplacer les deux classes parV_i^$ etV_j^$ telles que

(i) Vi∪Vj=V^$i∪V^$j

(ii) Vi\Vj⊂V^$i, Vj\Vi⊂V_j^!.

1Cette méthode n’a rien à voir avec la métaheuristique de fusion-fission développée par C.E. Bichot dans ce livre.

(6)

On calcule ensuite la modularité résultant de ces opérations :

– dans le cas d’une fusion, elle porte uniquement sur les paires de sommets (x, y) telles que (x, y)∈ Vi∪Vj sont nouvellement r´eunis ;

– dans le cas d’une fission, elle porte sur les arˆetes inter-classes deVi×Vj.

Alors que la fusion deVietVj est unique, il y a beaucoup de fissions possibles, autant que de bi-partitions de Vi∩Vj. Calculer la meilleure fission en deux classes est un problème NP-difficile [BLM⁺06]. Suite à un grand nombre de simulations, décrites dans le paragraphe suivant, nous avons retenu deux procédures approchées :

– (P1) : Soit xun élément de Vi∩Vj et Mi(x) (resp. Mj(x)) sa contribution à la modularité de la classeVi (resp.Vj) : Mi(x) ='

y∈ViBxy. Si Mi(x)> Mj(x) (resp. Mj(x)> Mi(x)), alors xest affect´e `aV_i^$ (resp.V_j^$) ;

– (P2) : On utilise la m´ethode de bi-partitionnement propos´ee dans [New06]. La subdivisionVi∪Vj

est réalisée en effectuant une décomposition spectrale correspondant au laplacien du sous-graphe induit par la classe. Cette subdivision est réalisée suivant les composantes (positives ou négatives) du vecteur propre principal de cette matrice.

Remarque 1 Une amélioration de la partition finale atteinte par notre algorithme peut être obtenue via une optimisation locale supplémentaire du critère de modularité. En particulier, on peut appliquer une méthode de descente, comme l’algorithme de Kernighan-Lin proposé dans [KL70], deux partitions étant définies comme voisines dès lors que chacune est obtenue à partir de l’autre, en dépla¸cant un seul sommet d’une communauté à une autre.

3.2 Complexit´ e de l’algorithme

Soit (A^t)t≥0 la séquence représentant le nombre de classes à l’étape t de l’algorithme. Puisqu’une fusion remplace deux classes par une seule et qu’une fission remplace deux classes par deux autres, A^t≤ A⁰≤m. A l’étape 0, des communautés sont les arêtes, donc le nombre de paires de communautés chevauchantes est borné par 2δ×m, oûδ est le degré maximum du graphe.

A chaque étape, on doit calculer les coûts de fusion et fission des nouvelles communautés (une ou deux selon l’opération faite) avec chacune des communautés existantes (au plus m). Chaque opération prend un temps de l’ordre deO(n²). Puisqu’il y aO(δm) étapes, l’ensemble de l’algorithme est parcouru en un temps de l’ordre de O(δn²m²). Cependant, la plupart des graphes réels sont des graphes peu denses, ce qui signifie quem=O(n). Dans de tels cas, l’algorithme et parcouru dans un temps de l’ordre de O(δ²n⁴). De plus, on utilise une liste pour garder en mémoire le détail des paires de communautés chevauchantes. Cette liste utilise un espace de l’ordre deO(δm). On doit aussi garder en mémoire chaque communauté. Puisqu’une communauté contient au plus n sommets et queA^t ≤m, l’algorithme utilise pour cela un espace de l’ordre deO(nm). Le calcul des coûts associés à une fusion et à une fission nécessite O(n²) opérations, mais seul le résultat (et non le détail de chaque calcul) est conservé en mémoire, donc l’ensemble de l’algorithme utilise un espace de l’ordre deO(δm) +O(nm) +O(n²). Puisque nous avons δ≤n≤m, la complexité en espace de l’algorithme est de l’ordre de O(nm), ce qui correspond àO(n²) pour les graphes peu denses.

3.3 Simulations

Nous avons comparé les performances de notre algorithme, FF1 et FF2 pour les méthodes (P1) et (P2), à celles de deux heuristiques classiques, l’algorithme hiérarchique (G) décrit en introduction et l’algorithme spectral (S) d’optimisation de la modularité, proposés par Newman dans [New04] et [New06]

respectivement.

(7)

Les graphes

Les graphes possédant une structure en communautés plus ou moins naturelles sont engendrés par le protocole de Newman [New04]. Chaque graphe contient 128 sommets, répartis en 4 classes de 32

éléments. Soit zin (resp. zout) le degré moyen intra-communautés (resp. extra-communautés), avec la contraintez =zin+zout = 16. Ainsi zout est le seul paramètre du processus de génération ; il implique la valeur de zin qui fixe les probabilités pin et pout des arêtes intra et inter-classes. Le paramètre zout

contrôle le degré de séparation des communautés : une valeur faible dezout conduit à des graphes ayant beaucoup d’arêtes internes et peu d’arêtes externes, de sorte que les communautés sont faciles à détecter dans ce cas. La difficulté du problème de partitionnement croˆıt à mesure quezout est plus élevé.

Les crit`eres

On noteP^ref =(

P₁^ref, . . . , P₄^ref)

la partition de référence du graphe étudié etP = (P1, . . . , PK) la partition trouvée par un des algorithmes. Pour évaluer la qualité deP, nous mesurons la similarité entre P etP^ref à l’aide de différentes mesures :

Le quotient de modularité : Puisque les algorithmes étudiés sont supposés optimiser la modularité, il paraˆıt naturel de s’y référer comme mesure de performance. Cependant, il n’est pas prouvé que la partition de référence réalise le maximum global de la modularité ; nous utiliserons donc le quotient :

Qr"

P, P^ref#= Q(P) Q(P^ref)

Le taux de sommets bien classés : Une mesure de performance plus qualitative dePest le pourcentage de sommets bien classés relativement àP^ref. On sait que ce critère a des inconvénients (voir [DDGA06]).

En particulier, alors que sa signification est claire lorsqueK= 4, il ne peut pas être facilement transposé au cas général. Nous proposons ici une formule alternative. Elle est obtenue en complétant la partition ayant le plus petit nombre de communautés par des classes vides et en réalisant tout d’abord une bijection entre les classes de référence et les classes calculées :

N BC"

P, P^ref#= 1

|V|max

σ∈S

max(K,4)

!

k=1

|Pk∩P_σ^ref|, o`uS est l’ensemble de toutes les permutationsσde{1, . . . ,max(K,4)}.

L’indice de Rand corrigé : L’indice de Rand mesure une similitude entre deux partitions d’un même ensemble. Il représente le taux de paires simultanément réunies ou séparées dans les deux partitions. Pour obtenir un indice d’espérance nulle sur des partitions aléatoires, Hubert & Arabie, [HA85] ont établi un indice, dénomméthe Rand index corrected by chance.

En notantrle nombre de paires de sommets jointes dans les deux partitionsP etP^ref etπ(P) (resp.

π(P^ref)) le nombre de paires de classes jointes dansP (resp.P^ref), l’indice de Rand corrig´e est d´efini par :

I"

P, P^ref#= r−E(r) M(r)−E(r), o`u

E(r) = 2π(P)π(P^ref)

n(n−1) and M(r) =1 2

"

|π(P)|+|π(P^ref)|# .

R´esultats

Pour chaque valeur de zout, on tire au hasard un graphe selon les probabilités pin et pout. Nous appliquons ensuite les algorithmes FF1, FF2, G, S et calculons les critères de qualité ci-dessus de la

(8)

partition P obtenue. Les figures 1 `a 3 donnent, pour chaque algorithme, les valeurs moyennes obtenues sur 100 graphes.

0.5 1 1.5 2 2.5 3 3.5

0 2 4 6 8 10 12

modularity/modularity of initial partition

zout FF1

FF2 GS

Fig.1 – Quotient de modularité des partitions obtenues par les algorithmes FF1, FF2, G et S, en fonction du degré extérieur moyen.

En premier lieu, on constate sur la figure 1 que le ratio moyen de modularité des partitions obtenues par les algorithmes dépasse 1, dès quezout >8. Cela signifie que la modularité de ces partitions (et donc en particulier la modularité optimale) est plus grande que la modularité de la partition de référence en quatre classes. On se heurte ici à une difficulté liée au processus de test ; il faudrait connaˆıtre la valeur optimale. A défaut, on compare la partition trouvée et la partition initiale. Pour que le processus de comparaison soit pertinent, il faut que les partitions optimales et initiales soient les mêmes, ce qui est le cas lorsquezout ≤8. La figure 1 montre que cela n’est plus vrai dès lors quezout est supérieur à 8. Dans la suite, seuls les résultats obtenus lorsque zout ≤8 seront considérés comme pertinents. A l’exception de S, le quotient de modularité est presque le même pour tous les algorithmes dans cet intervalle ; il est légèrement meilleur pour FF1.

Les figures 2, et 3 montrent clairement que la performance des algorithmes décroˆıt lorsquezout augmente de 0 à 8. Ce résultat est prévisible, dans la mesure où la connectivité inter-communautés augmente avec zout, conduisant à un problème de partitionnement de plus en plus délicat. Néanmoins, FF1 et, dans une moindre mesure, FF2 sont plus performants que G et S, ce dernier algorithme étant le moins performant de tous.

(9)

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 2 4 6 8 10 12

fraction of correctly classified elements

z_out FF1

FF2G S

Fig.2 – Taux de sommets bien classés par FF1, FF2, G et S, en fonction de la difficulté du problème de partitionnement.

4 M´ ethode de recouvrement

Nous avons justifié le recours aux classes chevauchantes dans le cas de la Biologie et des réseaux d’interactions protéine-protéine ; donnons un exemple. La protéine alpha-cristalline humaine est à la fois un composant structural du cristallin et elle est impliquée dans la réponse au choc thermique, lorsqu’elle est exprimée dans d’autres tissus. Ces protéines qualifiées de multifonctionnelles ou ”moonlighting proteins”

(to moonlight = cumuler deux emplois) permettent de comprendre la complexité de certains phénotypes ou les effets secondaires de certaines drogues. Si l’on cherche à déterminer des classes fonctionnelles, il est injustifié d’affecter chaque protéine à une seule classe.

Mieux, nous avons entrepris un programme de recherche pour la détection de ces protéines multifonctionnelles [BGB09]. Il fait suite à plusieurs tentatives pour construire des classes chevauchantes par d’autres approches. La première relève de laclassification par densité, dans laquelle on définit une fonction de densité en chaque sommet du graphe. Celle-ci correspond aux taux d’arêtes ou de triangles dans un voisinage plus ou moins grand autour de chaque sommet. La stratégie générale consiste à construire les classes autour des maxima locaux de cette fonction de densité. L’affectation se fait de proche en proche, tant qu’il n’y a pas ambigu¨ıté. Les classes se développent en parallèle autour de cesnoyaux et un sommet adjacent à une seule classe courante lui est attribué. Mais s’il est adjacent à plusieurs classes, on a le choix entre l’affectation à une seule d’entre elles, celle à laquelle il est le plus connecté, ou à toutes, créant ainsi des classes chevauchantes.

(10)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 2 4 6 8 10 12

corrected rand index

z_out FF1

FF2G S

Fig.3 – Indice de Rand corrig´e des partitions obtenues par les algorithmes FF1, FF2, G et S.

Cette méthode avait été élaborée dans le cadre de la thèse de T. Colombo [Col04, CG07] et reprise dans un article de L. Denœud et al. [DCGH05]. Plusieurs fonctions de densité ont été testées et les résultats pratiques, sur des graphes dont les arêtes correspondent à la relation d’orthologie entre gènes², sont assez satisfaisants. Mais sur les graphes d’interactions, qui sont très peu denses, ils n’étaient guère encourageants. C’est pourquoi nous avons étendu la méthode de partitionnement développée ci-dessus à la construction de classes chevauchantes.

4.1 Algorithme de fusion

Nous avons vu que la formule de modularitéQpermet d’étendre le processus hiérarchique ascendant, en partant d’un système de classes chevauchantes. De fait, en partant de tout système de classes et en appliquant uniquement des fusions, on aboutit à des classes qui seront nécessairement chevauchantes, si le système initial l’est. Deux systèmes initiaux ont d’abord été étudiés :

– les cliques maximales du graphe. Dans la mesure où elles sont énumérables en un temps raisonnable, elles constituent un système de classes chevauchantes dont la modularité est égale àQmax. Toute opération de fusion fera décroˆıtreQ;

– les arêtes du graphe. Avec les arêtes du graphe, on part de la même valeur de modularitéQmax

qu’avec les cliques. Naturellement, le processus de fusion commence par reconstruire certaines

2Deux gènes pris dans deux espèces sont ditorthologuess’ils sont hérités d’un gène ancestral commun sans événement

(11)

cliques, dans la mesure où la fusion des arêtes (x, y) et (y, z) ne coûte rien si (x, z) est également une arête. Dès que l’algorithme ne trouve plus une paire de classesVi et Vj telle que∀x∈Vi,∀y∈ Vj,(x, y)∈E, la modularité commence à décroˆıtre.

L’efficacité de l’algorithme ascendant dépend du nombre de classes initiales, puisque celui-ci détermine le nombre d’itérations. En partant des cliques ou des arêtes, un grand nombre d’itérations est effectué. Pour réduire le nombre de classes de départ, les listes d’adjacence ont été utilisées, sans résultats satisfaisants.

Un système de cliques centrées a alors été défini comme suit.

Une clique, la plus grande possible, est construite en chaque sommet xdu graphe. Cette opération est réalisée par un algorithme polynomial appliqué en chaque sommet qui réalise, en un nombre d’étapes borné par n, une clique contenant xqui est maximale, sans être forcément de cardinal maximum dans l’ensemble des cliques contenantx. La procédure, détaillée dans l’algorithme ci-dessous, consiste à ajouter les sommets dans l’ordre des degrés relatifs, tant qu’ils réalisent une clique.

Algorithm 1Calcule l’ensemble des cliques centr´ees

1: /* C contient l’ensemble des cliques centr´ees */

2: C← {}

3: /* boucle principale */

4: for allx∈V do

5: Cx← {x}

6: Lx←liste des voisins dex

7: for ally∈Lx do

8: évaluer le degré dey dans le sous-graphe restreint àLx 9: end for

10: TrierLx dans l’ordre d´ecroissant des degr´es relatifs

11: /* construit la clique centr´ee enx*/

12: for ally∈Lx do

13: if ∀z∈Cx,(y, z)∈E then

14: Cx←y

15: end if

16: end for

17: /* archivage */

18: if Cxn’est pas dans C then

19: C←Cx

20: end if

21: end for

Tout au long de la procédure de fusion, la modularité des différents systèmes de classes varie, soit de fa¸con monotone décroissante (cliques maximales, arêtes), soit de fa¸con croissante puis décroissante (cliques centrées). Dans la fusion précédente, à chaque itération, les classes réunies sont celles qui permettent de maximiser la modularitéQ(α) du système de classes résultant. La fusion de deux classesVietVj entraˆıne leur suppression et l’apparition d’une nouvelle classeVi∪Vj. Deux modifications ont été apportées :

– ce choix de la paire de classes fusionnées entraˆıne uneffet de chaˆıne, c’est-à-dire le rattachement des éléments un à un à des classes de plus en plus grandes. Pour pallier ce défaut préjudiciable à l’attribution de fonctions aux classes, nous avons modifié la règle de choix : les deux classes réunies sont celles pour lesquelles la valeurmoyennede variation de modularité est maximum. Ceci favorise la fusion de petites classes et l’effet de chaˆıne a fortement baissé ;

– pour obtenir des classes chevauchantes manipulables, le processus de fusion est stoppé, pour ne pas aboutir à une seule classe, de surcroˆıt de modularité faible. Des critères d’arrêt ont donc été introduits, comme de fixer le nombre de classes voulues, ou de borner supérieurement les cardinaux

(12)

Cliques max. Arˆetes Cliques centr´ees pi N BC M ult F P Ret N BC M ult F P Ret N BC M ult F P Ret

0,15 0,66 27 0,04 0,96 0,60 25 0,03 0,61 0,86 29 0,19 0,59

0,20 0,85 35 0,05 0,84 0,76 31 0,02 0,77 0,90 31 0,16 0,66

0,25 0,98 42 0,08 0,98 0,88 36 0,02 0,87 0,94 36 0,19 0,73

0,30 1,00 44 0,09 1,00 0,97 40 0,03 0,97 0,95 39 0,20 0,78

Tab.1 – Valeurs moyennes des critères sur 100 graphes aléatoires créés suivant le premier jeu

des classes.

4.2 Simulations

Pour vérifier que cette méthode retrouve bien les systèmes de classes chevauchantes et les sommets multiples, classés plusieurs fois, nous avons créé trois types des graphes aléatoires dont les classes sont représentées par des carrés dans la Fig. 4 :

– le premier jeu (à gauche) est constitué de graphes à 200 sommets répartis en 4 classes disjointes de 50 éléments, plus une classe composée de 10 éléments pris dans chacune de ces classes, soit 40

´el´ements ;

– le second jeu (au milieu) est fait de graphes à 210 sommets répartis dans 5 classes de 50 éléments ; les quatre premières sont parfaitement séparées et la cinquième est faite de 10 éléments pris dans chacune d’elles, plus 10 sommets qui lui sont propres ;

– le troisième jeu (à droite) est composé de graphes à 210 sommets également. Les quatre premières classes sont disjointes et ont 45 sommets ; la cinquième est constituée de 5 sommets pris dans chaque classe (20 dans les intersections) et de 30 sommets spécifiques.

40 40

10 10 10 10

40 40

10 10

10

40 40

5 5

30

Fig. 4 : Diagrammes de trois jeux de graphes pour les simulations

Dans ces cinq classes, nous tirons au hasard des arêtes avec une probabilitépi et nous obtenons ainsi des graphes qui présentent des communautés plus ou moins denses. Sur ces graphes, nous appliquons l’algorithme de fusion, à partir des arêtes, des cliques maximales ou des cliques centrées, jusqu’à obtenir 5 classes, que nous comparons aux classes initales, à l’aide de 4 critères :

– N BC, le taux d’éléments bien classés qui, comme précédemment, appartiennent à la fois à une classe calculée et à sa classe de référence ;

– M ult, le nombre d’éléments multiples, classés au moins 2 fois ;

– F P, le taux de faux positifs, éléments classés plusieurs fois, alors qu’ils sont initialement dans une seule classe ;

– Ret, le taux d’éléments multiples retrouvés (à juste titre), classés initialement plusieurs fois.

Pour ces graphes, les r´esultats sont prometteurs.

(13)

Cliques max. Arˆetes Cliques centr´ees pi N BC M ult F P Ret N BC M ult F P Ret N BC M ult F P Ret

0,15 0,54 29 0,22 0,57 0,49 27 0,23 0,52 0,86 37 0,26 0,68

0,20 0,87 46 0,24 0,87 0,70 37 0,22 0,72 0,94 41 0,24 0,79

0,25 0,99 53 0,25 0,99 0,87 44 0,20 0,87 0,96 42 0,21 0,82

0,30 1,00 51 0,21 1,00 0,96 48 0,20 0,96 0,97 41 0,17 0,85

Tab.2 – Valeurs moyennes des critères sur 100 graphes aléatoires créés suivant le deuxième jeu

Cliques max. Arˆetes Cliques centr´ees

pi N BC M ult F P Ret N BC M ult F P Ret N BC M ult F P Ret

0,15 0,75 27 0,48 0,71 0,71 27 0,49 0,68 0,95 26 0,40 0,77

0,20 0,97 32 0,40 0,95 0,94 33 0,43 0,94 0,97 23 0,34 0,78

0,25 1,00 29 0,31 0,99 1,00 30 0,33 1,00 0,98 22 0,26 0,83

0,30 1,00 25 0,21 1,00 1,00 26 0,24 1,00 0,98 22 0,22 0,84

Tab.3 – Valeurs moyennes des critères sur 100 graphes aléatoires créés suivant le troisième jeu

Sur le premier jeu (tableau 1), les simulations montrent que les classes sont mieux retrouvées en partant des cliques que des autres systèmes de classes. Elles sont correctement identifiées quandpi >20% et les taux de faux positifs et de sommets multiples retrouvés sont acceptables.

Les simulations avec le deuxième jeu de graphes (tableau 2) montrent que les classes initiales sont retrouvées de fa¸con efficace à partir des cliques centrées et que le nombre d’éléments multiples est correct.

Mais le taux de faux positifs devient important, même s’il reste borné à 25% pour les trois systèmes de classes initiaux. Les cliques centrées sont les plus efficaces des trois pour pi = 15%, et permettent de détecter un nombre correct d’éléments multiples, malgré quelques erreurs.

Le troisième jeu de simulation (tableau 3) engendre les problèmes les plus difficiles. Les trois systèmes testés retrouvent correctement les classes initiales dès quepi≥20%. Le nombre d’éléments multiples est bien prédit par les cliques centrées, mais ces éléments ne sont pas parfaitement identifiés.

5 Conclusion

Nous avons essentiellement étudié l’usage du critère de modularité dans la détection de classes de forte densité d’arêtes, pour des graphes ainsi structurés. Nous avons présenté des algorithmes d’optimisation de la modularité pour la détection de communautés disjointes ou chevauchantes dans un graphe. Plutôt que de s’en tenir à la valeur du critère sur quelques graphes publics, nous avons établi des protocoles de simulation qui permettent de mesurer l’efficacité des algorithmes et de comparer les résultats en moyenne.

Ce travail nous a amenés à choisir des critères de qualité d’un partitionnement. Les comparaisons faites sur des graphes créés aléatoirement nous permettent d’attester de leurs performances quant à la détection de communautés, lorsqu’elles existent. Pour les partitions, la méthode de fusion/fission s’avère légèrement meilleure que les algorithmes classiques. Pour les recouvrements, en plus des simulations qui ont montré que l’on pouvait partir d’un système réduit de classes chevauchantes, en quantité bornée par le nombre de sommets, nous avons appliqué la méthode à un grand graphe, celui des interactions des protéines humaines.

Un réseau d’interactions de haute qualité composé de 27276 interactions pour 9596 protéines a été

(14)

extrait de la base de données APID (bioinfow.dep.usal.es/apid/). Au sein de ce réseau, chaque protéine interagit en moyenne avec 7,8 autres. C’est pour traiter ce réseau que nous avons testé le système des cliques centrées. Nous avons limité les classes à 200 protéines, afin d’éviter la formation de classes trop importantes pour que leurs protéines partagent une fonction biologique commune ; la hiérarchie permet de passer de 5372 cliques initiales à 77 classes. La recherche des fonctions majoritaires dans ces classes, extraites deGene Ontology, appliquée aux protéines multiples, a permis de retrouver jusqu’à 76%

des prot´eines connues comme multifonctionnelles et d’en d´etecter d’autres, en proposant des fonctions jusqu’alors inconnues [BGB09].

Ce travail de détection de protéines multifonctionnelles se poursuit dans le cadre d’un projet soutenu par l’ANR. L’une des difficultés inhérentes à la méthode est qu’elle propose beaucoup de sommets dans les intersections des classes chevauchantes. Pour chacune, il faut rechercher les fonctions qui sont majoritaires dans les classes et vérifier si elles sont connues, voire plausibles. Ce sont des tâches qui relèvent de connaissances biologiques. Ceci souligne une des difficultés majeures de ce travail : la qualité des classes se mesure à leur homogénéité fonctionnelle, information qui ne figure pas dans le réseau.

Remerciements

C’est grâce à Christine Brun (CNRS, Marseille) que nous nous sommes intéressés au problème de la détection de classes chevauchantes, et c’est Emmanuelle Becker (TAGC, Marseille) qui a conduit les applications aux réseaux d’interactions entre protéines. Ce travail a été financièrement soutenu par l’ACI IMPBio, le GDR RO puis le PEPS 2008-2009 du Département ST2I du CNRS.

R´ ef´ erences

[BB07] F. Brucker and JP. Barthélemy. Eléments de classification : aspects combinatoires et algo- rithmiques. Hermès, Paris, 2007.

[BCM⁺03] C. Brun, F. Chevenet, D. Martin, J. Wojcik, A. Gu´enoche, and B. Jacq. Functional classification of proteins for the prediction of cellular function from a protein-protein interaction network. Genome Biol., 5 :R6, 2003.

[BDG⁺08] U. Brandes, D. Delling, M. Gaertler, R. G¨orke, M. H¨ofer, Z. Nikoloski, and D. Wagner. On modularity clustering. IEEE Transactions on Knowledge and Data Engineering, 20(2) :172–

188, 2008.

[BE05] U. Brandes and T. Erlebach. On finding graph clusterings with maximum modularity. In Network Analysis : Methodological Foundations, volume 3418 of Lecture Notes in Computer Science. Springer, 2005.

[BGB09] E. Becker, A. Guénoche, and C. Brun. Système de classes chevauchantes pour la recherche de protéines multifonctionnelles. In E. Rivals and I. Rusu, editors,JOBIM’09, pages 49–54.

Nantes, 2009.

[BHG04] C. Brun, C. Herrmann, and A. Gu´enoche. Clustering proteins from interaction networks for the prediction of cellular functions. BMC Bioinformatics, 5 :95, 2004.

[BLM⁺06] S. Boccaletti, V. Latora, Y. Moreno, M. Chavez, and D.U. Hwanga. Complex networks : Structure and dynamics. Physics reports, 424(4-5) :175–308, 2006.

[CG07] T. Colombo and A. Gu´enoche. Looking for high density zones in a graph. In P. Brito et al., editor, Selected Contributions in Data Analysis and Classification, pages 193–201. Springer, 2007.

[CNM04] A. Clauset, M. E. J. Newman, and C. Moore. Finding community structure in very large

(15)

[Col04] T. Colombo. Algorithmes pour la recherche de classes de gènes en relations fonctionnelles par l’analyse de proximités et de similarités de séquences. PhD thesis, Université d’Aix-Marseille II, 2004.

[DA05] J Duch and A Arenas. Community detection in complex networks using extremal optimization. Physical Review E, 72, 2005.

[DCGH05] L. Denœud, I. Charon, A. Gu´enoche, and O. Hudry. Overlapping clustering in a graph and application to protein interactions. InALIO/EURO conference on Combinatorial Optimization.

Paris, 2005.

[DDGA06] L. Danon, A. D´ıaz-Guilera, and A. Arenas. The effect of size heterogeneity on community identification in complex networks.Journal of Statistical Mechanics : Theory and Experiment, 2006(11), 2006.

[Did86] E. Diday. Orders and overlapping clusters in pyramids. In J. de Leew et al., editor,Multidi- mentional Data Analysis, pages 201–234, 1986.

[DMn04] L. Donetti and M.A. Mu˜noz. Detecting network communities : a new systematic and efficient algorithm. Journal of Statistical Mechanics : Theory and Experiment, 10, 2004.

[FAC⁺05] E. Formstecher, S. Arresta, V. Collura, A. Hamberger, A. Meil, A. Trehin, C. Reverdy, V. Be- tin, S. Maire, C. Brun, B. Jacq, M. Arpin, Y. Bellaiche, S. Bellusci, P. Benaroch, M. Bornens, R. Chanet, P. Chavrier, O. Delattre, V. Doye, R. Fehon, G. Faye, T. Galli, J.A. Girault, B. Goud, J. de Gunzburg, L. Johannes, M.P. Junier, V. Mirouse, A. Mukherjee, D. Papado- poulo, F. Perez, A. Plessis, M. Rosbach, C. Ross´e, S. Saule, D. Stoppa-Lyonnet, A. Vincent, M. White, P. Legrain, J. Wojcik, J. Camonis, and L. Daviet. Protein interaction mapping : a drosophila case study. Genome Res., 15 :376–384, 2005.

[FB07] S. Fortunato and M. Barthelemy. Resolution limit in community detection. Proc. Natl. Acad.

Sci. USA, 104 :36, 2007.

[FLGC02] G. W. Flake, S. Lawrence, C. L. Giles, and F. M. Coetzee. Self-organization and identication of web communities. Computer, 35(3) :66–71, 2002.

[GGW07] M. Gaertler, R. G¨orke, and D. Wagner. Significance-Driven Graph Clustering, volume 4508.

Springer, Heidelberg, 2007.

[GN02] M. Girvan and M. E. J. Newman. Community structure in social and biological networks.

Proc. Natl. Acad. Sci. USA, 99 :7821–7826, 2002.

[GSPA04] R. Guimera, M. Sales-Pardo, and Luis A. N. Amaral. Modularity from fluctuations in random graphs and complex networks. Physical Review E, 70 :025101, 2004.

[HA85] L. Hubert and P. Arabie. Comparing partition. Journal of Classification, 2 :193–218, 1985.

[KL70] B.W. Kernighan and S. Lin. An efficient heuristic procedure for partitioning graphs. Bell System Technical Journal, 49(2) :291–307, 1970.

[KL01] J. Kleinberg and S. Lawrence. The structure of the web. Science, 294 :1849–1850, 2001.

[MW03] J. Moody and D. R. White. Structural cohesion and embeddedness : a hierarchical concept of social groups. American Sociological Review, 68(1) :103–107, 2003.

[New01] M. E. J. Newman. The structure of scientific collaboration networks. Proc. Natl. Acad. Sci.

USA, 98 :404–409, 2001.

[New04] M. E. J. Newman. Fast algorithm for detecting community structure in networks. Physical Review E, 69(6) :066133, 2004.

[New06] M. E. J. Newman. Finding community structure in networks using the eigenvectors of ma- trices. Physical Review E, 74, 2006.

(16)

[NG04] M. E. J. Newman and M. Girvan. Finding and evaluating community structure in networks.

Physical Review E, 69(2), 2004.

[PL06] P. Pons and M. Latapy. Computing communities in large networks using random walks (long version). Journal of Graph Algorithms and Applications (JGAA), 10(2) :191–218, 2006.

[RB06] J. Reichardt and S. Bornholdt. Statistical mechanics of community detection.Physical Review E, 74(1), 2006.

[SLM⁺04] C. A. Stanyon, G. Liu, B. A. Mangiola, N. Patel, L. Giot, B. Kuang, H. Zhang, J. Zhong, and R. L. Finley Jr. A drosophila protein-interaction map centered on cell-cycle regulators.

Genome Biology, 5(12), 2004.

[War63] J. H. Ward. Hierarchical grouping to optimize an objective function.Journal of the American Statistical Association, 58(301) :236–244, 1963.

[WS05] S. White and P. Smyth. A spectral clustering approach to finding communities in graphs. In SIAM data-mining conference, 2005.

[WT07] K. Wakita and T. Tsurumi. Finding community structure in mega-scale social networks.

InWWW’07 : Proceedings of the 16th international conference on World Wide Web, pages 1275–1276. ACM Press, New York, 2007, 2007.

[Zac77] W. W. Zachary. An information flow model for conflict and fission in small groups. Journal of Anthropological Research, 33 :452–477, 1977.