• Aucun résultat trouvé

1.4 D´ etection de communaut´ es chevauchantes

1.4.3 Autres m´ ethodes pour la d´ etection de communaut´ es che-

a mesure du d´eveloppement de l’algorithme. Cependant, c’est une faiblesse, no-tamment pour des graphes dont la densit´e est ´elev´ee, o`u l’intensit´e devra ˆetre ajust´ee pour continuer des propagations de labels non finies.

Les m´ethodes pr´esent´ees ci-dessus se fondent soit sur une modification de la propagation de labels en incluant un facteur d’appartenance, soit sur une multi-liste de propagations de labels. Cependant, cela ne r´eduit pas l’instabilit´e et des param`etres doivent ˆetre ´evalu´es pour connaˆıtre le pourcentage de nœuds chevauchants et le nombre de communaut´es auxquelles appartient un nœud.

1.4.3 Autres m´ethodes pour la d´etection de communaut´es

chevauchantes

Il existe d’autres m´ethodes pour la d´etection de communaut´es chevauchantes, fond´ees sur la topologie du graphe et le nombre de connexions qu’un nœud a vis-`a-vis des communaut´es avoisinantes.

Palla et al. (2005) ont cr´e´e Cfinder, un algorithme pour la d´etection de communaut´es chevauchantes fond´e sur la recherche de motifs locaux, par per-colation de cliques (CPM : Clique Perper-colation Method). Les auteurs observent qu’une communaut´e peut-ˆetre d´efinie comme une chaˆıne de k-cliques adjacentes (cf. glossaire 6.1). Cette m´ethode permet la d´etection de communaut´es cou-vrantes o`u un sommet peut appartenir `a plusieurs k-cliques. Les r´esultats en termes de qualit´e de partitionnement sont encourageants mais pr´esentent trois inconv´enients majeurs. Le premier est la n´ecessit´e de param´etrer k (c’est-` a-dire la taille des cliques). Le second concerne la complexit´e algorithmique. Il a ´

et´e d´emontr´e que la complexit´e pour d´etecter les 3-cliques (Berge (1958)) d’un graphe ´etait en O(n1.41) (n ´etant le nombre de sommets), mais ce nombre aug-mente de mani`ere non lin´eaire en fonction du nombre de sommets. Le troisi`eme inconv´enient est la recherche de motifs statiques qui n’est pas un trait absolu

des r´eseaux complexes (avec des nœuds chevauchants des communaut´es de taille et de topologie diff´erentes). Les exp´erimentations men´ees pas Palla et al. (2005) ont montr´e que la valeur k = 4 donnait les r´esultats en termes de qualit´e de partitionnement les plus probants. Cette m´ethode peut selon la param´etrisation de k ˆetre appliqu´ee `a des graphes de plusieurs centaines de milliers d’arˆetes. Nous donnons un exemple tir´e du site de Gergely Palla `a la Figure 1.16 o`u les nœuds de couleur rouge appartiennent `a des communaut´es chevauchantes.

Figure 1.16 – Exemple d’application de la m´ethode CFinder (Extrait du site de Palla et al. (2005))

Zhang et al. (2007) proposent un algorithme spectral pour la d´etection de communaut´es chevauchantes. Le principe est de calculer un certain nombre de vecteurs propres li´es `a la matrice Laplacienne repr´esentant le graphe, puis d’ap-pliquer sur cet espace propre un algorithme flou de clustering, le Fuzzy C means (FCM) et de retranscrire les r´esultats sur le graphe pour obtenir les recouvre-ments. La m´ethode n´ecessite de sp´ecifier le nombre de recouvrements et n´ecessite le calcul des valeurs et des vecteurs propres. Les r´esultats en termes de qualit´e sont encourageants. L’algorithme a une complexit´e en O(n3+ ndc2i), avec d, le nombre de dimensions, c le nombre de clusters et i le nombre d’it´erations.

Psorakis et al. (2011) proposent un mod`ele fond´e sur la factorisation par matrices non n´egatives bay´esiennes (NMF). Cet algorithme n´ecessite de fournir le nombre K de recouvrements et demande de tr`es nombreux calculs matriciels. La complexit´e de cet algorithme est en O(Kn2).

Shen et al. (2009) proposent EAGLE (agglomerativE hierarchicAl clusterinG based on maximaL cliquE). EAGLE est une m´ethode agglom´erative fond´ee sur la d´etection de cliques maximales (cf. Glossaire 6.1) et l’optimisation locale d’une fonction de qualit´e permettant l’´elaboration d’un dendrogramme. L’algorithme op`ere en deux ´etapes sur le graphe. Premi`erement, les cliques maximales sont trouv´ees pour former les premi`eres communaut´es. La seconde ´etape consiste `a fusionner les communaut´es ayant la plus grande similarit´e. La fonction de simi-larit´e n’est autre que la modularit´e de Newman. C’est sur le nœud o`u portera la fusion qu’il y aura chevauchement. La coupe optimale est donn´ee en utilisant une version chevauchante de la modularit´e de Newman, la modularit´e de Shen que nous d´etaillerons dans la partie concernant les mesures non supervis´ees pour

la d´etection de communaut´es chevauchantes. EAGLE donne des r´esultats satis-faisants en termes de qualit´e de recouvrement. Cependant, dans certains cas, les nœuds qui peuvent ˆetre class´es comme chevauchants et qui sont li´es `a des communaut´es faiblement denses ne sont pas d´etect´es. Cette m´ethode peut soule-ver certaines questions quant aux strutures communautaires chevauchantes. On peut reprocher `a cet algorithme d’ˆetre `a la recherche de motifs plutˆot que d’ˆetre `

a la recherche de nœuds entre communaut´es. Des structures communautaires peuvent exister sans ˆetre des cliques. L’algorithme pr´esente ´egalement une com-plexit´e assez ´elev´ee en O(n2+ s(h + n)) avec s le nombre de cliques maximales et h le nombre de paires de cliques maximales qui sont voisines (partageant un nœud en commun).

Lee et al. (2010) ont propos´e GCE (Greedy Clique Expansion). Cet algo-rithme est tr`es similaire `a EAGLE. Il identifie dans un premier temps les cliques comme des graines (leaders) au sein du graphe. Ces graines, qui sont des cœurs de communaut´es s’agrandissent par optimisation d’une fonction de qualit´e lo-cale. Les auteurs choisissent la fonction de fitness de Lancichinetti et al. (2009), `

a savoir pour une communaut´e S, FS = kinS (kS

in+kS

out)α o`u α est un param`etre ajustable, kinS (nombre d’arˆetes internes dans S) et koutS (nombre d’arˆetes ayant une extr´emit´e hors de S). Cette mesure privil´egie une expansion vers des nœuds maximisant les liens internes et minimisant les liens externes. Lorsque deux structures communautaires veulent effectuer une agglom´eration sur un nœud sp´ecifique, ce nœud est class´e comme chevauchant. La complexit´e de cet al-gorithme est en O(mh) avec m, le nombre d’arˆetes et h le nombre de cliques maximales d´etect´ees initialement et consid´er´ees comme graines. Les r´esultats exp´erimentaux montrent que la qualit´e de recouvrement est l´eg`erement meilleure que celle d’EAGLE, notamment sur les graphes artificiels LFR (cf. glossaire 6.1). Lancichinetti et al. (2011) ont propos´e OSLOM (Order Statistics Local Opti-mization Method). Il s’agit d’une m´ethode de raffinage agissant sur une partition d´ej`a fournie. OSLOM utilise les algorithmes de Louvain ou d’Infomap pour cr´eer une premi`ere partition. C’est alors que la m´ethode ajoute ou retire des nœuds pour arriver `a un ´etat stable o`u il n’est plus int´eressant de modifier la structure topologique des communaut´es. Le principe consiste `a comparer les structures communautaires entre le mod`ele nul (cf. glossaire 6.1) et la partition r´eelle en se fondant sur le nombre de liens dans les communaut´es et sur le degr´e du nœud ´

etudi´e. Si le nœud ´etudi´e a plus de connexions vis-`a-vis d’une communaut´e que la valeur moyenne issue du mod`ele nul, ce nœud sera ajout´e `a cette communaut´e. Il sera retir´e dans le cas contraire. Le processus se r´ep`ete sur tous les nœuds du graphe en effectuant des modifications sur la partition originelle si certains groupes de nœuds n’ont pas la caract´eristique de structures communautaires. L’algorithme est non d´eterministe car il d´epend de l’ordre de visite selon lequel est appliqu´ee cette m´ethode.

donner. L’algorithme est assez lent et est fonction du nombre de nœuds. Il peut n´ecessiter plusieurs journ´ees notamment sur de grands graphes comme Live-Journal. La param´etrisation standard donne cependant des r´esultats corrects en termes de qualit´e pour les communaut´es r´esultantes.