Autres m´ ethodes pour la d´ etection de communaut´ es che-

1.4 D´ etection de communaut´ es chevauchantes

1.4.3 Autres m´ ethodes pour la d´ etection de communaut´ es che-

a mesure du développement de l’algorithme. Cependant, c’est une faiblesse, no-tamment pour des graphes dont la densité est élevée, où l’intensité devra être ajustée pour continuer des propagations de labels non finies.

Les méthodes présentées ci-dessus se fondent soit sur une modification de la propagation de labels en incluant un facteur d’appartenance, soit sur une multi-liste de propagations de labels. Cependant, cela ne réduit pas l’instabilité et des paramètres doivent être évalués pour connaˆıtre le pourcentage de nœuds chevauchants et le nombre de communautés auxquelles appartient un nœud.

1.4.3 Autres méthodes pour la détection de communautés

chevauchantes

Il existe d’autres méthodes pour la détection de communautés chevauchantes, fondées sur la topologie du graphe et le nombre de connexions qu’un nœud a vis-à-vis des communautés avoisinantes.

Palla et al. (2005) ont créé Cfinder, un algorithme pour la détection de communautés chevauchantes fondé sur la recherche de motifs locaux, par per-colation de cliques (CPM : Clique Perper-colation Method). Les auteurs observent qu’une communauté peut-être définie comme une chaˆıne de k-cliques adjacentes (cf. glossaire 6.1). Cette méthode permet la détection de communautés cou-vrantes où un sommet peut appartenir à plusieurs k-cliques. Les résultats en termes de qualité de partitionnement sont encourageants mais présentent trois inconvénients majeurs. Le premier est la nécessité de paramétrer k (c’est-` a-dire la taille des cliques). Le second concerne la complexité algorithmique. Il a ´

eté démontré que la complexité pour détecter les 3-cliques (Berge (1958)) d’un graphe était en O(n1.41) (n étant le nombre de sommets), mais ce nombre aug-mente de manière non linéaire en fonction du nombre de sommets. Le troisième inconvénient est la recherche de motifs statiques qui n’est pas un trait absolu

des réseaux complexes (avec des nœuds chevauchants des communautés de taille et de topologie différentes). Les expérimentations menées pas Palla et al. (2005) ont montré que la valeur k = 4 donnait les résultats en termes de qualité de partitionnement les plus probants. Cette méthode peut selon la paramétrisation de k être appliquée à des graphes de plusieurs centaines de milliers d’arêtes. Nous donnons un exemple tiré du site de Gergely Palla à la Figure 1.16 où les nœuds de couleur rouge appartiennent à des communautés chevauchantes.

Figure 1.16 – Exemple d’application de la m´ethode CFinder (Extrait du site de Palla et al. (2005))

Zhang et al. (2007) proposent un algorithme spectral pour la détection de communautés chevauchantes. Le principe est de calculer un certain nombre de vecteurs propres liés à la matrice Laplacienne représentant le graphe, puis d’ap-pliquer sur cet espace propre un algorithme flou de clustering, le Fuzzy C means (FCM) et de retranscrire les résultats sur le graphe pour obtenir les recouvre-ments. La méthode nécessite de spécifier le nombre de recouvrements et nécessite le calcul des valeurs et des vecteurs propres. Les résultats en termes de qualité sont encourageants. L’algorithme a une complexité en O(n3+ ndc2i), avec d, le nombre de dimensions, c le nombre de clusters et i le nombre d’itérations.

Psorakis et al. (2011) proposent un modèle fondé sur la factorisation par matrices non négatives bayésiennes (NMF). Cet algorithme nécessite de fournir le nombre K de recouvrements et demande de très nombreux calculs matriciels. La complexité de cet algorithme est en O(Kn2).

Shen et al. (2009) proposent EAGLE (agglomerativE hierarchicAl clusterinG based on maximaL cliquE). EAGLE est une méthode agglomérative fondée sur la détection de cliques maximales (cf. Glossaire 6.1) et l’optimisation locale d’une fonction de qualité permettant l’élaboration d’un dendrogramme. L’algorithme opère en deux étapes sur le graphe. Premièrement, les cliques maximales sont trouvées pour former les premières communautés. La seconde étape consiste à fusionner les communautés ayant la plus grande similarité. La fonction de simi-larité n’est autre que la modularité de Newman. C’est sur le nœud où portera la fusion qu’il y aura chevauchement. La coupe optimale est donnée en utilisant une version chevauchante de la modularité de Newman, la modularité de Shen que nous détaillerons dans la partie concernant les mesures non supervisées pour

la détection de communautés chevauchantes. EAGLE donne des résultats satis-faisants en termes de qualité de recouvrement. Cependant, dans certains cas, les nœuds qui peuvent être classés comme chevauchants et qui sont liés à des communautés faiblement denses ne sont pas détectés. Cette méthode peut soule-ver certaines questions quant aux strutures communautaires chevauchantes. On peut reprocher à cet algorithme d’être à la recherche de motifs plutôt que d’être `

a la recherche de nœuds entre communautés. Des structures communautaires peuvent exister sans être des cliques. L’algorithme présente également une com-plexité assez élevée en O(n2+ s(h + n)) avec s le nombre de cliques maximales et h le nombre de paires de cliques maximales qui sont voisines (partageant un nœud en commun).

Lee et al. (2010) ont proposé GCE (Greedy Clique Expansion). Cet algo-rithme est très similaire à EAGLE. Il identifie dans un premier temps les cliques comme des graines (leaders) au sein du graphe. Ces graines, qui sont des cœurs de communautés s’agrandissent par optimisation d’une fonction de qualité lo-cale. Les auteurs choisissent la fonction de fitness de Lancichinetti et al. (2009), `

a savoir pour une communaut´e S, F_S = ^kin^S (kS

in+kS

out)α où α est un paramètre ajustable, k_in^S (nombre d’arêtes internes dans S) et k_out^S (nombre d’arêtes ayant une extrémité hors de S). Cette mesure privilégie une expansion vers des nœuds maximisant les liens internes et minimisant les liens externes. Lorsque deux structures communautaires veulent effectuer une agglomération sur un nœud spécifique, ce nœud est classé comme chevauchant. La complexité de cet al-gorithme est en O(mh) avec m, le nombre d’arêtes et h le nombre de cliques maximales détectées initialement et considérées comme graines. Les résultats expérimentaux montrent que la qualité de recouvrement est légèrement meilleure que celle d’EAGLE, notamment sur les graphes artificiels LFR (cf. glossaire 6.1). Lancichinetti et al. (2011) ont proposé OSLOM (Order Statistics Local Opti-mization Method). Il s’agit d’une méthode de raffinage agissant sur une partition déjà fournie. OSLOM utilise les algorithmes de Louvain ou d’Infomap pour créer une première partition. C’est alors que la méthode ajoute ou retire des nœuds pour arriver à un état stable où il n’est plus intéressant de modifier la structure topologique des communautés. Le principe consiste à comparer les structures communautaires entre le modèle nul (cf. glossaire 6.1) et la partition réelle en se fondant sur le nombre de liens dans les communautés et sur le degré du nœud ´

etudié. Si le nœud étudié a plus de connexions vis-à-vis d’une communauté que la valeur moyenne issue du modèle nul, ce nœud sera ajouté à cette communauté. Il sera retiré dans le cas contraire. Le processus se répète sur tous les nœuds du graphe en effectuant des modifications sur la partition originelle si certains groupes de nœuds n’ont pas la caractéristique de structures communautaires. L’algorithme est non déterministe car il dépend de l’ordre de visite selon lequel est appliquée cette méthode.

donner. L’algorithme est assez lent et est fonction du nombre de nœuds. Il peut nécessiter plusieurs journées notamment sur de grands graphes comme Live-Journal. La paramétrisation standard donne cependant des résultats corrects en termes de qualité pour les communautés résultantes.

Dans le document Nouveaux algorithmes pour la détection de communautés disjointes et chevauchantes basés sur la propagation de labels et adaptés aux grands graphes. (Page 64-67)