• Aucun résultat trouvé

D´efinition d’une m´etrique pour calculer la coh´esion interne des communaut´es108

Dans le document The DART-Europe E-theses Portal (Page 123-128)

Chapitre 4 Validation des r´ esultats : qu’est-ce qu’une bonne communaut´ e ? 101

4.1.4 D´efinition d’une m´etrique pour calculer la coh´esion interne des communaut´es108

Pour calculer la coh´esion interne des communaut´es, nous aurions souhait´e utiliser la mˆeme approche. Il nous fallait donc d’abord trouver une m´etrique satisfaisante dans le cas sans recou-vrement. La densit´e interne est g´en´eralement d´efinie de la mani`ere suivante :

densite(C) = 2Cint nC(nC−1)

Ce qui correspond au nombre de liens dans la communaut´e divis´e par le nombre de liens internes possibles au maximum.

La densit´e interne normalis´ee est parfois ´egalement utilis´ee [LKSF10] : densiteN ormalisee(C) = 2Cint

nC−1

Si l’on souhaite calculer une valeur unique pour tout le r´eseau, on voit qu’on ne peut pas faire simplement la moyenne des valeurs de chaque communaut´e :

P

C∈Pdensite(C)

|P|

car un d´ecoupage contenant une communaut´e g´eante `a faible valeur et plusieurs petites commu-naut´es de valeurs maximales (cliques) donnerait un bon score.

On souhaiterait donc que le score de chaque communaut´e soit pond´er´e par sa taille : P

C∈Pdensite(C)nC n

Ou, ´enonc´e autrement, on calcule la moyenne de la densit´e, pour chaque nœud, de la communaut´e

`

a laquelle il appartient : P

v∈V densite(C) :v∈VC n

On peut donc ensuite l’adapter facilement `a des communaut´es avec recouvrement en calculant pour chaque nœud, la moyenne des densit´es des communaut´es auxquelles il appartient :

P

v∈V P

C∈csvdensite(C)

|csv|

n

o`u, pour rappel, csv repr´esente les communaut´es auxquelles le noeud v appartient.

Cependant, un probl`eme se pose avec cette formule : elle a tendance `a ´ecraser les diff´erences pour les grandes communaut´es. Pour illustrer ce ph´enom`ene, prenons une communaut´e A de 100 nœuds ayant 1000 liens internes, ce qui est courant pour une communaut´e trouv´ee par un algorithme classique sur un r´eseau de terrain, et une communaut´e B de 1000 nœuds ayant

´egalement 1000 liens internes (Ce qui est tr`es faible, puisque le sous r´eseau correspondant `a la communaut´e peut `a peine ˆetre connexe). Pour A, les nœuds auront une valeur de coh´esion d’approximativement 0,1. PourB, leur valeur de coh´esion sera d’environ 0,001. Ces deux valeurs sont ´evidemment fort diff´erentes. Cependant, lorsque l’on va faire la moyenne de tous les scores de coh´esion, les nœuds appartenant `a de petites communaut´es auront g´en´eralement des scores beaucoup plus ´elev´es, proches de 1. Lorsque l’on va faire la moyenne, avoir 10 communaut´es

4.1. Comparaison de communaut´es sur des r´eseaux de terrain dont les communaut´es sont inconnues telles queA, et donc raisonnables, ou une communaut´e peu coh´erente commeB aura un impact r´eduit si le r´eseau est grand par ailleurs.

C’est pourquoi nous avons choisi de d´evelopper une m´etrique qui refl`eterait mieux l’impor-tante diff´erence entre les communaut´es peu denses et les tr`es peu denses, appel´ee la fraction de connexion interne (FCI).

Cette m´etrique est d´efinie, pour chaque communaut´e, comme le ratio, pour chaque nœud, entre le nombre de nœuds auxquels il n’est pas li´e et le nombre de nœuds auxquels il est li´e :

F CI(C) =

On voit donc que cette m´etrique est li´ee `a l’inverse de la densit´e. On conservera cependant le -1 pour garder la s´emantique. Cette m´etrique a l’inconv´enient d’ˆetre une m´etrique ouverte : sa valeur minimale est 0, pour une clique, mais peut atteindre au maximum le nombre de liens possibles -1. Si une communaut´e n’a aucun lien interne, on ne peut calculer sa FCI, ce qui est coh´erent, cette valeur devant alors ˆetre maximale (et la communaut´e ´etant alors compl`etement incoh´erente). Pour r´esumer, plus la communaut´e est grande, plus la valeur maximale de la m´etrique est ´elev´ee. Une valeur de 1 correspond `a une communaut´e pour laquelle, en moyenne, ses nœuds ne sont connect´es qu’`a la moiti´e des autres.

Pour calculer la valeur globale pour le r´eseau, nous utilisons le mˆeme principe qu’expliqu´e pr´ec´edemment, en rempla¸cant la densit´e par la FCI :

P

Le calcul de la FCI sur quelques r´eseaux est illustr´e dans la figure 4.2, dans laquelle on reprend les mˆemes exemples que pour le calcul de l’internalit´e.

On remarque que pour l’internalit´e, plus les communaut´es sont grandes, et plus il est facile d’obtenir une valeur ´elev´ee. Pour la FCI, c’est le contraire. Enfin, on observe que dans ce cas simple, la solution avec recouvrement est la seule `a obtenir la valeur maximale `a la fois pour la FCI et pour l’internalit´e. Cela semble pertinent, ce d´ecoupage en communaut´es semblant plus logique qu’un partage en communaut´es de tailles in´egales.

4.1.5 Application `a des r´eseaux de terrain

Une application de ces mesures est de comparer des r´esultats fournis par des algorithmes diff´erents sur un mˆeme r´eseau de terrain. En comparant les r´esultats, nous pourrons savoir imm´ediatement quels algorithmes proposent des solutions o`u les communaut´es sont tr`es denses, quels algorithmes proposent des solutions o`u les communaut´es sont bien s´epar´ees, et quelles solutions ne sont pas int´eressantes, parce qu’elles sont `a la fois moins denses et plus mal s´epar´ees qu’un autre algorithme (Elles ne sont donc pas sur le front de Pareto. Se reporter `a la figure4.3 pour un exemple de front de Pareto).

Il est int´eressant de noter que l’on peut facilement trouver les extr´emit´es du front : en cherchant les composantes connexes, nous aurons une solution pour laquelle la s´eparation est maximale, mais o`u la densit´e interne est faible (d´ependante du r´eseau).

La solution dans laquelle chaque clique maximale est une communaut´e fournira une solu-tion de densit´e interne maximale, mais de s´eparasolu-tion faible (d´ependante du r´eseau). Ces deux solutions fourniront donc les extr´emit´es du front de Pareto.

109

FCI = 0

FCI = 0

FCI = 0,4 FCI = 0

FCI = 0,67 0

0

0

0

0

0

0 0

0,5

0,67

Figure4.2 – Exemples de calculs de la FCI. Les nombres sur le diagramme correspondent `a la FCI des communaut´es prises ind´ependamment. On observe que des communaut´es de plus grande taille ont tendance `a avoir une moins bonne FCI, c’est `a dire une valeur plus ´elev´ee.

4.1. Comparaison de communaut´es sur des r´eseaux de terrain dont les communaut´es sont inconnues

Nom Nombre de nœuds Nombre de liens

R´eseau de synonymie de verbes en fran¸cais (DicoSyn) [PV98]

9147 51423

R´eseau de synonymie de verbes en anglais [SNG+11]

11484 40919

Zachary Karat´e Club [Zac77] 34 78

R´eseau des personnages des mis´e-rables [NG04]

77 254

Table 4.1 –Caract´eristiques de quelques r´eseaux ´etudi´es

Dans un premier temps, nous allons montrer le type de r´esultats que l’on peut obtenir avec cette m´ethode sur quelques r´eseaux de terrain, dont les caract´eristiques sont donn´ees dans la table4.1.

Les algorithmes test´es sont :

– Algorithme de Louvain [BGLL08] : Cet algorithme ´etant hi´erarchique, nous utilisons les trois premiers niveaux de d´ecompositions, lorsqu’ils existent. Il est int´eressant de noter que plus le niveau hi´erarchique est ´elev´e, plus les communaut´es sont bien s´epar´ees du reste du r´eseau, mais plus elles sont moins denses.

– CFinder[PDFV05] : Cet algorithme propose un param`etre ayant une grande importance, k, repr´esentant la taille des cliques utilis´ees comme ´el´ement de base des communaut´es.

Nous fournissons les r´esultats pour k= 3, k= 4 et k= 5 lorsque cela est possible. Il est int´eressant de voir que plus k augmente, plus les communaut´es sont denses, mais moins elles sont clairement s´epar´ees du reste du r´eseau.

– InfoMap[RB08] : Cet algorithme a ´et´e pr´esent´e en d´etail dans l’´etat de l’art.

– iLCD-NRMH [CAH10,CA11] : Nous avons int´egr´e les r´esultats iLCD-NRMH avec les param`etres de base conseill´es au chapitre 3.4.2.

Les r´esultats sont pr´esent´es dans la figure4.3, pour tous les r´eseaux.

Nous pouvons observer sur ces graphiques la grande diff´erence entre les r´esultats. On voit que certains algorithmes trouvent des solutions ayant une tr`es bonne s´eparation, mais une mauvaise densit´e interne, alors que d’autres proposent une solution o`u les communaut´es sont denses, mais mal s´epar´ees du reste du r´eseau. Les mˆemes algorithmes ont tendance `a fournir le mˆeme type de r´esultats sur tous les r´eseaux. Par exemple, CFinder aveck= 3 propose, dans tous ces exemples, une solution avec des communaut´es biens s´epar´ees, tandis que CFinder aveck= 5 trouve dans ces exemples des communaut´es avec une bonne densit´e interne.

Une premi`ere observation est que CFinder propose assez souvent des solutions qui ne sont pas sur le front de Pareto. Il semble donc que les solutions propos´ees par CFinder ne soient souvent pas les plus pertinentes.

Une deuxi`eme observation est le renversement de situation sur le r´eseau des personnages des Mis´erables. Dans ce cas, CFinder donne de bons r´esultats, et ce sont les algorithmes Louvain et InfoMap qui ne sont plus sur le front de Pareto. Lorsque l’on ´etudie les communaut´es trou-v´ees, on se rend effectivement compte que les r´esultats de Louvain et InfoMap ne sont pas tr`es intuitifs, comme cela sera illustr´e dans la figure4.9. Une explication probable est que ce r´eseau a une structure typique d’un r´eseau social complexe, et est en particulier caract´eris´e par du recouvrement. Les m´ethodes ne prenant pas en compte les appartenances multiples des nœuds sont donc d´efavoris´ees, et donnent de moins bons r´esultats.

La solution propos´ee par iLCD est souvent celle ayant la s´eparation entre communaut´es la 111

1010

Figure 4.3 – Comparaison de diff´erentes m´ethodes sur des graphes de terrain. Les nœuds en vert sont sur le front de Pareto, ceux en rouge n’y sont pas, c’est `a dire que sur le r´eseau ´etudi´e, il existe une solution dont les communaut´es sont plus denses et mieux s´epar´ee du reste du r´eseau.

4.1. Comparaison de communaut´es sur des r´eseaux de terrain dont les communaut´es sont inconnues plus faible mais, en contrepartie, les communaut´es les plus denses. Elle se trouve en tout cas sur le front de Pareto, car offrant une s´eparation des communaut´es meilleure que les cliques maxi-males, et une densit´e interne plus ´elev´ee que la plupart des autres solutions. On pourrait en fait rapprocher les communaut´es trouv´ees par iLCD des communaut´es cœurs propos´ees par certains auteurs, [SG12] par exemple, qui pointent du doigt l’instabilit´e, l’incertitude des communaut´es d´etect´ees par les algorithmes habituels . Les communaut´es d´etect´ees par iLCD sont en effet plus denses, et donc plus fiables que les communaut´es propos´ees par la plupart des algorithmes.

4.1.6 Visualisation de profils de communaut´es, pour une analyse d´etaill´ee

Dans le document The DART-Europe E-theses Portal (Page 123-128)