• Aucun résultat trouvé

Outils compl´ementaires

Dans le document The DART-Europe E-theses Portal (Page 130-135)

Chapitre 4 Validation des r´ esultats : qu’est-ce qu’une bonne communaut´ e ? 101

4.1.8 Outils compl´ementaires

Les deux outils pr´esent´es pr´ec´edemment permettent d’avoir un aper¸cu des r´esultats trouv´es par diff´erents algorithmes. Lorsque l’on s’int´eresse `a la d´etection de communaut´es sur des r´eseaux de terrain, il est souvent n´ecessaire d’avoir une id´ee du r´esultat fourni par les algorithmes. La repr´esentation visuelle est l’approche la plus simple pour se faire une id´ee.

Lorsque les r´eseaux contiennent peu de nœuds et de liens, nous pouvons utiliser une visuali-sation compl`ete du r´eseau, les nœuds ´etant color´es de mani`ere `a faire ressortir les communaut´es.

Cependant, d`es que le nombre de nœuds d´epasse quelques milliers, il devient difficile de trouver une visualisation convaincante. Pourtant, lorsque l’on souhaite, par exemple, comparer intuitivement les r´esultats fournis par deux algorithmes, ou tout simplement essayer d’´evaluer manuellement une solution, il est n´ecessaire d’avoir une visualisation. Certains travaux r´ecents [GPK12b] proposent d’utiliser une visualisation en 3 dimensions, ´eventuellement en faisant in-tervenir de la st´er´eoscopie, pour aider l’utilisateur `a mieux voir le r´eseau, et en particulier ses communaut´es. Cependant, dans le cas de r´eseaux de tr`es grande taille et dont les communaut´es sont tr`es complexes (en particulier, avec recouvrement), cette m´ethode n’est pas encore satisfai-sante.

Ne trouvant pas d’outils adapt´es `a une telle exploration pour les grands graphes, nous avons d´evelopp´e une application, int´egrant les deux outils pr´esent´es ci-dessus ainsi que d’autres vi-sualisations. Nous allons rapidement pr´esenter ces nouvelles visualisations dans cette section, ainsi que des exemples o`u leur utilisation peut nous aider `a appr´ehender les caract´eristiques de diff´erents d´ecoupages en communaut´es.

4.1.8.1 Distribution des nœuds par la taille de leurs communaut´es

Dans une publication pr´ec´edente, [NC10], nous avions montr´e que l’un des probl`emes de plusieurs algorithmes ´etait la pr´esence de «super-communaut´es», des communaut´es de trop grande taille non pertinentes. Il existe un probl`eme oppos´e, qui est celui de la pr´esence d’un grand nombre de nœuds sans communaut´es. Dans un algorithme comme CFinder, en effet, tout nœud doit appartenir `a au moins une clique de taille k pour appartenir `a une communaut´e.

Dans certains r´eseaux, de nombreux nœuds n’appartiennent `a aucune clique de taille sup´erieure ou ´egale `a 3, et resteront donc esseul´es. Nous avons donc d´evelopp´e un outil pour visualiser la proportion de nœuds affect´es par ces probl`emes.

Concr`etement, l’utilisateur d´efinit deux valeurs, correspondant aux tailles minimales et maxi-males des communaut´es qu’il souhaite trouver. Par exemple, il pourra d´ecider que des commu-naut´es de taille inf´erieure `a 3 ne seront pas pertinentes, de mˆeme que les communaut´es contenant plus de 100 nœuds. On peut observer le r´esultat obtenu pour les r´eseaux de synonymie sur la figure4.5.

Comme on peut le voir, selon les algorithmes, plus de la moiti´e des nœuds peuvent appar-tenir `a des communaut´es trop petites ou trop grandes (Il est bien entendu que la d´efinition de communaut´es trop grandes est ici purement arbitraire, et donn´ee `a des fins d’illustration).

4.1.8.2 Visualisation de la topologie interne des communaut´es

Cet outil tr`es simple est extrˆemement utile pour jauger la coh´esion interne des communaut´es.

Il s’agit tout simplement de proposer, pour chacune des communaut´es trouv´ees, une visualisation 115

Louvain1 Louvain2

Louvain3

iLCD

Figure4.5 – Distribution des nœuds par la taille des communaut´es auxquelles ils appartiennent.

On voit ici que la plupart des nœuds appartiennent `a des communaut´es de plus de 100 nœuds pour les algorithmes Louvain et CFinder avec k=3. Pour les autres valeurs de k et pour iLCD, de nombreux nœuds appartiennent `a des communaut´es de taille inf´erieure `a 4, ils sont en fait laiss´e seuls (sans communaut´es).

(a)Coh´esion interne : 0,5 (b)Coh´esion interne : 1 (c)Coh´esion interne : 2 (d)Coh´esion interne : 5

Figure 4.6 – Exemples de visualisation topologique de communaut´es, pour diff´erentes valeurs de coh´esion interne.

4.1. Comparaison de communaut´es sur des r´eseaux de terrain dont les communaut´es sont inconnues

(a)eseau ´egocentr´e du nœud ”tester” (b)eseau ´egocentr´e du nœud ”apprendre”

Figure 4.7 –Exemples de r´eseaux ´egocentr´es dans le r´eseau de synonymie.

de ses nœuds et de ses liens internes en utilisant un algorithme de positionnement classique de type masse ressort. Cet outil est particuli`erement pratique combin´e `a la visualisation introduite en 6.1 : chaque cercle correspondant `a une communaut´e peut ˆetre cliqu´e pour atteindre la visualisation de sa topologie interne. Cela permet de voir plus concr`etement ce que signifie une coh´esion interne faible ou ´elev´ee. Par exemple, la figure4.6pr´esente des communaut´es trouv´ees par l’algorithme InfoMap sur les r´eseaux de synonymie. Sur ces r´eseaux, on peut intuitivement se faire une id´ee de la pertinence ou non des communaut´es.

4.1.8.3 Visualisation du r´eseau ´egocentr´e des nœuds

Les r´eseaux ´egocentr´es sont couramment utilis´es dans l’´etude des r´eseaux sociaux, en parti-culier par les sociologues. Le r´eseau ´egocentr´e d’un nœud correspond `a ce nœud, ses voisins, les liens entre ce nœud et ses voisins, et les liens entre ses voisins.

Visualiser le r´eseau ´egocentr´e d’un nœud peut se r´ev´eler particuli`erement utile pour visualiser la pertinence d’un d´ecoupage en communaut´es. La Figure 4.7 pr´esente ce type de r´eseau pour deux nœuds issus du r´eseau de synonymie, avec l’algorithme InfoMap. A chaque communaut´e diff´erente est attribu´ee une couleur, et le r´eseau ´egocentr´e du nœud choisi est alors repr´esent´e, toujours en utilisant un positionnement masse-ressort [KK89]. Cela permet de se rendre compte si le nœud appartient bien `a la communaut´e paraissant la plus pertinente, ainsi que de la pr´esence ou non de plusieurs communaut´es auxquelles le nœud pourrait potentiellement appartenir.

Un aspect qui nous paraissait ´egalement int´eressant ´etait de pouvoir comparer les com-munaut´es trouv´ees sur le r´eseau ´egocentr´e d’un nœud selon des algorithmes de d´etection de communaut´es diff´erents. Pour ce faire, nous avons propos´e un outil permettant de les comparer simultan´ement en essayant de garantir une certaine uniformit´e de couleurs, ainsi qu’un posi-tionnement similaire des nœuds, afin de facilement reconnaˆıtre les communaut´es d´etect´ees de mani`ere identique par les diff´erents algorithmes. La similitude des couleurs se fait par un m´e-canisme tr`es simple : la plus grosse communaut´e est toujours repr´esent´ee de la mˆeme couleur, quelle que soit la solution. Il en est de mˆeme pour la seconde et la troisi`eme plus grande commu-naut´es, s’il y en a une. Si cela n’assure pas avec certitude que les communaut´es similaires seront 117

Louvain1

Figure 4.8 – R´eseau ´egocentr´e du nœud correspondant `a Gavroche, dans le r´eseau des Mi-s´erables. On observe que les 4 algorithmes ´etudi´es trouvent les mˆemes communaut´e principales (rouges et jaunes). En revanche, l’int´erˆet des communaut´es avec recouvrement est ´evident : Ga-vroche appartient clairement `a ces 2 communaut´es.

de la mˆeme couleur, dans les faits, cela semble efficace. Une solution bas´ee sur une similarit´e en terme de nœuds inclus dans les communaut´es serait tr`es complexe `a mettre en œuvre d`es que l’on aurait plus de deux solutions `a comparer.

La figure 4.8 donne un exemple int´eressant pour le personnage de Gavroche dans les mis´e-rables. On observe que pour les algorithmes sans recouvrement de communaut´es, l’attribution de ce personnage `a une seule communaut´e semble contre-intuitive. Au contraire, les algorithmes avec recouvrement (ici, iLCD et CFinder) proposent un r´esultat intuitivement coh´erent.

La figure 4.9montre ce mˆeme r´eseau pour Jean Valjean, le personnage principal du roman dont le r´eseau est issu. On peut observer que pour infoMap et Louvain, son attribution semble incoh´erente, la communaut´e choisie paraˆıt ˆetre la moins pertinente. Il s’agit d’une communaut´e en ´etoile, dont ce nœud est le centre, et contenant tous les nœuds qui n’appartiennent `a aucune autre communaut´e ´evidente. Au contraire, pour iLCD, on s’aper¸coit que l’on touche aux limites de la visualisation, ainsi qu’`a l’un des probl`emes de la d´etection de communaut´es avec recou-vrement : les nœuds peuvent appartenir `a de nombreuses communaut´es, ce qui rend ce type de r´esultat difficile `a exploiter.

4.1. Comparaison de communaut´es sur des r´eseaux de terrain dont les communaut´es sont inconnues

Louvain1

Figure4.9 – R´eseau ´egocentr´e du nœud correspondant `a Jean Valjean, dans le r´eseau des Mis´ e-rables. On voit ici les inconv´enients des diff´erentes m´ethodes. Sans recouvrement, pour Louvain et InfoMap, le personnage appartient `a une communaut´e qui ne parait pas ˆetre la plus perti-nente, une communaut´e en ´etoile dont il est le hub. Pour CFinder et surtout iLCD, le probl`eme est oppos´e, le nœud appartenant `a de nombreuses communaut´es, ce qui pose le probl`eme d’une complexit´e excessive du r´esultat, trop de recouvrement pouvant le rendre difficile `a traiter.

119

4.1.9 Bilan

Dans cette section, nous avons tout d’abord pr´esent´e une m´ethode, bas´ee sur deux m´etriques, permettant de comparer les r´esultats obtenus par diff´erentes algorithmes sur des r´eseaux de terrain. Ceci nous a permis de montrer que les communaut´es d´etect´ees par iLCD ´etaient int´e-ressantes compar´ees aux approches existantes. Bien qu’´etant dans la plupart des cas plus mal s´epar´ees du reste du r´eseau que les communaut´es classiques, elles sont en g´en´eral plus denses.

Le profil caract´eristique des communaut´es d’iLCD sont donc de petites communaut´es denses, avec un recouvrement qui peut ˆetre important. Les r´esultats sur le r´eseau des personnages des Mis´erables a montr´e la pertinence de telles communaut´es dans des r´eseaux avec un recouvrement important. Les autres outils pr´esent´es nous ont permis de montrer les grandes diff´erences qu’il peut y avoir entre des r´esultats produits par des algorithmes diff´erents, et de montrer les forces et faiblesses d’iLCD : s’il n’est pas gˆen´e par les communaut´es avec un fort recouvrement, le nombre de communaut´es diff´erentes peut conduire `a des r´esultats difficiles `a exploiter. De mˆeme qu’il existe une balance entre communaut´es peu denses et communaut´es mal s´epar´ees, il existe un compromis entre un r´esultat d´etaill´e et un r´esultat synth´etique plus facilement exploitable.

Dans le document The DART-Europe E-theses Portal (Page 130-135)