• Aucun résultat trouvé

2.3 Détection de communautés dans les graphes

2.3.3 Critères d’évaluation

2.3.3.1 Critères d’évaluation interne

La détection de communautés dans les graphes ayant été très largement traitée sous l’angle d’un problème d’optimisation, l’éventail des critères d’évaluation interne recouvre celui des critères d’optimisation détaillés dans la section 2.3.

D’autres critères d’évaluation de structures de communauté peuvent cependant être mis en œuvre parmi lesquels on peut citer la couverture, la conductance, la per-formance ou le coefficient de clustering décrits ci-après.

La couverture

La couverture est la proportion de la somme des valuations des d’arêtes intra-communautaires par rapport aux valuations totales des arêtes de V , c’est-à-dire M (Almeida et al., 2011) :

couverture(P) = ψ(P)

M (2.40)

où ψ(P) désigne la somme des valuations des arêtes intracommunautaires, c’est-à-dire dont les deux extrémités appartiennent à la même classe :

ψ(P) = 1 2 rk=1 Av,v′; v, v ∈ Ck (2.41)

La couverture prend sa valeur entre 0 et 1. Comme c’est une mesure qui trouve son maximum dans la partition grossière, elle ne pourra être utilisée que dans la com-paraison de deux partitions pour lesquelles le nombre de classes est identique. C’est la raison pour laquelle il nous faut introduire maintenant des mesures qui prennent également en compte le nombre d’arêtes qui se trouvent sur la frontière entre deux communautés, les arêtes interclasses.

La conductance

La conductance, également appelée métrique de la coupure normalisée, pour une classe, mesure le taux de valuations d’arêtes qui pointent à l’extérieur de la classe, à la classe ou à son complément, selon quel côté de la coupure la somme des valuations des arêtes est la moins importante (Leskovec et al., 2008). En effet, ce critère a d’abord été conçu pour évaluer la qualité d’une coupure, qui consiste en la scission des sommets d’un graphe en deux parties. La conductance d’une classeC est donc définie par :

conductance(C) =  u∈Cv /∈CAu,v min u∈Cv∈V Au,v, u /∈Cv∈V Au,v  (2.42)

À partir de cette mesure, on définit la conductance du graphe comme la plus petite des conductances de chacune des classes :

conductance(G) = minCk∈P(conductance(Ck)) (2.43) Ainsi, une classe avec une conductance forte est une classe qui est dense en arêtes et faiblement liée avec les autres classes. Un graphe avec une conductance forte a toutes ses classes denses et faiblement liées entre elles.

La performance

Par souci de simplification, nous décrivons la mesure sur un graphe non valué, bien qu’une version valuée de celle-ci ait été définie (Brandes et al., 2007).

La performance consiste à ajouter le nombre d’arêtes internes aux communautés au nombre d’arêtes intercommunautaires qui n’existent pas, et à diviser la somme par le nombre total d’arêtes possibles du graphe, soit 12N (N − 1) (Van Dongen, 2000).

Soit|Eintra| le nombre d’arêtes intraclasses, soit |Einter| le nombre d’arêtes inter-classes qui n’existent pas dans le graphe :

|Einter| = Ck∈PCl∈P,k>l  v, v /∈ E|v ∈ Ck, v ∈ Cl   (2.44)

Alors la performance est définie par :

perf ormance(C) = |Eintra| + |Einter| 1

2N (N − 1) (2.45)

La performance prend sa valeur entre 0 et 1, une valeur élevée décrivant une classe à la fois dense et peu liée avec d’autres classes.

2.3. Détection de communautés dans les graphes 65 éparses, dans lesquels le terme |Einter| dominera largement dans le score (Almeida et al., 2011).

Coefficient de clustering

Le coefficient de clustering a été défini par Watts et Strogatz (Watts et Strogatz, 1998). Soit un sommetv, ayant deg(v) voisins. Alors au plus deg(v)(deg(v)− 1) arêtes peuvent exister entre eux. Le coefficient de clusteringCC(v) du sommet v est défini par la proportion des arêtes qui pourraient exister mais n’existent pas dans le voisi-nage dev, par rapport à l’ensemble des arêtes qui pourraient exister. Le coefficient de clusteringCC(G) du graphe G est défini par la moyenne des coefficients de clustering des sommets qui le composent :

CC(G) = 1 N

v∈V

CC(v) (2.46)

Comparaison des critères internes de qualité d’une partition des sommets Le comparatif de Yang et al. souligne l’intérêt de la conductance mais également la pertinence du coefficient de clustering pour mesurer la structure de communauté (Yang et Leskovec, 2012).

Almeida propose aussi un panorama argumenté des différents critères d’optimisa-tion que sont la modularité, l’indice de Silhouette, la couverture, la performance et la conductance (Almeida et al., 2011). La conclusion de ces travaux est que la modula-rité, la conductance et la couverture tendent à donner de meilleurs résultats quand le nombre de classes est faible, tandis que la performance et l’indice de Silhouette privilégient eux de petites communautés.

Leskovec et al. proposent une comparaison empirique de différentes méthodes de classification des sommets d’un graphe (Leskovec et al., 2010). Ils soulignent le fait que l’optimisation agressive d’un critère comme la conductance peut mener à des communautés trop nombreuses, tandis qu’une optimisation approximative du critère mène à des résultats plus intuitifs.

On pourra également consulter l’étude d’Artignan qui vise à montrer la proximité des résultats de différents algorithmes sur ces différents critères (Artignan et Hascoët, 2011).

On conclura qu’il n’y a pas aujourd’hui de consensus sur une mesure de qualité qui surpasserait toutes les autres. Ainsi, si on ne prend que l’indice de Silhouette et la modularité, ces deux mesures répondent à des intuitions différentes pour lesquelles il est difficile juger si l’une est supérieure à l’autre.

2.3.3.2 Critères externes d’évaluation

Le but du processus de classification étant de produire une partition, les critères externes d’évaluation sont identiques à ceux décrits pour la classification de données non supervisée.

Cependant, des extensions des mesures généralistes dédiées à des domaines d’ap-plication existent. C’est par exemple le cas de la mesure proposée par Labatut qui pondère l’influence de la mauvaise classification d’un sommet dans l’indice de pureté par une notion d’importance du sommet (Labatut, 2012). La notion d’importance du sommet est choisie de manière à refléter le fait que le sommet est au cœur de sa com-munauté. Ainsi, un sommet mal classé pénalisera d’autant plus le critère de pureté modifié qu’il est central à une communauté, tandis que les sommets périphériques apporteront une pénalité plus faible.

2.3.4 Conclusion

La détection de communautés dans les graphes est une tâche qui a donné lieu à de nombreux travaux. Si la comparaison entre les méthodes est toujours d’actualité, il faudra cependant choisir entre différents paradigmes dans la définition d’une partition de bonne qualité. Ainsi, la modularité de Newman et la coupure minimale, si elles produisent des résultats différents, devront-elles être choisies selon les besoins de la tâche à effectuer. La première montrera tout son intérêt quand le nombre de classes à produire est inconnu. La seconde permet de produire des résultats hiérarchisés.

On peut voir qu’historiquement les heuristiques et les critères d’optimisation ont évolué en parallèle. Les critères apparaissent comme toujours susceptibles d’être em-ployés dans des algorithmes plus performants et les algorithmes semblent adaptables à de nouveaux critères, bien que certaines combinaisons entre critères et algorithmes sont apparues plus pertinentes ou plus simples à mettre en œuvre.

2.4 Détection de communautés dans les réseaux