Résultats expérimentaux - Impact de l’équilibrage bi-stochastique sur la détection de communaut

1.3 Impact de l’équilibrage bi-stochastique sur la détection de communautés

1.3.2 Résultats expérimentaux

On observe maintenant les résultats de ces différentes mesures sur les deux bancs d’essais. D’abord, les résultats pour les mesures binaires NG, ZN, BM, DU et DI sont donnés Figure 1.15. Sur cette figure, on observe que NG, BM, DU et DI donnent des résultats extrêmement similaires en terme de NMI et de RC. Ces résultats sont même strictement identiques sur NGBenchmark, d’où le fait que seule NG soit représentée (si affichées, les courbes de BM, DI, et DU seraient confondues avec celle de NG). Les performances de ZN sont par contre sensiblement inférieures à celles des autres mesures, sur LFRBenchmark ainsi que sur NGBenchmark. On remarque en outre que ZN a tendance à sur-partitionner le graphe (id est retourner trop de classes) lorsque la structure en communautés devient moins nette, tandis que les autres mesures ont tendance à sous-partitionner – autrement dit, à fusionner des classes qui ne devraient pas l’être.

Si l’on observe maintenant les résultats des mesures pondérées donnés Figure 1.16, on observe de bonnes performances des critères NGP, CC_λ₃ et CC_λ₄. Les critères CC_λ₁ – en rouge –, CC_λ₂ – en bleu –, et ZNP – en marron –, ont une tendance au sous-

partitionnement qui ne leur permet pas d’être compétitifs. Cela est cohérent avec le fait que leur terme d’accord négatif est faible devant ceux de NGP, CC_λ₃ et CC_λ₄. Il est donc moins pénalisant pour ces critères de mettre en relation des éléments dans la structure creuse des réseaux. On remarque en outre que les critères de Zahn binaire et de Zahn pondéré ont des comportements opposés. En effet, le critère de Zahn sur les réseaux simples ne fusionne pas suffisamment les classes, et renvoie ainsi une structure contenant trop de communautés par rapport à ce qui est attendu.A contrario, le critère de Zahn appliqué aux réseaux doublement stochastiques renvoie une structure avec trop peu de communautés : ce critère a donc tendance à trop fusionner les classes.

Figure 1.15 : NMI et RC pour les 5 critères binaires, pour des graphes générés via LFRBenchmark à gauche, et via NGBenchmark à droite.

Remarque 11. Nous avons aussi testé un critère F_CC,1 qui n’est pas présenté sur les figures. Cette mesure, étant donné son fort terme d’accord négatif, ne permet pas d’approcher la structure en communautés des réseaux. Sa valeur de RC est autour de 4 sur LFRBenchmark, et entre 7 et 10 pour NGBenchmark.

Comparons maintenant les meilleures mesures parmi les binaires (NG, BM, DI et DU) et les meilleures mesures parmi les pondérées (NGP, CCλ3, et CCλ4). Les résultats sont affichés sur la Figure 1.17.

— Sur LFRBenchmark, il est clair que CC_λ₄ est meilleur que les autres critères pour la NMI et le RC. On peut aussi se rendre compte que la NMI de CCλ3 est légèrement inférieure à celle des autres mesures, de même que son RC est moins proche de 1. Par ailleurs, au regard de ces courbes, il n’est pas possible de statuer sur une éventuelle meilleure performance de tel ou tel critère entre BM, DI, DU, NG et NGP sur LFRBenchmark : si l’on zoome sur les courbes, on voit que chaque critère peut être tantôt au dessus, tantôt en dessous des autres.

— Sur NGBenchmark, CCλ4 est sensiblement inférieur aux autres critères. En outre, NG et NGP ont strictement les mêmes performances sur ce banc d’essai. Il est par contre difficile de comparer CC_λ₃ à NG et NGP : certes, son RC est meilleur, mais sa NMI est tantôt plus élevée, tantôt plus faible.

Figure 1.16 : NMI et RC pour les critères pondérés, sur LFRBenchmark (à gauche) et NGBenchmark (à droite).

Figure 1.17 : NMI et RC pour les meilleurs des critères parmi les booléens et les pondérés, sur les bancs d’essais LFRB (à gauche) et NGB (à droite).

Afin d’affiner la comparaison des performances de ces critères, nous allons observer deux nouvelles quantités construites sur la NMI et le RC, que nous noterons ^N M I et ∆RC. Nous les définissons ci-dessous.

Pour la NMI, en notant N M IF(µ = p × 0.03) la moyenne des NMI obtenues pour le critère F sur les 100 graphes associés au mixing parameter de valeur µ, nous construisons la quantité ^ N M IF(p × 0.03) = 1 p p X k=1 N M IF(k × 0.03)

Pour ∆_RC, nous travaillons aussi sur une moyenne cumulative. Cependant, ce qui nous intéresse dans RC lors de la comparaison de performances, c’est que cette valeur soit la plus proche de 1. Ainsi, c’est cet écart que nous allons considérer. En d’autres termes, en conservant les notations ci-dessus, on construit

∆F_RC(p × 0.03) = 1 p p X k=1 |1 − RCF(k × 0.03)|

où |.| représente la valeur absolue.

Puisque l’on veut comparer des critères, on choisit l’un d’entre eux – en l’occur- rence, nous choisissons NG – comme critère de référence. Sur la Figure 1.18, on affiche

N M IF(µ) − ^N M IN G(µ) en haut, et ∆N G_RC(µ) − ∆F_RC(µ) en bas, pour chaque valeur de

µ et pour F = BM, DU, DI, N GP sur LFRBenchmark, et F = CCλ3 sur NGBenchmark.

Pour ces deux nouvelles quantités, une valeur inférieure à 0 signifie que F est moins précise que N G, tandis qu’une valeur supérieure à 0 indique que les découpages en communautés retournés par F sont généralement meilleurs que ceux retournés par N G. Elles permettent d’avoir une idée de la tendance des critères plutôt que de s’intéresser à une comparaison point à point.

Cette figure permet de statuer que NGP est meilleure que NG, DI, DU et BM sur LFRBenchmark. Il est en outre assez net que DI présente de moins bonnes performances que les autres critères à partir de µ = 0.27. La comparaison des autres critères entre eux n’a pas beaucoup de sens, étant donné leur proximité.

Sur NGBenchmark, il est aussi compliqué de conclure. On peut cependant observer que CC_λ₃ a de meilleures performances que les critères NG et NGP (dont on rappelle qu’ils sont strictement équivalents en terme de performances) tant que µ ≤ 0.5.

Ainsi, les critères pondérés CC_λ₃ et NGP fournissent des résultats équivalents – sinon meilleurs – en terme de précision que les critères booléens sur les deux bancs d’essais que nous avons mis à l’épreuve. CC_λ₄ est le meilleur des critères sur LFRBenchmark, mais il

Figure 1.18 : Raffinage de la comparaison des performances de critères a priori indisso- ciables, sur LFRBenchmark (à gauche) et NGBenchmark (à droite).

est moins précis que NG=NGP sur NGBenchmark. Quant à CCλ3, il est moins précis sur NGBenchmark, et globalement équivalent à NG=NGP sur NGBenchmark.

Il reste cependant à s’assurer que ces bons résultats ne se font pas au détriment de la convergence de l’algorithme de Louvain. Pour ce faire, la Figure 1.19 indique, la moyenne sur les 100 graphes du nombre de fois où tous les (méta-)noeuds sont parcourus par l’algorithme. Les résultats obtenus sur LFRBenchmark sont à gauche, ceux obtenus sur NGBenchmark sont à droite. Les figures du haut correspondent aux nombres des itérations pour les meilleurs critères binaires (NG,BM,DI,DU), et les figures du bas, aux nombres des itérations pour les meilleurs critères pondérés (NGP, CC_λ₃, CC_λ₄). Pour les critères pondérés, on affiche aussi le nombre d’itérations effectuées pour NG sur les réseaux binaires, à titre de comparaison.

Sur ces figures, on observe plusieurs choses :

— Sur NGBenchmark, les critères NG, BM, DI, DU et NGP ont le même nombre d’itérations, pour tous les µ. Puisqu’ils ont aussi des performances strictement équivalentes, on pense que l’algorithme se déroule de la même façon pour ces cinq critères sur ce banc d’essais.

— Sur LFRBenchmark, les critères ont besoin d’un nombre équivalent d’itérations pour que l’algorithme converge, à l’exception de CCλ4 qui devient un peu plus rapide que les autres à mesure que la structure en communautés du graphes devient plus floue.

— Cette remarque reste vraie sur NGBenchmark. En revanche on remarque aussi que si la structure du réseau est nette, CCλ4 a besoin de plus d’itérations que les autres critères pour atteindre la convergence. Ainsi, pour ce critère, un nombre moins important d’itérations dans le cas d’une structure en communautés mal définie se fait au détriment d’un plus grand nombre d’itérations quand la structure en communautés est forte.

— Sur LFRBenchmark, DU est systématiquement légèrement plus rapide que les autres critères booléens.

— CC_λ₃ a un comportement opposé à celui de CC_λ₄ en terme de nombre d’itérations, à savoir qu’il converge plus rapidement que les autres critères pour des valeurs de µ faibles, et plus lentement quand µ devient grand. Cependant, le comportement de CC_λ₃ est moins marqué que celui de CC_λ₄, et se rapproche plus de celui de NG et NGP.

Figure 1.19 : Nombre de parcours des (méta-)noeuds pour parvenir à la convergence, sur LFRBenchmark (à gauche) et NGBenchmark (à droite).

Sur la Figure 1.19, on remarque que, dans l’ensemble, le nombre d’itérations reste du même ordre de grandeur pour tous les critères, et que le comportement global est le même, à savoir :

— Sur NGBenchmark, le nombre d’itérations croît jusqu’à une valeur de µ ∈ [0.4, 0.5], puis ce nombre stagne à mesure que µ croît.

— Sur LFRBenchmark, le nombre d’itération stagne jusqu’à une valeur de µ ∈ [0.4, 0.5], avant de croître à mesure que µ croît.

Dans le document Équilibrage bi-stochastique des matrices pour la détection de structures par blocs et applications (Page 96-102)