Réseau de référence (réseau R) - Méthode 2Mod-Louvain

4.3 Méthode 2Mod-Louvain

4.4.1 Réseau de référence (réseau R)

C̸=A\{u},B∪{u}  v,v′∈C  I(V, v) · I(V, v′) 2N · I(V ) ^{− D}^vv^′    (4.65) = ¹ N· I(V )  v∈B  I(V, u) · I(V, v) 2N · I(V ) ^{− D}^uv  − ¹ N· I(V )  v∈A\{u}  I(V, u) · I(V, v) 2N· I(V ) ^{− D}^uv  (4.66)

De plus, on peut remarquer que la variation de modularité induit par la suppres-sion de u de sa classe d’origine sera la même quelque soit sa classe d’affectation. Par conséquent le calcul de variation de modularité peut être effectué en considérant uniquement la différence induite par l’insertion deu dans sa nouvelle communauté d’affectation, décrite par le premier terme de l’équation 4.66.

Ces calculs nous permettent de montrer que notre critère bénéficie lui aussi de la possibilité d’être calculé de façon incrémentale. Le gain de modularité basée sur l’inertie repose uniquement sur des informations locales relatives au sommet déplacé et à sa distance avec les autres sommets.

4.4 Évaluation de la méthode 2Mod-Louvain sur des réseaux

artificiels

On propose, comme on l’a fait pour ToTeM dans la section 3.7, d’évaluer la mé-thode 2Mod-Louvain qui optimise le critère globalQQ+basé à la fois sur la modularité de Newman et Girvan et la modularité par rapport à l’inertie. Dans un premier temps, nous étudions la robustesse de la méthode sur des réseaux artificiels vis-à-vis d’une dégradation de la structure de communautés définie par rapport aux relations, ou des classes définies par rapport aux attributs, ou encore d’une augmentation de la taille du réseau d’information ou d’une variation de la densité des liens.

L’évaluation sera faite selon une vérité externe en fonction des critères de NMI, d’ARI, d’AMI, de nombre de classes et, quand c’est possible, de taux de bien classés qui ont été définis dans la section 2.2.3.2. On notera que les évolutions du réseau ont été opérées ici indépendament de celles évoquées dans le chapitre précédent, ce qui explique des résultats différents pour les méthodes de Louvain et des K-means.

4.4.1 Réseau de référence (réseau R)

On utilise, de même que dans la section 3.7.1 dédiée à l’évaluation de la mé-thode ToTeM, un réseau de référence R qui comporte 3 classes composées chacune de

Classe 1 Classe 2 Classe 3

Classe 1 55

Classe 2 2 53

Classe 3 1 7 50

TABLE4.6 – Répartition des extrémités des liens du graphe R

0 2 4 6 8 10 12 14 ---10 0 10 20 30 40 50 60 70 80 No m br e de som m et s Valeurs d'attributs

FIGURE4.2 – Distribution des valeurs de l’attribut des sommets de R par classe

33 sommets. Chaque sommet est décrit par une valeur réelle. Nous considérons les mêmes paramètres de génération de ce réseau. Les attributs suivent une loi normale d’écart-type 7, centrée autour d’une valeur propre à sa classe d’origine. Ainsi la pre-mière classe a un centre de 10, la deuxième un centre de 40 et la troisième un centre de 70. La classe d’origine du sommet sert de vérité terrain pour l’évaluation. Enfin, durant la génération du réseau de référence, nous avons fait en sorte que le calcul précédent de génération des arêtes crée au maximum deux arêtes à chaque fois qu’un nouveau sommet est introduit.

Le réseau R, qui servira de référence, est représenté dans la figure 4.3a.

Il comporte 99 sommets et 168 arêtes. La table 4.6 montre la répartition des arêtes entre les classes dans le graphe R.

La distribution des valeurs de l’attribut attaché aux sommets de chaque classe est présentée dans la figure 4.2. La figure 4.3a illustre le graphe, issu du modèle, qui nous servira de référence.

4.4. Évaluation sur des réseaux artificiels 141

(a) Classes de la vérité terrain (b) Application de 2Mod-Louvain

la méthode de Louvain (d) Application des K-means FIGURE4.3 – Partitions du

Application de la méthode de Louvain

La visualisation du résultat de l’application de la méthode de Louvain sur le réseau de référence est présentée dans la figure 4.3c. La matrice de coïncidence associée est présentée dans le tableau 4.7.

Classes prédites→ Classe 1 Classe 2 Classe 3 Classe 4 Classes réelles↓

Classe 1 32 1

Classe 2 30 2 1

Classe 3 21 12

TABLE4.7 – Matrice de coïncidence associée à l’application de la méthode de Louvain qui produit 4 classes sur le réseau de référence R

Le taux de sommets bien classé s’élève à 84%. Le score de NMI est de 0,78.

La méthode de Louvain considère uniquement les données relationnelles. On constate que les classes réelles sont bien identifiées, mais la troisième est scindée en deux. 21 sommets sont affectés à l’une des classes prédites et 12 à une autre.

Application des K-means

Les résultats des K-means sur le réseau de référence sont présentés dans le ta-bleau 4.8 et illustrés par la figure 4.3d.

Classes prédites→ Classe 1 Classe 2 Classe 3 Classes réelles↓

Classe 1 31 2

Classe 2 2 31

Classe 3 33

TABLE4.8 – Matrice de coïncidence du réseau de référence R.1.1 issue de l’application des K-means

Le taux de bien classés est de 96%. La NMI est de 0,86. On constate que les K-means obtiennent donc sur cette tâche un bon résultat mais rappelons que cet algo-rithme nécessite un paramétrage correspondant au nombre de classes à produire. Application de 2Mod-Louvain

Les résultats de 2Mod-Louvain sur le réseau de référence sont présentés dans le tableau 4.9 et illustrés par la figure 4.3b.

4.4. Évaluation sur des réseaux artificiels 143 Classes prédites→ Classe 1 Classe 2 Classe 3

Classes réelles↓

Classe 1 33

Classe 2 31 2

Classe 3 33

TABLE4.9 – Matrice de coïncidence du réseau de référence R issue de l’application de 2Mod-Louvain

Le taux de bien classés s’élève à 98%. La NMI est de 0,93. On constate que sur ce jeu posant a priori peu de difficultés, la combinaison des informations est déjà bénéfique puisqu’elle permet en particulier de corriger la scission d’une classe par la méthode de Louvain.

4.4.2 Dégradation de l’information relationnelle (réseaux R.1.1 et R.1.2)

Dans le document Détection de communautés dans les réseaux d'information utilisant liens et attributs (Page 140-144)