Les algorithmes de classification hiérarchique

Les réseaux sociaux sont caractérisés par leur capacité de présenter une structure hié-rarchique avec des communautés plus petites incluses dans des communautés plus grandes. Ceci fait justifie un groupe spécial d’algorithmes appelés algorithmes de détection de com-munauté hiérarchique qui peuvent révéler la hiérarchie des comcom-munautés dans les réseaux sociaux. Les algorithmes de classification hiérarchique sont utilisés afin de regrouper les noeuds d’un réseau dans des communautés diverses de manière que les noeuds d’une même communauté soient semblables le plus possible, alors que ceux appartenant à des commu-nautés différentes soient distinctes les uns des autres. Nous pouvons ainsi distinguer les algorithmes ascendants (algorithmes agglomératifs) et les algorithmes descendants (algo-rithmes divisifs)(Xi et al., 2016, i et al., 2016).

• Algorithmes agglomératifs

Au début de l’application des algorithmes agglomératifs, chaque noeud du graphe re-présente une communauté. En fin, nous avons initialement n communautés (où n est le nombre de noeuds).Ensuite, les distances séparant les communautés sont calculées. Les deux communautés les plus proches sont ultérieurement fusionnées pour construire une nouvelle communauté. Toutes les distances entre les communautés sont calculées et deux communautés sont fusionnées à chaque étape. Le processus de calcul s’arrête s’il y a une seule communauté représentant le tout graphe.

L’algorithme Walktrap (Pons and Latapy, 2006, ons and Latapy, 2006) est un d’algo-rithme agglomératif qui emploie les caractéristiques des marches aléatoires afin de définir une notion de distance entre les noeuds. Une partition Pi = {{vi}, vi ∈ V, i = 1...n}

du graphe G, représentant n communautés, est considérée dans cet algorithme. En fait, chaque communauté comprend seulement un noeud. Toutes les distances séparant les n communautés sont initialement calculées. Subséquemment, les étapes suivantes sont répé-tées jusqu’à la création d’une seule communauté :

— Etape 1 : consiste à choisir les deux communautés C1 et C2 appartenant à la partition Pk et séparées par une distance minimale. En fait, cette distance mesure un poids Pi(i, j), représentant la probabilité qu’une marche aléatoire aille de i à j en t étapes, pour chaque paire de sommets (i,j). La distance sur les paires de noeuds est calculée comme suit :

distt(i, j) = v u u t X v∈V^{|wt(v,i),wt(v,j)|2} kv (2.9)

— Étape 2 : il s’agit du fusionnement de deux communautés en une seule C₃= C₁∪C₂ et la création d’un nouveau partitionnement P k + 1 = (P k\{C1, C2}) ∪ {C3}. — Étape 3 : dans cette étape, les distances entre les communautés sont calculées et

on retourne à l’étape 1.

Après n − 1 itérations, l’algorithme a comme partition Pn = {V } représentant le graphe entier. Cet algorithme est basé sur l’application d’une stratégie de partitionnement hié-rarchique par le fusionnement des communautés à faible distance. Le problème le plus important ici est de sélectionner la bonne structure de communautés pendant les itéra-tions.

L’algorithme (Zhou et al., 2018, hou et al., 2018) utilise la modularité de Newman (Newman, 2006b, ewman, 2006b) afin de construire des communautés finales.

La complexité de Walktrap est de O(nmH) où m désigne le nombre des liens, n est le nombre des noeuds et H dénote la hauteur du dendrogramme. Si les sommets sont fusionnés successivement, H abouti son maximum et vaut n-1. En fait, la majeure limite de cet algorithme est le paramètre t représentant le nombre des pas ou des liens séparant les noeuds.

La distinction entre Walktrap algorithme et les autres approches agglomératives (Xi et al., 2016, i et al., 2016)(Bedi and Sharma, 2016, edi and Sharma, 2016) est faite au niveau du choix des communautés fusionnées à chaque itération.

- Les techniques de regroupement par liaisons simples sélectionnent à chaque itération les deux communautés ayant le plus petit élément xij de la matrice de similarité X, telles que le sommet i est dans une communauté et le sommet j dans l’autre communauté.

- Les techniques de regroupement complet des liens sont basées sur la procédure opposée. En fait, elle sélectionne, à chaque itération, l’élément maximum xij de X et fusionne les communautés de sommets i et j . La technique de clustering par couplage moyen est utilisée pour calculer la moyenne de toutes les valeurs de similarité.

— Algorithmes divisifs

com-munautés en supprimant itérativement les liens entre les noeuds. Au début, de l’exécution de cet algorithme une seule communauté (le réseau entier), en haut du dendrogramme, est considérée jusqu’à obtenir n communautés à un seul noeud montrant les feuilles du dendrogramme. Tout réseau connexe est considéré, dans chaque itération, comme une communauté. Les techniques introduites peuvent être distinguées selon le choix des liens à supprimer et selon les poids accordés ) ces liens. L’algorithme de division le plus ap-pliqué est celui de Girvan et Newman (Girvan and Newman, 2002, irvan and Newman, 2002)(Newman and Girvan, 2004, ewman and Girvan, 2004). Il contient quatre étapes principales :

1- Calcul des EBC pour tous les liens du graphe. 2- Suppression du lien le plus intermédiaire.

3- Re-calcul des EBC de tous les liens restants.

4- Répétitions des étapes 2 et 3 jusqu’à la suppression de tous les liens.

La technique Edge Betweenness débute par une seule communauté C comprenant tous les noeuds du graphe. Des nouvelles communautés C₁ et C₂ avec C=C₁∪ C₂ sont crées après chaque itération et s’il existe un nouveau sous-graphe qui n’est pas connexe au graphe initial. Cette procédure se répète jusqu’à que les feuilles du dendrogramme constituées par n communautés sont obtenues.

Les résultats fournis par cet algorithme montrent son efficacité pour la détection des communautés. Néanmoins, il est caractérisé par un temps de calcul très élevé. L’étape de calcul des degrés d’intermédiarité est aussi trop lente. Ajoutons à cela qu’elle est exécutée à chaque itération.

L’algorithme ’Edge Betweenness’ est défini par une complexité de l’ordre de O(m2.n) où m correspond au nombre des liens et n représente le nombre des noeuds (Newman and Girvan, 2004, ewman and Girvan, 2004). Pour résoudre ce problème, des mesures presque similaires au degré de centralité d’intermédiarité locales et qui se calculent vite ont été suggérées par de nombreux algorithmes (Lancichinetti and Fortunato, 2011, ancichinetti and Fortunato, 2011)(Aynaud et al., 2011, ynaud et al., 2011). Ceci dit, ce processus reste un peu lent.

Radicchi et al.(Radicchi et al., 2004, adicchi et al., 2004) ont suggéré un algorithme identique à celui proposé par Girvan et Newman(Newman and Girvan, 2004, ewman and Girvan, 2004). La seule différence réside dans le fait que le premier emploie le concept d’un coefficient de groupement d’arêtes plutôt qu’un concept d’arête entre deux nuances. L’algorithme de Girvan et Newman supprime, à chaque itération, le lien ayant la plus haute valeur, tandis que celui de Radicchi et al. supprime le lien ayant le coefficient de regroupement des liens le plus bas. En fait, le coefficient de groupement de lien {i, j} est obtenu comme suit :

C_i,j^g =^Z g i,j

où Z_i,j^g est le nombre de cycles de longueur g que le lien i,j fait partie, et S_i,j^g est le nombre maximum possible de cycles de longueur g que le lien i,j peut faire partie.

La majeure faiblesse de l’algorithme ascendant c’est qu’il est efficace seulement si appliqué dans les petits et non pas dans les grands groupes (Yang et al., 2016, ang et al., 2016). De plus, l’efficience de calcul, la robustesse et l’application simple de l’approche de clas-sification hiérarchique divisive ont été prouvées dans plusieurs études (Chowdhary, 2017, howdhary, 2017).

Malgré que plusieurs algorithmes de détection de communauté hiérarchique aient été développés, de nombreux problèmes sont encore non résolus. Pour ce qui concerne les ré-seaux à grande échelle, par exemple, l’efficacité de la plupart des algorithmes proposés est faible et leur complexité temporelle est élevée. En conséquence, les algorithmes hiérar-chiques appliqués pour la détection des communautés avec une qualité élevée permettent de construire des réseaux de petite ou moyenne taille, mais leur application efficace dans les grands réseaux demeure impossible à cause de leur grande complexité (Chowdhary, 2017, howdhary, 2017) (Xi et al., 2016, i et al., 2016). Une autre limite des approches de regroupement hiérarchique réside dans le fait qu’elles ne donnent aucune importance aux petites communautés qui font être fusionnées avec les plus grandes. Ce problème est nommé "la limite de résolution" (?, ?). Malgré que les méthodes descendantes soient effi-caces pour la détection de grandes communautés, ces techniques ne sont pas prometteuses pour la détection des partitions plus petites. On peut conclure, par conséquent, qu’une division satisfaisante ne peut jamais être obtenue par la méthode hiérarchique (Herrmann et al., 2016, errmann et al., 2016).

Dans le document Opinions Mining from Posters’ Users in Social Networks (Page 54-57)