Conclusion portant sur les propositions li´ ees au parall´ elisme et la

au parall´elisme et la distribution

Dans ce chapitre, nous avons décrit une implantation informatique possible parallèle et distribuée de la propagation de labels avec cœurs. Pour résoudre le problème de la propagation de labels asynchrone, nous avons proposé d’uti-liser le principe de coloration, où des groupes de nœuds changent leurs labels en même temps suivant la propagation de labels habituelle, alors que d’autres attendent leur tour.

En utilisant comme critère la modularité, les expérimentations ont montré de meilleurs résultats en termes de qualité de partitionnement par rapport aux méthodes à base de propagation de labels comme le LPA, mais cependant moins bons que pour la méthode de Louvain.

La méthode proposée est relativement lente. Le temps d’exécution, que ce soit pour DBLP, You Tube ou live Journal peut nécessiter plusieurs heures. Le nombre de couleurs joue un rôle majeur sur le temps d’exécution. Par exemple, nous avons trouvé 24 couleurs sur le graphe d’Amazon alors que 6 couleurs représentent 86.52% des nœuds du graphe. Certaines couleurs ne représentent quant-à-elles que 0.0003% du total des nœuds du graphe, soit une dizaine de nœuds. Appliquer Par-CDLP sur un aussi petit groupe de nœuds requiert un temps très important. Ce constat fut établi pour tous les grands graphes qui furent utilisés pour les expérimentations. De plus, l’écriture sur disque des données requiert un temps qui peut être très important.

Nous étudions actuellement un moyen de réduire le temps d’exécution, comme fusionner des groupes de nœuds de couleurs différentes au risque de détériorer la qualité de partitionnement. Cette implémentation pourrait également être utile pour une version parallèle et distribuée destinée au chevauchement. Nous ´

etudions ´egalement une version en m´emoire RAM, notamment en utilisant Apache Spark.

Chapitre 5

Conclusion

Sommaire

5.1 Contributions algorithmiques . . . 188 5.2 Perspectives . . . 189

Dans cette thèse, nous nous sommes intéressés aux problèmes de détections de communautés disjointes et chevauchantes, et à la scalabilité de nos méthodes en proposant une version Hadoop pour la propagation de labels avec détection de cœurs.

Le premier chapitre a permis de décrire trois grandes classes d’algorithmes en détection de communautés disjointes : les méthodes globales, locales et hybrides. Il a été observé que les méthodes locales, c’est-à-dire dont le point de départ est atomique (par le nœud), permettaient de traˆıter de plus grands graphes que les méthodes globales, ou encore divisives. La propagation de labels est une méthode locale, qui a l’avantage d’être rapide et applicable à des graphes de plusieurs millions de nœuds et d’arêtes mais elle présente certains inconvénients, à savoir de mauvaises propagations qui peuvent donner des communautés géantes, une forte instabilité due au non déterminisme de l’algorithme et l’impossibilité de trouver des communautés chevauchantes. C’est en ce sens que notre première contribution fut i) de proposer une version améliorée de la propagation de labels en y incluant une stabilisation par recherche de cœurs et la mise en place de bar-rages artificiels pour éviter de mauvaises propagations. La seconde contribution ii) fut d’améliorer la méthode précédente pour le chevauchement en y incluant une fonction d’appartenance permettant de détecter des nœuds pouvant ap-partenir à plusieurs communautés. Plusieurs fonctions d’appartenance fondées sur la densité et le cœfficient de clustering sont proposées en vue d’une étude comparative. Enfin, nous avons proposé iii) une implémentation MapReduce de notre propagation de labels pour travailler sur de plus grands graphes ayant au moins plusieurs millions de nœuds et d’arêtes. La propagation de labels dans sa forme asynchrone présenta une difficulté pour le parallélisme à laquelle nous

avons r´epondu.

5.1 Contributions algorithmiques

Pour répondre à la problématique de détection de communautés disjointes, et remédier aux problèmes de la propagations de labels, nous avons proposé la propagation de labels avec barrages qui a montré des résultats encourageants en termes de qualité de partionnement sur des graphes sociaux.

Nous avons proposé deux versions fondées sur la détection de cœurs et sur des matrices de fréquence. La première méthode était fondée sur la création de plusieurs matrices de fréquence alimentées avec différents niveaux de bar-rages. La seconde méthode consiste à alimenter une seule matrice de fréquence mais avec différents niveaux de barrages. La première méthode nécessite l’in-tervention d’une mesure de qualité pour savoir quelle matrice serait capable de donner le meilleur partitionnement. La seconde méthode, notée PLBS, nécessite de donner un intervalle sur lequel les propagations de labels avec différents ni-veaux de barrages alimenteraient la matrice de fréquence. Les résultats pour la simple propagation de labels avec barrages ont montré que le fait de mettre des barrages artificiels pouvait améliorer la qualité de partitionnement comme sur le réseau footballistique. Cependant, il y certains cas où la mise en place de barrages semble inutile, comme le cas du réseau de collaboration scientifique où les communautés sont déjà bien définies. Concernant les méthodes de détection par cœurs, PLBS montre des résultats très satisfaisants, notamment en alimen-tant la la matrice de co-fréquence de 0 à 30 % de barrages. En alimentant une matrice de co-fréquence par différents niveaux de labels, le système assure que les nœuds avec une forte probabilité d’être ensemble auront une valeur élevée au sein de la matrice. Si le nombre de barrages est trop grand, le risque est d’obtenir dans le pire des cas un nœud correspondant à une communauté, ce qui est équivalent à ce que la diagonale de la matrice de co-occurence ne soit pas vide. Cependant, la diagonale n’est pas prise en compte pour la création des composantes connexes (ce qui est un avantage de la solution). On souhaiterait néanmoins trouver un intervalle pour améliorer le partitionnement avec un cer-tain pas et ne pas détériorer la qualité de partionnement.

Nous nous sommes également focalisés sur l’ordre de visite des nœuds lors du processus par propagation de labels. Les expérimentations ont montré que l’ordre avait une incidence à la fois sur la stabilisation et sur la qualité de par-titionnement.

Pour répondre à la problématique de détection de communautés chevau-chantes, nous avons voulu améliorer notre algorithme basique de détection de cœurs par propagation de labels en utilisant à la fois l’information topologique sur les structures communautaires et l’information sur les arêtes, notamment

celle concernant la pondération du graphe par utilisation de la matrice de fréquence. Les fonctions d’appartenances fondées sur la centralité de nœuds et sur le cœfficient de clustering ont montré des résultats satisfaisants en matière de qualité. L’une des forces des méthodes proposées est que l’algorithme per-met de répliquer certains nœuds dans des communautés différentes autant de fois que nécessaire, c’est-à-dire qu’un nœud peut appartenir à une ou plusieurs communautés suivant la fonction utilisée. Mais cela nécessite, pour un nœud candidat au chevauchement, de tester toutes les combinaisons avec les commu-nautés qui lui sont liées. Cela a pour conséquence une augmentation du temps d’exécution du programme informatique, notamment lorsqu’il y a beaucoup de communautés autour d’un nœud. Ainsi, nous avons pu observer, dans notre implémentation, que si un nœud était lié à beaucoup de communautés, la taille du vecteur comprenant toutes les combinaisons pouvait devenir gigantesque et ralentir l’exécution informatique. Nous proposons de ne pas considérer toutes les possibilités mais d’effectuer une procédure d’échantillonnage. L’objectif étant, à court terme, de pouvoir exploiter cette solution pour de grands graphes. Nous travaillons également sur d’autres mesures sociales en vue de faire une étude comparative.

Pour répondre à la problématique des grands graphes, nous avons développé une base pour la propagation de labels semi-synchrones à base de cœurs. Notre méthode est fondée sur une coloration de graphe, qui sera utilisée pour effec-tuer la propagation de label semi-synchrone pour la détection de cœurs. Cette méthode permet l’élaboration d’un dendrogramme. Notre modélisation Hadoop pour la détection de communautés a montré des résultats en termes de qua-lité de partitionnement encourageants. Cependant, le temps d’exécution reste trop important. Nos observations ont montré que la coloration sur les nœuds du graphe ne suivait pas une loi uniforme. Un nombre réduit de couleurs couvre la majeure partie du réseau alors que la majorité des couleurs ne couvre qu’une infime partie du réseau. Cela a pour conséquence que notre méthode prendra la majeure partie du temps à la mise à jour de labels d’un faible nombre de nœuds. Pour remédier à ce problème, nous avons déjà fusionné des couleurs de telle sorte qu’il n’existe pas de connexions entre les nœuds de ces couleurs, ce qui a pu réduire le temps d’exécution. Une piste, pour notre modèle Hadoop, serait d’analyser la fréquence de mise à jour des nœuds des labels et de ne pas effec-tuer de mise à jour de certains nœuds. Par exemple, un nœud connecté à une communauté dont le label ne change plus depuis un certain nombre d’itérations pourrait ne plus voir son label modifié. Nous développons actuellement une so-lution in-memory en utilisant Apache Spark.

Dans le document Nouveaux algorithmes pour la détection de communautés disjointes et chevauchantes basés sur la propagation de labels et adaptés aux grands graphes. (Page 189-192)