• Aucun résultat trouvé

1.3 D´ etection de communaut´ es disjointes

1.3.7 Autres m´ ethodes

M´ethodes de modularit´e extr´emale

Guimera et al. (2004) propos`erent le recuit-simul´e fond´e sur l’optimisation de la modularit´e pour former les communaut´es. Une partition al´eatoire est ef-fectu´ee sur le r´eseau. Un nœud se d´eplacera dans une autre communaut´e si la modularit´e augmente ou avec une certaine probabilit´e. L’algorithme est it´eratif jusqu’`a ce que la modularit´e n’augmente plus. Bien que l’algorithme donne des r´esultats satisfaisants, la m´ethode n´ecessite de param´etrer le recuit-simul´e, et n’est pas exempte de tomber dans un optimum local duquel on ne puisse plus sortir. La complexit´e est difficile `a estimer et d´epend de la param´etrisation. De nombreuses combinaisons doivent ˆetre test´ees pour faire migrer un nœud d’une communaut´e `a une autre, ce qui n´ecessite un certains de traitement. La m´ethode a ´et´e appliqu´ee `a des graphes ayant environ 200 nœuds.

Massen et Doye (2006) ont apport´e deux am´eliorations majeures. La premi`ere est que l’algorithme s’arrˆete de mani`ere p´eriodique, ´evalue les communaut´es et teste toutes les possibilit´es de mouvement de certains nœuds qui optimisent le plus la modularit´e. La seconde r´eside en l’utilisation de l’approche Basin-Hopping (Wales et Doye (1997)), `a savoir que des groupes de nœuds puissent changer de communaut´e d’un bloc. Cela permet d’´eviter de tomber dans un op-timum local concernant la modularit´e. L’algorithme donne de meilleurs r´esultats que celui de Guimera et al. (2004), mais est plus lent.

Mod`ele de Potts

Le mod`ele d’Ising (aussi appel´e mod`ele de Lenz-Ising), est un mod`ele de physique statistique. Il repr´esente un syst`eme de particules, chacune poss´edant deux niveaux d’´energie (on parle de spins). Le spin est le moment cin´etique in-trins`eque des particules quantiques. Il s’agit, pour simplifier, du sens de rotation de l’´electron consid´er´e. La spintronique (´electronique de spin) permet de mettre

en ´evidence des ph´enom`enes de transition de phase, c’est-`a-dire une transfor-mation du syst`eme ´etudi´e provoqu´ee par la variation d’un param`etre ext´erieur particulier (temp´erature, champ magn´etique...). En consid`erant un syst`eme isol´e de n particules auxquelles est associ´e un ´etat (ou spin) −1 ou +1, on peut d´efinir la configuration du syst`eme, qui est la donn´ee de chacun des spins du syst`eme. L’information peut donc ˆetre contenue dans un vecteur x ∈ {+1, −1}n

En notant par xi la ieme particule tel que x = {xi, 1 ≤ i ≤ n}, on d´efinit la forme g´en´erale de l’hamiltonien comme ´etant H(x) = −P

1≤i,j≤nJijxixj, o`u les Jij sont les couplages entre les particules i et j (r´eels positifs ou nuls) et xixj est un produit scalaire. Suivant une certaine configuration du mod`ele, l’hamiltonien nous donne l’´energie du syst`eme de particules ´etudi´ees selon la configuration x. L’hamiltonien est une fonction `a optimiser. Plus l’´energie d’un syst`eme est ´elev´ee, moins le syst`eme est stable. Un syst`eme physique a tendance `

a se trouver dans un ´etat d’´energie minimale. Le mod`ele de Potts consiste en une g´en´eralisation du mod`ele d’Ising o`u le syst`eme de spins peut ˆetre dans q ´

etats diff´erents (x∈ {1, ..., q}n).

C’est Fu et Anderson (1986) qui ont d´emontr´e par analogie qu’il existe une relation entre l’´energie des syst`emes physiques (repr´esent´ee par l’Hamiltonien) et la fonction de coˆut dans un probl`eme d’optimisation discr`ete (probl`eme com-binatoire). Blatt et al. (1996) ont construit le mod`ele de clustering de Potts. C’est Reichardt et Bornholdt (2006) qui l’ont retranscrit au probl`eme de la d´etection de communaut´es, avec l’´energie du syst`eme de spin (soit l’hamilto-nien) ´equivalente `a la fonction de qualit´e du regroupement `a optimiser, les ´etats de spins ´etant les indices communautaires. Le lien entre le mod`ele de Potts et la d´etection de communaut´es se fait en consid´erant les Jij (couplages entre les particules i et j) comme ´etant la matrice d’adjacence Aij (lien entre les nœuds i et j).

Reichardt et Bornholdt (2006) d´efinissent l’hamiltonien comme ´etant : H({σ}) = −X i6=j aijAijδ(σi, σj) +X i6=j bij(1 − Aij)(1 − δ(σi, σj)) (1.12) +X i6=j cijAij(1 − δ(σi, σj)) −X i6=j dijAij(1 − δ(σi, σj)) (1.13) o`u les Aij sont les ´el´ements de la matrice d’adjacence, σ = {σ1, ..., σn} est le vecteur repr´esentant la partition du graphe, σi est le label de la communaut´e du nœud i et aij, bij, cij, dij sont des pond´erations sur les liens entre i et j. δ(σi, σj) = 1 si les nœuds i et j sont dans la mˆeme communaut´e, 0 sinon. Jœrg Reichardt et Stefan Bornholdt ont voulu un algorithme permettant d’encourager la cr´eation de communaut´es `a la fois avec une forte proportion de liens dans ces derni`eres et une faible proportion de liens en ressortant. Ainsi, peut-on expliquer la formule pr´ec´edemment expos´ee comme suit :

1. aijAijδ(σi, σj) repr´esente les liens internes

3. cijAij(1 − δ(σi, σj)) repr´esente les liens externes

4. dijAijδ(1 − σi, σj) repr´esente les liens externes n’existant pas

Pour les liens n’existant pas, le mod`ele de Jœrg Reichardt et Stefan Bornholdt utilise un graphe complet avec un poids (1 si le lien existe et 0 dans le cas contraire). Les auteurs ont r´e´ecrit la formule sous une autre forme :

H({σ}) = −X

i6=j

(Aij− γpij)δ(σi, σj)) (1.14) o`u pij est la probabilit´e qu’il existe un lien entre les nœuds i et j dans le graphe nul (un graphe respectant la distribution des degr´es des nœuds du r´eseau initial mais o`u les arˆetes ont ´et´e mises de mani`ere al´eatoire). En consid´erant la derni`ere formule cit´ee, supposons que le facteur γ n’apparaisse pas, nous obte-nons alors la formule de la modularit´e. La modularit´e est une mesure de par-titionnement souffrant d’une limite de r´esolution. Si des communaut´es sont de tailles diff´erentes `a l’int´erieur d’un mˆeme graphe, certaines communaut´es, mˆeme bien d´efinies, pourront ne pas ˆetre distingu´ees dans la partition de modularit´e optimale. Pour pallier ce probl`eme, les auteurs font intervenir un facteur γ qui a une incidence sur l’´echelonnabilit´e des tailles des communaut´es d´etect´ees. Pour γ → 0, le graphe est consid´er´e comme une seule communaut´e. Pour γ → ∞, chaque nœud est consid´er´e comme une communaut´e. On peut ainsi consid´erer la fonction hamiltonienne comme une fonction objective `a optimiser, o`u les ´

el´ements `a rechercher sont ceux du vecteur σ = {σ1, ..., σn}. Les auteurs uti-lisent une m´ethode de recuit-simul´e en partant d’un ´etat initial o`u les spins sont assign´es au hasard aux sommets, avec un nombre d’´etats q ´elev´e. Les r´esultats exp´erimentaux en termes de qualit´e sont bons, mais cependant sujets au choix du paramˆetre γ, `a la lenteur de l’algorithme du recuit-simul´e qui demande une forte param´etrisation et `a sa complexit´e qui ne lui permet pas d’ˆetre appliqu´e `

a de tr`es grands graphes.

Ronhovde et Nussinov (2010) ont dans des travaux post´erieurs propos´e des am´eliorations et diverses fonctions hamiltoniennes, mais ´egalement consid´er´e d’autres algorithmes de d´etection de communaut´es dont les complexit´es sont moins fortes que celle du recuit-simul´e. Les auteurs ont montr´e qu’en faisant in-tervenir γ, le probl`eme de r´esolution de limite persistait dans des communaut´es de taille inf´erieure `a √

γ × m. Ils introduisent le mod`ele absolu permettant de cr´eer un mod`ele de Potts `a q ´etats sans utiliser le mod`ele nul, en supprimant par voie de cons´equence le probl`eme de r´esolution de limite. Pour ce faire, les auteurs proposent d’utiliser la densit´e comme probabilit´e et de maximiser son esp´erance sur toutes les communaut´es. L’algorithme utilis´e est une m´ethode multi-niveau permettant la cr´eation d’un dendrogramme. Le syst`eme donne de meilleurs r´esultats que le mod`ele originel, mais n´ecessite deux grands pa-ram`etres, le nombre de contractions et le nombre d’´etats au d´epart (un nombre de communaut´es dont le nombre diminue au cours du temps). Les auteurs pro-posent par la suite d’autres fonctions hamiltoniennes comme pour des graphes

pond´er´es, un mod`ele fond´e sur les graphes al´eatoires d’Erdos-Renyi, et sa ver-sion pond´er´ee. Les r´esultats en termes de qualit´e sont encourageants et tr`es proches mais n´ecessitent la param´etrisation de γ qui a un impact tr`es ´elev´e sur la qualit´e des communaut´es.

Prat-P´erez et al. (2014) en 2014 ont propos´e un algorithme de d´etection de communaut´es, SCD (pour Scalable Community Detection), fond´e sur l’id´ee que des communaut´es doivent avoir une fort coefficient de clustering dans les r´eseaux complexes. SCD comprend deux ´etapes. La premi`ere consiste en l’obten-tion d’une partil’obten-tion P par optimisal’obten-tion du cœfficient de clustering. La deuxi`eme ´

etape consiste en un raffinage qui fait migrer certains nœuds dans d’autres com-munaut´es en utilisant un ordre sur les nœuds selon leurs coefficients de cluste-ring. Les d´eplacements de nœuds s’effectuent jusqu’`a stabilisation, c’est-`a-dire `

a ce qu’il n’y ait plus de migrations. les auteurs proposent une estimation en O(m × log(n)). Cette derni`ere m´ethode d’estimation a ´et´e d´evelopp´ee sur une architecture multi-cœurs permettant de travailler sur des graphes de plusieurs centaines de millions de nœuds ayant un milliard d’arˆetes. Le temps de traite-ment est d’environ une heure avec une quarantaine de machines. Les machines ont des processeurs Intel Xeon E5530 de 2.4 Ghz, 32 GO de RAM et 1 t´erabit d’espace disque. Les r´esultats en termes de qualit´e de partitionnement sont satis-faisants, l’algorithme surpasse les autres sur sur DBLP, you Tube et live Journal avec des NMI respectivement de 0.17, 0.05 et 0.030, et des F1-score respective-ment de 0.38, 0.20 et 0.23. Walktrap ou Louvain donnent cependant de meilleurs r´esultats en termes de NMI sur Amazon et de DBLP avec des scores respectifs de 0.29 et 0.31.

Saltz et al. (2015) ont impl´ement´e leurs m´ethodes sur Giraph (Hadoop) pour pouvoir consid´erer les tr`es grands graphes. Ils ont test´e leur m´ethode sur des graphes de plus d’une centaine de millions de nœuds et un milliard d’arˆetes pour une dur´ee d’une heure, en utilisant une quarantaine de machines.