• Aucun résultat trouvé

Approches par d´etections statiques successives

Dans le document The DART-Europe E-theses Portal (Page 51-55)

Chapitre 2 Etat de l’art 13

2.5 D´etection de communaut´es dynamiques

2.5.1 Approches par d´etections statiques successives

Ce sont les m´ethodes les plus simples, puisqu’elles ne font intervenir que des d´etections de communaut´es statiques suivies d’un post-traitement. Cependant, toutes ces m´ethodes souffrent du probl`eme de l’instabilit´e de la d´etection, comme expliqu´e au chapitre suivant. Le principe g´en´eral de cette approche est illustr´e dans la figure2.10.

2.5.1.1 Avec communaut´es non recouvrantes

Hopcroft et al. [HKKS04] proposent probablement la premi`ere m´ethode s’int´eressant aux changements de communaut´es. Les auteurs consid`erent seulement deux instantan´es du r´eseau, et observent les changements entre ces deux instantan´es en calculant une valeur d’appariement (matching) entre les communaut´es. Cet appariement est d´efini comme :

match(C1, C2) =min

Les auteurs notent qu’il existe un gros probl`eme d’instabilit´e de la d´etection, et, pour le limiter, d´ecident de ne consid´erer les changements que des communaut´es stables, c’est `a dire des com-munaut´es qui, mˆeme si l’on introduit un changement mineur du r´eseau, restent identiques. Les auteurs n’ont pas pr´evu d’op´erations de communaut´es autres que la contraction et l’expansion.

On peut cependant facilement relier ces travaux `a ceux portant sur le clustering en g´en´eral, et utiliser des m´ethodes telles que celles d´efinies par [SNTS06] pour les clusters dynamiques.

2.5. D´etection de communaut´es dynamiques

Réseau dynamique:

plusieurs instantanés

Détection de communautés indépendantes sur chaque

instantané

Assortir communautés

de T et T+1

=

=

=

=

Résultat final

T T+1 T+2

T T+1 T+2

Assortir communautés de T+1 et T+2

->

->

T T+1 T+2

T T+1 T+2

T T+1 T+2

Figure2.10 – Illustration de l’approche par d´etections statiques successives.

37

Dans ces travaux, les transitions sont d´efinies tel que pr´esent´e dans la table 2.3. Ces propo-sitions sont assez intuitives, et font intervenir deux param`etres permettant de sp´ecifier `a quel point on demande `a des communaut´es d’ˆetre proches pour les consid´erer identiques. Le probl`eme est qu’en ´etudiant des instantan´es successifs, la valeur de ces param`etres va ˆetre tr`es importante.

Par exemple, si l’on prenait une valeur de τ de 0,9 la moindre variation conduirait `a ne plus consid´erer les communaut´es comme p´erennes, mais les ferait se diviser sans cesse. Avec une valeur faible, on aurait un comportement inverse.

Wang et al. [WWD08], notant que les communaut´es sont trop diff´erentes d’un instantan´e

`

a l’autre, ont l’id´ee d’utiliser des nœuds cœurs pour les identifier. Via une m´etrique propre, ils identifient les nœuds consid´er´es comme caract´eristiques de chaque communaut´e sur deux instantan´es cons´ecutifs. Pour observer comment les communaut´es ont ´evolu´e, il suffit alors de regarder comment les nœuds cœurs se sont comport´es. Si deux d’entre eux initialement dans des communaut´es diff´erentes sont maintenant rassembl´es dans la mˆeme, c’est qu’il y a eu un processus de fusion. Si au contraire ils ont ´et´e s´epar´es, c’est qu’il y a eu division. Cette m´ethode a cependant des faiblesses. R´esumer l’identit´e des communaut´es `a un faible pourcentage de leurs nœuds parait limitant, et pose en particulier probl`eme pour des communaut´es assez homog`enes, o`u il n’y a pas vraiment de nœuds centraux.

2.5.1.2 Avec communaut´es recouvrantes

Palla et al. [PBV07] proposent une adaptation de leur algorithme CPM pour les communaut´es dynamiques. Les communaut´es sont d´etect´es sur chaque instantan´e `a l’aide de CPM. Pour chaque paire d’instantan´es successifsI1etI2, ils cr´eent alors un graphe union,U, contenant les nœuds et les liens de chacun d’eux. CPM est alors appliqu´e surU. Une propri´et´e int´eressante est que, CPM

´etant bas´e sur des cliques, et l’union des deux instantan´es contenant au moins toutes les cliques des deux instantan´es, chaque communaut´e de I1 et de I2 sera contenue dans une et une seule communaut´e deU. Cette information est donc utilis´ee pour faire correspondre les communaut´es de I2 `a celles de I1 : si `a une communaut´e de U correspond exactement une communaut´e dans I1 et une communaut´e dans I2, ces deux communaut´es sont consid´er´ees comme la mˆeme. Si

`

a une communaut´e de U correspondent deux communaut´es de I1 et une de I2, il s’agit d’une fusion, et inversement pour une division. Le probl`eme se pose lorsqu’`a une communaut´e de U correspondent plusieurs communaut´es deI1 et plusieurs communaut´es deI2. Les communaut´es sont alors identifi´ees en fonction de leurs taux de recouvrement.

Chen et al [CWJ+10] d´efinissent les communaut´es comme ´etant les cliques maximales du r´eseau. Cette d´efinition stricte rend la d´etection d’op´erations sur les communaut´es tr`es simples.

Les auteurs proposent ´egalement d’identifier des nœuds cœurs au sein de ces communaut´es, d´efinis comme les nœuds appartenant au plus petit nombre de communaut´es. Il est alors facile de suivre les communaut´es d’un instantan´e `a l’autre. ´Evidemment, la faiblesse principale de cette m´ethode est qu’elle d´efinit les communaut´es comme ´etant des cliques maximales, ce qui, d’une part, donne souvent des communaut´es peu pertinentes et, d’autre part, conduit `a un nombre bien trop important de communaut´es dans des grands graphes ayant une densit´e ´elev´ee.

Greene et al. [GDC10] utilisent un algorithme statique pour d´etecter les communaut´es sur chaque instantan´e. L’algorithme utilis´e dans l’article est MOSES, parce qu’il est capable de g´erer du recouvrement. Ensuite, un syst`eme de matching est utilis´e pour reconnaˆıtre les communaut´es des diff´erents instantan´es. Les op´erations de communaut´es sont possibles.

2.5. D´etection de communaut´es dynamiques

Figure2.11 – Illustration de l’approche par ´etude simultan´ee de toutes les ´etapes d’´evolution.

(as well as contents of an assembly line). The philosophical question of what “identity” of an organism means in light of replacement of all individual parts was already studied in ancient Greece, and is known as Theseus’ Ship paradox [32].

An assembly line has n = km individuals and m groups.

In time step t, the i th group consists of individuals (ki + t) mod n, . . . , (ki+t+k − 1) mod n. That is, in each time step, the lowest-numbered member of each group moves to the next lower group (wrapping around at n). Figure 3 shows an example of an Assembly Line with n = 6 individuals and m = 2 groups.

Figure 3: Optimal colorings of Assembly Line with costs (α, β 1 , β 2 , γ) = (1, 0, 1, 1) and (α, β 1 , β 2 , γ ) = (1, 0, 3, 1).

Figure 3(a) shows the optimal coloring under the cost set-ting (α, β 2 , γ) = (1, 1, 1) in which i-cost is relatively high.

Thus, individuals do not change colors, and the commu-nity a group represents is determined by a simple major-ity vote. In particular, the result is similar to what would be obtained by aggregating groups over time, and applying static analysis. On the other hand, with the cost setting (α, β 2 , γ ) = (1, 3, 1), the g-cost is high. Figure 3(b) shows that the resulting coloring has individuals change their com-munity membership to match their group. Thus, the iden-tity of groups stays the same even as the individual members change. We also note here that in this particular instance, the greedy heuristic leads to the optimal coloring for pa-rameters (α, β 2 , γ ) = (1, 1, 1) using the Jaccard similarity measure, and for (α, β 2 , γ ) = (1, 3, 1) using the JacD mea-sure.

Dutiful Children

Another common dynamic scenario is a population with sev-eral mostly stable communities, and a few “roaming” indi-viduals, such as parents visiting their children in turn. In our example (Figure 4), we have three children (individuals 2,3,4), visited in turn by their parents (individuals 0,1), at times 1,4 (child 2), 2,5 (child 3), and 3,6 (child 4), respec-tively. The importance of this data set is that it shows a situation where the smallest number of colors needed to op-timally color the graph is strictly greater than P max , the size of the largest partition in a time step. In Figure 4, notice that with the setting (α, β 2 , γ) = (1, 1, 1), the solution ac-tually recovers the “underlying” structure of a roaming pair joining three communities of individuals. For this example, we observe that the greedy algorithm with either similarity measure finds the optimum solution for both cost settings.

0

Figure 4: Optimal colorings of Dutiful Children with costs (α, β 1 , β 2 , γ ) = (1, 0, 1, 1) and (α, β 1 , β 2 , γ ) =

Table 1: Cost comparisons on synthetic data sets.

We summarize the cost of the heuristics compared to the optimal cost in Table 1.

5.2 Real-World Data Sets

Southern Women

Southern Women [9] is a data set collected in 1933 in Natchez, TN, by a group of anthropologists conducting interviews and observations over a period of 9 months. It tracks 18 women and their participation in 14 informal social events such as garden parties and card games. The event partici-pation table is shown in Figure 5, taken verbatim from [9].

The columns, each representing an event, are not ordered chronologically, but are manually arranged by the table au-thors to illustrate two communities at the upper-left and lower-right corners.

Figure 5: The Southern Women data set.

The data set has been extensively studied, and used as

Research Track Paper

723

Figure 2.12 – Exemple de d´etection de communaut´es dynamiques avec la m´ethode de Tanti-pathananandh et al. On peut observer (cercles entour´es de rouge) des nœuds qui sont dans une communaut´e dans un instantan´e (rectangle de couleur), mais dans une communaut´e dynamique diff´erente (couleur dans le cercle).

39

2.5.2 Approches par ´etude simultan´ee de toutes les ´etapes d’´evolution

Dans le document The DART-Europe E-theses Portal (Page 51-55)