Approches par d´etections statiques successives

Chapitre 2 Etat de l’art 13

2.5 D´etection de communaut´es dynamiques

2.5.1 Approches par d´etections statiques successives

Ce sont les méthodes les plus simples, puisqu’elles ne font intervenir que des détections de communautés statiques suivies d’un post-traitement. Cependant, toutes ces méthodes souffrent du problème de l’instabilité de la détection, comme expliqué au chapitre suivant. Le principe général de cette approche est illustré dans la figure2.10.

2.5.1.1 Avec communaut´es non recouvrantes

Hopcroft et al. [HKKS04] proposent probablement la première méthode s’intéressant aux changements de communautés. Les auteurs considèrent seulement deux instantanés du réseau, et observent les changements entre ces deux instantanés en calculant une valeur d’appariement (matching) entre les communautés. Cet appariement est défini comme :

match(C1, C2) =min

Les auteurs notent qu’il existe un gros problème d’instabilité de la détection, et, pour le limiter, décident de ne considérer les changements que des communautés stables, c’est à dire des com-munautés qui, même si l’on introduit un changement mineur du réseau, restent identiques. Les auteurs n’ont pas prévu d’opérations de communautés autres que la contraction et l’expansion.

On peut cependant facilement relier ces travaux à ceux portant sur le clustering en général, et utiliser des méthodes telles que celles définies par [SNTS06] pour les clusters dynamiques.

2.5. D´etection de communaut´es dynamiques

Réseau dynamique:

plusieurs instantanés

Détection de communautés indépendantes sur chaque

instantané

Assortir communautés

de T et T+1

Résultat final

T T+1 T+2

Assortir communautés de T+1 et T+2

->

T T+1 T+2

Figure2.10 – Illustration de l’approche par d´etections statiques successives.

Dans ces travaux, les transitions sont définies tel que présenté dans la table 2.3. Ces propo-sitions sont assez intuitives, et font intervenir deux paramètres permettant de spécifier à quel point on demande à des communautés d’être proches pour les considérer identiques. Le problème est qu’en étudiant des instantanés successifs, la valeur de ces paramètres va être très importante.

Par exemple, si l’on prenait une valeur de τ de 0,9 la moindre variation conduirait à ne plus considérer les communautés comme pérennes, mais les ferait se diviser sans cesse. Avec une valeur faible, on aurait un comportement inverse.

Wang et al. [WWD08], notant que les communautés sont trop différentes d’un instantané

a l’autre, ont l’idée d’utiliser des nœuds cœurs pour les identifier. Via une métrique propre, ils identifient les nœuds considérés comme caractéristiques de chaque communauté sur deux instantanés consécutifs. Pour observer comment les communautés ont évolué, il suffit alors de regarder comment les nœuds cœurs se sont comportés. Si deux d’entre eux initialement dans des communautés différentes sont maintenant rassemblés dans la même, c’est qu’il y a eu un processus de fusion. Si au contraire ils ont été séparés, c’est qu’il y a eu division. Cette méthode a cependant des faiblesses. Résumer l’identité des communautés à un faible pourcentage de leurs nœuds parait limitant, et pose en particulier problème pour des communautés assez homogènes, où il n’y a pas vraiment de nœuds centraux.

2.5.1.2 Avec communaut´es recouvrantes

Palla et al. [PBV07] proposent une adaptation de leur algorithme CPM pour les communautés dynamiques. Les communautés sont détectés sur chaque instantané à l’aide de CPM. Pour chaque paire d’instantanés successifsI₁etI₂, ils créent alors un graphe union,U, contenant les nœuds et les liens de chacun d’eux. CPM est alors appliqué surU. Une propriété intéressante est que, CPM

étant basé sur des cliques, et l’union des deux instantanés contenant au moins toutes les cliques des deux instantanés, chaque communauté de I₁ et de I₂ sera contenue dans une et une seule communauté deU. Cette information est donc utilisée pour faire correspondre les communautés de I2 à celles de I1 : si à une communauté de U correspond exactement une communauté dans I1 et une communauté dans I2, ces deux communautés sont considérées comme la même. Si

a une communauté de U correspondent deux communautés de I₁ et une de I₂, il s’agit d’une fusion, et inversement pour une division. Le problème se pose lorsqu’à une communauté de U correspondent plusieurs communautés deI1 et plusieurs communautés deI2. Les communautés sont alors identifiées en fonction de leurs taux de recouvrement.

Chen et al [CWJ⁺10] définissent les communautés comme étant les cliques maximales du réseau. Cette définition stricte rend la détection d’opérations sur les communautés très simples.

Les auteurs proposent également d’identifier des nœuds cœurs au sein de ces communautés, définis comme les nœuds appartenant au plus petit nombre de communautés. Il est alors facile de suivre les communautés d’un instantané à l’autre. Évidemment, la faiblesse principale de cette méthode est qu’elle définit les communautés comme étant des cliques maximales, ce qui, d’une part, donne souvent des communautés peu pertinentes et, d’autre part, conduit à un nombre bien trop important de communautés dans des grands graphes ayant une densité élevée.

Greene et al. [GDC10] utilisent un algorithme statique pour détecter les communautés sur chaque instantané. L’algorithme utilisé dans l’article est MOSES, parce qu’il est capable de gérer du recouvrement. Ensuite, un système de matching est utilisé pour reconnaˆıtre les communautés des différents instantanés. Les opérations de communautés sont possibles.

2.5. D´etection de communaut´es dynamiques

Figure2.11 – Illustration de l’approche par étude simultanée de toutes les étapes d’évolution.

(as well as contents of an assembly line). The philosophical question of what “identity” of an organism means in light of replacement of all individual parts was already studied in ancient Greece, and is known as Theseus’ Ship paradox [32].

An assembly line has n = km individuals and m groups.

In time step t, the i ^th group consists of individuals (ki + t) mod n, . . . , (ki+t+k − 1) mod n. That is, in each time step, the lowest-numbered member of each group moves to the next lower group (wrapping around at n). Figure 3 shows an example of an Assembly Line with n = 6 individuals and m = 2 groups.

Figure 3: Optimal colorings of Assembly Line with costs (α, β 1 , β 2 , γ) = (1, 0, 1, 1) and (α, β 1 , β 2 , γ ) = (1, 0, 3, 1).

Figure 3(a) shows the optimal coloring under the cost set-ting (α, β 2 , γ) = (1, 1, 1) in which i-cost is relatively high.

Thus, individuals do not change colors, and the commu-nity a group represents is determined by a simple major-ity vote. In particular, the result is similar to what would be obtained by aggregating groups over time, and applying static analysis. On the other hand, with the cost setting (α, β 2 , γ ) = (1, 3, 1), the g-cost is high. Figure 3(b) shows that the resulting coloring has individuals change their com-munity membership to match their group. Thus, the iden-tity of groups stays the same even as the individual members change. We also note here that in this particular instance, the greedy heuristic leads to the optimal coloring for pa-rameters (α, β ₂ , γ ) = (1, 1, 1) using the Jaccard similarity measure, and for (α, β ₂ , γ ) = (1, 3, 1) using the JacD mea-sure.

Dutiful Children

Another common dynamic scenario is a population with sev-eral mostly stable communities, and a few “roaming” indi-viduals, such as parents visiting their children in turn. In our example (Figure 4), we have three children (individuals 2,3,4), visited in turn by their parents (individuals 0,1), at times 1,4 (child 2), 2,5 (child 3), and 3,6 (child 4), respec-tively. The importance of this data set is that it shows a situation where the smallest number of colors needed to op-timally color the graph is strictly greater than P _max , the size of the largest partition in a time step. In Figure 4, notice that with the setting (α, β 2 , γ) = (1, 1, 1), the solution ac-tually recovers the “underlying” structure of a roaming pair joining three communities of individuals. For this example, we observe that the greedy algorithm with either similarity measure finds the optimum solution for both cost settings.

Figure 4: Optimal colorings of Dutiful Children with costs (α, β ₁ , β ₂ , γ ) = (1, 0, 1, 1) and (α, β ₁ , β ₂ , γ ) =

Table 1: Cost comparisons on synthetic data sets.

We summarize the cost of the heuristics compared to the optimal cost in Table 1.

5.2 Real-World Data Sets

Southern Women

Southern Women [9] is a data set collected in 1933 in Natchez, TN, by a group of anthropologists conducting interviews and observations over a period of 9 months. It tracks 18 women and their participation in 14 informal social events such as garden parties and card games. The event partici-pation table is shown in Figure 5, taken verbatim from [9].

The columns, each representing an event, are not ordered chronologically, but are manually arranged by the table au-thors to illustrate two communities at the upper-left and lower-right corners.

Figure 5: The Southern Women data set.

The data set has been extensively studied, and used as

Research Track Paper

723

Figure 2.12 – Exemple de détection de communautés dynamiques avec la méthode de Tanti-pathananandh et al. On peut observer (cercles entourés de rouge) des nœuds qui sont dans une communauté dans un instantané (rectangle de couleur), mais dans une communauté dynamique différente (couleur dans le cercle).

2.5.2 Approches par étude simultanée de toutes les étapes d’évolution

Dans le document The DART-Europe E-theses Portal (Page 51-55)