1.2 Modularité structurelle des graphes
1.2.3 Algorithmes
− I(P
i,G\P
i)
ln(d(G)D(G)
2) (1.54)
Soit :
M
rw,d(P,G)=|P|+X
i− ln(d(P
i)D(P
i)
2)
ln(d(G)D(G)
2!
2− ln(d(G\P
i)D(G\P
i)
2)
ln(d(G)D(G)
2) (1.55)
Cette mesure de modularité favorise la recherche de modules de même constante de diffusion (partie
quadratique), tout en cherchant à ce que les constantes de diffusion des modules soient les plus élevées
possibles (partie linéaire).
1.2.3 Algorithmes
Les hétérogénéités entre mesures de modularité illustrent la difficulté à définir de manière
théo-rique une décomposition modulaire utilisable, c’est-à-dire dans laquelle les modules ont
approxima-tivement la même complexité, même sur le modèle simple des graphes. Cependant, cette difficulté est
masquée par celle de résolution du problème informatique associé à l’objectif. En effet, les problèmes
de coupe dans des graphes, même sous leur forme la plus simple (bissection en deux parties de même
taille) sont NP-complets (55).
Ainsi, de nombreuses heuristiques ont été développées depuis les années 1970 afin de trouver des
décompositions modulaires de graphes. Dans le vaste domaine des heuristiques de recherche de
mo-dules, nous donnons les trois approches suivantes à titre d’exemple pour illustrer la difficulté pratique
du problème et l’écart qui existe entre les heuristiques et les objectifs définis dans ce paragraphe. Pour
une revue plus complète, on peut se référer utilement à la revue de da F. Costa et al. (44).
1.2.3.1 Centralité des liens
Introduit par Girvan et Newman (129), mais déjà mentionné par Freeman (51), cette classe
d’al-gorithmes basée sur la centralité des liens est divisive : partant du graphe entier, ils enlèvent une à une
les arêtes les plus centrales jusqu’à dissocier le graphe en plusieurs composantes connexes. A chaque
itération, l’arête la plus centrale est enlevée. Le calcul de la centralité est réévalué après chaque
itéra-tion. Dans la version initiale, cette centralité se mesure par le nombre de chemins les plus courts entre
paires de nœuds qui passent par une arête donnée. De manière alternative, dans un réseau doté d’une
loi de répartition des flux comme un réseau électrique, la proportion du flux entre deux points passant
par chaque lien peut être utilisée à la place des plus courts chemins. On montre que cette loi spécifique
aux réseaux électrique est équivalente à utiliser la probabilité de passage par un lien d’un marcheur
aléatoire allant d’un nœud à un autre. Le résultat de l’algorithme est undendrogrammeindiquant les
coupes successives du graphe, jusqu’à ce que chaque nœud soit isolé. Il faut évaluer par des critères
non fournis par l’algorithme (variations de la modularité, etc.) la pertinence des coupes afin de ne
retenir que la partie pertinente dudendrogramme.
L’algorithme réalise bien un compromis entre équilibre de la bipartition (le nombre maximum de
chemins qui peut passer par l’interface est égal au produit du nombre de nœuds dans chaque partition,
qui est maximum quand les deux partitions sont de même taille) et taille de l’interface. En effet, la
centralité moyenne des liens d’une interface deIliens entre deux partitions de tailleN
1etN
2est :
c= N
1N
2/2
E = N(N−1)
E
eI
I (1.56)
aveceIdéfini comme le nombre de liens entre les deux modules après reconnexion entièrement
aléa-toire des arêtes (sans conservation du nombre d’arêtes dans chaque module ni desdegrésdes nœuds).
L’algorithme recherche donc des partitions selon des lignes de faiblesses par rapport à ce que l’on
attendrait dans ungraphe aléatoire d’Erdös-Rényi (pour ces graphes, si les arêtes d’un nœud vers
lui-même sont autorisées, la probabilité que deux nœuds soient connectés estN(N−1)/2E).
Ceci ne correspond pas à la définition de la modularité faible perturbée basée sur un modèle
sans cycle M
rs,n(P,G) de la Section (1.2.2.1), car la reconnexion entièrement aléatoire ne tient pas
compte du nombre de liens présents initialement dans le module. Ainsi, un module comportant peu
de liens internes et une interface vers l’extérieur réduite à un seul lien sera aussi bien détecté que
le même module, comportant plus de liens internes, alors que sa modularité est plus faible. Malgré
cet écart, Newman propose d’utiliser cette mesure de modularité conjointement à son algorithme. Il
nous semblerait plus adapté d’utiliser la modularité faible perturbée basée sur un modèle avec cycle
M
rs,c(P,G) de la Section (1.2.2.2), qui cherche aussi à équilibrer les tailles de modules évaluées en
nombre de nœuds.
Enfin, on note que l’algorithme utilise la propriété de « modularité » des mesures de modularité :
une fois qu’un système est coupé en plusieurs parties, la partition ultérieure d’une partie n’influe pas
sur la contribution à la modularité du système des autres parties. En particulier, on peut descendre
dans chaque branche de l’arbre et s’arrêter lorsque la modularité de la branche atteint son maximum.
On est alors certain d’avoir conservé la partie de l’arbre donnant la modularité la plus grande.
1.2.3.2 Network Information Bottleneck
Introduit par Ziv et al. (210), l’algorithme NIB (« Network Information Bottleneck ») cherche à
trouver les modules qui permettent de connaître au mieux la probabilité de présence d’un marcheur
aléatoire au tempsT sans connaître son point de départ, mais seulement son module de départ. Cet
algorithme cherche à regrouper en un nombre de modules fixé a priori les nœuds qui donnent un
profil de probabilité de présence semblable au tempsT. Il est donc sensible au temps de diffusion
sur le graphe et privilégie les structures à faible temps de diffusion (cliques). On constate que le
choix du tempsT est important. En effet, il faut que le tempsT soit suffisamment élevé afin que le
marcheur aléatoire ait parcouru tout le module plusieurs fois afin d’avoir « oublié » son nœud de
départ, mais suffisamment faible pour qu’il n’ait pas parcouru plusieurs fois tout le graphe en ayant
« oublié » sa position de départ. Le tempsT caractérise donc a priori la taille des modules potentiels.
Il doit donc être cohérent avec le nombre de modules recherchés et la taille du graphe. Ziv et al.
proposent d’utiliser l’inverse de la première valeur propre non nulle du laplacien du graphe – cf.
Section (1.2.1.4).
En variant le nombre de modules et à l’aide du calcul de la modularité de la partition obtenue,
selon la mesure de modularité faible perturbée sur des graphes sans cycles, on peut trouver un nombre
optimal de modules. La mesure utilisée par Ziv (210) est basée sur le modèle « sans-cycle », alors
qu’on peut penser qu’une mesure basée sur les temps de diffusion est plus adaptée, même si celle
présentée dans la Section (1.2.2.4) peut manquer de finesse pour un tel usage.
Toujours en utilisant la théorie de l’information, l’algorithme de Rosvall et al (155) cherche à
maximiser l’information mutuelleentre un graphe et sa représentation sous forme modulaire. Dans
leur modélisation, ceci revient à minimiser l’entropiede la représentation modulaire du graphe.
Celle-ci est définie comme étant l’entropied’une variable aléatoire définie sur l’espace des graphes «
com-patibles » avec la description modulaire. Moins il existe de graphes dans cet espace, plus l’entropie
de la description modulaire est faible et mieux elle représente le graphe initial. Cependant, afin de
trouver des modules, il lui est nécessaire de pénaliser les partitions qui ne sont pas modulaires. En
effet, l’algorithme a tendance à regrouper des nœuds qui ont les mêmes voisins plutôt que des nœuds
qui appartiennent au même module. Cette pénalisation montre que l’objectif utilisé de « compresser »
au mieux la représentation du graphe n’est pas adapté. L’information utilisée à compresser est plutôt
celle de l’algorithme NIB : la distribution de probabilité d’un marcheur aléatoire après un certain
nombre de pas de temps. Récemment, Rosvall et al ont d’ailleurs présenté (156) une nouvelle version
de leur algorithme cherchant effectivement à compresser la description d’une marche aléatoire sur le
graphe d’origine à l’aide d’un découpage en modules.
1.2.3.3 Attaques ciblées
A côté de ces algorithmes visant à identifier des modules, de nombreuses études ont étés réalisées
afin d’identifier la vitesse à laquelle un graphe connexe se décompose en graphes non connexes
lors-qu’on enlève progressivement des nœuds et/ou des liens. Ces études visent aussi à étudier une forme
de modularité des graphes.
Le constat initial est le suivant : par rapport à ungraphe aléatoire d’Erdös-Rényidans lequel la
probabilité qu’une paire de nœuds soit connectée par un lien est uniforme, les réseaux observés dans
de très nombreux domaines (12) présentent les caractéristiques suivantes :
– diamètrecomparable, à peine plus grand que celui d’un graphe aléatoire ayant le même nombre
de nœuds et de liens, autrement dit l’effet « small world » ;
– fort coefficient de clustering, bien supérieur à celui d’un graphe aléatoire, indice d’une
modu-larité importante.
Cette concomitance est inattendue. Ainsi, les réseaux réguliers peuvent avoir un coefficient de
cluste-ring important, mais ils ont alors undiamètreélevé. Par exemple, le graphe correspondant à un pavage
du plan avec des triangles équilatéraux possède un coefficient de clustering tendant vers 1, mais un
diamètreélevé. Dans la plupart des réseaux réels, ces deux caractéristiques se retrouvent ensemble car
il suffit qu’il existe quelques nœuds dedegréstrès élevés (« hubs ») reliant des paquets de nœuds très
connectés entre eux (« clusters ») (149; 150). Toutefois, il existe d’autres réseaux qui ne possèdent pas
cette structure. Par exemple, les réseaux de transport électrique sont beaucoup plus réguliers (ils ont
une distribution dudegrédes nœuds plus concentrée), car ils se développent dans un plan (comme il
existe peu de croisements de lignes sans nœuds, il s’agit de graphes essentiellement planaires) (154).
De même, les réseaux de régulation génétique, qui sont orientés, ont une distribution dedegréentrant
concentrée (61). Ceci signifie que chaque gène est régulé par peu deprotéines.
Cette structure « hub-cluster » est à l’origine d’un grand nombre d’études visant à
caractéri-ser la vitesse à laquelle le graphe se décompose en sous-graphes non-connexes lorsqu’on enlève les
« hubs », en la comparant avec cette même vitesse lorsqu’on enlève des nœuds au hasard. Dans un
graphe aléatoire d’Erdös-Rényi, les deux vitesses sont identiques. Lorsque cela n’est pas le cas, il
existe potentiellement une modularité. Un algorithme d’attaque ciblée permet de la mettre en
évi-dence
8.
8. Il existe cependant un problème technique à résoudre : lorsqu’on enlève un nœud, si le graphe se décompose en plusieurs parties non connexes, on ne sait pas à laquelle des parties rattacher le nœud enlevé. Une solution consiste à remplacer ce nœud par autant de nœuds que de parties qu’il déconnecte et d’ajouter des arêtes de manière à former une
Il a ainsi été montré une grande robustesse des réseaux réels à des attaques aléatoires, mais une
robustesse faible aux attaques ciblés. Ce résultat est aussi vrai pour les réseaux de transport
élec-triques, même s’ils ne possèdent pas de structure « hub-cluster » à proprement parler (3; 154). Ce
résultat est par exemple très important pour l’étude de la propagation des épidémies, car il stipule
qu’il est essentiel de déconnecter un nombre limité de « hubs » de contacts humains pour bloquer la
propagation des épidémies.
Dans le document
La convergence des modularités structurelles et fonctionnelles des systèmes complexes
(Page 41-45)