Algorithmes

1.2 Modularité structurelle des graphes

1.2.3 Algorithmes

− ^I(P

,G\P

)

ln(d(G)D(G)

) ^(1.54)

Soit :

M

_r^w^,^d

(P,G)=|P|+^X

− ln(d(P

)D(P

)

ln(d(G)D(G)

!

− ln(d(G\P

)D(G\P

)

ln(d(G)D(G)

) ^(1.55)

Cette mesure de modularité favorise la recherche de modules de même constante de diffusion (partie

quadratique), tout en cherchant à ce que les constantes de diffusion des modules soient les plus élevées

possibles (partie linéaire).

1.2.3 Algorithmes

Les hétérogénéités entre mesures de modularité illustrent la difficulté à définir de manière

théo-rique une décomposition modulaire utilisable, c’est-à-dire dans laquelle les modules ont

approxima-tivement la même complexité, même sur le modèle simple des graphes. Cependant, cette difficulté est

masquée par celle de résolution du problème informatique associé à l’objectif. En effet, les problèmes

de coupe dans des graphes, même sous leur forme la plus simple (bissection en deux parties de même

taille) sont NP-complets (55).

Ainsi, de nombreuses heuristiques ont été développées depuis les années 1970 afin de trouver des

décompositions modulaires de graphes. Dans le vaste domaine des heuristiques de recherche de

mo-dules, nous donnons les trois approches suivantes à titre d’exemple pour illustrer la difficulté pratique

du problème et l’écart qui existe entre les heuristiques et les objectifs définis dans ce paragraphe. Pour

une revue plus complète, on peut se référer utilement à la revue de da F. Costa et al. (44).

1.2.3.1 Centralité des liens

Introduit par Girvan et Newman (129), mais déjà mentionné par Freeman (51), cette classe

d’al-gorithmes basée sur la centralité des liens est divisive : partant du graphe entier, ils enlèvent une à une

les arêtes les plus centrales jusqu’à dissocier le graphe en plusieurs composantes connexes. A chaque

itération, l’arête la plus centrale est enlevée. Le calcul de la centralité est réévalué après chaque

itéra-tion. Dans la version initiale, cette centralité se mesure par le nombre de chemins les plus courts entre

paires de nœuds qui passent par une arête donnée. De manière alternative, dans un réseau doté d’une

loi de répartition des flux comme un réseau électrique, la proportion du flux entre deux points passant

par chaque lien peut être utilisée à la place des plus courts chemins. On montre que cette loi spécifique

aux réseaux électrique est équivalente à utiliser la probabilité de passage par un lien d’un marcheur

aléatoire allant d’un nœud à un autre. Le résultat de l’algorithme est undendrogrammeindiquant les

coupes successives du graphe, jusqu’à ce que chaque nœud soit isolé. Il faut évaluer par des critères

non fournis par l’algorithme (variations de la modularité, etc.) la pertinence des coupes afin de ne

retenir que la partie pertinente dudendrogramme.

L’algorithme réalise bien un compromis entre équilibre de la bipartition (le nombre maximum de

chemins qui peut passer par l’interface est égal au produit du nombre de nœuds dans chaque partition,

qui est maximum quand les deux partitions sont de même taille) et taille de l’interface. En effet, la

centralité moyenne des liens d’une interface deIliens entre deux partitions de tailleN

₁

etN

₂

est :

c= ^N

N

₂

/2

E = ^N⁽^N⁻¹⁾

E

eI

I (1.56)

aveceIdéfini comme le nombre de liens entre les deux modules après reconnexion entièrement

aléa-toire des arêtes (sans conservation du nombre d’arêtes dans chaque module ni desdegrésdes nœuds).

L’algorithme recherche donc des partitions selon des lignes de faiblesses par rapport à ce que l’on

attendrait dans ungraphe aléatoire d’Erdös-Rényi (pour ces graphes, si les arêtes d’un nœud vers

lui-même sont autorisées, la probabilité que deux nœuds soient connectés estN(N−1)/2E).

Ceci ne correspond pas à la définition de la modularité faible perturbée basée sur un modèle

sans cycle M

_r^s^,ⁿ

(P,G) de la Section (1.2.2.1), car la reconnexion entièrement aléatoire ne tient pas

compte du nombre de liens présents initialement dans le module. Ainsi, un module comportant peu

de liens internes et une interface vers l’extérieur réduite à un seul lien sera aussi bien détecté que

le même module, comportant plus de liens internes, alors que sa modularité est plus faible. Malgré

cet écart, Newman propose d’utiliser cette mesure de modularité conjointement à son algorithme. Il

nous semblerait plus adapté d’utiliser la modularité faible perturbée basée sur un modèle avec cycle

M

_r^s^,^c

(P,G) de la Section (1.2.2.2), qui cherche aussi à équilibrer les tailles de modules évaluées en

nombre de nœuds.

Enfin, on note que l’algorithme utilise la propriété de « modularité » des mesures de modularité :

une fois qu’un système est coupé en plusieurs parties, la partition ultérieure d’une partie n’influe pas

sur la contribution à la modularité du système des autres parties. En particulier, on peut descendre

dans chaque branche de l’arbre et s’arrêter lorsque la modularité de la branche atteint son maximum.

On est alors certain d’avoir conservé la partie de l’arbre donnant la modularité la plus grande.

1.2.3.2 Network Information Bottleneck

Introduit par Ziv et al. (210), l’algorithme NIB (« Network Information Bottleneck ») cherche à

trouver les modules qui permettent de connaître au mieux la probabilité de présence d’un marcheur

aléatoire au tempsT sans connaître son point de départ, mais seulement son module de départ. Cet

algorithme cherche à regrouper en un nombre de modules fixé a priori les nœuds qui donnent un

profil de probabilité de présence semblable au tempsT. Il est donc sensible au temps de diffusion

sur le graphe et privilégie les structures à faible temps de diffusion (cliques). On constate que le

choix du tempsT est important. En effet, il faut que le tempsT soit suffisamment élevé afin que le

marcheur aléatoire ait parcouru tout le module plusieurs fois afin d’avoir « oublié » son nœud de

départ, mais suffisamment faible pour qu’il n’ait pas parcouru plusieurs fois tout le graphe en ayant

« oublié » sa position de départ. Le tempsT caractérise donc a priori la taille des modules potentiels.

Il doit donc être cohérent avec le nombre de modules recherchés et la taille du graphe. Ziv et al.

proposent d’utiliser l’inverse de la première valeur propre non nulle du laplacien du graphe – cf.

Section (1.2.1.4).

En variant le nombre de modules et à l’aide du calcul de la modularité de la partition obtenue,

selon la mesure de modularité faible perturbée sur des graphes sans cycles, on peut trouver un nombre

optimal de modules. La mesure utilisée par Ziv (210) est basée sur le modèle « sans-cycle », alors

qu’on peut penser qu’une mesure basée sur les temps de diffusion est plus adaptée, même si celle

présentée dans la Section (1.2.2.4) peut manquer de finesse pour un tel usage.

Toujours en utilisant la théorie de l’information, l’algorithme de Rosvall et al (155) cherche à

maximiser l’information mutuelleentre un graphe et sa représentation sous forme modulaire. Dans

leur modélisation, ceci revient à minimiser l’entropiede la représentation modulaire du graphe.

Celle-ci est définie comme étant l’entropied’une variable aléatoire définie sur l’espace des graphes «

com-patibles » avec la description modulaire. Moins il existe de graphes dans cet espace, plus l’entropie

de la description modulaire est faible et mieux elle représente le graphe initial. Cependant, afin de

trouver des modules, il lui est nécessaire de pénaliser les partitions qui ne sont pas modulaires. En

effet, l’algorithme a tendance à regrouper des nœuds qui ont les mêmes voisins plutôt que des nœuds

qui appartiennent au même module. Cette pénalisation montre que l’objectif utilisé de « compresser »

au mieux la représentation du graphe n’est pas adapté. L’information utilisée à compresser est plutôt

celle de l’algorithme NIB : la distribution de probabilité d’un marcheur aléatoire après un certain

nombre de pas de temps. Récemment, Rosvall et al ont d’ailleurs présenté (156) une nouvelle version

de leur algorithme cherchant effectivement à compresser la description d’une marche aléatoire sur le

graphe d’origine à l’aide d’un découpage en modules.

1.2.3.3 Attaques ciblées

A côté de ces algorithmes visant à identifier des modules, de nombreuses études ont étés réalisées

afin d’identifier la vitesse à laquelle un graphe connexe se décompose en graphes non connexes

lors-qu’on enlève progressivement des nœuds et/ou des liens. Ces études visent aussi à étudier une forme

de modularité des graphes.

Le constat initial est le suivant : par rapport à ungraphe aléatoire d’Erdös-Rényidans lequel la

probabilité qu’une paire de nœuds soit connectée par un lien est uniforme, les réseaux observés dans

de très nombreux domaines (12) présentent les caractéristiques suivantes :

– diamètrecomparable, à peine plus grand que celui d’un graphe aléatoire ayant le même nombre

de nœuds et de liens, autrement dit l’effet « small world » ;

– fort coefficient de clustering, bien supérieur à celui d’un graphe aléatoire, indice d’une

modu-larité importante.

Cette concomitance est inattendue. Ainsi, les réseaux réguliers peuvent avoir un coefficient de

cluste-ring important, mais ils ont alors undiamètreélevé. Par exemple, le graphe correspondant à un pavage

du plan avec des triangles équilatéraux possède un coefficient de clustering tendant vers 1, mais un

diamètreélevé. Dans la plupart des réseaux réels, ces deux caractéristiques se retrouvent ensemble car

il suffit qu’il existe quelques nœuds dedegréstrès élevés (« hubs ») reliant des paquets de nœuds très

connectés entre eux (« clusters ») (149; 150). Toutefois, il existe d’autres réseaux qui ne possèdent pas

cette structure. Par exemple, les réseaux de transport électrique sont beaucoup plus réguliers (ils ont

une distribution dudegrédes nœuds plus concentrée), car ils se développent dans un plan (comme il

existe peu de croisements de lignes sans nœuds, il s’agit de graphes essentiellement planaires) (154).

De même, les réseaux de régulation génétique, qui sont orientés, ont une distribution dedegréentrant

concentrée (61). Ceci signifie que chaque gène est régulé par peu deprotéines.

Cette structure « hub-cluster » est à l’origine d’un grand nombre d’études visant à

caractéri-ser la vitesse à laquelle le graphe se décompose en sous-graphes non-connexes lorsqu’on enlève les

« hubs », en la comparant avec cette même vitesse lorsqu’on enlève des nœuds au hasard. Dans un

graphe aléatoire d’Erdös-Rényi, les deux vitesses sont identiques. Lorsque cela n’est pas le cas, il

existe potentiellement une modularité. Un algorithme d’attaque ciblée permet de la mettre en

évi-dence

⁸

.

8. Il existe cependant un problème technique à résoudre : lorsqu’on enlève un nœud, si le graphe se décompose en plusieurs parties non connexes, on ne sait pas à laquelle des parties rattacher le nœud enlevé. Une solution consiste à remplacer ce nœud par autant de nœuds que de parties qu’il déconnecte et d’ajouter des arêtes de manière à former une

Il a ainsi été montré une grande robustesse des réseaux réels à des attaques aléatoires, mais une

robustesse faible aux attaques ciblés. Ce résultat est aussi vrai pour les réseaux de transport

élec-triques, même s’ils ne possèdent pas de structure « hub-cluster » à proprement parler (3; 154). Ce

résultat est par exemple très important pour l’étude de la propagation des épidémies, car il stipule

qu’il est essentiel de déconnecter un nombre limité de « hubs » de contacts humains pour bloquer la

propagation des épidémies.

Dans le document La convergence des modularités structurelles et fonctionnelles des systèmes complexes (Page 41-45)

1.2 Modularité structurelle des graphes

1.2.3 Algorithmes

− I(P

,G\P

)

ln(d(G)D(G)

) (1.54)

Soit :

M

(P,G)=|P|+X

− ln(d(P

)D(P

)

)

ln(d(G)D(G)

!

− ln(d(G\P

)D(G\P

)

)

ln(d(G)D(G)

) (1.55)

Cette mesure de modularité favorise la recherche de modules de même constante de diffusion (partie

quadratique), tout en cherchant à ce que les constantes de diffusion des modules soient les plus élevées

possibles (partie linéaire).

1.2.3 Algorithmes

Les hétérogénéités entre mesures de modularité illustrent la difficulté à définir de manière

théo-rique une décomposition modulaire utilisable, c’est-à-dire dans laquelle les modules ont

approxima-tivement la même complexité, même sur le modèle simple des graphes. Cependant, cette difficulté est

masquée par celle de résolution du problème informatique associé à l’objectif. En effet, les problèmes

de coupe dans des graphes, même sous leur forme la plus simple (bissection en deux parties de même

taille) sont NP-complets (55).

Ainsi, de nombreuses heuristiques ont été développées depuis les années 1970 afin de trouver des

décompositions modulaires de graphes. Dans le vaste domaine des heuristiques de recherche de

mo-dules, nous donnons les trois approches suivantes à titre d’exemple pour illustrer la difficulté pratique

du problème et l’écart qui existe entre les heuristiques et les objectifs définis dans ce paragraphe. Pour

une revue plus complète, on peut se référer utilement à la revue de da F. Costa et al. (44).

1.2.3.1 Centralité des liens

Introduit par Girvan et Newman (129), mais déjà mentionné par Freeman (51), cette classe

d’al-gorithmes basée sur la centralité des liens est divisive : partant du graphe entier, ils enlèvent une à une

les arêtes les plus centrales jusqu’à dissocier le graphe en plusieurs composantes connexes. A chaque

itération, l’arête la plus centrale est enlevée. Le calcul de la centralité est réévalué après chaque

itéra-tion. Dans la version initiale, cette centralité se mesure par le nombre de chemins les plus courts entre

paires de nœuds qui passent par une arête donnée. De manière alternative, dans un réseau doté d’une

loi de répartition des flux comme un réseau électrique, la proportion du flux entre deux points passant

par chaque lien peut être utilisée à la place des plus courts chemins. On montre que cette loi spécifique

aux réseaux électrique est équivalente à utiliser la probabilité de passage par un lien d’un marcheur

aléatoire allant d’un nœud à un autre. Le résultat de l’algorithme est undendrogrammeindiquant les

coupes successives du graphe, jusqu’à ce que chaque nœud soit isolé. Il faut évaluer par des critères

non fournis par l’algorithme (variations de la modularité, etc.) la pertinence des coupes afin de ne

retenir que la partie pertinente dudendrogramme.

L’algorithme réalise bien un compromis entre équilibre de la bipartition (le nombre maximum de

chemins qui peut passer par l’interface est égal au produit du nombre de nœuds dans chaque partition,

qui est maximum quand les deux partitions sont de même taille) et taille de l’interface. En effet, la

centralité moyenne des liens d’une interface deIliens entre deux partitions de tailleN

etN

est :

c= N

N

/2

E = N(N−1)

E

eI

I (1.56)

aveceIdéfini comme le nombre de liens entre les deux modules après reconnexion entièrement

aléa-toire des arêtes (sans conservation du nombre d’arêtes dans chaque module ni desdegrésdes nœuds).

L’algorithme recherche donc des partitions selon des lignes de faiblesses par rapport à ce que l’on

attendrait dans ungraphe aléatoire d’Erdös-Rényi (pour ces graphes, si les arêtes d’un nœud vers

lui-même sont autorisées, la probabilité que deux nœuds soient connectés estN(N−1)/2E).

Ceci ne correspond pas à la définition de la modularité faible perturbée basée sur un modèle

sans cycle M

(P,G) de la Section (1.2.2.1), car la reconnexion entièrement aléatoire ne tient pas

compte du nombre de liens présents initialement dans le module. Ainsi, un module comportant peu

de liens internes et une interface vers l’extérieur réduite à un seul lien sera aussi bien détecté que

le même module, comportant plus de liens internes, alors que sa modularité est plus faible. Malgré

cet écart, Newman propose d’utiliser cette mesure de modularité conjointement à son algorithme. Il

nous semblerait plus adapté d’utiliser la modularité faible perturbée basée sur un modèle avec cycle

M

(P,G) de la Section (1.2.2.2), qui cherche aussi à équilibrer les tailles de modules évaluées en

− ^I(P

) ^(1.54)

(P,G)=|P|+^X

) ^(1.55)

c= ^N

E = ^N⁽^N⁻¹⁾