• Aucun résultat trouvé

Une id´ee souvent utilis´ee lors de la d´etection de communaut´es de nœuds est qu’une communaut´e devrait avoir beaucoup de liens en interne. Pour ce faire, la modularit´e compare le nombre de liens partag´es par un groupe de nœuds au nombre attendu dans le mod`ele de configuration que nous avons ´evoqu´e dans la section 1.2.1. Pour notre fonction de qualit´e Expected Nodes, nous utilisons aussi le mod`ele de configuration, mais avant de d´efinir formellement Expected Nodes, nous pensons qu’il est utile d’avoir une d´efinition informelle de la fonction de qualit´e.

Le but est d’´evaluer un groupe de liens. Afin qu’un groupe de liens soit ´evalu´e comme une bonne communaut´e, les liens devraient induire un nombre relativement faible de nœuds internes. En effet, plus le nombre de nœuds internes est faible, plus le groupe de liens ressemble `a une clique. De mani`ere similaire `a la modularit´e, nous uti-lisons le mod`ele de configuration pour calculer le nombre de nœuds internes attendu dans le mod`ele de configuration. Si le groupe de liens a moins de nœuds internes qu’at-tendu alors cela indique que le groupe de liens est plus dense et qu’il devrait avoir une

´evaluation ´elev´ee.

Il est donc n´ecessaire de calculer l’esp´erance du nombre de nœuds interne, µG, d’un groupe de liens, L, dans le mod`ele de configuration. Afin d’y parvenir, il faut de comprendre en d´etail le mod`ele de configuration. Il permet de m´elanger les liens d’un graphe de telle sorte que les nœuds aient toujours autant de liaisons que dans le graphe initial. Un moyen de se repr´esenter ce m´elange est pr´esent´e dans la figure 5.6. De mani`ere imag´ee, il s’agit de couper tous les liens en deux pour cr´eer des demi-liens, puis de reconnecter al´eatoirement tous les demi-liens pour obtenir une g´en´eration du mod`ele de configuration. Afin d’´etudier comment un groupe de |L| liens est transform´e dans le mod`ele de configuration, il est n´ecessaire d’´etudier comment 2|L| demi-liens sont m´elang´es dans le mod`ele.

5.2. D´efinition d’ Expected Nodes 79 a b c d e f k o n m g i j l h a b c d e f k o n m g i j l h a b c d e f k o n m g i j l h

FIGURE5.6 – Exemple d’une g´en´eration du mod`ele de configuration avec

`a gauche le graphe initial, au milieu la mise en avant des demi-liens et `a droite une g´en´eration al´eatoire du mod`ele de configuration

Un nœud est interne `a L si au moins un de ses liens appartient `a L. Ainsi pour calcu-ler la probabilit´e qu’un nœud soit interne dans le mod`ele de configuration, il faut cal-culer la probabilit´e qu’au moins un de ses demi-liens soit choisi lors du tirage al´eatoire et sans remise de 2|L| demi-liens parmi les 2|E| demi-liens du graphe. Soit Bu la va-riable al´eatoire correspondant au nombre de fois o `u le nœud u est tir´e. Cette vava-riable suit une loi hyperg´eom´etrique Bu ∼ G (2|E|, dG(u), 2m). Avec cette notation, on d´efinie

µGde la mani`ere suivante : µG(|L|) = X u∈V P(Bu ≥ 1) = X u∈V 1 − 2|E|−d(u) 2|L|  2|E| 2|L|  . (5.4)

Voici quelques propri´et´es de la fonction µG(|L|):

— La fonction µG d´epend uniquement de la s´equence de degr´es {dG(v)}v∈V et du nombre de liens.

— Pour une distribution de degr´es donn´ee, la fonction µG(|L|) est une fonction croissante de |E|.

— Si L = E, alors le nombre de nœuds attendus est bien ´egal `a |V |.

— On a µG(1) ≤ 2, en effet le mod`ele nul n’interdit pas la pr´esence de boucle. Avec µG, nous pouvons d´efinir la qualit´e interne, Qin d’un groupe de liens L :

Qin(L) = µG(|L|) − |Vin(L)|

µG(|L|) . (5.5)

Avec cette formulation, pour un groupe de taille |L|, plus le nombre de nœuds in-ternes est faible, plus Qinsera ´elev´ee.

Qinpermet d’´evaluer la qualit´e interne d’un groupe mais il faut aussi tenir compte du voisinage. Observer une clique a l’int´erieur d’une autre clique n’est pas surprenant. C’est pourquoi nous d´efinissons ´egalement une qualit´e externe. Le but est d’´evaluer comment sont r´epartis les liens et nœuds adjacents. Pour cela, nous allons aussi com-parer le nombre de nœuds adjacents observ´e au nombre attendu dans le mod`ele de configuration. Cependant, `a l’inverse de la qualit´e interne, la qualit´e externe est mau-vaise si jamais le nombre de nœuds adjacent est plus faible qu’attendu. S’il y a beau-coup de liens adjacents pour peu de nœuds, alors cela indique que le voisinage du groupe est dense et devrait ˆetre inclus dans le groupe. Le cas id´eal est que chaque lien adjacent soit reli´e `a un nœud diff´erent.

80 Chapitre 5. Expected Nodes : communaut´es de liens dans les graphes statiques

FIGURE5.7 – Groupe de liens L enbleuet ces liens adjacents enrose

poin-till´es dans le graphe initial `a gauche. `A droite, une r´ealisation du mod`ele de configuration o `u L a ´et´e fig´e.

Pour un nœud interne u, soit ¯d(L, u) = P

v∈V 1(u,v)∈(E\L) le degr´e de u limit´e aux liens adjacents et ¯d(L) =P

u∈Vin(L)d(L, u)¯ . L’esp´erance du nombre de nœuds adjacents est calcul´ee comme le nombre de nœuds tir´es lorsque ¯d(L) demi-liens sont choisis al´eatoirement et sans remise dans le mod`ele de configuration o `u les liens de L ont ´et´e pr´ealablement retir´es. Ce graphe al´eatoire a la distribution de degr´es suivante : {dG\L(u)}u∈V o `u G \ L = (V, E \ L). Dans ce cas, on ne tire pas al´eatoirement un lien mais uniquement un demi-lien car l’autre demi-lien est un des demi-liens reli´es aux nœuds internes. L’esp´erance du nombre de nœuds adjacents se d´efinit de la mani`ere suivante :

E[d(L)] = µ¯

G\L( ¯d(L)/2). (5.6) Une illustration de ce processus est pr´esent´ee dans la figure 5.7 : le groupe L a un tr`es mauvais voisinage et cela se refl`ete par un nombre de nœuds adjacents observ´es plus faible qu’attendu. En particulier, ce sont les liens adjacents reliant deux nœuds internes qui p´enalisent l’´evaluation car ils comptent chacun pour deux demi-liens ad-jacents.

Comme il faudrait de p´enaliser les groupes ayant de mauvais voisinages mais qu’un bon voisinage n’est pas suffisant pour d´efinir une bonne communaut´e, nous bornons

`a 0 la qualit´e externe :

Qext(L) = min 0,|Vout(L)| − µG\L( ¯d(L)/2) µG\L( ¯d(L)/2)

!

. (5.7)

Enfin, nous d´efinissons Expected Nodes pour un groupe L :

Q(L) = 2|L|Qin(L) + |Lout|Qext(L)

|L| + |Lout| . (5.8)

La qualit´e interne est due aux liens de L et la qualit´e externe est due aux liens adjacents. C’est pourquoi nous pond´erons Qinpar |L| et Qextpar |Lout|.

Nous d´etaillons certaines propri´et´es des formules 5.7 et 5.8 qui d´ecoulent des pro-pri´et´es de µGen nous appuyant sur des exemples. En se focalisant aux nœuds adjacents