• Aucun résultat trouvé

10.2 Perspectives

10.2.3 Vers des m´ethodes pour la dynamique

Suivi temporel de communaut´es dans les r´eseaux dynamiques

Pour des r´eseaux dynamiques (o`u des nœuds et des liens apparaissent et disparaissent), la structure du r´eseau ainsi que celle de ses communaut´es changent au cours du temps. Des communaut´es apparaissent, disparaissent, fusionnent et se s´eparent, comme illustr´e par la figure 10.1.

Nous montrons ici que dans le cadre de la d´etection de communaut´es et de leur suivi temporel dans les r´eseaux dynamiques, la m´ethode de d´etection par l’approche mesure de proximit´e pr´esente deux atouts par rapport `a l’approche fonction de qualit´e :

1. la m´ethode est d´eterministe et peu sensible aux perturbations, comme montr´e sur la figure 10.2 : mˆeme en appliquant de grosses perturbations au r´eseau, une com-munaut´e bien dessin´ee est encore apparente.

Figure 10.1 – Suivi temporel de communaut´es

(ou un petit ensemble de nœuds) comme montr´e sur les figures 10.3 et 10.4 o`u l’on d´etecte dans le r´eseau Wikip´edia 2008, puis dans le r´eseau Wikip´edia 2012 la communaut´e “Chess” (cat´egorie agr´eg´ee, comme d´etaill´e en annexe) en partant du nœud “Magnus Carlsen”.

Les autres m´ethodes de d´etection de communaut´es ´etant souvent non-d´eterministes et peu stables : lorsque des communaut´es sont d´etect´ees `a diff´erents instants du r´eseau dynamique, retrouver quelle communaut´e `a t correspond `a quelle communaut´e `a t + 1 est probl´ematique [23]. Ainsi je propose d’adapter les techniques expos´ees au cours de la th`ese au cas dynamique en mettant `a profit les deux atouts que nous venons de mettre en avant. Le formalisme des flots de liens

De nombreux travaux visent `a int´egrer la dynamique dans la th´eorie des graphes. On peut, par exemple, ´etudier une s´erie de graphes G(t1, t2) consistant en une agr´egation des interactions ayant eu lieu entre t1 et t2 [28]. Ces travaux sont tr`es pertinents pour mod´eliser des syst`emes dynamiques mais o`u les interactions sont relativement longues. Comme par exemple, des pages web connect´es par des liens hypertextes ou bien Facebook, o`u des profils sont associ´es par des liens d’amiti´e. Cependant les syst`emes qui, en plus d’ˆetre dynamiques, ont des interactions qui sont ponctuelles (ou de courte dur´ee) ne peuvent pas ˆetre ´etudi´es simplement sans perte d’information. Pour cela le formalisme des flots de liens a ´et´e introduit.

Un flot de liens est une s´equence de triplets (t, u, v) o`u chaque triplet d´ecrit une in-teraction qui a eu lieu entre les nœuds u et v au temps t (une dur´ee d’inin-teraction peut ´egalement ˆetre ajout´ee). Ils sont donc utiles pour mod´eliser des syst`emes o`u les interactions entre entit´es sont ponctuelles, ou de courte dur´ee tels que : des ´echanges de courriels, des tweets/retweets sur Twitter, des transactions bancaires ou des contacts physiques entre personnes.

Des travaux ont r´ecemment ´et´e propos´es pour ´etudier comment des notions classiques en th´eorie des graphes s’adaptent aux flots de liens, comme la notion de densit´e ou de clique [151, 152]. Un autre travail a montr´e que la d´efinition classique de communaut´es

Figure 10.2 – Perturbations sur le r´eseau Wikip´edia 2012. La proximit´e est calcul´ee avec l’opinion propag´ee `a partir du nœud “Magnus Carlsen”. x% quantifie les perturbations et signifie que l’on a effectu´e “x% fois le nombre de liens dans le graphe” ´echanges al´eatoires (s´electionner deux liens al´eatoirement, les couper et connecter l’un avec l’autre et inverse-ment).

se g´en´eralise difficilement `a des syst`emes avec des interactions ponctuelles et n´ecessite la d´etection d’autres types de structures [154]. Une notion de temps, diff´erente de la notion de temps absolu mesur´e en seconde, a ´egalement ´et´e mise en avant dans ce type de syst`eme [15]. Il s’agit d’un temps intrins`eque bas´e sur les modifications apparaissant dans le syst`eme lui-mˆeme.

Dans le cadre du formalisme des flots de liens et de la d´etection de communaut´es, je propose d’adapter l’approche `a base de mesure de proximit´e pr´esent´ee dans cette th`ese afin de d´etecter un certain type de communaut´e (plutˆot des communaut´es de liens que de nœuds) dans ces syst`emes avec des interactions ponctuelles. Je propose ainsi de r´ep´eter le protocole mis en place dans cette th`ese : (i) construire une mesure de proximit´e entre deux liens incorporant `a la fois des informations topologiques et temporelles, (ii) mesurer la proximit´e d’un lien d’int´erˆet `a tous les autres liens du flot et (iii) d´etecter des irr´egularit´es (“plateau / d´ecroissance / plateau”) dans la d´ecroissance de ces valeurs de proximit´e. Une irr´egularit´e traduirait la pr´esence d’un groupe de liens proches du lien d’int´erˆet et ayant du sens.

Figure 10.3 – Wikip´edia 2008 (gauche) VS Wikip´edia 2012 (droite). La proximit´e est cal-cul´ee dans les deux r´eseaux avec l’opinion propag´ee `a partir du nœud “Magnus Carlsen”. Dynamique de triangles dans les r´eseaux dirig´es

La plupart des r´eseaux que nous avons ´etudi´e sont dirig´es, pourtant nous avons compl`etement ignor´e cette orientation des liens en travaillant avec des versions rendues sym´etriques. Cette perte d’information, classique quand on ´etudie des communaut´es, de-vrait ˆetre ´evit´ee. Cependant, quand on parle de communaut´es en les d´efinissant par “un ensemble de nœuds fortement connect´es entre eux et peu connect´es vers l’ext´erieur”, il est difficile de prendre en compte cette orientation autrement qu’en mettant un poids de deux pour les liens bidirectionnels.

Des m´ethodes de d´etections de communaut´e dans les r´eseaux dirig´es existent cependant, comme en t´emoigne l’article d’´etat de l’art [102]. Ces m´ethodes consistent par exemple `a (i) adapter des m´ethodes existantes (ii) transformer, de fa¸con intelligente, le r´eseau dirig´e en un autre r´eseau non dirig´e (parfois pond´er´e ou biparti) et `a appliquer des m´ethodes de d´etection de communaut´es existantes ou (iii) consid´erer qu’une communaut´e est un ensemble de nœuds ou l’information a tendance `a rester, plutˆot “qu’un ensemble de nœuds fortement connect´es entre eux et peu connect´es vers l’ext´erieur”.

Afin d’´etendre ces m´ethodes et d’aller plus loin pour prendre en compte du mieux possible cette orientation, je proposons d’´etudier des structures simples, mais plus com-plexes que les liens : les triangles et les V-liens1. En effet, les triangles (non orient´es) ont ´et´e montr´es comme des structures importantes pour les communaut´es [66, 125], pourtant l’´etude des triangles dirig´es n’est que peu pr´esente dans la litt´erature [107] et l’´etude de leurs relations avec les communaut´es l’est encore moins [55].

Je suis persuad´e que leur ´etude, particuli`erement l’´etude de leur formation `a l’int´erieur des communaut´es et entre les communaut´es, pourra donner des connaissances utiles pour leur d´etection et en particulier pour la prise en consid´eration de l’orientation dans les

Figure 10.4 – Wikip´edia 2008 VS Wikip´edia 2012. Nous voyons ici que la structure en “plateau / d´ecroissance / plateau” de la courbe des proximit´e en 2012 est plus marqu´ee que celle obtenue en 2008. On peut en d´eduire que (i) la communaut´e “Chess” est mieux dessin´ee en 2012 quelle ne l’´etait en 2008 ou bien “Magnus Carlsen” est plus central `a la communaut´e “Chess” en 2012 qu’il ne l’´etait en 2008. On voit ´egalement que la communaut´e “Chess” a grossi.

m´ethodes de d´etection de communaut´es et dans la conception de mesures de proximit´e. Afin de commencer cette ´etude, nous avons modifi´e le code d’´enum´eration de triangles non dirig´es de [90] (algorithme appel´e compact-forward) pour pouvoir compter les 6 types de V-liens dirig´es diff´erents (´enum´er´es figure 10.5) et les 7 types de triangles dirig´es diff´erents (´enum´er´es figure 10.6). L’algorithme a une complexit´e temporelle en O(m32) (m correspond au nombre de liens dans le r´eseau) et peut ais´ement traiter des graphes avec des centaines de millions de liens en quelques minutes.

1 2 3 4 5 6

Figure 10.5 – Les six types de V-liens diff´erents

Un premier r´esultat non trivial int´eressant est que le nombre de triangles de type 7 est 12 fois (resp. 45 fois) plus important que ce qu’il devrait ˆetre pour le r´eseau Wikip´edia

1 2 3 4 5 6 7

Figure 10.6 – Les sept types de triangles diff´erents

2008 (resp. Twitter 2009) comme montr´e par le tableau 10.2. Ceci peut ˆetre apparent´e `a une sorte de clustering en version orient´ee.

R´eseau Wikip´edia 2008 Twitter 2009

liens simples 64.95% 77.89% liens doubles 35.05% 22.11% triangle 1 0.011 0.021 triangle 2 0.448 0.266 triangle 3 0.028 0.172 triangle 4 1.539 0.733 triangle 5 1.418 0.436 triangle 6 0.797 2.224 triangle 7 12.608 45.9634

Tableau 10.2 – Nombre de triangles de chaque type divis´e par le nombre de triangles esp´er´e en supposant que le graphe est le mˆeme, mais que les liens sont al´eatoirement doubles ou simples (et orient´es al´eatoirement) en gardant les proportions de liens simples et doubles. L’´etude de la dynamique de ces triangles orient´es et leur comparaison `a l’int´erieur et `a l’ext´erieur des communaut´es reste `a faire et est une perspective de la th`ese.

Annexe A

Jeux de donn´ees utilis´es

Afin de valider les mesures et applications propos´ees dans cette th`ese, nous avons r´ealis´e des exp´eriences sur des r´eseaux synth´etiques et r´eels, de diverses tailles. Nous pr´esentons tous ces r´eseaux dans cette annexe.

A.1 Graphes synth´etiques