• Aucun résultat trouvé

Simulations et application

Dans le document The DART-Europe E-theses Portal (Page 56-60)

9.5.1. Donn´ees simul´ees

J’ai g´en´er´e 500,000 graphes dirig´es de 90 sommets, que j’appelle lesgraphes de r´ef´erence. Les sommets y sont r´epartis en trois classes de 30 sommets et, pour toute paire de sommets (u, v), l’arˆete de uvers v est pr´esente avec probabilit´e 0.04 siuet v sont dans la mˆeme classe et 0.01 s’ils sont dans des classes diff´erentes. Le degr´e sortant moyen et le degr´e entrant moyen dans ce mod`ele sont tous deux de 1.76.

Ma m´ethode est illustr´ee avec les sch´ema FFLet bi-fan (cf Figure 11). Les sous-sch´emas consid´er´es sont obtenus en supprimant le sommet de degr´e entrant 2 dans le cas de FFL et l’un des sommets de degr´e entrant 2 pour BIFAN. Ce choix ne joue aucun rˆole ici en raison de la sym´etrie du mod`ele.

Les parties (a) et (b) de la Figure15montrent lesp-valeurs empiriques ainsi que leusr bornes sup´erieures donn´ees par le Th´eor`eme5, en fonction de la valeur det.

5 10 15

0.00.20.40.60.81.0

t

p−value

(a) Empirical p−value and upper bound for the feed−forward loop

10 12 14 16

0.00000.00100.0020

t

p−value

5 10 15

0.00.20.40.60.81.0

t

p−value

(b) Empirical p−value and upper bound for the bifan

10 12 14 16

0e+004e−048e−04

t

p−value

2 4 6 8 10 12 14 16

0.00.20.40.60.81.0

t

ratio

(c) Ratio between empirical p−value and upper−bound

5 10 15

0.00.20.40.60.81.0

t

ratio

Figure 15. (a)p-valeurs empiriques et bornes sup´erieures correspondantes pour le sch´ema FFL dans les 500.000 graphes de r´ef´erence ; zoom sur la queue de distribution. (b) Idem pour le sch´ema BIFAN. (c) Ratio entre la p-valeur empirique et la borne sup´erieure pour les graphes de r´ef´erence (points noirs), les graphes denses (carr´es bleus) et les grands graphes (losanges rouges).

Afin d’estimer la sur-´evaluation de la p-valeur, la partie (c) de la Figure 15 montre la valeur du ratio entre les deux grandeurs pr´ec´edentes. Ce ratio a ´egalement ´et´e trac´e pour des graphes plus denses (30.000 graphes tir´es en multipliant les probabilit´es de connection par 5) et pour des graphes plus grands mais de mˆemes degr´es moyens (30,000 graphes form´es de trois classes de 120 sommets chacune avec des probabilit´es de connection de 0.01 et 0.0025). On voit que, dans les graphes de r´ef´erence, le rapport reste relativement stable en fonction det et ce pour les deux sch´emas. Sa valeur est environ de 1/10. De plus, il devient meilleur quand le graphe grandit ou se densifie.

9.5.2. Influence du mod`ele choisi

Les p-valeurs obtenues d´ependent des coefficients de la matrice Π. Afin d’´etudier l’influence de la m´ethode utilis´ee pour inf´erer cette matrice, les motifs locaux de taille 3 et 4 ont ´et´e cherch´es sur un mˆeme jeu de donn´ees avec diff´erentes m´ethodes d’estimation des coefficients deΠ :

– l’estimation correspondant au mod`ele d’Erd˝os-R´enyi ;

– celle correspondant au mod`eleEED d´ecrit au chapitre2.1. Pour rappel, la probabilit´e d’une arˆete

allant deuversv y est proportionnelle au produit du degr´e sortant deuet du degr´e entrant dev; – l’estimation bay´esienne du mod`ele de m´elange SBM propos´ee dans [B9] et d´ecrite au chapitre 3; – l’estimation du mod`ele de m´elange par l”algorithme BLOCKS [87] disponible au sein du logiciel

STOCNET(http ://stat.gamma.rug.nl/stocnet/).

Motifs locaux trouv´es suivant diff´erentes proc´edures d’estimation deΠ. Les valeurs indiqu´ees sont celles donn´ees par l’in´egalit´e (21). Celles entre parenth`eses d´esignent les motifs potentiels ult´erieurement rejet´es par la proc´edure de filtrage.

BLOCKS ne pouvant pas traiter des graphes de plus de 200 sommets, l’application a ´et´e men´ee sur un sous-r´eseau connexe de 194 sommets du r´eseau de r´egulation de la levure. La Table4 montre tous les motifs locaux trouv´es avec unep-valeur inf´erieure `a 0,05 pour au moins l’une des m´ethodes d’inf´erence.

On peut voir que la m´ethode se r´ev`ele relativement stable vis-`a-vis de la proc´edure d’estimation choisie.

La seule m´ethode qui se d´emarque des autres, tant au niveau du nombre de motifs trouv´es que des p-valeurs, est celle correspondant au mod`ele d’Erd˝os-R´enyi. Cela est dˆu `a l’absence de densit´e locale sous ce mod`ele, ce qui explique la sous-´evaluation desp-valeurs calcul´ees.

On constate d’autre part que la m´ethode s´electionnant le moins de motifs locaux est celle associ´ee au mod`ele EDD. Le premier sch´ema de la Table4 n’est en particulier pas s´electionn´e, alors qu’il l’est pour SBM et BLOCKS. Cependant, un th`eme d’ordrek pour ce motif correspond `a un th`eme d’ordrek−1 pour le motifbi-fan(5eme ligne du la Table4), qui est selectionn´e comme un motif local pour le mod`ele EDD. Les th`emes consid´er´es comme significatifs par les trois m´ethodes se correspondent donc.

Finalement, les deux m´ethodes qui tiennent compte `a la fois de la distribution des degr´es et de la modularit´e du r´eseau trouvent les mˆemes motifs locaux avec desp-valeurs proches.

9.5.3. R´eseaux r´eels

Afin d’´etudier le caract`ere local ou non des motifs globaux, j’ai appliqu´e la proc´edure de recherche des motifs locaux au r´eseau de r´egulation de la levure et `a deux r´eseaux ´electroniques, tous ´etudi´es au niveau des motifs globaux dans [80] et disponibles `a l’adressehttp ://weizmann.ac.il/mcb/UriALon. La recherche a ´et´e effectu´ee pour les motifs locaux de taille 3 `a 5.

La m´ethode d’inf´erence choisie est la m´ethode SBM bay´esienne. Cependant, cette approche a un d´efaut qui est une tendance `a cr´eer une classe dehubsqui est inhomog`ene en termes de degr´es et fausse l’interpr´etation. Ainsi, dans le cas du r´eseau de r´egulation de la levure, une classe est cr´e´ee avec les deux sommets de degr´es sortants maximaux, `a savoir 71 et 44. Cette classe est alors consid´er´ee par le mod`ele comme g´en´erant des sommets de degr´e sortant moyen ´egal `a 57,5. En raison de la pr´esence du sommet de degr´e 71, tout motif en ´etoile sera alors s´electionn´e comme un motif local. Afin de pallier `a cet artefact, j’ai lanc´e la proc´edure avec SBM puis je l’ai relanc´e avec EDD lorsque le motif selectionn´e ´etait une ´etoile dont le th`eme correspondant ´etait centr´e sur le sommet de degr´e sortant 71.

Local motif 0000

Motifs locaux de taille3pour le r´eseau de r´egulation de la levure.

La Table5 indique les motifs locaux de taille 3 trouv´es pour le r´eseau de la levure avec un seuil de 0,001, la ligneNU repr´esentant l’ordre du th`eme en la position pour laquelle ∆U est maximal.

Deux motifs apparaissent avec des p-valeurs largement inf´erieures au seuil. Le premier correspond

`a deux r´egulateurs co-r´egulant un grand nombre de g`enes. Les diff´erents algorithmes de recherche de motifs globaux ayant servi `a analyser ce r´eseau [14,80,108] n’ont pas d´etect´e ce sch´ema, mais ont tous selectionn´e le sch´ema bi-fan. Or, tout th`eme d’ordre k correspondant au motif local trouv´e implique l’existence de k(k21) occurrences dubi-fan. Les trois plus grands th`emes, qui sont respectivement d’ordre 38, 32 et 18, repr´esentent ainsi `a eux seuls 73% des occurrencesbi-fandans le r´eseau. Ceci indique que la sur-repr´esentation globale dubi-fanest une cons´equence de la sur-repr´esentation locale du motif indiqu´e.

Le second motif local correspond au sch´emaFFL, qui est ´egalement trouv´e par tous les algorithmes de recherche globaux. Il correspond d’un point de vue biologique `a un r´egulateur initial X r´egulant un g`ene Y, X et Y co-r´egulant ensuite un troisi`eme g`ene Z. Ce m´ecanisme permet d’induire diff´erentes dynamiques dans le processus de r´egulation suivant le caract`ere inhibiteur ou activateur des r´egulations [6]. Cependant, ma m´ethode permet de mettre `a jour `a l’aide uniquement de m´ethodes statistiques l’assym´etrie dans les rˆoles des trois g`enes impliqu´es. Le sch´emaFFLest en effet fortement sur-repr´esent´e par rapport `a la suppression de son sommet de degr´e entrant ´egal `a 2. Un grand th`eme de ce motif correspond alors `a un mˆeme couple (X, Y) co-r´egulant un grand nombre de g`enes cibles Z1, . . . , Zk. Ce

ph´enom`ene a ´et´e d´ecrit par Alon [6] sous le nom deMulti-output feed-forward loops.

Le sch´ema FFL apparaˆıt encore comme localement sur-repr´esent´e par rapport `a la suppression du r´egulateur initialX mais la p-valeur est beucoup plus faible et le plus grand th`eme n’est que de taille 3. Enfin, ce sch´ema n’apparaˆıt pas du tout comme sur-repr´esent´e par rapport `a la suppression du g`ene interm´ediaire Y, indiquant qu’il n’existe nulle part dans le r´eseau un r´egulateur initial X utilisant un grand nombre de g`enes interm´ediairesY afin de r´eguler la dynamique d’un g`eneZ particulier.

Local motif 0000

Motifs locaux de taille4pour le r´eseau de r´egulation de la levure.

La Table6indique les motifs de taille 4 s´electionn´es. Le premier d’entre eux correspond `a l’occurrence d’unemulti-output feed-forward loopavec un troisi`eme g`ene r´egulant 7 des sorties. Ce motif est ´egalement s´electionn´e par les m´ethodes globales mais seulement en sixi`eme position parmi les motifs de taille 4. Les quatre autres motifs s´electionn´es semblent peu pertinents dans la mesure o`u la taille du plus grand th`eme associ´e est de 1 ou 2. La raison de la s´election de ces motifs est donc li´ee `a leur tr`es faible probabilit´e d’apparition plutˆot qu’`a leur sur-repr´esentation locale. Il en est de mˆeme pour tous les motifs locaux de taille 5 d´etect´es. Ceci semble indiquer que les motifs locaux pertinents sont de petite taille, ph´enom`ene r´ecemment illustr´e ´egalement dans le cas des motifs globaux [59].

J’ai ensuite appliqu´e la recherche des motifs locaux aux r´eseaux ´electroniques cit´es plus haut. Aucun motif local n’y est pr´esent, pourkcompris entre 2 et 5 et pour un seuil pourtant large de 0,01. Miloet al.

[80] ont pourtant trouv´e trois motifs globaux dans ces circuits. Cette constatation indique une diff´erence de structure entre les deux types de r´eseaux encore plus forte que celle sugg´er´ee dans [80], dont les auteurs ne comparent que la topologie des motifs trouv´es : leur r´epartition dans le r´eseau est ´egalement diff´erente.

Dans le document The DART-Europe E-theses Portal (Page 56-60)

Documents relatifs