• Aucun résultat trouvé

Ce crit`ere a ´et´e retenu parce qu’il permet de prendre en compte la va-riabilit´e intrins`eque des donn´ees.

Rendre le param`etre ν variable semblait essentiel parce qu’il permet `a la fois de prendre en compte diff´erents types de structure de r´eseau de g`enes, et permet ensuite de contrˆoler la pr´ecision du r´esultat en fonction de la pr´ecision des donn´ees.

4.3 Comparaison de notre m´ethode d’inf´erence de

r´eseau

Il existe beaucoup de m´ethodes d’inf´erence en r´eseaux (voir le Chapitre 1 pour une revue). Cependant, aucune de ces m´ethodes ne traite de mani`ere sp´ecifique les r´eseaux tels que nous les conceptualisons dans cette th`ese, c’est-`a-dire en cascade. `A partir de ce point, deux questions se posent donc : — quelles diff´erences observe-t-on sur notre jeu de donn´ees entre la

m´e-thode que nous proposons et les m´em´e-thodes dans la litt´erature ? — quelle est la performance en termes de sp´ecificit´e et de sensibilit´e

-de notre m´etho-de compar´ee in silico avec les m´etho-des trouv´ees dans la litt´erature ?

Ces deux questions ouvrent tout naturellement les deux prochaines sous parties de notre chapitre. Avant cela, nous allons bri`evement pr´esenter les m´ethodes issues de la litt´erature auxquelles nous nous sommes compar´es.

4.3.1 M´ethodes pour la comparaison

Nous avons s´electionn´e quatre m´ethodes issues de la litt´erature. Nous avons choisi ces m´ethodes selon diff´erents crit`eres, parmi lesquels :

— la temporalit´e : nous disposons de donn´ees mesur´ees au cours du temps, il faut donc que la m´ethode s´electionn´ee permette de prendre en compte la temporalit´e

— la capacit´e `a traiter de grands jeux de donn´ees : le r´eseau que nous voulons inf´erer est compos´e de plusieurs centaines de g`enes.

Cela nous a conduit `a comparer notre m´ethode avec les m´ethodes sui-vantes :

— TD-ARACNE (Zoppoli et al. 2010) : cette m´ethode est bas´ee sur la d´etection du d´ecalage temporel puis par l’utilisation de l’informa-tion mutuelle de la mˆeme mani`ere que dans la m´ethode ARACNE (Margolin et al. 2006b)

— Genenet (Schafer et Strimmer 2005) : il s’agit d’un exemple de m´e-thode bas´ee sur les mod`eles graphiques gaussien qui prend en compte la corr´elation partielle

— Morissey (Morrissey et al. 2011) : il s’agit d’un exemple de mod`ele bays´esien dynamique, tel que nous les avons d´efinis dans le Chapitre 1

— GeneReg (Huang et al. 2010) : il s’agit d’un mod`ele d’inf´erence de r´eseaux bas´e sur des r´egressions ; une interpolation par splines des

points de mesure est effectu´ee pour augmenter artificiellement le nombre de ces points.

D’autre part, il faut noter que la m´ethode de Morissey ne figure pas dans nos r´esultats car le temps de calcul s’est r´ev´el´e r´edhibitoire (plus d’un mois pour une seule inf´erence).

4.3.2 Comparaison sur notre jeu de donn´ees

L’analyse du jeu de donn´ees ainsi que ces implications biologiques sont discut´ees dans le chapitre suivant. Ici, nous nous permettons simplement d’analyser plus en d´etail les performances compar´ees de notre algorithme de reconstruction de r´eseau.

Une s´election des g`enes diff´erentiellement exprim´es dans le cas des pa-tients ayant la version agressive de la maladie nous a permis de s´electionner 500 g`enes, et c’est sur cette s´election que nous allons comparer les diff´erents algorithmes.

Tout d’abord notons que toutes les m´ethodes sus-cit´ees int`egrent des contraintes de parcimonie : in´egalit´e relative `a l’information mutuelle pour TD-ARACNE ou p´enalisation pour GeneReg. Il est donc int´eressant dans un premier temps de comparer les nombres de liens retenus. Notre m´ethode ainsi que Genereg aboutissent `a un nombre relativement faible de liens dans le r´eseaux (respectivement 1528 et 1567), GeneNet se situe `a un niveau interm´ediaire (2241 liens) tandis que TD-ARACNE aboutit `a un nombre important de liens dans le r´eseau (5236 liens).

Ce nombre de liens qui diff`ere n’est pas surprenant, puisque l’on consi-d`ere des m´ethodologies tr`es diff´erentes qui ont chacune leur propre niveau de sensibilit´e. Ce qui, en revanche, peut surprendre le lecteur est que le pour-centage de liens communs entre les diff´erentes m´ethodes n’est que de l’ordre de 5% et ce, quel que soit le couple de m´ethodes choisi. Mais cela s’explique tant par les diff´erences m´ethodologiques entre les algorithmes, que par le nombre tr`es ´elev´e de liens possibles (250 000) que par le bruit inh´erent aux exp´eriences de microarrays que, finalement, par la corr´elation lin´eaire forte pr´esente dans ce jeu de donn´ees (voir Chapitre 2). De plus, la concordance des m´ethode d’inf´erence de r´eseaux de g`enes est un ph´enom`ene bien connu et ´etudi´e (Marbach et al. 2012).

Cependant, si les diff´erentes m´ethodes ne d´etectent pas les mˆemes liens, les g`enes influents du r´eseau semblent ˆetre partag´es. Ainsi, le g`ene EGR1 r´egule au moins dix g`enes dans les r´eseaux de r´egulations g´eniques obtenus par les quatre m´ethodes et le g`ene DUSP1 est un r´egulateur important pour au moins trois des quatre m´ethodes (DUSP1 n’est pas un r´egulateur dans le r´eseau obtenu par la m´ethode TD-ARACNE).

4.3.3 Comparaison in silico

L’int´erˆet des comparaisons faites sur des jeux de donn´ees simul´es est le fait de connaˆıtre par avance la topologie du r´eseau ; c’est pourquoi cette

4.4. CONCLUSION 103

´etape nous semblait ˆetre d’une importance capitale. Pour simuler un jeu d’expression de g`enes, il est n´ecessaire de r´eunir les deux ´el´ements suivants :

— une topologie de r´eseau

— une simulation dynamique des expressions de g`enes bas´ee sur la sus-mentionn´ee topologie de r´eseau

Comme nous l’avons d´ej`a dit, notre mod´elisation de r´eseau de g`enes est bas´ee sur l’id´ee de r´eseau en cascade. C’est pourquoi, dans le cadre de ces simulations, nous avons voulu tester et comparer notre m´ethode vis `a vis d’une topologie classique de r´eseau invariant d’´echelle, et une topologie de r´eseau invariant d’´echelle sous la contrainte temporelle de la cascade. Pour la topologie classique invariante d’´echelle, nous avons utilis´e le logiciel NEMO (Long et Roth 2008). Pour la topologie de type “Cascade” nous avons utilis´e le principe d’attachement pr´ef´erentiel (Barab´asi et Albert 1999) que nous avons modifi´e en int´egrant simplement la contrainte de temporalit´e.

Une fois la topologie du r´eseau de g`enes ´etablie, il faut simuler les ex-pressions de g`enes. Pour simuler les exex-pressions de g`enes nous nous sommes servis d’un mod`ele lin´eaire o`u l’expression d’un g`ene au temps t d´epend des expressions des ses r´egulateurs au temps t−1. Afin d’obtenir une simulation r´ealiste, nous avons utilis´e la transformation non lin´eaire suivante :

f(x) = 40∗exp x/3.5 30+exp x/3.5.

Les param`etres de cette fonction ont ´et´e choisis de mani`ere arbitraire, tout en veillant `a obtenir une fonction avec suffisamment d’amplitude.

Nous avons alors appliqu´e les quatre algorithmes de reconstruction de r´eseaux de g`enes et nous avons calcul´e les trois indicateurs suivants :

— sensibilit´e : VP/(VP+FN) — ppv : VP/(VP+FP)

— Fscore : 2*sensibiliti´e*ppv / (sensibilit´e + ppv),

o`u nous avons not´e VP : vrais positifs, FN : faux n´egatifs et FP : faux positifs.

Les r´esultats, pr´esent´es en d´etail dans le chapitre suivant, montre que notre m´ethode a des performance ´equivalente aux autres m´ethodes lorsque la topologie du r´eseau est de type classique invariant d’´echelle, mais qu’elle est largement meilleure tant en terme de sensibilit´e que de PPV (et donc de Fscore) que toutes les autres m´ethodes dans le cadre d’une topologie de type “cascade”.

4.4 Conclusion

Nous avons pr´esent´e dans ce chapitre les outils m´ethodologiques pour l’inf´erence des r´eseaux en cascade. Dans le chapitre suivant, nous allons mette en œuvre cette m´ethodologie en l’appliquant au jeu de donn´ees pr´e-sent´e dans le Chapitre 3. Nous y discuterons les r´esultats obtenus, en par-ticulier d’un point de vue biologique o`u nous regarderons quelles sont les fonctions des g`enes s´electionn´es, quelles sont les fonctions des g`enes dits hubs... D’autre part, notre m´ethode sera ´egalement valid´ee d’un point de

vue biologique. En effet, une exp´erience d’intervention consistant `a inhiber l’expression du g`ene DUSP1 sera men´ee. Nous montrons que, jusqu’`a une certaine limite, notre mod`ele est capable de pr´edire l’expression des autres g`enes suite `a l’inhibition de DUSP1. Ceci est une ´etape absolument impor-tante puisque apr`es avoir r´ev´el´e la structure du syst`eme biologique que nous consid´erons, nous faisons, par ce succ`es en pr´ediction, un pas important vers la contrˆolabilit´e de ce syst`eme.

5

Reverse-engineering the

genetic circuitry of a

cancer cell with predicted

intervention in chronic

lymphocytic leukemia

Cette article a ´et´e publi´e dans la revue PNAS Vallat et al. (2013). Dans cette article est introduit le concept de r´eseau de cascade, ainsi qu’une mod´elisation statistique adapt´ee. Nous proposons donc une m´ethode d’inf´erence de r´eseau g´en´erale, particuli`erement bien adapt´ee dans le cadre de r´eseaux en cascade. De plus, nous prouvons qu’il est possible de pr´edire l’expression des g`enes apr`es une exp´erience d’intervention (ici, inhibition du g`ene DUSP1). Des informations suppl´ementaires sont dis-ponibles dans l’Annexe A.

5.1 Abstract

C

ellular behavior is sustained by genetic programs that are

pro-gressively disrupted in pathological conditions, notably cancer. High-throughput gene expression profiling has been used to infer statistical models describing these cellular programs and development is now needed to guide orientated modulation of these systems. Here we develop a regression-based model to reverse-engineer a temporal genetic program, based on relevant patterns of gene expression after cell stimulation. This method integrates the temporal dimension of biological rewiring of genetic programs and en-ables the prediction of the effect of targeted gene disruption at system level. We tested the performance accuracy of this model on synthetic data before reverse-engineering the response of primary cancer cells to a proliferative (pro-tumorigenic) stimulation in a multistate leukemia biological model i.e. that of chronic lymphocytic leukemia. To validate the ability of our method

to predict the effects of gene modulation on the global program, we per-formed an intervention experiment on a targeted gene. Comparison of the predicted and observed gene expression changes demonstrate the possibility of predicting the effects of a perturbation in a gene regulatory network, a first step toward an orientated intervention in a cancer cell genetic program.