• Aucun résultat trouvé

6.2 Inf´ erence de graphes d’interactions

6.2.3 Application chez S. cerevisiae

La derni`ere ´etape de ce travail exp´erimental consiste `a appliquer l’algorithme de

pr´ediction d´ecrit plus haut dans un contexte plus difficile : le graphe d’interaction

provient cette fois de donn´ees chIP-on-chip, et constitue donc un mod`ele beaucoup

moins fiable que le r´eseau fourni par RegulonDB pour la bact´erieE. coli.

k.1 k.2 k.3 k.4 k.5 k.6 k.7 k.8 k.9 k.10 k.11 k.12 k.13 k.14 k.15 Number of expression profiles validating inference (k)

Number of inferred roles

0 50 100 150 77 106 32 54 29 52 28 49 24 50 21 49 21 48 21 47 20 47 19 44 19 43 16 44 14 42 9 41 3 33

Fig. 6.8 – R´esultats de l’inf´erence des signes de r´egulation sur le r´eseau d’E. coli, `a

partir de donn´ees d’expression.

Donn´ees Nous avons ´etudi´e quatre r´eseaux transcriptionnels, correspondant aux

donn´ees produites par Lee et al [57] et Macisaac et al [62]. Les trois premiers sont

de taille modeste (moins de 100 sommets) car limit´es aux facteurs de transcriptions.

Le dernier regroupe toutes les cibles des facteurs de transcriptions ´etudi´es dans [57] ;

il compte plus de 2400 sommets et 4300 r´egulations. Les mesures d’expression utilis´ees

sont celles qui ont ´et´e compil´ees dans [45].

R´esultats Comme avec le r´eseau transcriptionnel d’E. coli, les r´eseaux que nous

avons construits ne sont pas consistants avec les donn´ees d’expression. La proc´edure de

diagnostic d´ecrite plus haut nous a permis d’isoler les d´efauts `a la r`egle de consistance ;

il s’av`ere que les d´efauts typiques tombent syst´ematiquement dans un des cas montr´es

en figure 6.9. Dans le cas du plus grand graphe, nous avons compt´e plus de 740 de

ces d´efauts, couvrant un peu moins de 18% du graphe d’interaction total. En utilisant

l’algorithme de pr´ediction d´ecrit plus haut, nous obtenons 631 signes pr´edits avec un

indice de confiance sup´erieur `a 1, et 198 avec un indice sup´erieur `a 3. Pour valider ces

pr´edictions, nous utilisons comme r´ef´erence le r´eseau construit dans [35] `a partir de

donn´ees bibliographiques. Sur les 198 r´egulations pr´edites avec un indice sup´erieur `a 3,

19 sont annot´ees dans le r´eseau et 18 concordent.

Bilan

Nous avons expos´e dans ce chapitre deux applications de notre approche sur des

donn´ees r´eelles. La premi`ere porte sur la r´eponse transcriptionnelle de la bact´erieE. coli

`

a un stress nutritionnel : il s’agissait, partant d’un graphe d’interaction compl`etement

annot´e, et d’un ensemble (restreint) d’observations issues de la litt´erature, de pr´edire

la r´eponse globale de la bact´erie. Dans la seconde application, le but ´etait de pr´edire

Fig. 6.9 – Cas typiques de d´efaut `a la contrainte de consistance, trouv´es dans les

donn´ees sur S. cerevisiae.

l’influence des facteurs de transcription sur leurs g`enes cibles, en combinant des donn´ees

chIP-on-chip et des donn´ees d’expression. Nous avons dans un premier temps d´emontr´e

la faisabilit´e de la m´ethode en utilisant des donn´ees fiables sur la bact´erieE. coli, puis

produit des pr´edictions `a partir de donn´ees sur la levure.

Validation algorithmique Ces exp´erimentations r´epondent positivement `a la

ques-tion du passage `a l’´echelle : les algorithmes que nous avons propos´es sont `a mˆeme de

traiter des donn´ees transcriptomiques portant sur plusieurs milliers de transcrits, dans

un temps qui n’exc`ede pas quelques minutes. `A ce titre, nos deux m´ethodes de r´esolution

(par diagramme de d´ecision, ou par programmation logique) ont un comportement

si-milaire, mˆeme si l’utilisation des diagrammes de d´ecision pour de si grands syst`emes

reste d´elicate – notamment `a cause des passages oblig´es de r´eduction/d´ecomposition

des contraintes. L’utilisation du solveur ASP clasp donne en revanche des r´esultats

tout `a fait satisfaisants, pour une utilisation relativement simple.

Analyse de donn´ees Ces travaux sur donn´ees r´eelles am`enent `a une observation

capitale : le crit`ere de consistance n’est g´en´eralement pas v´erifi´e dans les mesures

exp´erimentales disponibles. Quoique d´ecevant de prime abord, ce r´esultat est au contraire

un formidable levier pour l’analyse de donn´ees, puisque nous avons mis en ´evidence que

l’´etude des d´efauts permet dans de nombreux cas de corriger le mod`ele ´etudi´e, ou les

donn´ees utilis´ees. Dit autrement, nous avons propos´e un mod`ele suffisamment peu pr´ecis

pour s’accommoder des donn´ees disponibles, mais qui n´eanmoins peut guider vers des

connaissances nouvelles sur le syst`eme ´etudi´e.

Discussion

Nous avons `a pr´esent d´ecrit en d´etail notre approche, tant en ce qui concerne son

principe que ses aptitudes au traitement de donn´ees r´eelles. Nous proposons dans ce

chapitre de resituer notre travail parmi d’autres contributions abordant la comparaison

grande ´echelle d’un mod`ele graphique et de donn´ees exp´erimentales. Nous

approfon-dissons notamment la comparaison avec l’approche d´evelopp´ee par Yeang, Ideker et

Jaakkola [103].

7.1 Travaux connexes

Notre travail peut ˆetre vu comme une proposition pour relier une repr´esentation

gra-phique d’un syst`eme biologique au comportement dudit syst`eme. La relation que nous

avons d´ecrite est bas´ee sur un mod`ele physique qui donne d’une part une s´emantique `a la

repr´esentation graphique, et d’autre part une interpr´etation des mesures exp´erimentales.

Cette relation porte essentiellement sur une propri´et´e topologique (pr´ed´ecesseurs d’un

sommet) sur un type de graphe (les graphes d’interaction) et un type de mesure (signe

des variations entre deux ´etats d’´equilibre). Nous allons dans un premier temps

men-tionner un certain nombre de travaux abordant, dans des contextes distincts, la mˆeme

question : comment expliquer ou pr´edire des observations exp´erimentales sur un syst`eme

`

a partir de sa description sous forme d’un graphe ?