6.2 Inf´ erence de graphes d’interactions
6.2.3 Application chez S. cerevisiae
La derni`ere ´etape de ce travail exp´erimental consiste `a appliquer l’algorithme de
pr´ediction d´ecrit plus haut dans un contexte plus difficile : le graphe d’interaction
provient cette fois de donn´ees chIP-on-chip, et constitue donc un mod`ele beaucoup
moins fiable que le r´eseau fourni par RegulonDB pour la bact´erieE. coli.
k.1 k.2 k.3 k.4 k.5 k.6 k.7 k.8 k.9 k.10 k.11 k.12 k.13 k.14 k.15 Number of expression profiles validating inference (k)
Number of inferred roles
0 50 100 150 77 106 32 54 29 52 28 49 24 50 21 49 21 48 21 47 20 47 19 44 19 43 16 44 14 42 9 41 3 33
Fig. 6.8 – R´esultats de l’inf´erence des signes de r´egulation sur le r´eseau d’E. coli, `a
partir de donn´ees d’expression.
Donn´ees Nous avons ´etudi´e quatre r´eseaux transcriptionnels, correspondant aux
donn´ees produites par Lee et al [57] et Macisaac et al [62]. Les trois premiers sont
de taille modeste (moins de 100 sommets) car limit´es aux facteurs de transcriptions.
Le dernier regroupe toutes les cibles des facteurs de transcriptions ´etudi´es dans [57] ;
il compte plus de 2400 sommets et 4300 r´egulations. Les mesures d’expression utilis´ees
sont celles qui ont ´et´e compil´ees dans [45].
R´esultats Comme avec le r´eseau transcriptionnel d’E. coli, les r´eseaux que nous
avons construits ne sont pas consistants avec les donn´ees d’expression. La proc´edure de
diagnostic d´ecrite plus haut nous a permis d’isoler les d´efauts `a la r`egle de consistance ;
il s’av`ere que les d´efauts typiques tombent syst´ematiquement dans un des cas montr´es
en figure 6.9. Dans le cas du plus grand graphe, nous avons compt´e plus de 740 de
ces d´efauts, couvrant un peu moins de 18% du graphe d’interaction total. En utilisant
l’algorithme de pr´ediction d´ecrit plus haut, nous obtenons 631 signes pr´edits avec un
indice de confiance sup´erieur `a 1, et 198 avec un indice sup´erieur `a 3. Pour valider ces
pr´edictions, nous utilisons comme r´ef´erence le r´eseau construit dans [35] `a partir de
donn´ees bibliographiques. Sur les 198 r´egulations pr´edites avec un indice sup´erieur `a 3,
19 sont annot´ees dans le r´eseau et 18 concordent.
Bilan
Nous avons expos´e dans ce chapitre deux applications de notre approche sur des
donn´ees r´eelles. La premi`ere porte sur la r´eponse transcriptionnelle de la bact´erieE. coli
`
a un stress nutritionnel : il s’agissait, partant d’un graphe d’interaction compl`etement
annot´e, et d’un ensemble (restreint) d’observations issues de la litt´erature, de pr´edire
la r´eponse globale de la bact´erie. Dans la seconde application, le but ´etait de pr´edire
Fig. 6.9 – Cas typiques de d´efaut `a la contrainte de consistance, trouv´es dans les
donn´ees sur S. cerevisiae.
l’influence des facteurs de transcription sur leurs g`enes cibles, en combinant des donn´ees
chIP-on-chip et des donn´ees d’expression. Nous avons dans un premier temps d´emontr´e
la faisabilit´e de la m´ethode en utilisant des donn´ees fiables sur la bact´erieE. coli, puis
produit des pr´edictions `a partir de donn´ees sur la levure.
Validation algorithmique Ces exp´erimentations r´epondent positivement `a la
ques-tion du passage `a l’´echelle : les algorithmes que nous avons propos´es sont `a mˆeme de
traiter des donn´ees transcriptomiques portant sur plusieurs milliers de transcrits, dans
un temps qui n’exc`ede pas quelques minutes. `A ce titre, nos deux m´ethodes de r´esolution
(par diagramme de d´ecision, ou par programmation logique) ont un comportement
si-milaire, mˆeme si l’utilisation des diagrammes de d´ecision pour de si grands syst`emes
reste d´elicate – notamment `a cause des passages oblig´es de r´eduction/d´ecomposition
des contraintes. L’utilisation du solveur ASP clasp donne en revanche des r´esultats
tout `a fait satisfaisants, pour une utilisation relativement simple.
Analyse de donn´ees Ces travaux sur donn´ees r´eelles am`enent `a une observation
capitale : le crit`ere de consistance n’est g´en´eralement pas v´erifi´e dans les mesures
exp´erimentales disponibles. Quoique d´ecevant de prime abord, ce r´esultat est au contraire
un formidable levier pour l’analyse de donn´ees, puisque nous avons mis en ´evidence que
l’´etude des d´efauts permet dans de nombreux cas de corriger le mod`ele ´etudi´e, ou les
donn´ees utilis´ees. Dit autrement, nous avons propos´e un mod`ele suffisamment peu pr´ecis
pour s’accommoder des donn´ees disponibles, mais qui n´eanmoins peut guider vers des
connaissances nouvelles sur le syst`eme ´etudi´e.
Discussion
Nous avons `a pr´esent d´ecrit en d´etail notre approche, tant en ce qui concerne son
principe que ses aptitudes au traitement de donn´ees r´eelles. Nous proposons dans ce
chapitre de resituer notre travail parmi d’autres contributions abordant la comparaison
grande ´echelle d’un mod`ele graphique et de donn´ees exp´erimentales. Nous
approfon-dissons notamment la comparaison avec l’approche d´evelopp´ee par Yeang, Ideker et
Jaakkola [103].
7.1 Travaux connexes
Notre travail peut ˆetre vu comme une proposition pour relier une repr´esentation
gra-phique d’un syst`eme biologique au comportement dudit syst`eme. La relation que nous
avons d´ecrite est bas´ee sur un mod`ele physique qui donne d’une part une s´emantique `a la
repr´esentation graphique, et d’autre part une interpr´etation des mesures exp´erimentales.
Cette relation porte essentiellement sur une propri´et´e topologique (pr´ed´ecesseurs d’un
sommet) sur un type de graphe (les graphes d’interaction) et un type de mesure (signe
des variations entre deux ´etats d’´equilibre). Nous allons dans un premier temps
men-tionner un certain nombre de travaux abordant, dans des contextes distincts, la mˆeme
question : comment expliquer ou pr´edire des observations exp´erimentales sur un syst`eme
`
a partir de sa description sous forme d’un graphe ?
Dans le document
Modélisation grande échelle de réseaux biologiques :<br />vérification par contraintes booléennes de la cohérence des données
(Page 111-114)