Application chez S. cerevisiae

6.2 Inf´ erence de graphes d’interactions

k.1 k.2 k.3 k.4 k.5 k.6 k.7 k.8 k.9 k.10 k.11 k.12 k.13 k.14 k.15 Number of expression profiles validating inference (k)

Number of inferred roles

0 50 100 150 77 106 32 54 29 52 28 49 24 50 21 49 21 48 21 47 20 47 19 44 19 43 16 44 14 42 9 41 3 33

Discussion

6.2 Inf´ erence de graphes d’interactions

6.2.3 Application chez S. cerevisiae

La dernière étape de ce travail expérimental consiste à appliquer l’algorithme de

pr´ediction d´ecrit plus haut dans un contexte plus difficile : le graphe d’interaction

provient cette fois de donn´ees chIP-on-chip, et constitue donc un mod`ele beaucoup

moins fiable que le r´eseau fourni par RegulonDB pour la bact´erieE. coli.

Fig. 6.8 – Résultats de l’inférence des signes de régulation sur le réseau d’E. coli, à

partir de donn´ees d’expression.

Données Nous avons étudié quatre réseaux transcriptionnels, correspondant aux

donn´ees produites par Lee et al [57] et Macisaac et al [62]. Les trois premiers sont

de taille modeste (moins de 100 sommets) car limit´es aux facteurs de transcriptions.

Le dernier regroupe toutes les cibles des facteurs de transcriptions ´etudi´es dans [57] ;

il compte plus de 2400 sommets et 4300 r´egulations. Les mesures d’expression utilis´ees

sont celles qui ont été compilées dans [45].

Résultats Comme avec le réseau transcriptionnel d’E. coli, les réseaux que nous

avons construits ne sont pas consistants avec les donn´ees d’expression. La proc´edure de

diagnostic décrite plus haut nous a permis d’isoler les défauts à la règle de consistance ;

il s’avère que les défauts typiques tombent systématiquement dans un des cas montrés

en figure 6.9. Dans le cas du plus grand graphe, nous avons compt´e plus de 740 de

ces d´efauts, couvrant un peu moins de 18% du graphe d’interaction total. En utilisant

l’algorithme de prédiction décrit plus haut, nous obtenons 631 signes prédits avec un

indice de confiance supérieur à 1, et 198 avec un indice supérieur à 3. Pour valider ces

prédictions, nous utilisons comme référence le réseau construit dans [35] à partir de

données bibliographiques. Sur les 198 régulations prédites avec un indice supérieur à 3,

19 sont annot´ees dans le r´eseau et 18 concordent.

Bilan

Nous avons expos´e dans ce chapitre deux applications de notre approche sur des

données réelles. La première porte sur la réponse transcriptionnelle de la bactérieE. coli

`

a un stress nutritionnel : il s’agissait, partant d’un graphe d’interaction compl`etement

annoté, et d’un ensemble (restreint) d’observations issues de la littérature, de prédire

la réponse globale de la bactérie. Dans la seconde application, le but était de prédire

Fig. 6.9 – Cas typiques de défaut à la contrainte de consistance, trouvés dans les

donn´ees sur S. cerevisiae.

l’influence des facteurs de transcription sur leurs g`enes cibles, en combinant des donn´ees

chIP-on-chip et des données d’expression. Nous avons dans un premier temps démontré

la faisabilité de la méthode en utilisant des données fiables sur la bactérieE. coli, puis

produit des prédictions à partir de données sur la levure.

Validation algorithmique Ces expérimentations répondent positivement à la

ques-tion du passage à l’échelle : les algorithmes que nous avons proposés sont à même de

traiter des donn´ees transcriptomiques portant sur plusieurs milliers de transcrits, dans

un temps qui n’excède pas quelques minutes. À ce titre, nos deux méthodes de résolution

(par diagramme de d´ecision, ou par programmation logique) ont un comportement

si-milaire, même si l’utilisation des diagrammes de décision pour de si grands systèmes

reste délicate – notamment à cause des passages obligés de réduction/décomposition

des contraintes. L’utilisation du solveur ASP clasp donne en revanche des r´esultats

tout `a fait satisfaisants, pour une utilisation relativement simple.

Analyse de données Ces travaux sur données réelles amènent à une observation

capitale : le critère de consistance n’est généralement pas vérifié dans les mesures

expérimentales disponibles. Quoique décevant de prime abord, ce résultat est au contraire

un formidable levier pour l’analyse de donn´ees, puisque nous avons mis en ´evidence que

l’étude des défauts permet dans de nombreux cas de corriger le modèle étudié, ou les

données utilisées. Dit autrement, nous avons proposé un modèle suffisamment peu précis

pour s’accommoder des donn´ees disponibles, mais qui n´eanmoins peut guider vers des

connaissances nouvelles sur le système étudié.

Discussion

Nous avons à présent décrit en détail notre approche, tant en ce qui concerne son

principe que ses aptitudes au traitement de donn´ees r´eelles. Nous proposons dans ce

chapitre de resituer notre travail parmi d’autres contributions abordant la comparaison

grande échelle d’un modèle graphique et de données expérimentales. Nous

approfon-dissons notamment la comparaison avec l’approche d´evelopp´ee par Yeang, Ideker et

Jaakkola [103].

7.1 Travaux connexes

Notre travail peut ˆetre vu comme une proposition pour relier une repr´esentation

gra-phique d’un syst`eme biologique au comportement dudit syst`eme. La relation que nous

avons décrite est basée sur un modèle physique qui donne d’une part une sémantique à la

représentation graphique, et d’autre part une interprétation des mesures expérimentales.

Cette relation porte essentiellement sur une propriété topologique (prédécesseurs d’un

sommet) sur un type de graphe (les graphes d’interaction) et un type de mesure (signe

des variations entre deux ´etats d’´equilibre). Nous allons dans un premier temps

men-tionner un certain nombre de travaux abordant, dans des contextes distincts, la mˆeme

question : comment expliquer ou prédire des observations expérimentales sur un système

`

a partir de sa description sous forme d’un graphe ?