• Aucun résultat trouvé

Modélisation grande échelle de réseaux biologiques :<br />vérification par contraintes booléennes de la cohérence des données

N/A
N/A
Protected

Academic year: 2021

Partager "Modélisation grande échelle de réseaux biologiques :<br />vérification par contraintes booléennes de la cohérence des données"

Copied!
161
0
0

Texte intégral

(1)

HAL Id: tel-00185895

https://tel.archives-ouvertes.fr/tel-00185895v3

Submitted on 29 Feb 2008

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

biologiques :vérification par contraintes booléennes de la cohérence des données

Philippe Veber

To cite this version:

Philippe Veber. Modélisation grande échelle de réseaux biologiques :vérification par contraintes booléennes de la cohérence des données. Génie logiciel [cs.SE]. Université Rennes 1, 2007. Français.

�tel-00185895v3�

(2)

TH` ESE

Pr´ esent´ ee devant

l’Universit´ e de Rennes 1

pour obtenir

le grade de : Docteur de l’Universit´ e de Rennes 1 Mention Informatique

par

Philippe Veber

Equipe d’accueil : SYMBIOSE - IRISA ´ Ecole Doctorale : Matisse ´ Composante universitaire : IFSIC

Titre de la th` ese :

Mod´ elisation grande ´ echelle de r´ eseaux biologiques :

v´ erification par contraintes bool´ eennes de la coh´ erence des donn´ ees

soutenue le 17 d´ ecembre 2007 devant la commission d’examen

Pr´ esident : Laurent Trilling Pr. Universit´ e de Grenoble 1 Rapporteurs : Alexander Bockmayr Pr. Freie Universit¨ at Berlin

Jean-Paul Comet Pr. Universit´ e de Nice Sophia Antipolis Examinateurs : Fran¸cois K´ ep` es Directeur de recherche CNRS

Michel Le Borgne MCF Universit´ e de Rennes 1 (codir. th` ese) Rumen Andonov Pr. Universit´ e de Rennes 1 (dir. th` ese) Membres invit´ es : Anne Siegel Charg´ e de recherche CNRS

Torsten Schaub Pr. Universit´ e de Potsdam

(3)
(4)

Remerciements

Mon premier souvenir d’apprenti chercheur, c’est un petit bonhomme bulgare qui m’accueille avec son accent rigolo et son sourire de bienheureux. Ce jour-l` a, je me suis dit : “C ¸ a peut pas ˆ etre un mauvais job”. Cinq ans apr` es et un doctorat en poche j’en suis toujours convaincu, sans toutefois oublier combien mes coll` egues et amis ont contribu´ e

`

a rendre mon travail tout ` a la fois agr´ eable et stimulant. J’ai beaucoup us´ e de leur temps et de leur patience durant ces trois ann´ ees de th` ese, et quelques remerciements sont bien le moins que je puisse faire pour eux. ` A dire vrai, j’esp` ere qu’ils n’auront pas attendu ces quelques lignes pour connaˆıtre la gratitude et l’amiti´ e que j’ai pour eux.

Cette th` ese, ou du moins l’essentiel de son contenu, est le fruit d’un authentique travail d’´ equipe du groupe “R´ eseaux” du projet Symbiose, constitu´ e (durant ma th` ese) de Jeremy Gruel, Carito Guziolowski, Michel Le Borgne, Ovidiu Radulescu, Anne Sie- gel et moi-mˆ eme. R´ etrospectivement, je suis tr` es satisfait (et un peu amus´ e) de voir comment les comp´ etences de chacun se sont articul´ ees pour former un tout coh´ erent et – je l’esp` ere – digne d’int´ erˆ et. Il y eu des heures de gloire, des phases de houle mais . . . que de chemin parcouru ensemble ! Plus sp´ ecifiquement, je voudrais remercier mes en- cadrants sur ce projet, ` a savoir Michel et Anne. Michel tout d’abord, pour tout ce temps qu’il m’a consacr´ e, tant pour me rendre un peu moins ignorant que pour ´ ecouter les id´ ees – pas toujours bien fˆ ut´ ees – que je venais lui exposer tous les deux jours (le pauvre, quand j’y repense). Il a ´ et´ e suffisamment patient pour me laisser vadrouiller sur plusieurs th` emes, pour m’aider, jusque dans les parties techniques, ` a valider des id´ ees dont j’´ etais le seul supporter. En tout cas, j’ai pass´ e de vrais bons moment de r´ eflexion et j’ai appris ´ enorm´ ement grˆ ace ` a lui. Anne a tenu la promesse faite mon premier jour de th` ese : s’assurer, sur tous les plans, que je m` enerais ` a bien ma th` ese. Je dois dire que j’ai ´ et´ e particuli` erement p´ enible depuis les premi` eres pages de ce m´ emoire jusqu’au jour de la soutenance, et qu’Anne a d´ eploy´ e beaucoup d’´ energie pour que les choses soient faites en temps et en heure. Et avec le sourire ! Merci ` a vous deux, vous avez ´ et´ e des encadrants hors-pairs.

Je ne voudrais pas oublier Rumen Andonov et Nicola Yanev, mes parrains bulgares, qui m’ont initi´ e au m´ etier de chercheur, et suivi de pr` es depuis lors. Eux aussi, ont pris de leur temps pour m’instruire et me donner mes chances sur des probl` emes et des questions qu’ils ont su rendre passionnants. Je remercie tout particuli` erement Rumen pour m’avoir ´ egalement fait faire mes premiers pas en tant qu’enseignant. Je crois que j’y ai pris goˆ ut.

Grˆ ace ` a Nathalie Th´ eret, je peux dire que j’ai vraiment travaill´ e ` a l’interface entre

i

(5)

sur le vivant m’ont ´ enorm´ ement appris. Je lui ai malheureusement bien mal rendu le temps qu’elle m’a consacr´ e, mais attention, je n’ai pas dit mon dernier mot !

Je souhaite ´ egalement remercier Jeremy, pour ses innombrables d´ efaites au ping- pong, qui ont beaucoup contribu´ e ` a mon bien-ˆ etre. Tous ses efforts (malheureusement vains) pendant trois ans sont touchants, quelque part. J’en profite ´ egalement pour d´ ementir la rumeur selon laquelle il aurait remport´ e notre derni` ere rencontre. Pure h´ er´ esie.

Autant dire que l’ambiance au sein de l’´ equipe Symbiose a ´ et´ e excellente durant mon s´ ejour, et j’en remercie chacun des membres. Sans oublier (comme il se doit) son grand patron alias Jacques Nicolas, dont la pr´ esence contribue beaucoup ` a la r´ eussite scientifique et humaine de l’´ equipe. Voil` a un chef qui ´ ecoute plus qu’il ne parle (sauf en r´ eunion d’´ equipe . . .). Bref, merci mille fois pour l’attention que tu portes aux gens qui t’entourent.

J’ai travaill´ e durant les derniers mois de ma th` ese dans le groupe de Torsten Schaub de l’universit´ e de Potsdam. J’y ai pass´ e un ´ et´ e formidable, grˆ ace notamment aux efforts qu’ont d´ eploy´ es Torsten, Martin, Steve et Sven pour m’accueillir.

Enfin, je voudrais remercier chacun des membres de mon jury, pour l’int´ erˆ et qu’ils ont port´ e ` a ce m´ emoire, ainsi que leurs excellentes questions et remarques durant et apr` es la soutenance. Merci tout particuli` erement ` a mes rapporteurs Jean-Paul Comet et Alexander Bockmayr pour leur relecture attentive et leurs corrections. Je suis ` a la fois tr` es content et honor´ e que Laurent Trilling ait accept´ e de pr´ esider ` a mon jury. Je ne suis pas sˆ ur de m´ eriter tous ses compliments mais qu’importe, ils m’ont fait rudement plaisir !

P.S. Je me permets de ne pas remercier Xavier, Guillaume et Goulven pour l’affiche

de th` ese qu’ils m’ont sournoisement pr´ epar´ ee. Attention aux repr´ esailles . . .

(6)

Table des mati` eres

Remerciements i

Table des mati` eres ii

Notations vii

1 Introduction 1

1.1 Motivations . . . . 1

1.2 Approche suivie . . . . 2

1.3 Sur les donn´ ees . . . . 4

1.4 Travaux connexes . . . . 8

1.4.1 Panorama . . . . 8

1.4.2 Mod` eles physiques de r´ eseaux biologiques . . . . 10

1.5 Nos contributions . . . . 11

2 Pr´ esentation g´ en´ erale de l’approche : mod´ elisation de l’op´ eron lactose 13 2.1 V´ erification . . . . 17

2.2 Pr´ ediction . . . . 18

3 Equations qualitatives pour la consistance des donn´ ´ ees 21 3.1 Formalisation . . . . 21

3.1.1 Le graphe d’interaction et ses ´ etiquetages . . . . 21

3.1.2 Alg` ebre des signes . . . . 23

3.1.3 Contrainte de consistance . . . . 25

3.1.4 Propri´ et´ es des contraintes qualitatives . . . . 27

3.2 Justification diff´ erentielle . . . . 29

3.2.1 Graphe d’interaction . . . . 30

3.2.2 R´ eponse statique ` a une perturbation . . . . 31

3.2.3 Hypoth` eses de mod´ elisation . . . . 32

3.2.4 D´ eplacement d’´ equilibre et variations . . . . 33

3.2.5 Discussion . . . . 35

3.2.6 Cin´ etiques usuelles en mod´ elisation . . . . 38

3.2.7 Graphes de r´ eactions . . . . 38

3.3 Justification bool´ eenne . . . . 41

iii

(7)

3.3.1 Graphe d’interaction . . . . 41

3.3.2 D´ eplacement d’´ equilibre . . . . 42

4 R´ esolution par diagrammes de d´ ecision 45 4.1 Diagrammes de d´ ecision . . . . 46

4.1.1 D´ efinition . . . . 46

4.1.2 Op´ erations sur les diagrammes . . . . 47

4.1.3 Fonctions ` a variables dans un ensemble fini . . . . 52

4.2 Probl` eme de v´ erification . . . . 54

4.2.1 Diagramme associ´ e ` a une contrainte qualitative . . . . 54

4.2.2 Algorithme pour la v´ erification . . . . 56

4.3 Probl` eme de pr´ ediction . . . . 57

4.3.1 Invariant de l’ensemble des mod` eles . . . . 57

4.3.2 Marginales . . . . 59

4.4 Diagnostic des contraintes non satisfiables . . . . 63

4.4.1 Donn´ ees bruit´ ees . . . . 64

4.4.2 Reconstruction de r´ eseau . . . . 64

4.4.3 Recherche des sous-syst` emes incompatibles . . . . 65

4.4.4 Calcul des diagnostics . . . . 65

4.5 R´ eduction, d´ ecomposition des syst` emes . . . . 67

4.5.1 R´ eduction pr´ eservant l’existence de solution . . . . 67

4.5.2 D´ ecomposition . . . . 68

4.5.3 Calcul de la consistance selon une d´ ecomposition . . . . 70

4.5.4 Calcul des invariants selon une d´ ecomposition . . . . 70

4.5.5 Choix de la d´ ecomposition . . . . 72

5 R´ esolution par Answer Set Programming 75 5.1 Une introduction ` a la programmation par ensemble r´ eponse . . . . 75

5.1.1 Syntaxe . . . . 76

5.1.2 S´ emantique des mod` eles stables . . . . 77

5.1.3 Variables . . . . 80

5.1.4 Contraintes d’int´ egrit´ e . . . . 81

5.1.5 Contraintes de cardinalit´ e . . . . 82

5.1.6 Optimisation . . . . 83

5.1.7 Complexit´ e et r´ esolution . . . . 83

5.2 Consistance aux sommets . . . . 84

5.2.1 Codage des donn´ ees . . . . 85

5.2.2 G´ en´ eration des solutions . . . . 85

5.2.3 Test des solutions . . . . 86

5.3 Pr´ ediction . . . . 86

5.4 Contrainte non satisfiable . . . . 87

(8)

6 Validation exp´ erimentale 89

6.1 Pr´ ediction de la r´ eponse ` a une perturbation . . . . 89

6.1.1 Construction du graphe d’interaction . . . . 90

6.1.2 Confrontation aux donn´ ees d’expression issues de la litt´ erature, premier essai . . . . 90

6.1.3 Diagnostic par isolement des d´ efauts . . . . 91

6.1.4 Ajout des facteurs σ dans le mod` ele . . . . 92

6.1.5 Pr´ ediction de la r´ eponse globale au stress nutritionnel . . . . 93

6.2 Inf´ erence de graphes d’interactions . . . . 97

6.2.1 Limites th´ eoriques de l’approche . . . . 97

6.2.2 Validation par des mesures d’expression . . . . 99

6.2.3 Application chez S. cerevisiae . . . 100

7 Discussion 103 7.1 Travaux connexes . . . 103

7.1.1 Circuits du graphe d’interaction . . . 103

7.1.2 R´ egulons . . . 104

7.1.3 Chemins m´ etaboliques . . . 104

7.1.4 Cascades de r´ egulations . . . 105

7.1.5 Bilan . . . 105

7.2 Chemins dans le graphe d’interaction . . . 106

7.2.1 Le mod` ele de Yeang-Ideker-Jaakkola (YIJ) . . . 106

7.2.2 Relation mod` ele – donn´ ees . . . 107

7.2.3 Consistance de chemin . . . 108

7.2.4 Consistance au sommet et consistance de chemin . . . 109

7.2.5 Chemins et d´ eplacement d’´ equilibre . . . 110

7.2.6 Bilan . . . 111

8 Conclusion 113 8.1 Bilan . . . 113

8.2 Perspectives . . . 116 A Inf´ erence de l’effet des facteurs de transcription sur leurs g` enes cibles119

B Liste de publications 137

Bibliographie 147

(9)
(10)

Notations

Conventions g´ en´ erales

– ensembles en majuscules, italiques et police ordinaire : A, E, F . . .

– ´ el´ ements d’un ensemble de type non d´ etermin´ e (ou non d´ eterminant) en minus- cule, italique et police ordinaire : x, f ∈ F . . .

– ensemble des variables d’une fonction comme les ensembles ordinaires : dans f(X, Y ), X et Y sont des ensembles de variables.

– objets structur´ es (arbres, graphes, automates) en majuscule, italique et police dite caligraphique : A, G.

– termes en majuscule et police sans serif : X, y, C.

Notations sp´ ecifiques

|X| cardinal de l’ensemble X

|π| longueur d’un chemin π dans un graphe deg

G

(s) degr´ e entrant d’un sommet s dans le graphe G deg

+G

(s) degr´ e sortant d’un sommet s dans le graphe G

pred

G

(s) ensemble des pr´ edecesseurs d’un sommet s dans le graphe G (on notera pred(i) s’il est clair d’apr` es le contexte que l’on parle de G)

dom(f ) domaine (ensemble de d´ efinition) d’une fonction f

T(X) o` u T est un terme, et X un ensemble de variables. Pr´ ecision (optionnelle) des variables libres du terme.

[x

1

:= c

1

, . . . ] d´ esigne la substitution σ d´ efinie par σ(x

i

) = c

i

.

∃X T o` u X = {x

1

, . . . , x

n

} est un ensemble de variables, et T est un terme. ´ Equivalent ` a ∃x

1

∃x

2

. . . ∃x

n

T.

vii

(11)
(12)

Introduction

1.1 Motivations

La recherche en biologie mol´ eculaire dispose depuis quelques ann´ ees d´ ej` a de tech- niques exp´ erimentales qui permettent de mesurer un grand nombre de variables simul- tan´ ement, avec un nombre limit´ e d’interventions humaines. Ces progr` es sont le fruit de deux efforts de recherche orthogonaux, ` a savoir la miniaturisation des instruments de mesure, et la robotisation des tˆ aches. On parle souvent de mesures (( haut-d´ ebit )) , ex- pression qui d´ esigne un ensemble assez h´ et´ erog` ene de techniques et de types de donn´ ees exp´ erimentales, allant du s´ equen¸cage des g´ enomes ` a la recherche syst´ ematique d’inter- actions mol´ eculaires. Toutes ces techniques sont de plus en plus utilis´ ees en routine, et produisent des masses de donn´ ees tr` es cons´ equentes, le plus souvent mises ` a disposition sur des interfaces web. L’ambition que ces donn´ ees suscitent, c’est de permettre une

´ etude globale d’un syst` eme biologique, int´ egrant des informations les plus compl` etes possible sur l’expression des g` enes, les interactions au sein de la cellule etc . . . On cherche ainsi ` a mod´ eliser le comportement d’un syst` eme comme la r´ esultante d’un grand nombre d’interactions entre ses ´ el´ ements. Cette approche, connue sous le nom de biologie syst´ emique est bien entendu compl´ ementaire d’une approche r´ eductionniste o` u l’on consid` ere les syst` emes les plus simples possible afin d’en d´ eterminer les m´ ecanismes

´ el´ ementaires.

Cette apparente avalanche de donn´ ees doit ˆ etre quelque peu nuanc´ ee. Les mesures haut-d´ ebit restent des techniques on´ ereuses ; en pratique, cela signifie que pour une

´ etude cibl´ ee, on ne peut mat´ eriellement r´ ealiser qu’un petit nombre d’exp´ eriences de ce type, en regard du nombre de variables mesur´ ees, et du bruit g´ en´ eralement observ´ e.

Pour fixer les id´ ees, disons que les techniques courantes affichent de l’ordre du millier de variables mesur´ ees, et sont au plus utilis´ ees une dizaine de fois en pratique

1

. On peut bien sˆ ur compter sur les donn´ ees d´ ej` a disponibles dans des conditions voisines de l’´ etude, au prix d’une diminution – peut-ˆ etre consid´ erable – du rapport signal sur bruit. L’exploitation des donn´ ees haut-d´ ebit est donc particuli` erement difficile, non pas seulement ` a cause du volume d’information en jeu, mais aussi parce qu’elle doit

1ce qui est peu, attendu qu’une mˆeme exp´erience doit ˆetre r´ep´et´ee au minimum entre 3 et 5 fois

1

(13)

ˆ

etre adapt´ ee ` a la qualit´ e des donn´ ees et au d´ es´ equilibre entre le nombre de variables mesur´ ees et le nombre de mesures disponibles.

Int´ eressons-nous maintenant ` a une deuxi` eme difficult´ e : aussi surprenant que cela puisse paraˆıtre de prime abord, il n’est absolument pas trivial de pr´ eciser ce que l’on attend d’une (( analyse )) des donn´ ees haut-d´ ebit. Il s’agit d’une probl´ ematique g´ en´ erale en biologie syst´ emique : parvenir ` a formuler des questions ou des propri´ et´ es d’int´ erˆ et pour le syst` eme que l’on ´ etudie est, dans ce domaine, un probl` eme ` a part enti` ere. Les raisons de cette difficult´ e sont diverses, ` a commencer par le fait qu’il est relativement ardu de relier les processus biologiques ´ etudi´ es (apoptose, adaptation ` a un stress) ` a des acteurs mol´ eculaires pr´ ecis (g` enes, prot´ eines . . .). Or si l’on s’int´ eresse le plus souvent aux propri´ et´ es desdits processus, ce sont bien les esp` eces chimiques que l’on mesure.

Dans le cas des donn´ ees haut-d´ ebit, on peut ´ evoquer une difficult´ e plus sp´ ecifique : ce type de mesure est g´ en´ eralement r´ ealis´ e comme un travail exploratoire ; pour un ph´ enom` ene donn´ e, les techniques de mesure haut-d´ ebit donnent une image globale du syst` eme, ` a partir de laquelle on esp` ere d´ ebuter un travail d’investigation plus cibl´ e. Pour cela, il faut pouvoir rep´ erer dans la masse de donn´ ees recueillies des ´ el´ ements suscep- tibles d’ˆ etre int´ eressants pour l’´ elucidation du ph´ enom` ene ´ etudi´ e. Dit autrement, il faut savoir interpr´ eter les donn´ ees produites, c’est-` a-dire y distinguer ce qui est surprenant de ce qui est attendu, ce qui fait sens de ce qui est contradictoire avec les connaissances sur le syst` eme ; puis dans un deuxi` eme temps ˆ etre capable d’utiliser les donn´ ees comme une base pour g´ en´ erer des hypoth` eses r´ efutables par l’exp´ erience.

Ces consid´ erations nous am` enent au probl` eme ´ etudi´ e dans cette th` ese : pour un processus biologique donn´ e, on dispose de donn´ ees haut-d´ ebit provenant de diff´ erentes sources. Comment comparer les donn´ ees entre elles et tester leur coh´ erence ? Comment les combiner pour en d´ eduire des informations nouvelles ?

1.2 Approche suivie

Pour r´ epondre ` a ces questions, nous introduisons un formalisme permettant d’int´ egrer

un large spectre de donn´ ees haut-d´ ebit. Dans ce formalisme, les donn´ ees exp´ erimentales

ou les connaissances s’interpr` etent soit comme des ´ el´ ements d’un mod` ele physique des

interactions cellulaires, soit comme des mesures sur l’´ etat de ce mod` ele. Nous pro-

posons dans ce cadre une notion formelle de consistance entre mod` ele et mesures

exp´ erimentales. Cette notion de consistance est ` a la base d’une d´ emarche compl` ete

d’analyse de donn´ ees, d´ ecrite en figure 1.1. Partant des donn´ ees existantes (compre-

nant des mesures exp´ erimentales et les r´ egulations connues d’un syst` eme), nous testons

en premier lieu leur coh´ erence. Dans le cas o` u ce test ´ echoue, nous montrons des ap-

proches de diagnostic nous permettant d’en comprendre la cause. En prenant appui

sur ce diagnostic, on peut rechercher des corrections, soit sur la base de sources bi-

bliographiques, soit en ´ etudiant l’ensemble des corrections possibles. Une fois que l’on

a obtenu un mod` ele coh´ erent avec les donn´ ees, il peut ˆ etre utilis´ e pour produire des

pr´ edictions sur le syst` eme et ses variables non observ´ ees. Cela inclut notamment la

probl´ ematique de reverse-engineering, c’est-` a-dire la d´ ecouverte de tout ou partie des

(14)

Diagnostic Correction

Donn´ ees Consistance Mod` ele

Pr´ ediction

EXPERIMENTATION Contrˆ ole

Plans d’exp´ erience

Fig. 1.1 – Cycle d’analyse des donn´ ees haut-d´ ebit

m´ ecanismes ` a l’œuvre dans un syst` eme donn´ e ` a partir de mesures exp´ erimentales. Les pr´ edictions obtenues pourront enfin guider les exp´ erimentations suivantes, soit par une v´ erification directe, soit ´ eventuellement dans le cadre de plans d’exp´ eriences.

Le formalisme que nous proposons est adapt´ e aux caract´ eristiques des donn´ ees haut- d´ ebit, que nous r´ esumons comme suit :

1. elles sont en g´ en´ eral fortement bruit´ ees et peu r´ epliqu´ ees ;

2. elles portent sur un grand nombre de variables, mais sur peu de conditions diff´ erentes ;

3. elles repr´ esentent un volume consid´ erable d’information.

Le premier point nous conduira d’une part ` a adopter une approche qualitative, robuste aux valeurs num´ eriques bruit´ ees ; il motive surtout notre approche bas´ ee sur l’intro- duction d’un crit` ere de consistance entre les sources de donn´ ees, et son utilisation pour d´ etecter, voire corriger les valeurs aberrantes. Le deuxi` eme point implique qu’il nous faudra travailler avec des mod` eles sous-d´ etermin´ es, c’est-` a-dire en admettant qu’il y a plusieurs mod` eles plausibles d’apr` es les donn´ ees disponibles. Ainsi, nous devrons ˆ etre capables de proposer des pr´ edictions malgr´ e l’incertitude sur le mod` ele r´ eel. Mieux en- core, on pourra s’int´ eresser ` a la conception d’exp´ eriences permettant de d´ eterminer le mod` ele r´ eel le plus efficacement possible. Enfin, le troisi` eme point nous obligera ` a soi- gner tout particuli` erement les aspects algorithmiques associ´ es ` a chacune de ces tˆ aches.

Nous voulons ` a pr´ esent mentionner quelques uns des types de donn´ ees haut-d´ ebit les

plus courants ; nous nous appuyons notamment pour cela sur la revue de Joyce et

Palsson [48].

(15)

1.3 Sur les donn´ ees

Donn´ ees d’expression Il s’agit de mesures sur le transcriptome des cellules, c’est-` a- dire l’ensemble des mol´ ecules d’ARN pr´ esentes ` a un instant donn´ e dans un tissu donn´ e.

Ces ARN peuvent coder pour des prot´ eines ou avoir une activit´ e propre (transport des acides amin´ es, r´ egulation d’autres ARN, modifications du g´ enome . . .). Les tech- niques les plus utilis´ ees sont notamment les puces ` a ADN, la PCR quantitative ou la m´ ethode SAGE. Plus pr´ ecis´ ement, ces techniques mesurent la quantit´ e d’ARN pr´ esente dans un ´ echantillon ` a l’aide de sondes qui sont sp´ ecifiques de chaque g` ene. Certaines puces ` a ADN par exemple sont munies de plusieurs dizaines de milliers de sondes, et servent ` a r´ ealiser des mesures dites pang´ enomique, c’est-` a-dire portant sur l’ensemble des s´ equences g´ enomiques transcrites connues.

La valeur trouv´ ee pour chaque sonde ne donne la quantit´ e d’ARN pr´ esente dans l’´ echantillon qu’` a une constante multiplicative pr` es. Celle-ci d´ epend notamment de la taille de l’´ echantillon, et de constantes de l’appareil de mesure, le tout ´ etant difficile ` a

´

etalonner. C’est pourquoi on proc` ede en g´ en´ eral par comparaison avec une condition de r´ ef´ erence : par exemple, cellules en culture contre cellules soumises ` a un stress, cel- lules tumorales contre cellules saines, cellules nerveuses contre cellules musculaires. Le r´ esultat d’une mesure d’expression est donc un vecteur contenant pour chaque transcrit le ratio entre les valeurs trouv´ ees dans la condition d’int´ erˆ et et la condition de r´ ef´ erence.

La technique la plus courante aujourd’hui est la puce ` a ADN

2

, qui est une plaque sur laquelle sont fix´ ees des sondes. Ces sondes sont constitu´ ees d’une s´ equence d’ADN compl´ ementaire d’une s´ equence recherch´ ee. Les plaques peuvent contenir jusqu’` a plu- sieurs dizaines de milliers de sondes, et l’on peut choisir la composition de chaque plaque. Les quantit´ es typiques d’ARN peuvent ´ enorm´ ement varier d’un ARN ` a l’autre, et les signaux forts rendent les signaux faibles peu pr´ ecis. C’est pourquoi on trouve des plaques d´ edi´ ees pour certains types d’ARN qui sont connus pour ˆ etre peu exprim´ es (ARN de facteurs de transcription ou de micro-ARN par exemple). La pr´ ecision que l’on obtient pour les ratios d’expression est de l’ordre de l’unit´ e (voir figure 1.2). Pour des mesures plus pr´ ecises, on a recours ` a la RT-PCR (pour Real Time Polymerase Chain Reaction). La technique de PCR permet de cr´ eer un grand nombre de copies d’un brin d’ADN dont la s´ equence est connue, mˆ eme si l’on ne dispose initialement que d’un petit nombre d’exemplaires. Lors d’une RT-PCR, on it` ere des phases de copies (dites d’amplification) et la vitesse d’apparition du brin d’ADN (mesur´ ee par fluorescence) en donne la quantit´ e initiale. La RT-PCR offre une pr´ ecision de l’ordre du dixi` eme, mais devient relativement lourde au-dessus de la centaine de cibles mesur´ ees.

Dans tous les cas, il faut en premier lieu obtenir l’ARN contenu dans les cellules (ARN total), par une op´ eration d’extraction. L’ARN obtenu est (( converti )) en ADN, par r´ etrotranscription. Cette op´ eration est n´ ecessaire parce les mol´ ecules d’ARN sont particuli` erement instables, contrairement aux chaˆınes d’ADN. C’est pour cela qu’on parle de puces ` a ADN, ou d’amplification de l’ADN.

Il faut en pratique disposer d’une quantit´ e suffisante d’ARN total, et pour cela uti-

2La seule base de donn´ees GEO [8] comptait en septembre 2006 plus de 120000 de ces puces, r´eparties sur plus de 200 organismes.

(16)

(a) (b)

Fig. 1.2 – (a) Mesure d’expression sur un ´ echantillon de poumon humain, extraite de [49]. Le mˆ eme ´ echantillon a ´ et´ e analys´ e sur deux puces de mˆ eme mod` ele. Chaque point correspond ` a une sonde de la puce. Chaque sonde correspond sp´ ecifiquement ` a un ARN transcrit. Sur chaque axe est repr´ esent´ ee la mesure d’expression normalis´ ee obtenue sur chaque puce. Dans le cas id´ eal, tous les points devraient se trouver sur la droite d’´ equation y = x. Les droites vertes correspondent ` a une variation d’un facteur 2 (augmentation et diminution respectivement). (b) Mˆ eme type de comparaison, mais cette fois entre deux ´ echantillons issus de tissus diff´ erents.

liser un ´ echantillon suffisamment important. Par cons´ equent, cela oblige ` a travailler sur un ´ echantillon non homog` ene, parce qu’un tissu peut contenir plusieurs types cellulaires tr` es distincts, et parce que les cellules d’un mˆ eme type sont le plus souvent dans des

´ etats notablement diff´ erents. Il existe des contextes exp´ erimentaux dans lesquels on peut (( synchroniser )) les cellules, mais la plupart du temps, une mesure d’expression est une mesure (( en moyenne )) et peut fort bien ne correspondre ` a l’´ etat d’aucune cellule en particulier. Il existe des approches comme [7] qui proposent de corriger ce probl` eme sous certaines conditions, mais elles sont en pratique rarement applicables.

Electrophor` ´ ese sur gels bidimensionnels De mˆ eme que l’on peut, ` a l’aide d’une puce ` a ADN, mesurer la quantit´ e de chaque s´ equence d’ARN dans un ´ echantillon, on voudrait pouvoir mesurer la quantit´ e des prot´ eines pr´ esentes ; en quelque sorte, disposer d’une (( puce ` a prot´ eines )). Malheureusement, les choses sont plus compliqu´ ees.

La diff´ erence importante est que la notion de s´ equence compl´ ementaire n’existe pas chez les prot´ eines. Il est donc extrˆ emement difficile de fabriquer une sonde sp´ ecifique d’une prot´ eine donn´ ee (voir plus loin avec la technique de chIP-chip). Pour explorer le prot´ eome d’une cellule (l’ensemble des prot´ eines pr´ esentes), la m´ ethode la plus efficace

`

a l’heure actuelle semble ˆ etre les gels bidimensionnels, qui sont des plaques recouvertes d’un milieu particulier sur lequel on fait migrer les prot´ eines extraites d’un ´ echantillon.

Leur d´ eplacement est provoqu´ e dans une dimension, par un champ ´ electrique et dans

l’autre, par un gradient de pH. On dit que l’on obtient une bonne r´ esolution quand

chaque tache est individualis´ ee et ne contient qu’une seule sorte de prot´ eine. Si c’est

le cas, on peut alors mesurer la quantit´ e de prot´ eines pr´ esentes en mesurant la surface

(17)

de la tache qui lui correspond. Reste – et c’est l` a la plus grande difficult´ e – ` a identifier la prot´ eine associ´ ee ` a chaque tache. Il s’agit en pratique de l’´ etape limitante en terme de d´ ebit. La proc´ edure la plus performante actuellement fait appel ` a des techniques de spectrom´ etrie de masse. Notons bien qu’il n’y a pas une relation simple entre la quantit´ e d’un ARN donn´ e et celle de la prot´ eine correspondante. Ceci est dˆ u ` a l’existence de r´ egulations dites post-transcriptionnelles, qui peuvent ´ eventuellement d´ egrader un ARN avant qu’il ne soit traduit en prot´ eine.

Chromatographie/Spectrom´ etrie La technique pr´ ec´ edente peut ˆ etre adapt´ ee pour explorer le m´ etabolome d’une cellule, c’est-` a-dire l’ensemble des m´ etabolites pr´ esentes dans un tissu. Les m´ etabolites sont des mol´ ecules impliqu´ ees dans la r´ egulation ´ ener- g´ etique et dans la structure (cytosquelette) des cellules. Dans ce cas ; l’´ electrophor` ese est remplac´ ee par des techniques de chromatographie : la migration n’est plus provoqu´ ee par des champs ´ electriques mais par le d´ eplacement d’un fluide (gaz ou liquide).

S´ equen¸ cage C’est sans nul doute la source la plus ancienne de donn´ ees haut-d´ ebit. Le s´ equen¸cage de g´ enome est l’un des protocoles les plus automatis´ es ` a l’heure actuelle. La mise en place de nombreux centres a permis d’obtenir en l’espace de quelques ann´ ees plusieurs centaines de g´ enomes complets. Selon la base de donn´ ees GOLD [61], on comptait en mai 2007 pr` es de 700 genomes compl` etement s´ equenc´ es, et plus de 1800 projets de s´ equen¸cage en cours, soit un total d´ epassant les 2500 esp` eces

3

. D’apr` es les estimations courantes chacun de ces g´ enomes contient de plusieurs centaines ` a quelques dizaines de milliers de g` enes codant pour des prot´ eines ou des petits ARN.

Disposer d’un g´ enome a essentiellement deux b´ en´ efices. Premi` erement on peut y rechercher des indices sur le fonctionnement de la cellule par recherche directe de la s´ equence. On sait par exemple d´ eterminer les prot´ eines cod´ ees dans un g´ enome et cer- taines de leurs variations (´ epissage alternatif notamment), ou encore – dans une certaine mesure – d´ etecter les sites dans le g´ enomes o` u se lient les facteurs de transcription. Le deuxi` eme b´ en´ efice, bien plus important en pratique, est de faciliter nombre de manipu- lations exp´ erimentales touchant ` a la transcription, ` a commencer par la conception des sondes pour les mesures d’expression.

Par ailleurs, le g´ enome s´ equenc´ e correspond bien ` a un individu particulier dans une esp` ece donn´ ee. Pour ne pas biaiser les conclusions d’une ´ etude il est donc important de connaˆıtre les variations existant entre les individus d’une mˆ eme esp` eces. Le type le plus simple de variation est la variation ponctuelle d’un nucl´ eotide ou SNP (pour Single Nucleotide Polymorphism ). Il existe ´ egalement des bases de donn´ ees de SNP, voir par exemple [65].

ChIP-chip Cette technique permet de d´ etecter tous les sites de fixation d’un facteur de transcription donn´ e sur le g´ enome. Le protocole est le suivant : les prot´ eines li´ ees ` a l’ADN dans la cellule sont fix´ ees ` a l’aide d’un produit particulier, puis l’ADN est extrait et fragment´ e en petits brins par ultrasons. Il est le plus souvent possible, quoique

3dont, il faut le pr´eciser, un grand nombre d’ˆetres unicellulaires

(18)

tr` es technique, de fabriquer des anticorps qui se lient sp´ ecifiquement ` a une prot´ eine donn´ ee. Si l’on dispose d’un tel anticorps, on peut l’utiliser pour marquer les complexes prot´ eine-ADN d’un facteur de transcription particulier, puis les s´ eparer du reste. Le complexe est ensuite d´ etruit, et on extrait uniquement les courts brins d’ADN. Cette phase correspond ` a la partie (( ChIP )) (pour Chromatin Immuno-Precipitation). La partie (( chip )) est une analyse de l’ensemble des brins d’ADN par puce ` a ADN classique.

L’ensemble permet donc de d´ etecter toutes les s´ equences du g´ enome qui sont des sites de fixation d’un facteur de transcription dans une condition donn´ ee. L’application de cette technique peut mettre ` a jour des milliers de sites dans le g´ enome. N´ eanmoins elle ne renseigne pas sur l’effet des liaisons d´ ecouvertes. En particulier, la fixation d’un facteur de transcription peut fort bien n’avoir aucun effet sur la transcription des g` enes.

Double hybride Il s’agit d’une technique permettant de d´ etecter ` a tr` es grande

´ echelle les couples de prot´ eines capables de former un complexe. Le principe de la manipulation est le suivant : supposons que l’on cherche ` a tester la complexation de deux prot´ eines A et B ; on construit dans un organisme simple (principalement la le- vure) un syst` eme rapporteur, qui est constitu´ e d’un facteur de transcription d’une part et d’un g` ene cible de ce facteur d’autre part. Le g` ene en question produit une prot´ eine phosphorescente, dont la pr´ esence sera donc d´ etectable facilement. Le facteur de trans- cription n’est pas produit par l’organisme directement ; ` a la place on introduit dans le g´ enome de l’organisme un g` ene codant pour la prot´ eine A fusionn´ ee ` a un morceau du facteur, et un g` ene B codant pour la prot´ eine B fusionn´ ee ` a l’autre morceau du facteur.

Si A et B forment une interaction, les 2 parties du facteur de transcription formeront un complexe actif et on observera une fluorescence. Ce principe peut ˆ etre automatis´ e pour tester plusieurs dizaines de milliers de couples, comme dans [80].

Extraction de la litt´ erature A bien y r´ ` efl´ echir, la source d’information la plus cons´ equente se trouve probablement dans les centaines de milliers d’articles publi´ es depuis trois ou quatre d´ ecennies, dont la plupart est r´ epertori´ ee (au moins en ce qui concerne les r´ esum´ es) dans le serveur Pubmed du NCBI

4

. L’information y est cependant (( cach´ ee )) dans du texte en langue naturelle, et par cons´ equent difficilement accessible

`

a un traitement automatique

5

. Plusieurs groupes [101, 46, 37, 50, 40] y ont r´ epondu de mani` ere tr` es pragmatique : puisqu’il est impossible d’extraire automatiquement et de mani` ere fiable l’information dispers´ ee dans la litt´ erature, il suffit de l’extraire manuelle- ment, quitte ` a cibler les probl´ ematiques et mettre suffisamment de personnes ` a la tˆ ache.

Certaines bases de donn´ ees ainsi d´ evelopp´ ees contiennent jusqu’` a quelques dizaines de milliers d’interactions. La plupart de ces bases (` a l’exception notable de Kegg et de RegulonDB) sont d´ evelopp´ ees par des soci´ et´ es priv´ ees et ne sont pas dans le domaine public. Outre l’effort immense qu’une telle entreprise constitue, il faut aussi consid´ erer

4Accessible `a l’adressehttp://www.ncbi.nlm.nih.gov/sites/entrez

5Nous n’ignorons pas qu’il existe un corpus de recherche tr`es important sur l’extraction d’information depuis un texte ´ecrit en langue naturelle, et beaucoup d’applications `a la biologie. N´eanmoins les r´esultats obtenus jusqu’`a pr´esent ne sont `a notre connaissance pas assez fiables pour servir d’entr´ee `a des traˆıtements automatiques `a grande ´echelle.

(19)

les probl` emes li´ es ` a la formalisation du contenu des publications : quelles informations extraire ? Comment sp´ ecifier le contexte de l’´ etude ? Mˆ eme partielles, ces donn´ ees sont essentielles du fait de leur grande fiabilit´ e. Notons qu’` a ce jour les bases de donn´ ees issues de la litt´ erature se limitent aux interactions. Il n’existe ` a notre connaissance qu’une base de donn´ ees portant sur des observations (´ evolution temporelle, r´ eponse typique ` a une perturbation) [37].

1.4 Travaux connexes

1.4.1 Panorama

Grˆ ace aux puces ` a ADN notamment, il est aujourd’hui relativement simple, quoi- qu’encore coˆ uteux d’obtenir une image globale de la r´ eponse transcriptionnelle d’une cellule ` a une perturbation. En revanche l’exploitation de ces donn´ ees pose encore probl` eme : sous sa forme brute, une mesure d’expression est un r´ esultat peu lisible et tr` es volumineux. Elle peut bien sˆ ur dans un premier temps servir ` a v´ erifier ce que l’on sait d´ ej` a. Le probl` eme est nettement plus complexe en revanche, d` es que l’on sou- haite s’appuyer dessus pour inf´ erer des m´ ecanismes ou guider l’exp´ erimentation plus avant.

L’utilisation la plus simple (et la plus courante) des mesures d’expression ` a l’´ echelle g´ enomique, c’est le criblage de g` enes impliqu´ es dans un ph´ enom` ene biologique donn´ e.

Les transcrits exhibant une forte variation entre les deux conditions (c’est-` a-dire sup´ e- rieure ` a un certain seuil) sont alors utilis´ es comme candidats prioritaires pour l’investi- gation des m´ ecanismes dudit ph´ enom` ene. Ici, deux difficult´ es apparaissent en pratique.

La premi` ere est li´ ee au choix du seuil au-dessus duquel une variation est jug´ ee signi- ficative. Il existe une litt´ erature abondante sur le sujet (voir les revues rapides dans [86, 49]) ; mais comme on peut le constater sur la figure 1.2, le niveau de bruit est relativement important dans le cas des puces ` a ADN. Est en g´ en´ eral jug´ ee significative une variation d’un facteur au moins 2 ou 3. Pourtant rien n’exclut a priori qu’une variation faible – disons trop faible pour sortir significativement du bruit de fond – ait un rˆ ole important dans un ph´ enom` ene donn´ e. Il semble donc difficile de s´ electionner une liste de g` enes ` a partir des seules donn´ ees d’expression. Deuxi` emement, l’exp´ erience montre qu’il y a tr` es souvent plusieurs centaines de g` enes dont la variation est signifi- cative. Une bonne partie d’entre eux sont en g´ en´ eral d´ ecrits dans la litt´ erature, mais il ne serait gu` ere raisonnable de se lancer dans une compilation manuelle des donn´ ees disponibles sur les g` enes identifi´ es – ne serait-ce qu’` a cause du temps n´ ecessaire ` a sa constitution, bien sup´ erieur au temps n´ ecessaire ` a la production des mesures d’expres- sion. Notons bien que de toute fa¸con, le probl` eme n’aurait ´ et´ e en rien r´ esolu : on aurait transform´ e une masse de donn´ ees num´ eriques en une masse de texte gu` ere plus propice

`

a l’exploitation.

Ces constats ont amen´ e ` a un grand nombre de propositions, que nous regroupons en

trois cat´ egories. La premi` ere [72] consiste ` a annoter chaque g` ene avec des informations

diverses issues de bases de donn´ ees publiques (dont, typiquement plusieurs mesures

d’expression), puis ` a utiliser des instruments d’analyse statistique pour structurer l’en-

(20)

semble des candidats, par des m´ ethodes de clustering. L’int´ erˆ et est qu’on diminue ainsi le nombre d’entit´ es ` a consid´ erer, et que l’on fait apparaˆıtre des groupes pouvant – dans le meilleur des cas – avoir une pertinence biologique. C’est une approche ` a double tranchant : d’un cˆ ot´ e elle est int´ eressante parce qu’elle permet d’int´ egrer (au travers de la distance utilis´ ee lors du clustering) des informations tr` es diverses sur les g` enes candidats (cocitations dans les articles, interactions connues, description ontologique [20], coexpressions dans d’autres conditions) ; de l’autre il devient difficile d’expliquer le regroupement de deux g` enes, ` a mesure qu’on ajoute des informations. Il apparaˆıt en pratique que ces approches de type data mining sont un bon moyen de faire ressortir des candidats, ou de sugg´ erer des liens fonctionnels entre plusieurs g` enes. Leur limite est qu’elles calculent un r´ esultat qui n’est pas r´ efutable par l’exp´ erience. Il n’est donc pas facile d’´ evaluer objectivement la qualit´ e du r´ esultat. De plus elles ne fournissent pas d’explication physique des liens trouv´ es : une fois quelques candidats mis en avant, le travail d’´ elucidation des m´ ecanismes reste entier.

Une deuxi` eme approche consiste ` a utiliser les donn´ ees d’expression comme entr´ ee dans des probl` emes d’apprentissage (classification ou r´ egression). Autrement dit, il s’agit de proposer des mod` eles statistiques liant les donn´ ees d’expression (et ´ eventuel- lement d’autres sources d’information) ` a des propri´ et´ es v´ erifiables. Donnons quelques exemples. Les travaux d´ ecrits dans [9, 99] sont des tentatives de classification des tu- meurs dans diff´ erents cancers ` a partir de profils d’expression. Ces classifications cor- respondent ` a des stades ou des conditions cliniques et peuvent ˆ etre utiles au choix d’un traitement appropri´ e. Les donn´ ees d’expression ont ´ et´ e ´ egalement utilis´ ees pour la pr´ ediction d’interactions prot´ eine-prot´ eine [102], de r´ eseaux g´ en´ etiques [64]. Comme dans les approches de data-mining, il existe des outils puissants pour combiner d’autres types de donn´ ees aux mesures d’expression. Citons notamment les d´ eveloppements produits autour des fonctions noyaux revus dans [99]. Les pr´ edictions obtenues sur la structure du syst` eme peuvent ensuite ˆ etre test´ ees exp´ erimentalement.

En classification ou en r´ egression, l’objectif est donc d’estimer une grandeur par-

ticuli` ere ` a partir d’observations et de connaissances sur le syst` eme. La troisi` eme et

derni` ere approche que nous souhaitons mentionner est l’utilisation des donn´ ees d’ex-

pression dans un mod` ele physique des r´ eseaux de r´ eactions. Dans ce cadre, on d´ efinit

explicitement les ´ etats du syst` eme et son ´ evolution dans le temps ou sous l’action d’une

perturbation. La mod´ elisation des cin´ etiques chimiques par des ´ equations diff´ erentielles

ou des processus stochastiques en sont des exemples. Le principal avantage de ce type

d’approche est de permettre l’int´ egration de donn´ ees diverses dans un langage plus

lisible que les mesures de similarit´ e utilis´ ees en apprentissage. On ´ evite ainsi le cˆ ot´ e

(( boˆıte noire )) des pr´ edictions r´ ealis´ ees en classification notamment. Le travail rap-

port´ e dans le pr´ esent m´ emoire appartient ` a cette cat´ egorie. Notons n´ eanmoins qu’il

n’y a pas de fronti` ere nette entre mod` eles physiques d’une part, et mod` eles statis-

tiques d’autre part. C’est particuli` erement clair dans [56], o` u Kundaje et al montrent

que d´ ecouvrir la fonction de r´ egulation d’un g` ene ` a partir de sa s´ equence promotrice

peut se ramener ` a un probl` eme de classification supervis´ ee. Les propositions ` a base de

r´ eseaux bay´ esiens (voir [68] pour une introduction) en sont un autre exemple.

(21)

1.4.2 Mod` eles physiques de r´ eseaux biologiques

L’´ enum´ eration faite au paragraphe 1.3 montre que les donn´ ees haut-d´ ebit peuvent g´ en´ eralement ˆ etre distingu´ ees en deux cat´ egories, selon qu’elles portent sur la structure et les m´ ecanismes ´ el´ ementaires du syst` eme ´ etudi´ e (r´ eactions biochimiques) ou sur son

´

etat (variation en concentration par exemple). Ces deux types d’information ont en commun – encore que pour des raisons diff´ erentes – d’ˆ etre de nature qualitative. Dans le premier cas, la raison en est que s’il est techniquement possible de d´ etecter l’exis- tence de r´ eactions ` a grande ´ echelle, il est toujours d´ elicat d’en connaˆıtre les constantes cin´ etiques ; dans le second cas, les mesures apparaissent comme une grandeur physique quantitative (ratio d’expression, de quantit´ es mesur´ ees), mais elles sont le plus souvent fort bruit´ ees. Cette variabilit´ e correspond majoritairement ` a une variabilit´ e biologique des ´ echantillons, mais ´ egalement aux limites des instruments de mesures, comme nous le voyons sur la figure 1.2.

Pour concevoir un mod` ele physique d’un syst` eme en pr´ esence de donn´ ees bruit´ ees et incompl` etes, les mod` eles probabilistes sont une option attractive : les informa- tions sur la structure sont cod´ ees par des variables al´ eatoires discr` etes repr´ esentant g´ en´ eralement un graphe, et les mesures quantitatives sont suppos´ ees suivre une distri- bution param´ etrique. Ses param` etres – notamment les caract´ eristiques du bruit, et les constantes cin´ etiques – sont estim´ es ` a partir des donn´ ees selon un crit` ere d’optimisa- tion, de type maximum de vraisemblance. La piste la plus ´ etudi´ ee repose sur l’emploi de r´ eseaux bay´ esiens [82, 83, 29, 15, 67]. Ces approches ont principalement deux faiblesses : premi` erement, elles reposent sur des probl` emes d’optimisation non convexes, c’est-` a- dire pouvant comporter des optima locaux ; d` es que les mod` eles comportent quelques dizaines de variables, il devient particuli` erement difficile de trouver un optimum glo- bal. Deuxi` emement, mˆ eme en supposant un mod` ele optimal trouv´ e, celui-ci peut ˆ etre tr` es diff´ erent des mod` eles quasi-optimaux. Autrement dit, l’inf´ erence par maximisation d’un score est potentiellement peu robuste. Ce probl` eme a une solution

6

´ el´ egante – mais coˆ uteuse d’un point de vue calculatoire – consistant ` a ´ etudier la distribution post´ erieure, comme cela est fait dans les approches bay´ esiennes pour la phylog´ enie [44]. Enfin, l’uti- lisation de m´ ethodes probabilistes n´ ecessite des ´ echantillons suffisamment importants pour estimer les param` etres du mod` ele. On peut penser d’apr` es la litt´ erature [5] que la limite basse d’applicabilit´ e des m´ ethodes probabilistes se situe autour de 100 ` a 300 mesures ind´ ependantes. Or il est bien rare en pratique de disposer d’autant de donn´ ees pour un seul syst` eme.

Une r´ eponse partielle ` a ces probl` emes peut ˆ etre trouv´ ee dans les approches d´ ecrites dans [11, 6, 97], o` u les mod` eles probabilistes sont remplac´ es par des ´ equations diff´ eren- tielles ordinaires, le plus souvent lin´ eaires. Les techniques d’estimation sous-jacentes sont plus abordables sur le plan complexit´ e (r´ esolution de syst` emes lin´ eaires, optimi- sation convexe) et le traitement du bruit requiert moins de param` etres (interpolation, estimation au sens des moindres carr´ es). L’´ etude r´ ealis´ ee dans [5] confirme l’intuition : ces m´ ethodes se comportent mieux que les m´ ethodes probabilistes dans le cas o` u peu de donn´ ees sont disponibles ; et les diff´ erences s’att´ enuent avec l’augmentation du nombre

6Solution qui, `a notre connaissance, n’est pas souvent mise en œuvre

(22)

d’exp´ eriences. N´ eanmoins dans les deux approches, il faut pouvoir fournir un nombre suffisant d’exp´ eriences ind´ ependantes.

Le raisonnement qualitatif est une alternative pour traiter des probl` emes o` u les donn´ ees sont impr´ ecises et/ou incompl` etes [55, 94, 41]. L’approche en raisonnement qualitatif consiste ` a sur-approximer l’ensemble des comportements observables, en abs- trayant des propri´ et´ es plus robustes des mesures, comme leur signe, ou leur ordre de grandeur. Les relations quantitatives sont ` a leur tour abstraites en contraintes qualita- tives, qui constituent des conditions n´ ecessaires (mais pas suffisantes) ` a v´ erifier. Cette d´ emarche a d´ ej` a ´ et´ e appliqu´ ee en biologie syst´ emique pour mod´ eliser la dynamique des r´ eseaux g´ en´ etiques [79, 22, 10], ou des r´ eseaux de signalisation [16, 38]. Dans tous ces travaux, le processus d’abstraction qualitative permet de d´ eriver une notion de coh´ erence entre un mod` ele et des mesures exp´ erimentales adapt´ ee ` a la qualit´ e et la pr´ ecision des donn´ ees disponibles. Le travail pr´ esent´ e dans cette th` ese proc` ede de la mˆ eme d´ emarche, appliqu´ ee ` a l’´ etude des donn´ ees haut-d´ ebit.

1.5 Nos contributions

Nous pr´ esentons maintenant les diff´ erentes contributions de ce travail de th` ese.

Crit` ere de consistance et contraintes qualitatives Nous introduisons un crit` ere de consistance entre un mod` ele simple des interactions cellulaires et des mesures exp´ eri- mentales. Ce crit` ere stipule essentiellement que la variation d’une esp` ece entre deux

´ etats d’un syst` eme donn´ e doit toujours pouvoir ˆ etre expliqu´ ee par la variation d’une esp` ece qui la r´ egule. Nous exprimons cette r` egle intuitive comme une contrainte sur variables ` a domaines finis, dont la r´ esolution est montr´ ee NP-compl` ete.

Par ailleurs, nous d´ emontrons la validit´ e de notre crit` ere de consistance dans un cadre diff´ erentiel. Cette ´ etude pr´ ecise les limites d’applicabilit´ e de notre formalisme, et fournit des guides pr´ ecieux pour l’interpr´ etation des donn´ ees.

Algorithmes pour l’´ etude des contraintes qualitatives La deuxi` eme contribu-

tion de ce travail porte sur la r´ esolution et l’´ etude des contraintes qualitatives. Nous

proposons deux approches offrant des possibilit´ es compl´ ementaires. La premi` ere utilise

les diagrammes de d´ ecision pour repr´ esenter explicitement mais de mani` ere compacte

l’ensemble des solutions de la contrainte. Cette approche est associ´ ee ` a des techniques

de d´ ecomposition et de r´ eduction que nous d´ ecrivons, afin d’accroˆıtre significative-

ment la taille des contraintes pouvant ˆ etre trait´ ees. La deuxi` eme approche fait appel ` a

des techniques r´ ecentes de programmation logique : nous montrons comment coder la

r´ esolution des contraintes qualitatives par des programmes logiques, et nous utilisons

des solveurs d´ edi´ es pour rechercher efficacement une solution ` a une contrainte qualita-

tive. Nous verrons que cette m´ ethode permet de v´ erifier certaines propri´ et´ es de mani` ere

beaucoup plus efficace que la pr´ ec´ edente.

(23)

Validation ` a grande ´ echelle de l’approche Nous d´ ecrivons enfin deux applica- tions de nos d´ eveloppements sur donn´ ees r´ eelles. La premi` ere consiste ` a pr´ edire la r´ eponse transcriptionnelle globale de la bact´ erie E. coli ` a partir de donn´ ees bibliogra- phiques ; la deuxi` eme aborde un cas particulier de reconstruction de r´ eseau g´ en´ etique, o` u l’on cherche ` a inf´ erer l’effet des facteurs de transcription (activation ou inhibition) sur leurs g` enes cibles. Ces deux applications d´ emontrent d’une part la capacit´ e de nos algorithmes ` a traiter un volume d’information r´ ealiste : les r´ eseaux consid´ er´ es com- portent plusieurs milliers de g` enes et de r´ egulations et sont confront´ e ` a plusieurs di- zaines de mesures d’expression. D’autre part, nous montrons par ces exp´ eriences que notre crit` ere de consistance est un guide fiable et informatif pour l’analyse de donn´ ees.

Les pr´ edictions obtenues par notre approche ont pu ˆ etre valid´ ees de mani` ere significa- tive, et les d´ esaccords importants nous ont permis dans plusieurs cas de corriger nos mod` eles.

La suite de ce document est structur´ ee comme suit : nous commen¸ cons par donner

une pr´ esentation g´ en´ erale et intuitive de notre approche au chapitre 2 ; nous introdui-

sons ensuite formellement notre notion de consistance et la mod´ elisation associ´ ee au

chapitre 3. Les deux chapitres suivants d´ etaillent les m´ ethodes algorithmiques utilis´ ees

pour la r´ esolution et l’´ etude des contraintes qualitatives. Suivent enfin les applications

sur donn´ ees r´ eelles au chapitre 6.

(24)

Pr´ esentation g´ en´ erale de

l’approche : mod´ elisation de l’op´ eron lactose

Dans ce chapitre, nous illustrons sur un exemple simple la d´ emarche d´ etaill´ ee dans cette th` ese. Il s’agit moins ici d’en faire un expos´ e formel que de la pr´ esenter de mani` ere pragmatique et – nous l’esp´ erons – intuitive.

Les donn´ ees d’expression Nous avons vu en introduction que les donn´ ees d’ex- pression fournies par les puces ` a ADN sont caract´ eris´ ees par un bruit tr` es important relativement au nombre de variables observ´ ees et au nombre de r´ eplicats effectu´ es. Pour s’en apercevoir, on peut par exemple examiner les donn´ ees produites dans les travaux de Maurer et al [66], qui portent sur la r´ eponse g´ en´ etique de la bact´ erie E. coli ` a diff´ erents pH dans le milieu de culture. Les bact´ eries ont ´ et´ e expos´ ee ` a trois pH distincts, et pour chaque pH, cinq r´ eplicats ont ´ et´ e produits. Pour chaque pH et chaque r´ eplicat, une puce ` a ADN a ´ et´ e utilis´ ee pour mesurer le niveau d’expression d’environ 3800 g` enes.

Un extrait des r´ esultats est donn´ e en table 2.1.

Les mesures qui y sont pr´ esent´ ees correspondent au niveau d’expression des g` enes (` a l’´ etat stable) quand les bact´ eries ont ´ et´ e cultiv´ ees sur un milieu ` a pH de 5 ou pH de 7. Le traitement statistique effectu´ e sur les mesures brutes assure que ces donn´ ees sont normalis´ ees, c’est-` a-dire qu’elles sont comparables d’un g` ene ` a l’autre. La premi` ere observation est que selon le g` ene il peut y avoir un ´ ecart relatif ` a la moyenne d´ epassant les 25% (voir table 2.2). Le bruit observ´ e est dˆ u d’une part ` a l’instrument de mesure (comme illustr´ e ` a la figure 1.2), et d’autre part ` a la variabilit´ e des ´ echantillons biolo- giques. Il est clair qu’un ´ echantillon de 5 mesures est insuffisant pour estimer une valeur moyenne, et ce d’autant plus que la loi du bruit n’est pas connue, et a priori difficile ` a mod´ eliser. Il ne s’agit pas ici d’un cas au pire : la plupart des donn´ ees disponibles sont moins, voire pas du tout r´ epliqu´ ees.

13

(25)

G` ene Expression sous pH 5 Expression sous pH 7

1 2 3 4 5 1 2 3 4 5

agaA 128.7 347.1 344.1 346.6 381.4 620.5 558.5 420.0 393.7 419.2

agaB 12.7 18.8 14.5 35.6 16.3 6.5 17.6 4.6 12.6 16.0

agaC 23.5 66.5 78.1 70.8 71.3 85.6 78.4 53.9 63.5 53.5

agaI 51.7 65.1 125.3 116.4 104.0 248.4 104.9 167.7 198.2 175.4 agp 657.3 1019.4 1142.2 1254.3 1060.8 1711.4 1048.8 1551.6 1040.5 1289.6 alaX 6481.9 8344.6 8435.7 7064.6 4838.6 51.9 5855.5 5646.2 6318.4 6245.0 aldA 1588.1 1689.7 1489.3 1494.4 1227.9 1126.5 631.1 553.6 526.6 918.1 Tab. 2.1 – Extrait des r´ esultats obtenus dans [66]. Chaque ligne correspond ` a un g` ene de

E. coli, chaque colonne correspond ` a un couple (condition,r´ eplicat). Le tableau donne les mesures du niveau d’expression des g` enes pour cinq r´ eplicats et deux conditions (pH=5 et pH=7).

G` ene pH = 5 pH = 7

µ σ µ σ

agaA 309.58 91.48 482.38 90.13

agaB 19.58 8.26 11.46 5.12

agaC 62.04 19.62 66.98 12.98 agaI 92.50 28.96 178.92 46.51 agp 1026.80 201.40 1328.38 267.98 alaX 7033.08 1327.25 4823.40 2398.56 aldA 1497.88 153.56 751.18 233.50

Tab. 2.2 – Statistiques ´ el´ ementaires sur les donn´ ees d’expression de la table 2.1. Les

colonnes d’indice µ correspondent ` a l’expression moyenne dans chaque condition ; les

colonnes σ ` a l’´ ecart-type.

(26)

Gene agaA agaB agaC agaI agp alaX aldA

Variation pH 5 → 7 + 0/? 0/? + + – –

Tab. 2.3 – Interpr´ etation des donn´ ees pr´ esent´ ees dans le tableau 2.1. Les donn´ ees quantitatives sont remplac´ ees par le signe de variation en expression entre les deux conditions

Interpr´ etation qualitative Quelle information peut-on tirer de ces donn´ ees d’ex- pression pour caract´ eriser le passage d’un pH faible ` a un pH neutre ? La dispersion observ´ ee rapport´ ee ` a la taille de l’´ echantillon rend une interpr´ etation num´ erique (sous la forme d’une moyenne, ou d’un intervalle de confiance) un peu hasardeuse. Nous proposons dans ce travail de ne consid´ erer que le signe de la variation entre les deux conditions. C’est-` a-dire qu’il nous faut d´ ecider, ` a partir de ces donn´ ees si l’expression de chaque g` ene a augment´ e ou diminu´ e de mani` ere significative. Au moins intuitivement, il semble que cette interpr´ etation soit moins probl´ ematique : dans la table 2.1, il est ` a peu pr` es clair que les g` enes agaA, agaI, agp, alaX et aldA ont une variation significative, respectivement positive, positive, positive, n´ egative, n´ egative. L’algorithme – trop na¨ıf – derri` ere cette interpr´ etation consiste ` a calculer la soustraction des moyennes pour chaque condition, et rendre son signe. Dans le cas o` u l’´ ecart relatif des moyennes est trop faible, on peut au choix, assigner une variation nulle (n´ egligeable), soit d´ eclarer la variation inconnue. Ces deux alternatives ne sont bien sˆ ur pas ´ equivalentes : il faut choisir entre exploiter toute l’information disponible ou se pr´ eserver des erreurs d’in- terpr´ etation. Nous verrons plus loin une fa¸con de trancher.

La d´ emarche que nous suivons consiste donc ` a abstraire des donn´ ees quantitatives bruit´ ees en attributs moins pr´ ecis mais plus robustes, en l’occurrence le signe des gran- deurs. Sur notre exemple, on obtient ainsi la mesure donn´ ee en table 2.3.

Un mod` ele des interactions cellulaires Pour exploiter ces donn´ ees, nous pro- posons de les comparer ` a d’autres informations disponibles sur le syst` eme ´ etudi´ e, ` a commencer par les r´ egulations g´ en´ etiques d´ ecrites dans la litt´ erature. Classiquement, ces r´ egulations sont repr´ esent´ ees sous la forme d’un graphe, o` u chaque sommet corres- pond ` a un g` ene, et chaque arc repr´ esente une r´ egulation. Les arcs sont de deux types, selon que la r´ egulation est une activation ou une inhibition. Ces graphes – souvent appel´ es graphes d’interaction – sont g´ en´ eralement construits par une fouille cibl´ ee des publications disponibles sur un sujet donn´ e, ce qui peut demander un effort cons´ equent.

On trouve par exemple des graphes sur les g` enes contrˆ olant la segmentation chez la dro- sophile [17], sur le cycle cellulaire des mammif` eres [54] ou mˆ eme un graphe synth´ etisant l’ensemble des r´ egulations transcriptionnelles connues chez la bact´ erie E. coli [37]. Nous en donnons quelques exemples ` a la figure 2.1.

D’un point de vue exp´ erimental, il est relativement simple

1

de tester l’existence d’une r´ egulation g´ en´ etique, voire d’en connaˆıtre l’effet (activation ou inhibition) ; ce type d’information peut facilement ˆ etre trouv´ e dans la litt´ erature. En revanche, il est

1Cela n´ecessite n´eanmoins un travail important

(27)

A B C

(a)

D

E

F

(b)

Fig. 2.1 – Exemples de graphe d’interaction. Les fl` eches d’extr´ emit´ e triangulaire (en vert) repr´ esentent des activations, les fl` eches d’extr´ emit´ e en T (en rouge) repr´ esentent des inhibitions.

beaucoup plus difficile d’obtenir des renseignements quantitatifs sur la r´ egulation. Les graphes d’interaction sont donc adapt´ es ` a la pr´ ecision des donn´ ees disponibles, mˆ eme si comme nous le verrons, ils ne sont pas une description univoque d’un syst` eme donn´ e.

Crit` ere de consistance Il nous faut maintenant donner une relation entre un graphe d’interaction et les mesures d’expression. Commen¸cons par un cas simple, en examinant le graphe donn´ e en figure 2.1(a). Il semble assez clair que si l’on fait augmenter A, qui est un activateur de B, alors B doit ´ egalement augmenter. Le g` ene B inhibant C, on s’attend ` a ce que C diminue. De mani` ere analogue, si on fait diminuer A, B et C doivent respectivement diminuer et augmenter. Que se passe-t-il lorsqu’un g` ene est r´ egul´ e par plusieurs autres g` enes, comme dans le graphe pr´ esent´ e en figure 2.1(b) ? Supposons que D et E augmentent tous les deux, ceux-ci ayant des effets contraires sur F , il est impossible de conclure sur sa variation. Il faudrait pour cela disposer d’informations plus pr´ ecises. Dans ce cas, on admettra n’importe quelle variation pour F. En revanche si D diminue et E augmente, les deux r´ egulateurs tendent ` a faire diminuer la quantit´ e de F et seule une variation n´ egative peut ˆ etre admise.

Les raisonnements que nous venons d’effectuer peuvent ˆ etre synth´ etis´ es en une for- mule simple : toute variation en expression d’un g` ene doit pouvoir ˆ etre expliqu´ ee par la variation d’au moins un de ses r´ egulateurs. Nous appellerons une r` egle de ce genre un crit` ere de consistance entre le mod` ele des r´ egulations (le graphe d’interaction) et les donn´ ees d’expression. Nous allons maintenant voir plus en d´ etail comment utiliser ce crit` ere pour ´ etudier un syst` eme. Nous illustrerons notre d´ emarche sur l’exemple de l’op´ eron lactose, dont le graphe d’interaction est donn´ e en figure 2.2.

L’op´ eron lactose Sans trop entrer dans les d´ etails, donnons quelques indications sur le fonctionnement de ce syst` eme. Le glucose et le lactose sont des sucres, mais seul le glucose est suffisamment (( simple )) pour ˆ etre utilis´ e directement par la bact´ erie E.

coli. Si le milieu de culture contient du lactose, mais pas de glucose, la bact´ erie utilise

un m´ ecanisme lui permettant de r´ ealiser la conversion. Le symbole L

e

repr´ esente le

lactose pr´ esent dans le milieu de culture, L

i

le lactose pr´ esent dans la bact´ erie, G le

glucose. La transformation comporte deux ´ etapes : d’abord l’entr´ ee du lactose dans la

cellule via l’action de la perm´ ease LacY, puis transformation en glucose par l’enzyme

(28)

L

e

L

i

G

LacY

LacZ

LacI

A

cAMP-CRP

Fig. 2.2 – Graphe d’interaction pour l’op´ eron lactose chez E. coli.

LacZ avec production d’allolactose A. Cette chaˆıne de production est habituellement inhib´ ee par le facteur LacI, mais elle peut ˆ etre activ´ ee par le complexe cAMP-CRP si le niveau de glucose dans la cellule est suffisamment bas. Dans ce syst` eme, L

e

et G doivent ˆ etre consid´ er´ es comme des entr´ ees, c’est-` a-dire des esp` eces dont la variation n’est pas expliqu´ ee dans le mod` ele, mais d´ epend ´ egalement de facteurs ext´ erieurs. Le lactose dans le milieu ext´ erieur est bien entendu contrˆ ol´ e par l’exp´ erimentateur ; quant au glucose, son niveau d´ epend d’autres m´ ecanismes qui ne sont pas repr´ esent´ es dans le graphe d’interaction.

2.1 V´ erification

La premi` ere utilisation du crit` ere de consistance consiste, comme nous l’avons d´ ej` a esquiss´ e, ` a v´ erifier la compatibilit´ e de donn´ ees d’expression avec les r´ egulations connues du syst` eme ´ etudi´ e. Soit par exemple les mesures donn´ ees au tableau 2.4. La mesure µ

1

est compatible avec le graphe de l’op´ eron lactose. En effet on peut v´ erifier que pour chaque sommet (hormis L

e

et G qui sont des entr´ ees) toutes les variations peuvent ˆ etre expliqu´ ees. Plus pr´ ecis´ ement elles respectent bien notre crit` ere de consistance parce que pour tout sommet, on peut trouver un pr´ ed´ ecesseur avec une influence du signe port´ e par le sommet. Ainsi la diminution de L

i

s’explique par la diminution de LacY, qui s’explique par l’augmentation de LacI etc . . .

En revanche la mesure µ

2

n’est pas compatible avec le graphe d’interaction : les

variations de LacY, A et cAMP-CRP ne sont pas explicables par la variation de leurs

r´ egulateurs. Par exemple LacY augmente selon µ

2

, mais LacI ne varie pas (donc ne peut

expliquer aucune variation) et cAMP-CRP – un activateur de LacY – diminue ; il ne

(29)

Produit L

e

L

i

G LacY LacZ LacI A cAMP-CRP

µ

1

– – 0 – – + – 0

µ

2

+ + 0 + – 0 0 –

µ

3

+ ? – ? ? + ? ?

µ

4

? ? ? – + ? ? 0

Tab. 2.4 – Exemples de mesures pour l’op´ eron lactose d´ ecrit en figure 2.2.

peut donc pas expliquer l’augmentation de LacY. Plus globalement, on peut d´ enombrer 77 mesures compatibles avec le graphe d’interaction, sur un total de 3

8

= 6561 possi- bilit´ es

2

, soit un ratio d’environ 1.2%.

On voit ici qu’il est relativement simple de v´ erifier le crit` ere de consistance, lorsque tous les sommets du graphe sont observ´ es. Que se passe-t-il lorsque les mesures sont partielles ? On dira qu’une mesure partielle satisfait au crit` ere de consistance si l’on peut trouver des valeurs pour les sommets non observ´ es, telles que l’ensemble v´ erifie le crit` ere de consistance. Sous cette d´ efinition, la mesure µ

3

est compatible avec le graphe d’interaction, parce que la mesure :

Produit L

e

L

i

G LacY LacZ LacI A cAMP-CRP

µ

03

+ 0 – – – + – +

´

etend µ

3

et respecte le crit` ere de consistance. En revanche, la mesure µ

4

n’est pas com- patible avec le graphe d’interaction parce que toute extension contredit le crit` ere de consistance. La v´ erification est plus difficile dans le cas de donn´ ees manquantes, puis- qu’elle se ram` ene ` a une r´ esolution (trouver une valeur pour les inconnues qui respecte une contrainte donn´ ee). Dans cet exemple, les donn´ ees manquantes correspondent ` a des mesures incompl` etes ; plus g´ en´ eralement, les inconnues peuvent porter sur l’effet d’une r´ egulation (activation ou inhibition), ou mˆ eme sur son existence.

2.2 Pr´ ediction

Lorsque l’on dispose de mesures compatibles avec un graphe d’interaction, on peut les utiliser pour pr´ edire la valeur des variables non observ´ ees (variation d’un g` ene dans une condition donn´ ee, effet ou existence d’une r´ egulation). Par pr´ edire, on signifie dans ce travail (( d´ eduire par l’interm´ ediaire du crit` ere de consistance ))

3

. Par exemple, dans le cas du graphe d´ ecrit en fig. 2.1(a), nous avons vu que si l’on connaˆıt la variation de A, alors on connaˆıt ´ egalement la variation de B et C. Les choses se compliquent pour des syst` emes plus ´ etendus : revenons ` a l’op´ eron lactose, et supposons que l’on ne dispose que de la mesure µ

3

. Celle-ci est consistante avec le graphe, et admet 5 extensions,

2Si, pour une question d’interpr´etation des donn´ees que l’on verra plus loin, on d´ecide d’exclure la variation nulle, alors il y a 18 mesures compatibles avec le graphe d’interaction, sur un total de 28= 256 possibilit´es.

3Il existe d’autres modes de pr´ediction, notamment la pr´ediction par mod`ele optimal : soit un ensemble de mod`ele, on associe `a chacun un score ou une probabilit´e en fonction de son ad´equation avec les donn´ees. Les pr´edictions correspondent au mod`ele le plus vraisemblable/probable.

Références

Documents relatifs

On pensera ` a appeler le professeur pour faire valider la m´ ethode, sinon les points ne seront pas accord´ es.. D´ eterminer une dur´ ee possible de l’attraction arrondies ` a

Nous utiliserons la repr´ esentation en compl´ ement ` a 2 pour repr´ esenter les nombres n´ egatifs, car c’est la plus utilis´ ee dans les syst` emes informatiques

Perdre ses photos de vacances : ¸ca n’a pas de

Cet enseignement se propose de faire une pr´ esentation de la diversit´ e et de l’´ evolution des grands domaines du monde du vivant : Arch´ ees, Eubact´ eries et Eucaryotes (avec

Immortal branching Markov processes, averaging properties and applications to polymerase chain reactions. Confidence intervals for non homogeneous branching processes and

` A cet effet, on utilise le lemme des sous-sous-suites suivant (qui se d´emontre ais´ement en raisonnant par l’absurde), et qui parfois de bien pr´ecieux services :.. Lemme

Cr´eer un programme Python permettant de r´ealiser le chiffrement ROT13 d’un fichier texte, puis cr´eer un programme Python permettant de r´ealiser le d´echiffrement.

Sauvegarder votre script R : En activant la fenˆ etre qui le contient (celle du haut ` a gauche : le curseur doit clignoter en noir) puis en allant de nouveau dans la barre de menu