spectrom´etrie de masse), bien que tr`es r´esolutives, sont particuli`erement coˆuteuses et difficiles
`
a mettre en œuvre. De plus, l’analyse de la masse de donn´ees brutes qu’elles g´en`erent est un
probl`eme encore largement ouvert. Actuellement, seule l’´etude du transcriptome* b´en´eficie de
m´ethodes et d’outils permettant de g´en´erer des donn´ees exploitables en quantit´e raisonnable.
Bien qu’elle n’offre qu’une vision partielle des syst`emes de r´egulation, l’´etude du
transcrip-tome peut ˆetre utilis´ee pour d´eterminer les m´ecanismes de r´egulation de l’expression des g`enes. La
technique la plus utilis´ee pour mesurer simultan´ement le niveau d’expression d’un grand nombre
de types diff´erents d’ARN messagers est celle de la puce `a ADN pr´esent´ee en section 2.2. Notre
hypoth`ese de base concernant les donn´ees d’apprentissage est donc que la reconstruction de
mod`eles de r´egulation se fonde essentiellement sur des donn´ees de profils d’expression. `A terme,
il va de soi que des donn´ees plus compl`etes seront n´ecessaires `a l’´elaboration de mod`eles plus
r´ealistes de la r´egulation g´en´etique.
Des donn´ees discr`etes Le choix entre un mod`ele discret ou continu est fortement d´etermin´e
par la nature des donn´ees disponibles. Les donn´ees brutes de puces `a ADN ´etant des intensit´es
de fluorescence, elles sont naturellement continues. Il est cependant assez rare de les conserver
en l’´etat. Comme nous l’avons soulign´e dans le chapitre introductif, il est courant de r´ealiser
une analyse diff´erentielle. Bien que l’on puisse exprimer un diff´erentiel d’expression au moyen
d’un ratio d’intensit´e de fluorescence, l’utilisation de tests statistiques (n´ecessaires d`es que l’on
s’int´eresse `a des mesures sur le vivant) permettent souvent de caract´eriser l’expression d’un
g`ene au moyen de valeurs discr`etes telles que : induit, r´eprim´e, ou non modul´e (pour certaines
conditions exp´erimentales et en r´ef´erence `a un cas contrˆole). D’une mani`ere g´en´erale il est courant
de discr´etiser les donn´ees de puces `a ADN dans l’espoir de diminuer les effets des bruits (d’origine
biologique ou exp´erimentale) inh´erents `a ce type de mesures. Bien que l’on puisse discuter du
gain en termes de robustesse des donn´ees discr´etis´ees par rapport aux donn´ees continues, les
premi`eres sont souvent pr´ef´er´ees car elle sont souvent plus faciles `a exploiter dans un cadre
d’apprentissage. Il faut cependant garder `a l’esprit que la discr´etisation des donn´ees peut induire
une perte d’information pr´ejudiciable `a l’extraction de connaissances.
Des donn´ees statiques Compte tenu des ph´enom`enes physico-chimiques `a l’œuvre dans la
cellule, il semble naturel de tenir compte du temps dans un mod`ele. Les donn´ees cin´etiques
n´ecessaires `a l’apprentissage de mod`eles dynamiques ne sont en fait disponibles que pour des
organismes relativement simples, en g´en´eral monocellulaires (E. coli ou saccharomyces
cerevi-siae [SSZ
+98]). En outre, les ´echantillons susceptibles d’ˆetre utilis´es sont pseudo-temporels dans
la mesure o`u les observations sont en g´en´erales destructrices : pour acqu´erir une cin´etique de 10
points, il est n´ecessaire de lancer 10 cultures synchronis´ees et d’utiliser une culture pour chaque
pr´el`evement n´ecessaire `a 1 point. Par ailleurs, le nombre de points d’une cin´etique est assez faible
en comparaison du nombre de mesures statiques effectu´ees, par exemple dans le cadre d’´etudes
cliniques sur des cohortes de plusieurs centaines de patients.
D’une mani`ere g´en´erale, les exp´eriences de puces `a ADN sont plutˆot utilis´ees pour comparer le
transcriptome d’un organisme mod`ele dans des conditions exp´erimentales vari´ees. Il s’agit par
exemple de comparer les profils d’expression d’individus sains et d’individus malades `a diff´erents
stades de leur pathologie. On ´etudie ´egalement les effets de diff´erents toxiques (rayonnements
ionisants ou m´etaux lourds) ou m´edicaments sur le transcriptome des patients en fonction des
doses re¸cues. On parle alors de donn´ees de perturbation, ces derni`eres mesurant la r´eponse du
syst`eme `a un stimulus qui perturbe ponctuellement son fonctionnement.
Il peut ˆetre particuli`erement avantageux de recourir `a des perturbations cibl´ees, visant un g`ene
en particulier, afin de produire des donn´eesd’intervention. Il est par exemple possible d’utiliser
49
Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique
des micro-ARN ou des ARN interf´erants (voir section 1.1 page 10) afin d’inhiber sp´ecifiquement
des g`enes pr´ealablement choisis. Les profils d’expression r´esultant permettent alors d’observer
les effets de ces interventions sur l’expression des autres g`enes. Par exemple, inhiber un g`eneX
kdans une cascade de r´egulation Xi →Xk →Xj (Xk→Xj signifie((Xk r´eguleXj ))) n’affectera
que l’expression deXj. Si Xk r´egule `a la fois Xi etXj, le fait d’intervenir surXk modifiera le
comportement de ces deux cibles. Par contre, siX
i→ X
k← X
jalors ni l’expression de X
i, ni
celle de Xj ne seront modifi´ees par une inhibition de Xk. Les interventions cibl´ees sont donc
tr`es utiles lorsque l’on souhaite comprendre les relations existant entre des g`enes. Elles sont
cependant plus difficiles `a mettre en œuvre que des perturbations et impliquent que l’on ait d´ej`a
une id´ee pr´ecise des g`enes que l’on souhaite ´etudier, et donc cibler.
Les techniques et les besoins ´evoluant, la quantit´e et la qualit´e des jeux de donn´ees cin´etiques
devraient augmenter avec le temps. Nous avons fait le choix de privil´egier l’´etude de
forma-lismes et de m´ethodes permettant d’exploiter des donn´ees statiques du fait de leur plus grande
disponibilit´e.
La variabilit´e des donn´ees Les donn´ees de puces `a ADN (et les donn´ees en biologie en
g´en´erale) sont des donn´ees pr´esentant une variabilit´e importante. Elles sont tout d’abord
ca-ract´eris´ees par un bruit de nature intrins`eque. En effet, ces donn´ees peuvent ˆetre vues comme
des ´echantillons d’un processus al´eatoire, les ph´enom`enes biologiques observ´es via les mesures
de profils d’expression ´etant de nature stochastique. Cela est d’autant plus probl´ematique que
le caract`ere stochastique des r´eseaux de r´egulation n’est pas seulement un aspect inh´erent `a la
vie cellulaire.
Les donn´ees de puces `a ADN pr´esentent ´egalement un bruit de nature extrins`eque,
s’ex-pliquant essentiellement par des consid´erations d’ordre exp´erimental. Nous avons vu dans le
chapitre pr´ec´edent qu’une exp´erience de puce `a ADN contient de nombreuses ´etapes.
Cha-cune d’entre elles est une source potentielle de variabilit´e, depuis la fabrication mˆeme de la
puce (dans le cas des puces spot´ees) dont les sondes peuvent ˆetre de qualit´e variable,
jus-qu’aux proc´edures d’extraction ou d’hybridation des ARNm. Il y a deux autres aspects qu’il
faut ´egalement prendre en compte. Premi`erement, ces m´ethodes ne s’appliquent jamais `a une
cellule unique mais `a un ensemble de cellules, parfois mises en culture, parfois extraites d’un
tissu. Les informations collect´ees caract´erisent donc un comportement moyen d’un ensemble de
cellules. Deuxi`emement, lorsque les cellules utilis´ees sont obtenues `a partir d’un tissu, elles
n’ap-partiennent pas n´ecessairement toutes au mˆeme type cellulaire. En effet, les m´ethodes de tri
cellulaire
1produisent toujours des ´echantillons contenant une faible proportion de cellules((non
d´esir´ees)). Par cons´equent, on ´etudie le profil d’expression d’un ensemble de cellules qui n’est
pas r´eellement homog`ene.
Dans ce qui suit, nous allons pr´esenter certains formalismes math´ematiques particuli`erement
populaires pour la mod´elisation des r´eseaux de r´egulation biologique. Ce panorama ne pr´etend
pas `a l’exhaustivit´e, certaines familles de mod`eles tels que les r´eseaux de P´etri n’´etant pas
abord´ees. Nous souhaitons insister sur la difficult´e de faire correspondre la r´ealit´e des syst`emes
biologiques et les outils math´ematiques `a notre disposition en pr´esentant des formalismes plus ou
moins r´esolutifs : des plus pr´ecis (les ´equations diff´erentielles) aux plus qualitatifs (les graphes).
Nous nous int´eresserons, `a chaque fois que cela est possible, `a la question de leur apprentissage
en essayant de mettre en avant les difficult´es soulev´ees par la nature de ces familles de mod`eles
et par les donn´ees disponibles.
1
M´ethodes grˆace auxquelles on ne retient que les cellules appartenant `a un type cellulaire sp´ecifique, au sein d’un ´echantillon de cellules distinctes.
Mod´elisation et reconstruction des r´eseaux de r´egulation g´en´etiqueChapitre 3
3.2 Les mod`eles diff´erentiels
Les mod`eles diff´erentiels sont tr`es probablement le formalisme le plus r´epandu pour la
mod´elisation dynamique des syst`emes biologiques [CHC99, CCNG
+00, ASI02, YZO
+06]. Bien
qu’ils ne concernent pas directement nos travaux, il nous semble int´eressant de s’y attarder car
ils permettent d’illustrer la plupart des aspects inh´erents `a la mod´elisation des syst`emes de
r´egulation.
Les mod`eles diff´erentiels permettent de repr´esenter de mani`ere tr`es pr´ecise les m´ecanismes
mol´eculaires sur lesquels s’appuient les ph´enom`enes de r´egulation. Pour cela, ils repr´esentent les
concentrations des esp`eces mol´eculaires en jeu dans la cellule telles que les ARNm, les prot´eines
et les m´etabolites, au moyen de variables (r´eelles positives) d´ependant du temps. La variation
de ces grandeurs est d´ecrite par un syst`eme d’´equations diff´erentielles coupl´ees. Lorsque l’on ne
tient compte que des esp`eces mol´eculaires en pr´esence et de leurs interactions, on a un syst`eme
d’´equations diff´erentielles ordinaires (EDO). Chaque ´equation formalise l’´evolution d’une
va-riable de mani`ere continue au cours du temps, en fonction des concentrations des mol´ecules
exer¸cant une influence r´egulatrice sur cette derni`ere. Plus pr´ecis´ement, une r´egulation g´en´etique
est mod´elis´ee par une ´equation de taux de r´eaction exprimant le taux de production d’un
pro-duit de g`ene (un ARNm ou une prot´eine) en fonction des concentrations des autres ´el´ements du
syst`eme impliqu´es dans sa production. Un exemple est repr´esent´e `a la figure 3.1. Pour favoriser
la lisibilit´e des figures, la d´eriv´e d’une variablexi par rapport au temps y est not´ee ˙xi au lieu de
dxi
dt
dans le texte. Les ´equations de taux de r´eaction sont de la forme :
dx
idt =f
i(x), x
i≥0,1≤i≤n, (3.1)
o`u xi est la concentration de la mol´ecule Xi, x est le vecteur des concentrations des esp`eces
mol´eculaires impliqu´ees dans la production deXi (xi pouvant elle-mˆeme en faire partie dans le
cas d’une r´etroaction) etf
iest une fonction g´en´eralement non lin´eaire.
Une fonction de r´egulation couramment employ´ee pour la mod´elisation des r´eseaux de r´egulation
g´en´etique est la fonction de Hill (voir figure 3.2) :
h
+i(xj, θij, m) = x
m j
x
mj