• Aucun résultat trouvé

Mod´ elisation et reconstruction des r´ eseaux de r´ egulation g´ en´ etiqueChapitre 3

spectrom´etrie de masse), bien que tr`es r´esolutives, sont particuli`erement coˆuteuses et difficiles

`

a mettre en œuvre. De plus, l’analyse de la masse de donn´ees brutes qu’elles g´en`erent est un

probl`eme encore largement ouvert. Actuellement, seule l’´etude du transcriptome* b´en´eficie de

m´ethodes et d’outils permettant de g´en´erer des donn´ees exploitables en quantit´e raisonnable.

Bien qu’elle n’offre qu’une vision partielle des syst`emes de r´egulation, l’´etude du

transcrip-tome peut ˆetre utilis´ee pour d´eterminer les m´ecanismes de r´egulation de l’expression des g`enes. La

technique la plus utilis´ee pour mesurer simultan´ement le niveau d’expression d’un grand nombre

de types diff´erents d’ARN messagers est celle de la puce `a ADN pr´esent´ee en section 2.2. Notre

hypoth`ese de base concernant les donn´ees d’apprentissage est donc que la reconstruction de

mod`eles de r´egulation se fonde essentiellement sur des donn´ees de profils d’expression. `A terme,

il va de soi que des donn´ees plus compl`etes seront n´ecessaires `a l’´elaboration de mod`eles plus

r´ealistes de la r´egulation g´en´etique.

Des donn´ees discr`etes Le choix entre un mod`ele discret ou continu est fortement d´etermin´e

par la nature des donn´ees disponibles. Les donn´ees brutes de puces `a ADN ´etant des intensit´es

de fluorescence, elles sont naturellement continues. Il est cependant assez rare de les conserver

en l’´etat. Comme nous l’avons soulign´e dans le chapitre introductif, il est courant de r´ealiser

une analyse diff´erentielle. Bien que l’on puisse exprimer un diff´erentiel d’expression au moyen

d’un ratio d’intensit´e de fluorescence, l’utilisation de tests statistiques (n´ecessaires d`es que l’on

s’int´eresse `a des mesures sur le vivant) permettent souvent de caract´eriser l’expression d’un

g`ene au moyen de valeurs discr`etes telles que : induit, r´eprim´e, ou non modul´e (pour certaines

conditions exp´erimentales et en r´ef´erence `a un cas contrˆole). D’une mani`ere g´en´erale il est courant

de discr´etiser les donn´ees de puces `a ADN dans l’espoir de diminuer les effets des bruits (d’origine

biologique ou exp´erimentale) inh´erents `a ce type de mesures. Bien que l’on puisse discuter du

gain en termes de robustesse des donn´ees discr´etis´ees par rapport aux donn´ees continues, les

premi`eres sont souvent pr´ef´er´ees car elle sont souvent plus faciles `a exploiter dans un cadre

d’apprentissage. Il faut cependant garder `a l’esprit que la discr´etisation des donn´ees peut induire

une perte d’information pr´ejudiciable `a l’extraction de connaissances.

Des donn´ees statiques Compte tenu des ph´enom`enes physico-chimiques `a l’œuvre dans la

cellule, il semble naturel de tenir compte du temps dans un mod`ele. Les donn´ees cin´etiques

n´ecessaires `a l’apprentissage de mod`eles dynamiques ne sont en fait disponibles que pour des

organismes relativement simples, en g´en´eral monocellulaires (E. coli ou saccharomyces

cerevi-siae [SSZ

+

98]). En outre, les ´echantillons susceptibles d’ˆetre utilis´es sont pseudo-temporels dans

la mesure o`u les observations sont en g´en´erales destructrices : pour acqu´erir une cin´etique de 10

points, il est n´ecessaire de lancer 10 cultures synchronis´ees et d’utiliser une culture pour chaque

pr´el`evement n´ecessaire `a 1 point. Par ailleurs, le nombre de points d’une cin´etique est assez faible

en comparaison du nombre de mesures statiques effectu´ees, par exemple dans le cadre d’´etudes

cliniques sur des cohortes de plusieurs centaines de patients.

D’une mani`ere g´en´erale, les exp´eriences de puces `a ADN sont plutˆot utilis´ees pour comparer le

transcriptome d’un organisme mod`ele dans des conditions exp´erimentales vari´ees. Il s’agit par

exemple de comparer les profils d’expression d’individus sains et d’individus malades `a diff´erents

stades de leur pathologie. On ´etudie ´egalement les effets de diff´erents toxiques (rayonnements

ionisants ou m´etaux lourds) ou m´edicaments sur le transcriptome des patients en fonction des

doses re¸cues. On parle alors de donn´ees de perturbation, ces derni`eres mesurant la r´eponse du

syst`eme `a un stimulus qui perturbe ponctuellement son fonctionnement.

Il peut ˆetre particuli`erement avantageux de recourir `a des perturbations cibl´ees, visant un g`ene

en particulier, afin de produire des donn´eesd’intervention. Il est par exemple possible d’utiliser

49

Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique

des micro-ARN ou des ARN interf´erants (voir section 1.1 page 10) afin d’inhiber sp´ecifiquement

des g`enes pr´ealablement choisis. Les profils d’expression r´esultant permettent alors d’observer

les effets de ces interventions sur l’expression des autres g`enes. Par exemple, inhiber un g`eneX

k

dans une cascade de r´egulation Xi →Xk →Xj (Xk→Xj signifie((Xk r´eguleXj ))) n’affectera

que l’expression deXj. Si Xk r´egule `a la fois Xi etXj, le fait d’intervenir surXk modifiera le

comportement de ces deux cibles. Par contre, siX

i

→ X

k

← X

j

alors ni l’expression de X

i

, ni

celle de Xj ne seront modifi´ees par une inhibition de Xk. Les interventions cibl´ees sont donc

tr`es utiles lorsque l’on souhaite comprendre les relations existant entre des g`enes. Elles sont

cependant plus difficiles `a mettre en œuvre que des perturbations et impliquent que l’on ait d´ej`a

une id´ee pr´ecise des g`enes que l’on souhaite ´etudier, et donc cibler.

Les techniques et les besoins ´evoluant, la quantit´e et la qualit´e des jeux de donn´ees cin´etiques

devraient augmenter avec le temps. Nous avons fait le choix de privil´egier l’´etude de

forma-lismes et de m´ethodes permettant d’exploiter des donn´ees statiques du fait de leur plus grande

disponibilit´e.

La variabilit´e des donn´ees Les donn´ees de puces `a ADN (et les donn´ees en biologie en

g´en´erale) sont des donn´ees pr´esentant une variabilit´e importante. Elles sont tout d’abord

ca-ract´eris´ees par un bruit de nature intrins`eque. En effet, ces donn´ees peuvent ˆetre vues comme

des ´echantillons d’un processus al´eatoire, les ph´enom`enes biologiques observ´es via les mesures

de profils d’expression ´etant de nature stochastique. Cela est d’autant plus probl´ematique que

le caract`ere stochastique des r´eseaux de r´egulation n’est pas seulement un aspect inh´erent `a la

vie cellulaire.

Les donn´ees de puces `a ADN pr´esentent ´egalement un bruit de nature extrins`eque,

s’ex-pliquant essentiellement par des consid´erations d’ordre exp´erimental. Nous avons vu dans le

chapitre pr´ec´edent qu’une exp´erience de puce `a ADN contient de nombreuses ´etapes.

Cha-cune d’entre elles est une source potentielle de variabilit´e, depuis la fabrication mˆeme de la

puce (dans le cas des puces spot´ees) dont les sondes peuvent ˆetre de qualit´e variable,

jus-qu’aux proc´edures d’extraction ou d’hybridation des ARNm. Il y a deux autres aspects qu’il

faut ´egalement prendre en compte. Premi`erement, ces m´ethodes ne s’appliquent jamais `a une

cellule unique mais `a un ensemble de cellules, parfois mises en culture, parfois extraites d’un

tissu. Les informations collect´ees caract´erisent donc un comportement moyen d’un ensemble de

cellules. Deuxi`emement, lorsque les cellules utilis´ees sont obtenues `a partir d’un tissu, elles

n’ap-partiennent pas n´ecessairement toutes au mˆeme type cellulaire. En effet, les m´ethodes de tri

cellulaire

1

produisent toujours des ´echantillons contenant une faible proportion de cellules((non

d´esir´ees)). Par cons´equent, on ´etudie le profil d’expression d’un ensemble de cellules qui n’est

pas r´eellement homog`ene.

Dans ce qui suit, nous allons pr´esenter certains formalismes math´ematiques particuli`erement

populaires pour la mod´elisation des r´eseaux de r´egulation biologique. Ce panorama ne pr´etend

pas `a l’exhaustivit´e, certaines familles de mod`eles tels que les r´eseaux de P´etri n’´etant pas

abord´ees. Nous souhaitons insister sur la difficult´e de faire correspondre la r´ealit´e des syst`emes

biologiques et les outils math´ematiques `a notre disposition en pr´esentant des formalismes plus ou

moins r´esolutifs : des plus pr´ecis (les ´equations diff´erentielles) aux plus qualitatifs (les graphes).

Nous nous int´eresserons, `a chaque fois que cela est possible, `a la question de leur apprentissage

en essayant de mettre en avant les difficult´es soulev´ees par la nature de ces familles de mod`eles

et par les donn´ees disponibles.

1

M´ethodes grˆace auxquelles on ne retient que les cellules appartenant `a un type cellulaire sp´ecifique, au sein d’un ´echantillon de cellules distinctes.

Mod´elisation et reconstruction des r´eseaux de r´egulation g´en´etiqueChapitre 3

3.2 Les mod`eles diff´erentiels

Les mod`eles diff´erentiels sont tr`es probablement le formalisme le plus r´epandu pour la

mod´elisation dynamique des syst`emes biologiques [CHC99, CCNG

+

00, ASI02, YZO

+

06]. Bien

qu’ils ne concernent pas directement nos travaux, il nous semble int´eressant de s’y attarder car

ils permettent d’illustrer la plupart des aspects inh´erents `a la mod´elisation des syst`emes de

r´egulation.

Les mod`eles diff´erentiels permettent de repr´esenter de mani`ere tr`es pr´ecise les m´ecanismes

mol´eculaires sur lesquels s’appuient les ph´enom`enes de r´egulation. Pour cela, ils repr´esentent les

concentrations des esp`eces mol´eculaires en jeu dans la cellule telles que les ARNm, les prot´eines

et les m´etabolites, au moyen de variables (r´eelles positives) d´ependant du temps. La variation

de ces grandeurs est d´ecrite par un syst`eme d’´equations diff´erentielles coupl´ees. Lorsque l’on ne

tient compte que des esp`eces mol´eculaires en pr´esence et de leurs interactions, on a un syst`eme

d’´equations diff´erentielles ordinaires (EDO). Chaque ´equation formalise l’´evolution d’une

va-riable de mani`ere continue au cours du temps, en fonction des concentrations des mol´ecules

exer¸cant une influence r´egulatrice sur cette derni`ere. Plus pr´ecis´ement, une r´egulation g´en´etique

est mod´elis´ee par une ´equation de taux de r´eaction exprimant le taux de production d’un

pro-duit de g`ene (un ARNm ou une prot´eine) en fonction des concentrations des autres ´el´ements du

syst`eme impliqu´es dans sa production. Un exemple est repr´esent´e `a la figure 3.1. Pour favoriser

la lisibilit´e des figures, la d´eriv´e d’une variablexi par rapport au temps y est not´ee ˙xi au lieu de

dxi

dt

dans le texte. Les ´equations de taux de r´eaction sont de la forme :

dx

i

dt =f

i

(x), x

i

≥0,1≤i≤n, (3.1)

o`u xi est la concentration de la mol´ecule Xi, x est le vecteur des concentrations des esp`eces

mol´eculaires impliqu´ees dans la production deXi (xi pouvant elle-mˆeme en faire partie dans le

cas d’une r´etroaction) etf

i

est une fonction g´en´eralement non lin´eaire.

Une fonction de r´egulation couramment employ´ee pour la mod´elisation des r´eseaux de r´egulation

g´en´etique est la fonction de Hill (voir figure 3.2) :

h

+i

(xj, θij, m) = x

m j

x

m

j

ij

(3.2)

o`u θij > 0 est le seuil au-del`a duquel l’influence de j sur i change de r´egime, et m > 0 d´efini

l’amplitude du saut effectu´e par la concentration de i apr`es franchissement du seuil θij. Cette

fonction prend ses valeurs dans l’intervalle [0,1] et croˆıt strictement avec xj. Il s’agit donc

d’une fonction d’induction qui augmente le taux d’expression de i lorsque xj augmente. Afin

d’exprimer la situation oppos´ee, `a savoir une r´epression, la fonction de r´egulationh

+i

(xj, θij, m)

est remplac´ee parh

i

(xj, θij, m) = 1−h

+i

(xj, θij, m).

Outre les concentrations des mol´ecules r´egulatrices, il est possible d’inclure l’effet de mol´ecules

ext´erieures sur la concentration de l’esp`ecei au sein du mod`ele.

dxi

dt =fi(x,u), xi ≥0,1≤i≤n (3.3)

o`u u est la concentration d’une mol´ecule ext´erieure au syst`eme, telle qu’une drogue dont on

souhaite ´etudier les effets par exemple.

Il est ´egalement possible de raffiner le mod`ele par la prise en compte de la notion de d´elais

correspondant au temps n´ecessaire pour transcrire un g`ene, traduire un ARNm (ces m´ecanismes

51

Deuxi`eme partie Apprentissage des r´eseaux de r´egulation g´en´etique

B

C

B

B

A

C

A

C

A

A

˙

xc =kcA·rc( ˙xA)−γcxc˙

˙

xa=kaB·ra( ˙xB)−γaxa˙

˙

x

b

=k

bABC

·r

b

( ˙x

A

,x˙

B

,x˙

C

)−γ

b

b

B

=k

Bb

b

−γ

B

B

˙

xC =kCcxc˙ −γCxC˙

˙

xA=kAaxa˙ −γAxA˙