Mod´ elisation et reconstruction des r´ eseaux de r´ egulation g´ en´ etiqueChapitre 3

spectrométrie de masse), bien que très résolutives, sont particulièrement coûteuses et difficiles

`

a mettre en œuvre. De plus, l’analyse de la masse de données brutes qu’elles génèrent est un

problème encore largement ouvert. Actuellement, seule l’étude du transcriptome* bénéficie de

méthodes et d’outils permettant de générer des données exploitables en quantité raisonnable.

Bien qu’elle n’offre qu’une vision partielle des systèmes de régulation, l’étude du

transcrip-tome peut être utilisée pour déterminer les mécanismes de régulation de l’expression des gènes. La

technique la plus utilis´ee pour mesurer simultan´ement le niveau d’expression d’un grand nombre

de types différents d’ARN messagers est celle de la puce à ADN présentée en section 2.2. Notre

hypoth`ese de base concernant les donn´ees d’apprentissage est donc que la reconstruction de

modèles de régulation se fonde essentiellement sur des données de profils d’expression. À terme,

il va de soi que des données plus complètes seront nécessaires à l’élaboration de modèles plus

réalistes de la régulation génétique.

Des données discrètes Le choix entre un modèle discret ou continu est fortement déterminé

par la nature des données disponibles. Les données brutes de puces à ADN étant des intensités

de fluorescence, elles sont naturellement continues. Il est cependant assez rare de les conserver

en l’état. Comme nous l’avons souligné dans le chapitre introductif, il est courant de réaliser

une analyse diff´erentielle. Bien que l’on puisse exprimer un diff´erentiel d’expression au moyen

d’un ratio d’intensité de fluorescence, l’utilisation de tests statistiques (nécessaires dès que l’on

s’intéresse à des mesures sur le vivant) permettent souvent de caractériser l’expression d’un

gène au moyen de valeurs discrètes telles que : induit, réprimé, ou non modulé (pour certaines

conditions expérimentales et en référence à un cas contrôle). D’une manière générale il est courant

de discrétiser les données de puces à ADN dans l’espoir de diminuer les effets des bruits (d’origine

biologique ou expérimentale) inhérents à ce type de mesures. Bien que l’on puisse discuter du

gain en termes de robustesse des données discrétisées par rapport aux données continues, les

premières sont souvent préférées car elle sont souvent plus faciles à exploiter dans un cadre

d’apprentissage. Il faut cependant garder à l’esprit que la discrétisation des données peut induire

une perte d’information pr´ejudiciable `a l’extraction de connaissances.

Des données statiques Compte tenu des phénomènes physico-chimiques à l’œuvre dans la

cellule, il semble naturel de tenir compte du temps dans un modèle. Les données cinétiques

nécessaires à l’apprentissage de modèles dynamiques ne sont en fait disponibles que pour des

organismes relativement simples, en g´en´eral monocellulaires (E. coli ou saccharomyces

cerevi-siae [SSZ

98]). En outre, les échantillons susceptibles d’être utilisés sont pseudo-temporels dans

la mesure où les observations sont en générales destructrices : pour acquérir une cinétique de 10

points, il est n´ecessaire de lancer 10 cultures synchronis´ees et d’utiliser une culture pour chaque

prélèvement nécessaire à 1 point. Par ailleurs, le nombre de points d’une cinétique est assez faible

en comparaison du nombre de mesures statiques effectu´ees, par exemple dans le cadre d’´etudes

cliniques sur des cohortes de plusieurs centaines de patients.

D’une manière générale, les expériences de puces à ADN sont plutôt utilisées pour comparer le

transcriptome d’un organisme modèle dans des conditions expérimentales variées. Il s’agit par

exemple de comparer les profils d’expression d’individus sains et d’individus malades `a diff´erents

stades de leur pathologie. On étudie également les effets de différents toxiques (rayonnements

ionisants ou m´etaux lourds) ou m´edicaments sur le transcriptome des patients en fonction des

doses re¸cues. On parle alors de données de perturbation, ces dernières mesurant la réponse du

syst`eme `a un stimulus qui perturbe ponctuellement son fonctionnement.

Il peut être particulièrement avantageux de recourir à des perturbations ciblées, visant un gène

en particulier, afin de produire des donn´eesd’intervention. Il est par exemple possible d’utiliser

49 Deuxième partie Apprentissage des réseaux de régulation génétique

des micro-ARN ou des ARN interf´erants (voir section 1.1 page 10) afin d’inhiber sp´ecifiquement

des gènes préalablement choisis. Les profils d’expression résultant permettent alors d’observer

les effets de ces interventions sur l’expression des autres g`enes. Par exemple, inhiber un g`eneX

dans une cascade de r´egulation Xi →Xk →Xj (Xk→Xj signifie₍₍Xk r´eguleXj ₎₎) n’affectera

que l’expression deXj. Si Xk r´egule `a la fois Xi etXj, le fait d’intervenir surXk modifiera le

comportement de ces deux cibles. Par contre, siX

→ X

← X

alors ni l’expression de X

, ni

celle de Xj ne seront modifi´ees par une inhibition de Xk. Les interventions cibl´ees sont donc

tr`es utiles lorsque l’on souhaite comprendre les relations existant entre des g`enes. Elles sont

cependant plus difficiles à mettre en œuvre que des perturbations et impliquent que l’on ait déjà

une idée précise des gènes que l’on souhaite étudier, et donc cibler.

Les techniques et les besoins évoluant, la quantité et la qualité des jeux de données cinétiques

devraient augmenter avec le temps. Nous avons fait le choix de privil´egier l’´etude de

forma-lismes et de m´ethodes permettant d’exploiter des donn´ees statiques du fait de leur plus grande

disponibilit´e.

La variabilité des données Les données de puces à ADN (et les données en biologie en

générale) sont des données présentant une variabilité importante. Elles sont tout d’abord

ca-ractérisées par un bruit de nature intrinsèque. En effet, ces données peuvent être vues comme

des échantillons d’un processus aléatoire, les phénomènes biologiques observés via les mesures

de profils d’expression ´etant de nature stochastique. Cela est d’autant plus probl´ematique que

le caractère stochastique des réseaux de régulation n’est pas seulement un aspect inhérent à la

vie cellulaire.

Les données de puces à ADN présentent également un bruit de nature extrinsèque,

s’ex-pliquant essentiellement par des consid´erations d’ordre exp´erimental. Nous avons vu dans le

chapitre précédent qu’une expérience de puce à ADN contient de nombreuses étapes.

Cha-cune d’entre elles est une source potentielle de variabilit´e, depuis la fabrication mˆeme de la

puce (dans le cas des puces spotées) dont les sondes peuvent être de qualité variable,

jus-qu’aux proc´edures d’extraction ou d’hybridation des ARNm. Il y a deux autres aspects qu’il

faut également prendre en compte. Premièrement, ces méthodes ne s’appliquent jamais à une

cellule unique mais `a un ensemble de cellules, parfois mises en culture, parfois extraites d’un

tissu. Les informations collect´ees caract´erisent donc un comportement moyen d’un ensemble de

cellules. Deuxièmement, lorsque les cellules utilisées sont obtenues à partir d’un tissu, elles

n’ap-partiennent pas nécessairement toutes au même type cellulaire. En effet, les méthodes de tri

cellulaire

produisent toujours des ´echantillons contenant une faible proportion de cellules₍₍non

désirées₎₎. Par conséquent, on étudie le profil d’expression d’un ensemble de cellules qui n’est

pas r´eellement homog`ene.

Dans ce qui suit, nous allons présenter certains formalismes mathématiques particulièrement

populaires pour la modélisation des réseaux de régulation biologique. Ce panorama ne prétend

pas à l’exhaustivité, certaines familles de modèles tels que les réseaux de Pétri n’étant pas

abordées. Nous souhaitons insister sur la difficulté de faire correspondre la réalité des systèmes

biologiques et les outils mathématiques à notre disposition en présentant des formalismes plus ou

moins résolutifs : des plus précis (les équations différentielles) aux plus qualitatifs (les graphes).

Nous nous intéresserons, à chaque fois que cela est possible, à la question de leur apprentissage

en essayant de mettre en avant les difficultés soulevées par la nature de ces familles de modèles

et par les donn´ees disponibles.

Méthodes grâce auxquelles on ne retient que les cellules appartenant à un type cellulaire spécifique, au sein d’un échantillon de cellules distinctes.

Modélisation et reconstruction des réseaux de régulation génétiqueChapitre 3

3.2 Les mod`eles diff´erentiels

Les modèles différentiels sont très probablement le formalisme le plus répandu pour la

mod´elisation dynamique des syst`emes biologiques [CHC99, CCNG

00, ASI02, YZO

06]. Bien

qu’ils ne concernent pas directement nos travaux, il nous semble int´eressant de s’y attarder car

ils permettent d’illustrer la plupart des aspects inhérents à la modélisation des systèmes de

r´egulation.

Les modèles différentiels permettent de représenter de manière très précise les mécanismes

moléculaires sur lesquels s’appuient les phénomènes de régulation. Pour cela, ils représentent les

concentrations des espèces moléculaires en jeu dans la cellule telles que les ARNm, les protéines

et les métabolites, au moyen de variables (réelles positives) dépendant du temps. La variation

de ces grandeurs est décrite par un système d’équations différentielles couplées. Lorsque l’on ne

tient compte que des espèces moléculaires en présence et de leurs interactions, on a un système

d’équations différentielles ordinaires (EDO). Chaque équation formalise l’évolution d’une

va-riable de mani`ere continue au cours du temps, en fonction des concentrations des mol´ecules

exer¸cant une influence régulatrice sur cette dernière. Plus précisément, une régulation génétique

est modélisée par une équation de taux de réaction exprimant le taux de production d’un

pro-duit de gène (un ARNm ou une protéine) en fonction des concentrations des autres éléments du

système impliqués dans sa production. Un exemple est représenté à la figure 3.1. Pour favoriser

la lisibilité des figures, la dérivé d’une variablexi par rapport au temps y est notée ˙xi au lieu de

dxi

dans le texte. Les ´equations de taux de r´eaction sont de la forme :

dx

dt ⁼^f

ⁱ

⁽^x⁾^{, x}

ⁱ

≥0,1≤i≤n, (3.1)

où xi est la concentration de la molécule Xi, x est le vecteur des concentrations des espèces

moléculaires impliquées dans la production deXi (xi pouvant elle-même en faire partie dans le

cas d’une r´etroaction) etf

est une fonction généralement non linéaire.

Une fonction de régulation couramment employée pour la modélisation des réseaux de régulation

g´en´etique est la fonction de Hill (voir figure 3.2) :

h

⁺_i

(xj, θij, m) = ^x

m j

x

+θ

_ij

^(3.2)

où θij > 0 est le seuil au-delà duquel l’influence de j sur i change de régime, et m > 0 défini

l’amplitude du saut effectu´e par la concentration de i apr`es franchissement du seuil θij. Cette

fonction prend ses valeurs dans l’intervalle [0,1] et croˆıt strictement avec xj. Il s’agit donc

d’une fonction d’induction qui augmente le taux d’expression de i lorsque xj augmente. Afin

d’exprimer la situation opposée, à savoir une répression, la fonction de régulationh

⁺_i

(xj, θij, m)

est remplac´ee parh

⁻_i

(xj, θij, m) = 1−h

⁺_i

(xj, θij, m).

Outre les concentrations des molécules régulatrices, il est possible d’inclure l’effet de molécules

extérieures sur la concentration de l’espècei au sein du modèle.

dxi

dt ⁼^fi⁽^x,^u⁾^{, xi} ≥0,1≤i≤n (3.3)

où u est la concentration d’une molécule extérieure au système, telle qu’une drogue dont on

souhaite ´etudier les effets par exemple.

Il est également possible de raffiner le modèle par la prise en compte de la notion de délais

correspondant au temps nécessaire pour transcrire un gène, traduire un ARNm (ces mécanismes

51 Deuxième partie Apprentissage des réseaux de régulation génétique

B

C

B

A

C

A

C

A

˙

xc =kcA·rc( ˙xA)−γcxc˙

˙

xa=kaB·ra( ˙xB)−γaxa˙

˙

x

=k

_bABC

·r

( ˙x

,x˙

)−γ

x˙

=k

_Bb

x˙

−γ

x˙

˙

xC =kCcxc˙ −γCxC˙

˙

xA=kAaxa˙ −γAxA˙

Dans le document Approches évolutionnaires pour la reconstruction de réseaux de régulation génétique par apprentissage de réseaux bayésiens. (Page 62-65)

Mod´ elisation et reconstruction des r´ eseaux de r´ egulation g´ en´ etiqueChapitre 3

spectrométrie de masse), bien que très résolutives, sont particulièrement coûteuses et difficiles

`

a mettre en œuvre. De plus, l’analyse de la masse de données brutes qu’elles génèrent est un

problème encore largement ouvert. Actuellement, seule l’étude du transcriptome* bénéficie de

méthodes et d’outils permettant de générer des données exploitables en quantité raisonnable.

Bien qu’elle n’offre qu’une vision partielle des systèmes de régulation, l’étude du

transcrip-tome peut être utilisée pour déterminer les mécanismes de régulation de l’expression des gènes. La

technique la plus utilis´ee pour mesurer simultan´ement le niveau d’expression d’un grand nombre

de types différents d’ARN messagers est celle de la puce à ADN présentée en section 2.2. Notre

hypoth`ese de base concernant les donn´ees d’apprentissage est donc que la reconstruction de

modèles de régulation se fonde essentiellement sur des données de profils d’expression. À terme,

il va de soi que des données plus complètes seront nécessaires à l’élaboration de modèles plus

réalistes de la régulation génétique.

Des données discrètes Le choix entre un modèle discret ou continu est fortement déterminé

par la nature des données disponibles. Les données brutes de puces à ADN étant des intensités

de fluorescence, elles sont naturellement continues. Il est cependant assez rare de les conserver

en l’état. Comme nous l’avons souligné dans le chapitre introductif, il est courant de réaliser

une analyse diff´erentielle. Bien que l’on puisse exprimer un diff´erentiel d’expression au moyen

d’un ratio d’intensité de fluorescence, l’utilisation de tests statistiques (nécessaires dès que l’on

s’intéresse à des mesures sur le vivant) permettent souvent de caractériser l’expression d’un

gène au moyen de valeurs discrètes telles que : induit, réprimé, ou non modulé (pour certaines

conditions expérimentales et en référence à un cas contrôle). D’une manière générale il est courant

de discrétiser les données de puces à ADN dans l’espoir de diminuer les effets des bruits (d’origine

biologique ou expérimentale) inhérents à ce type de mesures. Bien que l’on puisse discuter du

gain en termes de robustesse des données discrétisées par rapport aux données continues, les

premières sont souvent préférées car elle sont souvent plus faciles à exploiter dans un cadre

d’apprentissage. Il faut cependant garder à l’esprit que la discrétisation des données peut induire

une perte d’information pr´ejudiciable `a l’extraction de connaissances.

Des données statiques Compte tenu des phénomènes physico-chimiques à l’œuvre dans la

cellule, il semble naturel de tenir compte du temps dans un modèle. Les données cinétiques

nécessaires à l’apprentissage de modèles dynamiques ne sont en fait disponibles que pour des

organismes relativement simples, en g´en´eral monocellulaires (E. coli ou saccharomyces

cerevi-siae [SSZ

98]). En outre, les échantillons susceptibles d’être utilisés sont pseudo-temporels dans

la mesure où les observations sont en générales destructrices : pour acquérir une cinétique de 10

points, il est n´ecessaire de lancer 10 cultures synchronis´ees et d’utiliser une culture pour chaque

prélèvement nécessaire à 1 point. Par ailleurs, le nombre de points d’une cinétique est assez faible

en comparaison du nombre de mesures statiques effectu´ees, par exemple dans le cadre d’´etudes

cliniques sur des cohortes de plusieurs centaines de patients.

D’une manière générale, les expériences de puces à ADN sont plutôt utilisées pour comparer le

transcriptome d’un organisme modèle dans des conditions expérimentales variées. Il s’agit par

exemple de comparer les profils d’expression d’individus sains et d’individus malades `a diff´erents

stades de leur pathologie. On étudie également les effets de différents toxiques (rayonnements

ionisants ou m´etaux lourds) ou m´edicaments sur le transcriptome des patients en fonction des

doses re¸cues. On parle alors de données de perturbation, ces dernières mesurant la réponse du

syst`eme `a un stimulus qui perturbe ponctuellement son fonctionnement.

Il peut être particulièrement avantageux de recourir à des perturbations ciblées, visant un gène

en particulier, afin de produire des donn´eesd’intervention. Il est par exemple possible d’utiliser

49

Deuxième partie Apprentissage des réseaux de régulation génétique

des micro-ARN ou des ARN interf´erants (voir section 1.1 page 10) afin d’inhiber sp´ecifiquement

des gènes préalablement choisis. Les profils d’expression résultant permettent alors d’observer

les effets de ces interventions sur l’expression des autres g`enes. Par exemple, inhiber un g`eneX

dans une cascade de r´egulation Xi →Xk →Xj (Xk→Xj signifie((Xk r´eguleXj ))) n’affectera

que l’expression deXj. Si Xk r´egule `a la fois Xi etXj, le fait d’intervenir surXk modifiera le

comportement de ces deux cibles. Par contre, siX

→ X

← X

alors ni l’expression de X

, ni

celle de Xj ne seront modifi´ees par une inhibition de Xk. Les interventions cibl´ees sont donc

tr`es utiles lorsque l’on souhaite comprendre les relations existant entre des g`enes. Elles sont

cependant plus difficiles à mettre en œuvre que des perturbations et impliquent que l’on ait déjà

une idée précise des gènes que l’on souhaite étudier, et donc cibler.

Les techniques et les besoins évoluant, la quantité et la qualité des jeux de données cinétiques

devraient augmenter avec le temps. Nous avons fait le choix de privil´egier l’´etude de

forma-lismes et de m´ethodes permettant d’exploiter des donn´ees statiques du fait de leur plus grande

disponibilit´e.

La variabilité des données Les données de puces à ADN (et les données en biologie en

générale) sont des données présentant une variabilité importante. Elles sont tout d’abord

ca-ractérisées par un bruit de nature intrinsèque. En effet, ces données peuvent être vues comme

des échantillons d’un processus aléatoire, les phénomènes biologiques observés via les mesures

de profils d’expression ´etant de nature stochastique. Cela est d’autant plus probl´ematique que

le caractère stochastique des réseaux de régulation n’est pas seulement un aspect inhérent à la

vie cellulaire.

Les données de puces à ADN présentent également un bruit de nature extrinsèque,

s’ex-pliquant essentiellement par des consid´erations d’ordre exp´erimental. Nous avons vu dans le

chapitre précédent qu’une expérience de puce à ADN contient de nombreuses étapes.

Cha-cune d’entre elles est une source potentielle de variabilit´e, depuis la fabrication mˆeme de la

dans une cascade de r´egulation Xi →Xk →Xj (Xk→Xj signifie₍₍Xk r´eguleXj ₎₎) n’affectera

produisent toujours des ´echantillons contenant une faible proportion de cellules₍₍non

désirées₎₎. Par conséquent, on étudie le profil d’expression d’un ensemble de cellules qui n’est

dt ⁼^f

⁽^x⁾^{, x}

(xj, θij, m) = ^x

^(3.2)