1. I MODELISATION DE RESEAUX DE REGULATION CHAPITRE V

(1)

CHAPITRE V MODELISATION DE RESEAUX DE REGULATION

1. INTRODUCTION

L’analyse de données d’expression issues de puces à ADN dans le contexte d’un modèle mathématique permet en principe la reconstruction (« reverse-engineering ») du réseau de régulation de l’expression des gènes étudiés. Ces dernières années, une multitude de méthodes mathématiques et informatiques ont été développées pour relever ce défi (D’haeseleer et al. 2000 ; Smolen et al. 2000 ; de Jong, 2002 ; van Someren et al. 2002 ; Perkins et al. 2004 ; Quayle & Bullock 2006 ; Schlitt & Brazma, 2007 ; Li et al. 2008 ; Chou

& Voit 2008). Il convient de distinguer les modèles sous divers angles: (1) les modèles statiques, i.e. indépendants du temps, et les modèles dynamiques, qui tiennent comptent du temps, (2) les modèles qualitatifs tels que certains réseaux booléens (Tomas 1973, Kauffman 1974, Liang et al. 1998), probabilistes, tels que les réseaux bayésiens (Friedman et al. 2000) issus de la théorie des graphes, et déterministes, tels que les systèmes d’équations différentielles, qui en outre tiennent comptent explicitement du temps, ce qui facilite l’étude du comportement dynamique de l’expression des gènes (Gebert et al. 2006, De Jong 2002).

Les réseaux booléens quantifient les niveaux d’expression de façon binaire : soit un gène est « allumé » soit il est « éteint » et utilisent un temps discret. L’état de chaque gène est alors déterminé par des fonctions booléennes dépendant de l’état des autres gènes. Les avantages incontestables de cette approche résident dans sa simplicité, qui s’avère utile lorsqu’on désire modéliser de grands réseaux de régulation, et dans le fait qu’elle nécessite un faible temps de calcul. De plus, malgré leur simplicité, ces réseaux permettent de reproduire des comportements dynamiques tels que des oscillations, des hystérèses ou la convergence vers de points fixes. Néanmoins, l’inconvénient majeur de ces réseaux est qu’ils n’offrent que des informations et prédictions qualitatives et qu’elles se limitent à des états discrets des niveaux d’expression des gènes. En effet, ces modèles ont été développés pour traiter les premières données expérimentales qui étaient généralement statiques et trop peu précises pour en extraire plus que de l’information binaire. Il est aujourd’hui possible de traiter les niveaux d’expression des gènes comme des variables continues.

Les réseaux bayésiens, quant à eux, sont des graphes directionnels acycliques. Chaque nœud du réseau représente un gène et est associé à une variable aléatoire correspondant au niveau d’expression de ce gène et à une distribution de probabilité de cette variable aléatoire.

(2)

On exprime ainsi la probabilité du niveau d’expression d’un gène en fonction des niveaux d’expression des gènes qui lui sont connectés en amont (« gènes parents »). Les avantages de cette méthode sont son caractère probabiliste, qui reflète la nature stochastique des processus cellulaires et du bruit sur les données expérimentales, et sa capacité à gérer des données manquantes (Li et al. 2004 ; Kim et al. 2004).

Enfin, les systèmes d’équations différentielles s’avèrent une voie séduisante pour ce type de problème car ils permettent d’exprimer explicitement et de manière continue l’évolution du niveau d’expression d’un gène en fonction du temps et des niveaux d’expression de tous les gènes, soit de manière linéaire (Chen et al. 1999 ; Gebert et al. 2006 ; D’haeseleer et al. 1999 ; Weaver et al. 1999 ; Holter et al, 2001 ; Yeung et al. 2002 ; De hoon et al. 2002 ; de Jong et al. 2003 ; Guthke et al. 2005 ; Bansal et al. 2006 ; Kramer & Xu 2007 : d’Alché-Buc et al. 2005) soit de manière non linéaire (von Dassow et al. 2000; Wang et al. 2006; Sakamoto et Iba 2001 ; Quach et al. 2007 ; Gennemark & Wedlin 2009). Ces équations constituent le formalisme de modélisation dynamique le plus puissant et ont été largement utilisées pour la modélisation de systèmes biochimiques (Crampin et al. 2004 ; Sible & Tyson, 2006). En outre, elles permettent de modéliser des comportements dynamiques complexes tels que des oscillations, des comportements cycliques ou des états de multi-stationnarité (Thomas 1981, Kauffman & Thomas 2003, d’Alché-Buc & Schachter 2005). Pour ces raisons, nous choisissons de modéliser le réseau de régulation de l’expression des gènes de la drosophile par un système d’équations différentielles, linéaires dans un premier temps et non linéaires par la suite. Signalons finalement que d’autres méthodes ont également été proposées pour ce type de problème (De Jong 2002, Crampin et al. 2004).

Citons les réseaux logiques (D’Ari & Thomas 2003), les réseaux bayésiens dynamiques (Murphy & Mian 1999), les modèles autorégressifs (Schmitt & Stephanopoulos 2003) et les réseaux de Petri (Peleg et al. 2005).

Comme cela a été expliqué au chapitre précédent, la première difficulté rencontrée dans cette démarche est la grande dimensionnalité du problème. Le nombre élevé de gènes impliqués dans le système, les hauts niveaux de bruits présents dans les données disponibles et l’indétermination structurelle inhérente à certains types de réseaux contribuent au fait que les problèmes de modélisation sont généralement sous-déterminés. C’est pourquoi on regroupe généralement les gènes dont les profils d’expression sont similaires (chapitre IV).

Une autre manière courante de réduire la dimensionnalité des modèles de réseaux est d’utiliser des connaissances biologiques pour établir a priori certaines connexions entre gènes (Sible & Tyson, 2007). Néanmoins, les connaissances actuelles à ce sujet sont généralement fragmentaires et si certaines stratégies pour gérer ces informations incomplètes dans la modélisation de réseaux de régulation génique ont été proposées (de Jong & Ropers, 2006), elles demandent en pratique une implémentation parfois laborieuse.

Enfin, toujours dans le but de réduire le nombre de paramètres des modèles, des méthodes ont été proposées pour concevoir des réseaux de régulation contenant un minimum

(3)

de connexions, soit en intégrant cette contrainte dans l’identification des réseaux (Deng et al.

2005), soit en définissant a priori un nombre maximal de connexions par (classe de) gène (Gardner & Faith, 2005; Yeung et al. 2002; Ciliberti et al. 2007). Cette hypothèse de faible connectivité est basée sur le faible nombre de facteurs de transcription régulant l’expression de chaque gène. Toutefois, sa validité peut être remise en question si l’on considère les nombreuses interactions entre gènes et produits de gènes gouvernées par d’autres processus biologiques que l’action des facteurs de transcription (Brazhnik et al. 2002).

Dans le but de maximiser la généralité des résultats obtenus, nous choisissons de réduire autant que possible le nombre d’hypothèses ou de connaissances a priori intégrées aux modèles développés mais d’identifier les solutions, optimales au sens des critères qui seront choisis, au problème de la régulation génique de la drosophile.

En 1999, Chen et al. ont proposé un modèle basé sur un système d’équations différentielles linéaires à coefficients constants décrivant l’évolution des concentrations à la fois des ARNm et des protéines du système biologique étudié, comme l’ont fait, entre autres, Thomas et al. (2004) et Sontag et al. (2004). Toutefois, si des technologies équivalentes aux puces à ADN ont également été développées pour mesurer la concentration en protéines, le coût de ces technologies reste élevé et l’exploitation de ces données en plus de celles des puces à ADN rendrait la dimension du problème démesurée. Aussi, dans l’étude de la régulation de l’expression des gènes, on fait couramment l’hypothèse d’un réseau de régulation simplifié dans lequel les ARNm et les protéines sont confondus en une unique entité. On quantifie cette variable par le niveau d’expression du gène et on étudie les interactions directement d’un gène à l’autre (Gebert et al. 2006). Il est à noter que cette hypothèse implique l’intégration d’une série de processus biologiques impliqués dans la régulation de l’expression des gènes, tels que la transcription, le transport et la traduction des molécules d’ARNm, les modifications post-traductionnelles, la dégradation des ARNm, etc.

Dans cette optique, on choisit d’utiliser des systèmes d’équations différentielles pour modéliser les profils d’expression des 4005 gènes de la drosophile, classifiés de manière à ce que les gènes présentant des profils d’expression similaires soient regroupés, selon les algorithmes et distances décrits au chapitre IV. Dans un premier temps, on utilise une version simplifiée du modèle de Chen et al. (1999) dans laquelle on ne différentie pas les ARNm des protéines. Cette étude est décrite au point 2 de ce chapitre. Dans un second temps, cette analyse sera étendue au cas non linéaire. Cette approche est décrite au point 3 de ce chapitre.

Enfin, notons que dans ce travail, les réseaux de régulation sont étudiés au niveau de leurs performances en termes de reproduction de données, de robustesse aux perturbations paramétriques et de stabilité des profils estimés et du nombre de connexions qu’ils contiennent plutôt que sur leurs structures à proprement parler. Ainsi, les caractéristiques structurelles telles que les boucles de rétroaction, dont la présence et l’utilité ont été mises en évidence dans les réseaux de régulation génique (Demongeot et al. 2000, Thomas et al. 1995), bien qu’observées dans nos résultats, ne seront pas étudiées davantage.

(4)

2. APPROCHE LINEAIRE 2.1. Méthodes

2.1.1. Données étudiées

Dans cette étude, on choisit de modéliser les profils temporels de niveaux d’expression de la drosophile en considérant la série temporelle complète (l=67 points de mesure pendant 40 jours). Afin de réduire le bruit de mesure inhérent à la technologie des puces à ADN, les h=4005 profils temporels de niveaux d’expression de la drosophile yg (g=1,…,h), définis en (I.8) comme le logarithme en base 2 d’un rapport de concentration en ARNm, sont tout d’abord soumis à un filtrage en moyennes mobiles (équations IV.1). On note

F( )

g k

y  (g=1,…,h) les profils d’expression filtrés :

F

F 1 1 1

1 1

2 4 4

( ) ( ) pour 1,

( ) ( ) ( ) ( ) pour 1

g k g k

g k g k g k g k

y y k

y y y y k

 

   _  _

  

 l

    l

  (V.1)

2.1.2. Classification des données

Les profils filtrés y_g^F( ) _k sont ensuite classifiés par la méthode de classification Smoothing Spline Clustering (Ma et al. 2006) (voir chapitre IV, section 2.1). Les profils d’expression moyens x_c(_k) (c=1,…,n) des n=17 classes ainsi formées sont définis comme les moyennes arithmétiques des profils d’expression filtrés y^F_g( ) _k des hc gènes de chaque classe c et la disparité  _c( ) _k des données dans chaque classe comme l’écart-type entre ces profils d’expression et la courbe moyenne x_c( ) _k correspondante (équations IV.4) :

 

F

F 2

( ) 1 ( )

[1, ], [1, ],

( ) 1 ( ) ( )

c k g k

c g c

c k g k c k

cg c

x y

c n k l h

y x

h

 

   



 



   

  





(V.2)

où hc est le nombre de gènes dans la classe c. Cette grandeur sera exploitée dans l’estimation paramétrique du modèle, à la section 2.1.4.

2.1.3. Structure de modèle

Le premier modèle étudié dans ce travail est le système d’équations différentielles le plus simple possible, c’est-a-dire linéaire, autonome et à coefficients constants. Dans ce type de modèle, l’évolution temporelle du niveau d’expression de la classe de gène c ne dépend que des niveaux d’expression xc de toutes les classes de gènes c (c=1,…,n) où n=17 est le

(5)

nombre de classes de gènes. En définissant le vecteur x( , ,..., )x x₁ ₂ x_n ^T et en notant t le temps réel continu, ce système d’équations s’écrit :

d ( ) d ( )

t t

t 

x M x (V.3)

où M est une matrice n x n de coefficients constants qu’il nous faudra estimer.

Le choix d’un système d’équations linéaires, plutôt qu’un modèle comprenant explicitement des paramètres cinétiques d’activation et d’inhibition, est motivé par 2 considérations. Premièrement, on cherche ici à modéliser un système dans lequel d’autres molécules que les facteurs de transcription peuvent jouer un rôle important, même indirect, dans la régulation génique. Deuxièmement, ce modèle est ici appliqué à des profils d’expression relatifs à des classes de gènes plutôt qu’à des gènes individuels. Par conséquent, les processus de régulation impliqués sont ici moyennés pour chaque classe de gènes et les paramètres du modèle représentent l’effet global de différents effets. Ils ne permettent donc pas une simple interprétation biophysique. Ainsi, dans l’équation (V.3), le paramètre Mij de la matrice M représente l’effet global du niveau d’expression de la classe de gènes j sur l’évolution temporelle du niveau d’expression de la classe de gènes i. Dès lors, nous proposons d’étudier la modélisation de l’ensemble des processus impliqués dans le système étudié en nous détachant tout d’abord d’une formulation cinétique classique pour proposer une représentation aussi simple que possible de l’effet produit par cet ensemble de processus, i.e. un modèle linéaire. L’analyse des résultats permettra d’établir les performances et les limites d’un tel modèle pour le problème posé. Par la suite, des structures non linéaires seront étudiées (voir section 3).

Le problème revient donc à estimer les n² éléments de la matrice M de manière à reproduire les n profils expérimentaux moyens filtrés xc(τk), où les 67 instants de mesure τk

sont distribués de manière non uniforme dans le temps de mesure. Cette estimation paramétrique est effectuée en deux étapes : une première étape d’estimation paramétrique linéaire qui mène analytiquement à une solution pour les dérivées temporelles de xc k , laquelle est utilisée comme valeur initiale pour la seconde étape d’optimisation paramétrique (non linéaire), résolue numériquement.

2.1.4. Estimation paramétrique a) Estimation paramétrique linéaire

Pour estimer les n² éléments de M, on propose d’exploiter les propriétés inhérentes à la linéarité du problème. Ainsi, on constate qu’une estimation des dérivées temporelles de x permet de résoudre analytiquement l’équation (V.3). Pour cela, on applique une méthode d’interpolation en « splines » cubiques (voir définition au chapitre IV, section 2.1) des profils expérimentaux, à l’aide de la routine csaps du programme Matlab. Comme l’estimation de ces

(6)

dérivées temporelles aux instants initial et final τ1 et τl sont moins fiables, on supprime ces deux points pour tous les calculs ultérieurs. La résolution de l’équation (V.3) est réalisée en utilisant la routine mrdivide de Matlab sur les mesures aux l=65 instants restants. Cette estimation paramétrique, dite « au sens des moindres carrés », correspond à la valeur minimum de la norme 2 des écarts entre les dérivées temporelles de x estimées par interpolation et par le modèle M x :

 ²

LS 1

2 2

d ( )

ˆ ( )

d

l k

k k

ArgMin

t

 





 

  

 

M



M x M 

x  (V.4)

Comme cette estimation utilise des algorithmes numériques, elle dépend notamment de la fréquence d’échantillonnage des données qui est largement plus élevée dans le stade embryonnaire (1 mesure toutes les 30 minutes) que dans le stade adulte (1 mesure tous les 3 jours). En interpolant les niveaux d’expression et de leurs dérivées temporelles sur toute la série temporelle en conservant la fréquence de mesure du stade embryonnaire (ce qui donne lieu à 1920 points de mesure au lieu de 65 sur toute la série temporelle), il a été constaté que l’estimation paramétrique de M donne de meilleurs résultats, en termes d’écarts entre les profils interpolés et estimés des dérivées temporelles des profils d’expression. Notons que dans ce cas, un poids plus important est attribué aux mesures du stade adulte car celles-ci s’étalent sur ¾ de la période de mesure alors que ces mesures sont au départ les moins nombreuses. Dès lors, une perspective intéressante serait de pondérer ces mesures artificielles de manière à soit mettre tous les stades sur un pied d’égalité, soit respecter la proportion des points de mesures, soit respecter la quantité d’information apportée par les mesures dans chaque stade. Notons que tous les calculs ultérieurs à cette estimation sont faits en ne considérant que les 65 points de mesures réels.

Pour évaluer la validité de cette estimation paramétrique linéaire, les profils estimés ˆ ( )LS_k

x (k=1,...,l)sont générés en intégrant les équations (V.3) avec la matrice et les conditions initiales expérimentales x(τ1). Cette intégration est réalisée à l’aide d’un algorithme classique de Runge-Kutta (Forsythe et al. 1977) (routine ode45 de Matlab). On définit ensuite une fonction de coût qui quantifie la qualité de reproduction des profils expérimentaux par un profil estimé . Cette fonction, notée , correspond à l’écart quadratique moyen entre les profils estimé et expérimental, pondéré par l’inverse de la variance des données

ˆLS

M

xˆ S( )xˆ

( )2 c k

  , définie aux équations (V.2).

 

²

1 1 1 2

( ) ˆ ( ) ˆ 1

( ) ( )

n l c k c k

c k c k

x x

S nl

 

 



 



 



x (V.5)

La pondération par  _c( )_k ² dans permet d’affecter un poids plus important aux termes de la fonction de coût relatifs aux points expérimentaux présentant une faible disparité des

( )ˆ S x

(7)

données. De ce fait, on privilégie les solutions pour lesquelles le modèle reproduit mieux les données associées à un intervalle de confiance plus étroit.

b) Optimisation paramétrique non linéaire

L’estimation paramétrique linéaire se base sur l’estimation des dérivées temporelles des niveaux d’expression faite par la fonction de lissage csaps de Matlab et non sur les valeurs exactes de celles-ci. Les valeurs des paramètres sont donc nécessairement entachées d’une certaine erreur due à cette estimation.

Dès lors, on propose d’effectuer une optimisation non linéaire des paramètres, de façon à corriger l’écart dû à l’erreur d’estimation des dérivées temporelles des courbes expérimentales. Plus précisément on recherche une nouvelle matrice et de nouvelles conditions initiales

ˆOpt

M

Opt 1

ˆ ( )

x qui minimisent la fonction de coût , telle qu’elle est définie à l’équation (V.5). Cette recherche locale est initialisée aux valeurs et

ˆOpt

(x ) S

ˆLS

M x( )₁ et réalisée par un algorithme de simplexe (Lagarias et al.1998) implémenté dans la routine fminsearch de Matlab.

L’inconvénient de cette méthode est, comme dans toute optimisation numérique, le risque que la recherche se termine prématurément, piégée dans un minimum local de la fonction de coût choisie. Toutefois, étant donné que la recherche est initialisée à la solution de l’estimation paramétrique linéaire, on peut espérer qu’elle aboutira à une solution proche du minimum global de la fonction de coût.

2.1.5. Réduction paramétrique

La matrice traduit les influences mutuelles entre les classes de gènes. A ce stade, elle correspond à un réseau de régulation de l’expression des gènes hautement, voire totalement, connecté. Cependant, il est possible que d’autres ensembles de paramètres, plus réduits, c’est-à-dire contenant des éléments nuls, puissent modéliser aussi bien les profils d’expression. Pour trouver de tels ensembles de paramètres, on effectue une réduction paramétrique du modèle, de manière à identifier les connections entre classes qui sont nécessaires pour conserver une bonne modélisation des profils d’expression. On suppose alors que ces connexions sont les plus plausibles biologiquement.

ˆOpt

M

On propose 2 procédures (A et B) et 2 critères d’arrêt (1 et 2) pour déterminer les éléments de M qui pourraient être annulés. Les deux procédures se basent sur l’estimation des moindres carrés et tentent de maintenir à une valeur aussi faible que possible. Bien que l’estimation des moindres carrés offre des solutions qui ne sont optimales que pour la reproduction des dérivées temporelles des profils d’expression, elle offre l’avantage d’être analytique et rapide comparée à l’estimation paramétrique non linéaire. C’est pourquoi seule celle-ci est considérée pour déterminer les paramètres à éliminer.

ˆLS

( S x )

(8)

La procédure A est itérative et trace une trajectoire unique dans l’ordre des paramètres à éliminer. A chaque itération, le paramètre qui, une fois éliminé, mène au plus petit

est définitivement annulé. Lorsque le critère d’arrêt choisi est atteint, une optimisation non linéaire finale est effectuée et est calculé. En notant N le nombre de paramètres éliminés du modèle, le premier critère d’arrêt est choisi comme la valeur N =N* à laquelle on observe une augmentation brusque et importante de et au-delà de laquelle la bonne reproduction des profils expérimentaux n’est plus assurée. Comme on le verra dans les résultats, à la Figure V.2, cette valeur est identifiée en N*=227. L’ensemble de paramètres correspondant à cette solution est noté .

ˆLS

( )

S x ˆOpt

( S x

Mˆ )

)

) ˆOpt

( S x

AN

La procédure B est similaire à la procédure A mais possède une composante aléatoire : le choix du paramètre à éliminer n’est plus systématique mais résulte d’une sélection aléatoire parmi les paramètres qui, une fois éliminés, mènent à une valeur de qui n’excède pas 110% de la valeur minimum de l’itération. Cette procédure est exécutée 50 fois, avec le même critère d’arrêt que pour la procédure A, i.e. N=227, et on note (i=1,…,50) le i^ème ensemble réduit de paramètres obtenu de cette façon.

ˆLS

( S x

ˆ B, i

MN

Les 2 procédures sont également exécutées avec un second critère d’arrêt, défini par une condition sur les profils d’expression modélisés. Pour chaque classe de gènes c, on définit un intervalle de confiance, dont la largeur vaut le double de l’écart-type des données, autour du profil moyen : x_c( ) 2 ( )_k   _c _k . La réduction paramétrique est alors poursuivie jusqu’à ce qu’un profil d’expression modélisé xˆ^Opt( )_k (k=1,...,l) sorte de cet intervalle. On note M^ˆ₂^A_ l’ensemble de paramètres correspondant. Ensuite, la procédure B est exécutée 50 fois avec ce même critère d’arrêt et on note M^ˆ ^B,₂_ⁱ (i=1,…,50) les ensembles de paramètres obtenus.

Enfin, la qualité des 102 matrices réduites ainsi obtenues est évaluée en termes des valeurs de N et . Une sélection est alors effectuée pour conserver uniquement les meilleures solutions : celles présentant un nombre de paramètres éliminés supérieur à une valeur seuil, déterminée après examen des résultats, et une valeur de des profils d’expression inférieure à une valeur seuil, également déterminée après examen des résultats.

Ces solutions optimales, notées

Mˆ ˆOpt

( S x )

Opt) (ˆ S x ˆ^

M sont alors comparées entre elles et analysées en détail.

2.1.6. Etude de robustesse

Outre la bonne reproduction des profils expérimentaux, on souhaite également évaluer à quel point le modèle développé est robuste aux perturbations de ses paramètres. En effet, un modèle de réseau de régulation génique dans lequel une légère perturbation d’une de ses connections, i.e. d’interactions entre gènes et produits de gènes, mènerait à des profils d’expression estimés totalement différents, voire présentant des comportements divergents, n’est pas plausible biologiquement (Perumal et al. 2008). De la même manière, une petite variation de niveaux d’expression de gènes, attribuable notamment à la nature stochastique

(9)

des phénomènes moléculaires impliqués dans le processus de régulation, ne devrait pas affecter les profils estimés de manière drastique. Certes, on sait que les modèles linéaires sont susceptibles de présenter des comportements divergents après une telle perturbation, mais la question est ici de savoir si ceux-ci surviennent suite à des perturbations biologiquement plausibles et dans un intervalle de temps raisonnable, i.e. pendant la période de vie de l’organisme étudié. Pour cela, les paramètres estimés de la matrice M et les conditions initiales estimées sont perturbées, individuellement et collectivement, et les profils perturbés sont comparés aux profils estimés initiaux. Cette analyse est également réalisée pendant la procédure A de réduction paramétrique décrite ci-avant, pour chaque valeur prise par N, de manière à évaluer l’effet de la connectivité du réseau sur sa robustesse aux perturbations paramétriques.

a) Robustesse aux perturbations des paramètres de régulation

La robustesse des réseaux de régulation avant et après réduction paramétrique, définis par les matrices , est évaluée suite à des perturbations individuelles (P1) et collectives (PAll) de faible amplitude (1-10%).

ˆOpt

MN

Dans le premier cas, les éléments de ˆ ^Opt MN

ˆ^{P p}_N1^

x

sont modifiés un à la fois en leur ajoutant ou soustrayant un pourcentage de leur valeur absolue. Ces perturbations sont fixées à P1=±1%

et ensuite à P1=±5%. Les profils d’expression estimés avec des paramètres perturbés sont alors générés. Ensuite, pour chaque perturbation P1 = p d’un paramètre Mcd, on identifie la perturbation P* pour laquelle l’écart maximum entre les profils perturbé

( )t

ˆ^{P p}_N1^ ( )_k

x et initial

ˆOpt( )_k

x est observé. On calcule alors la fonction de coût S(x^ˆ^{P p}_N¹^ )

[ (ˆ

qui leur est associée.

Finalement, les valeurs minimum (Min S[ (xˆ^{P p}_N¹^ )]) et maximum (Max S x^{P p}_N¹^ )]) de ces fonctions, obtenues en comparant les perturbations de chaque élément de Mcd sont examinées pour interprétation.

Dans le second type de perturbation, tous les paramètres Mcd du réseau sont perturbés en même temps. Pour cela, on ajoute à chaque paramètre Mcd un pourcentage aléatoire (et différent pour chaque paramètre) de sa valeur. Ces pourcentages, de distribution normale de moyenne nulle, sont compris dans l’intervalle [-p, +p], avec p=1% puis p=10%. Les profils d’expression xˆ^P_NÂll^^p( )t perturbés et les fonctions S(xˆ^P_NÂll^^p) relatives à ces profils sont ensuite calculés. Cette procédure est répétée 50 fois pour différentes perturbations aléatoires et la moyenne et l’écart-type de S(xˆ^P_NÂll^^p) sont retenues. Etant donné que le scores sont toujours positifs et ne suivent par conséquent pas une distribution normale, on définit un écart-type à gauche σL et un écart-type à droite σR, défini en ne considérant, respectivement, que les score inférieurs (σL) ou supérieurs (σR) à la moyenne de

( )ˆ S x

(ˆ^P_N^All ^p) S x ^ .

(10)

b) Robustesse aux perturbations des conditions initiales

Enfin, un autre type de perturbation envisagé est la modification des conditions initiales xˆ^Opt_N ( )₁ , plutôt que les paramètres de . Dans ce dernier cas, on évalue l’effet de perturbations individuelles et collectives, notées Pin1 et PinAll , définies exactement de la même manière que P1 et PAll.

ˆ Opt

MN

2.1.7. Etude de stabilité

Enfin, on extrapole les profils estimés au-delà de la période de temps de mesure de manière à constater si des comportements divergents apparaissent. Dans les données d’Arbeitman et al. 2002, le denier point de mesure correspond au 40^e jour de la vie des drosophiles, i.e. τl = 40 jours. La période d’extrapolation ]τl,τlife] après la période de mesure [τ1,τl] est choisie de manière à couvrir la durée de vie τlife de l’organisme. Il est à noter que les drosophiles de laboratoire ont une durée de vie moyenne dépendant, notamment, de la température de l’environnement dans lequel elles se développent (Lamb 1968). Plusieurs études (Bonilla et al. 2002 ; Troen et al. 2010) ont permis de mesurer une durée de vie moyenne de l’ordre de 60-65 jours et une durée de vie maximum de l’ordre 80-85 jours, sous les mêmes conditions d’environnement mais en soumettant les drosophiles à un régime particulier. En supposant que le système de régulation de l’expression des gènes a fonctionné pendant la durée de vie de l’organisme, on décide de fixer τlife à 80 jours et d’évaluer l’état des variables du modèle développé en extrapolant la période de temps jusqu’à cette limite maximum.

2.2. Résultats et discussion

2.2.1. Estimation paramétrique

L’estimation linéaire des paramètres du modèle (V.3) mène, pour la fonction de coût choisie, à une valeur de . Cette faible valeur témoigne de la qualité de cette première estimation. Après optimisation non linéaire des paramètres cette valeur décroît à

=0,16. Les profils expérimentaux ˆLS

( ) 0.2 S x  7

Opt) (ˆ

S x x( )_k et modélisés xˆ ( )^LS_k et xˆ^Opt( )_k sont représentés à la Figure V.1 pour la classe de gènes 3. Les profils des autres classes de gènes se trouvent en annexe A.12. Signalons que pour des raisons de clarté, ces profils sont représentés en fonction des instants de mesure τk plutôt que du temps t réel continu.

On constate que les profils xˆ ( )^LS _k obtenus par l’indentification paramétrique linéaire reproduisent parfaitement les profils expérimentaux dans la première partie de la série, proche des conditions initiales. Toutefois, la déviation entre ces profils estimés et les données augmente légèrement avec le temps. Elle reste cependant très petite pour la plupart des classes de gènes. Pour rappel, cette déviation est attribuée à l’estimation des dérivées temporelles de x qui s’avère moins bonne dans une région de la série temporelle ou les données sont éparses.

(11)

En effet, les délais entre les points de mesure sont de plusieurs jours dans le stage adulte, alors qu’ils ne sont que de 30 minutes dans le stage embryonnaire. Par ailleurs, les profils d’expression sont quasiment constants dans le stade adulte. Les dérivées temporelles de ces profils sont donc nettement plus petites que dans les autres stades. Enfin, ces profils étant obtenus par intégration des équations différentielles (V.3) à partir du premier point de mesure, il est normal que la déviation entre le profil estimé et les mesures augmente avec la période d’intégration. On observe finalement sur cette même figure que les profils xˆ^Opt( )_k reproduisent les profils expérimentaux encore mieux que ne le font les profils xˆ (^LS_k).

Figure V.1 : Profils d’expression expérimentaux et modélisés de la drosophile en fonction des points de mesure τk. Points: Points expérimentaux filtrés x_c( )_k ; ligne pleine: version continue et lissée de x_c( )_k utilisée pour l’estimation des dérivées temporelles; ligne en traits-points: profil xˆ ( )_c^LS _k modélisé par l’estimation paramétrique linéaire; ligne en pointillés : profil xˆ_c^Opt(_k) modélisé par l’estimation paramétrique linéaire. Les lignes verticales grises délimitent les stades de développement de la drosophile : embryon (E), larve (L), pupe (P) et adulte (A).

Finalement, on calcule la variation relative Δ^M des paramètres avant et après l’optimisation non linéaire :

Opt LS

LS

ˆ ˆ

ˆ

ij ij

ij

M M

M

 ^M  (V.6)

Ces variations vont de 0 à 7,5%, avec une moyenne de 0,3% Ces valeurs témoignent de la haute sensibilité du modèle, où des variations faibles mais spécifiques des paramètres induisent une amélioration de la reproduction des données expérimentales.

(12)

2.2.2. Réduction paramétrique

La Figure V.2 représente l’évolution de et au cours de la procédure A de réduction paramétrique. On constate que la valeur de reste relativement constante ou augmente légèrement jusqu’à ce que N atteigne 227. A ce stade de réduction, = 0,44 et il reste 62 paramètres, ce qui correspond à une moyenne de 3,65 connexions par classe. Toute réduction paramétrique supplémentaire induit un saut de . La réduction jusqu'à ce point, N=N*=227 est choisie comme premier critère d’arrêt pour les 50 exécutions de la procédure B.

ˆLS

(

S x ) )

)

) ˆOpt

( S x

ˆOpt

( )

S x

ˆOpt

( S x ˆOpt

( S x

Figure V.2 : Evolution de S(xˆ^LS) (ligne discontinue) et S(xˆ^Opt) (ligne continue) en fonction de N, le nombre de paramètres éliminés, en utilisant la procédure A et une optimisation paramétrique non linéaire à chaque itération.

Les 2 procédures sont ensuite exécutées avec le second critère d’arrêt, défini par une condition sur les profils d’expression modélisés. Avec la procédure A, ce critère d’arrêt est atteint lorsque N=212 et = 0,38. Une sélection est alors effectuée parmi les 102 matrices ainsi identifiées pour conserver uniquement les meilleures solutions : celles présentant un nombre suffisant de paramètres éliminés et une modélisation satisfaisante des profils d’expression, i.e. N ≥ 227 et ≤ 0.44, ce qui correspond aux valeurs de N et

pour . 35 matrices au total sont ainsi sélectionnées. Leurs valeurs de N et

sont représentées à la Figure V.3. On constate tout d’abord une certaine diversité dans les solutions en ce sens que pour un nombre donné de paramètres N, la valeur de la fonction de coût peut varier de manière significative et que, inversement, pour une valeur donnée de la fonction de coût, différents niveaux de réductions peuvent être atteints. Ensuite, on constate que les meilleures solutions sont obtenues avec la procédure B. En effet, les solutions optimales au sens de l’estimation des moindres carrés ne correspondent pas forcément aux solutions optimales au sens de l’optimisation non linéaire. Par exemple, avec N=227 paramètres éliminés avec le critère d’arrêt 1, une des exécutions de la procédure B atteint une valeur de = 0,33, ce qui inférieur à la valeur de 0,44 obtenue avec la procédure A.

Cette solution est entourée par une ligne discontinue sur la Figure V.3.

ˆOpt

( S x )

) )

)

ˆOpt

( S x ˆOpt

(

S x ˆ

NA

M

ˆOpt

(x

ˆOpt

( )

S x

S

(13)

Figure V.3. Evolution du score S(x^ˆÔpt) en fonction du nombre N de paramètres éliminés, pour les 35 matrices réduites M^ˆ^. Les matrices M^ˆ^ sont issues des deux procédures de réduction et des deux critères d’arrêt, pour lesquelles N≥227 etS(xˆÔpt)≤0.44. Petit cercle :M^ˆÂ_N; points:M^ˆ^{B i}_N^,; croix :M^ˆ₂^{B i}_^,. Les deux grands cercles discontinus indiquent deux solutions décrites dans le texte.

Par ailleurs, le plus haut niveau de réduction est atteint pour N=247, ce qui correspond à une moyenne de 2,47 connexions par classe de gènes. Cette solution est obtenue par la procédure B et le critère d’arrêt 2 et présente une valeur de = 0,43. Cette solution est également entourée par une ligne discontinue sur la Figure V.3. Les profils d’expression modélisés correspondant à ces 2 solutions sont représentés à la Figure V.4 pour la classe de gènes 3 et en annexe A.13 pour les autres classes.

ˆOpt

( S x )

Figure V.4 : Profils d’expression expérimental et modélisés, avant et après réduction paramétrique, en fonction des points de mesure τk. Lignes continues : profil filtré et lissé x_c( )_k et intervalle de confiance x_c( ) 2_k   _c( )_k ; ligne fine en traits-points : profil modélisé xˆ_c^Opt( )_k ; ligne épaisse en traits-points : profil modélisé

ˆOpt_c ( )_k

x  après réduction paramétrique avec N = 247 et S(x^ˆÔpt)= 0.43; ligne discontinue : profil modélisé ^x^ˆ^cÔpt^{( )}^^k après réduction paramétrique avec N =227 et S(ˆxÔpt)=0.33. Les lignes verticales grises délimitent les stades de développement de la drosophile : embryon (E), larve (L), pupe (P) et adulte (A).

(14)

On observe que, bien que le soit plus grand qu’avant la réduction paramétrique, les profils d’expression modélisés après réduction paramétrique reproduisent relativement bien les tendances globales des profils expérimentaux. On peut donc en conclure que 2 à 4 connexions par classe de gène, en moyenne, suffisent à représenter le réseau de régulation de l’expression des gènes de la drosophile.

ˆOpt

( S x )

)

Enfin, notons que la sensibilité de la matrice M décroît avec le processus de réduction paramétrique. En particulier la variation relative des paramètres lors de l’optimisation non linéaire s’étend de 0 à 306%, avec une moyenne de 17%, pour la solution caractérisée par N=227 et =0.33, et de 0 à 145%, avec une moyenne de 12%, pour la solution caractérisée par N=247 and =0.43. Pour rappel, ces variations s’étendaient 0 à 7,5%, avec une valeur moyenne de 0,3%, pour la solution non réduite.

ˆOpt

( S x

ˆOpt

( S x

2.2.3. Interprétation des solutions obtenues

Finalement, on compare les 35 matrices réduites sélectionnées, notées M^ˆ ^, pour en souligner les similarités. On définit pour cela la matrice nxn C telle que :

35 1

sgn( ˆ )

cd cd

C ^

 





^M ^(V.7)

où c et d sont des indices matriciels. La matrice C contient un résumé des similarités entre les matrices M^ˆ^ : plus souvent un élément Ccd présente une valeur absolue élevée (avec un maximum de 35), plus la connexion entre les classes c et d est conservée après réduction paramétrique, et plus l’élément correspondant Ccd a une haute valeur absolue. Par ailleurs, le signe des éléments Ccd traduit l’effet principal des interactions entre les classes c et d. Ainsi, si un élément Ccd a une valeur positive (négative), plus les gènes de la classe d ont un effet activateur (répresseur) sur la transcription des gènes de la classe c. La matrice C est représentée à la Figure V.5a.

Enfin, pour analyser si certains des paramètres sont éliminés ou maintenus dans la plupart des schémas de réductions, on se focalise sur les éléments qui ont systématiquement le même signe dans au moins 80% des matrices M^ˆ^ (i.e. aux éléments Ccd ≤-28 ou Ccd ≥28). On observe que 15 éléments sont conservés dans la matrice résultant de cette opération, notée C^cutoff. Ceux-ci correspondent à des connexions nécessaires entre classes de gènes, dont l’effet activateur ou répresseur est net. Le réseau de régulation correspondant à la matrice C^cutoff est représenté à la Figure V.5b, et, sous la forme d’un graphe dirigé, à la Figure V.6. Pour rappel, les fonctions et processus assignés à chaque classe ont été obtenus par Ma et al. (2006) à l’aide de leur programme GeneMerge qui évalue pour chaque classe si une surreprésentation est observée dans les ontologies des gènes présents dans la classe.

(15)

a b Figure V.5 Représentations de la matrice C. (a) : Les carrés les plus rouges (bleus) signalent que la connexion correspondante a une action d’activation (répression) dans au moins 80% des 35 matrices M^ˆ^.; (b) : La matrice C^cutoff contenant les éléments de Ccd  -28 ou ≥ 28; les carrés blancs signalent que la connexion correspondante est supprimée dans au moins 80% des 35 matrices M^ˆ^ . les carrés verts signalent que la connexion correspondante est conservée dans plus de 20% des cas que son signe est mal défini, i.e. |Ccd| < 28.

On constate que 3 classes de gènes (3, 7 et 14) présentent un élément non nul sur la diagonale de la matrice C^cutoff et que ces 3 éléments sont négatifs. Rappelons que les profils d’expression que l’on cherche à modéliser ici sont exprimés en termes de niveaux d’expression, c’est-à-dire en logarithmes du rapport de la concentration en ARNm sur une valeur de référence. Ainsi, l’effet d’auto-répression observé dans ces 3 classes de gènes traduit, dans l’espace des logarithmes, un effet d’autorégulation qui s’efforcera d’amener les niveaux d’expression à une valeur constante. Les fonctions associées à ces classes de gènes, qui correspondent aux ontologies les plus souvent partagées par les protéines à l’intérieur de ces classes, sont respectivement la dérivation de l’énergie, le développement et la communication cellulaire, et la perception visuelle (voir chapitre IV section 3.1).

On observe également que 199 paramètres sur les 17²=289 sont éliminés dans plus de 80% des réductions paramétriques, ce qui correspond à 69% du nombre total de paramètres.

En y ajoutant les 15 connexions de la matrice C^cutoff, 214 connexions sont bien définies ; elles représentent soit une répression, soit une activation, soit une absence de connexion. Seules 75 connexions demeurent mal définies, soit parce que le bruit expérimental est trop important, soit parce que certaines classes de gènes ont mal été définies, soit encore parce que la différentiation spatiale entre les cellules ne peut être négligée pour certains gènes.

En outre, on constate que la moitié des éléments non nuls de C^cutoff correspondent à des connexions avec la classe 3 qui contient une majorité de gènes impliqués dans des processus cellulaires énergétiques. Il n’est en effet pas étonnant que la classe de gènes avec cette fonction centrale soit connectée à beaucoup d’autres. La classe 13, dont les principales fonctions sont la transmission synaptique et le développement du mésoderme, est également bien connectée au réseau de régulation.

(16)

Figure V.6 : Réseau de régulation génique de la drosophile, avec les connexions qui sont conservées dans au moins 80% des réductions paramétriques. La valeur moyenne des éléments de M et leur écart-type sont indiqués pour chaque connexion.

Les fonctions les plus représentées dans chaque classe (“cluster”) sont également indiquées ; si aucune fonction n’est indiquée, la classe ne contient pas de fonction suffisamment représentée.

Notons finalement qu’une connexion entre deux classes de gènes n’implique pas que tous les gènes d’une classe interagissent avec tous les gènes de l’autre classe. Il est probable que certains gènes d’une classe, comme par exemple un gène codant pour un facteur de transcription et les protéines qui interagissent avec lui, interagissent avec les gènes que le facteur de transcription régule, présents dans une autre classe.

Par ailleurs, une classe de gènes peut contenir plusieurs groupes distincts de gènes co- régulés, indépendants les uns des autres mais présentant globalement les mêmes dépendances temporelles. Toutefois, cette information ne peut être déduite des données issues de puces à ADN utilisées sans l’apport d’autres connaissances issues d’autres types d’expériences. En résumé, la Figure V.6 peut être vue comme un réseau de régulation à un niveau global, complémentaire aux graphes habituels reliant les gènes qui interagissent entre eux pendant le processus de régulation génique (Margolin et al. 2006). Dans ce réseau, les gènes co-régulés sont généralement regroupés dans les mêmes classes et les liens entre classes correspondent aux interactions dynamiques entre certains gènes de différentes classes.

(17)

2.2.4. Etude de robustesse

Les solutions réduites obtenues par la procédure A ont été ensuite soumises aux perturbations paramétriques décrites à la section 2.1.6.

a) Robustesse aux perturbations des paramètres de régulation Perturbations individuelles

L’évolution des scores avant et après perturbation individuelle des paramètres de M, i.e. et avec p = ±1% et p = ±5% est représentée à la Figure V.7 en fonction du nombre N de paramètres éliminés. On y observe, pour chaque valeur de N, les valeurs minimale (

Opt

ˆN

(

S x ) S(xˆ^{P =p}_N¹ )

ˆ1

[ ( ^{P p}_N )]

n S x ^

Mi ) et maximale (Max S[ (xˆ^{P p}_N¹^ )]) des scores obtenus en perturbant chaque paramètre individuellement (voir section 2.1.6). Par soucis de lisibilité, l’évolution de ces scores est représentée en échelle logarithmique.

a b

Figure V.7: Log10 des scores S avant et après les perturbations individuelles en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score S(xˆ^Opt_N ) avant perturbation ; ligne verte discontinue et ligne rouge continue : log10 des scores

P =p1

ˆN

[ ( )]

Min S x et Max S[ (xˆ^{P =p}_Nⁱⁿ¹ )], respectivement. (a) P1=±1% ; (b) P1 =±5%.

Dans cette figure, la courbe discontinue verte est confondue avec la courbe bleue en pointillés. Cela signifie que, quel que soit le nombre de paramètres dans le réseau de régulation, il y a toujours au moins un paramètre dont la perturbation ne modifie pas le score moyen. En revanche, on remarque que, pour N<215 (c’est-à-dire jusqu’à ce que 74% des paramètres soient fixés à zéro), le modèle est toujours extrêmement sensible à la perturbation d’au moins un paramètre. Le modèle reste sensible jusqu’à N=241 (lorsque 83% des paramètres sont éliminés) pour les perturbations à ±5%.

En conséquence, on constate que le modèle linéaire est toujours robuste aux perturbations de certains paramètres mais ne devient réellement robuste à toutes les perturbations paramétriques individuelles que lorsque le réseau est réduit à environs 3

(18)

connexions par classe de gène en moyenne. Toutefois, à ce niveau, la reproduction des données devient insuffisante.

Perturbations collectives

Le comportement du score en fonction de N lorsque tous les paramètres sont perturbés en même temps est représenté à la Figure V.8 pour p=1% or p=10%. On y retrouve l’évolution de la valeur moyenne < > des scores obtenus pour 50 perturbations aléatoires ainsi que l’intervalle de confiance [< >-σL, >+σR], définis à la section 2.2.6.

ˆOpt

( S x

ˆ_N S x

)

) )

( ^P^All^^p

(ˆ^P_N^All ^p

S x ^ S(xˆ^P_N^All^^p

a b

Figure V.8 : Log10 des scores S avant et après les perturbations collectives en fonction du nombre N de paramètres éliminés. La ligne verticale grise indique la réduction optimale N=227. Ligne bleue en pointillés : log10 du score S(xˆ^Opt_N ) avant perturbation ; ligne noire discontinue : log10 du score moyen pour les 50 perturbations aléatoires ; ligne verte en étoiles et ligne rouge continue : log10 des scores



^^S⁽^x^ˆ^{P p}^N¹^ ⁾^{ }^^L



^et



^^S⁽^x^ˆ^N^{P p}¹^ ⁾^{ }^^R



, respectivement. (a) PAll=1%; (b) PAll=10% .

La première observation faite dans la partie gauche de la Figure V.8b est que, lorsque le modèle contiens plus de 74 paramètres (N<215), les scores après perturbation sont supérieurs à celui avant perturbation de plusieurs ordres de grandeur. En effet, ces scores sont en moyenne de 10⁶⁰ et 0.5, respectivement. Cela implique que, dans cette région de N, le modèle linéaire étudié est extrêmement instable face à de petites perturbations collectives de ses paramètres. Néanmoins, lorsque le nombre de paramètres décroît en-deçà de 48 (N=241), les scores moyens avant et après perturbation deviennent plus proches. Notons que cette valeur seuil est nettement plus loin dans la réduction que la valeur de réduction optimale N=227, au- delà de laquelle les profils d’expression estimés sont considérés comme insatisfaisants pour reproduire les profils expérimentaux.