• Aucun résultat trouvé

Nous souhaitons r´eduire au maximum la taille de la base d’apprentissage en gardant un mod`ele de r´eseau de neurones ´emettant des pr´edictions correctes. 3 bases minimalistes ont ´

et´e constitu´ees :

ˆ Une base de 80 configurations o`u nous avons fait varier une seule variable d’entr´ee `a la fois selon 5 valeurs.

ˆ Une base de 32 configurations o`u nous avons fait varier une seule variable d’entr´ee `a la fois selon 2 valeurs.

ˆ Une base de 12 configuration o`u seulement les variables E3, E4, E13, NADP+, cel- lobiose et Pi ont ´et´e modifi´ees. Par une ´etude du syst`eme nous avons d´etermin´e que ces variables sont parmi les influentes du syst`eme et interviennent dans les r´eactions limitantes du syst`eme. Ainsi via l’´etude de cette base de 12, il est int´eressant de savoir si une mod´elisation syst´emique bas´ee uniquement sur les r´eactions limitantes, qui ont le plus d’influence sur le syst`eme, donne des pr´edictions de pr´ecision acceptable. les intervalles de variation sont donn´ees ci-dessous :

ˆ entre 5 et 20 U/ml pour les 13 enzymes ˆ entre 0,5 et 2 mM pour NADP+

ˆ 35 et 140 mM pour cellobiose et le phosphate

ˆ 10 U/ml pour une enzymes ˆ 1 mM pour le NADP+

ˆ 70 mM pour le cellobiose et le phosphate

La m´ethodologie d’apprentissage reste la mˆeme que celle utilis´ee pour la base de 65536 configurations (figure3.2). La mˆeme base de validation est utilis´ee pour valider les nouveaux mod`eles con¸cus.

3.4.1

Mod´elisation de la pente

Apprentissage

Base de 80 configurations

Le mod`ele final poss`ede cinq neurones en couche cach´ee et valeur de τ nulle. Les mesures de l’apprentissage sont indiqu´ees dans les figures 3.7 et 3.8. L’apprentissage est correcte pour cette base.

RMSE R2 0.009 0.863

Table 3.7: ´Evaluation de l’estimation de la pente lors d’une validation crois´ee `a partir du mod`ele g´en´er´e par le set de 80 cas.

RMSE R2 0.001 1

Table 3.8: ´Evaluation de l’estimation de la pente lors d’une autopr´ediction `a partir du mod`ele g´en´er´e par le set de 80 cas.

Figure 3.8: Autopr´ediction de la pente `a partir du mod`ele g´en´er´e par le set de 80 confi- gurations.En abscisse : valeur de pente normalis´ee mesur´ee, en ordonn´ee : valeur de pente normalis´ee pr´edite.

Base de 32 configurations

Le mod`ele final poss`ede cinq neurones en couche cach´ee et valeur de τ vaut 1 ∗ 104. Les mesures de l’apprentissage sont indiqu´ees dans les figures 3.9 et 3.10. L’apprentissage est correcte pour cette base.

RMSE R2 0.086 0.791

Table 3.9: ´Evaluation de l’estimation de la pente lors d’une validation crois´ee `a partir du mod`ele g´en´er´e par le set de 32 cas.

RMSE R2 0.003 1

Table 3.10: ´Evaluation de l’estimation de la pente lors d’une autopr´ediction `a partir du mod`ele g´en´er´e par le set de 32 cas.

Figure 3.9: Autopr´ediction de la pente `a partir du mod`ele g´en´er´e par le set de 32 confi- gurations.En abscisse : valeur de pente normalis´ee mesur´ee, en ordonn´ee : valeur de pente normalis´ee pr´edite.

Base de 12 configurations

Le mod`ele final poss`ede cinq neurones en couche cach´ee et valeur de τ vaut 1 ∗ 104. Les mesures de l’apprentissage sont indiqu´ees dans les figures 3.11 et 3.12. L’apprentissage est correcte pour cette base.

RMSE R2 0.124 1

Table 3.11: ´Evaluation de l’estimation de la pente lors d’une validation crois´ee `a partir du mod`ele g´en´er´e par le set de 12 cas.

RMSE R2 0.001 1

Table 3.12: ´Evaluation de l’estimation de la pente lors d’une autopr´ediction `a partir du mod`ele g´en´er´e par le set de 12 cas.

Figure 3.10: Autopr´ediction de la pente `a partir du mod`ele g´en´er´e par le set de 12 confi- gurations.En abscisse : valeur de pente normalis´ee mesur´ee, en ordonn´ee : valeur de pente normalis´ee pr´edite.

Validation

Base de 80 configurations

RMSE R2 0.303 0.883

Table 3.13: ´Evaluation de l’estimation de la pente lors de la phase de validation `a partir du mod`ele g´en´er´e par le set de 80 cas.

Figure 3.11: Validation du mod`ele avec la base de 80 configurations pour la pr´ediction de la pente. En abscisse : valeur de pente normalis´ee mesur´ee, en ordonn´ee : valeur de pente normalis´ee pr´edite.

Base de 32 configurations

RMSE R2 0.308 0.882

Table 3.14: ´Evaluation de l’estimation de la pente lors de la phase de validation `a partir du mod`ele g´en´er´e par le set de 32 cas.

Figure 3.12: Validation du mod`ele avec la base de 32 configurations pour la pr´ediction de la pente. En abscisse : valeur de pente normalis´ee mesur´ee, en ordonn´ee : valeur de pente normalis´ee pr´edite.

Base de 12 configurations

RMSE R2 0.265 0.91

Table 3.15: ´Evaluation de l’estimation de la pente lors de la phase de validation `a partir du mod`ele g´en´er´e par le set de 32 cas.

Figure 3.13: Validation du mod`ele avec la base de 12 configurations pour la pr´ediction de la pente. En abscisse : valeur de pente normalis´ee mesur´ee, en ordonn´ee : valeur de pente normalis´ee pr´edite.

Dans l’ensemble, les valeurs des crit`eres calcul´es pour ´evaluer la pr´ecision du mod`eles sont correctes pour la pr´ediction de la pente selon les diff´erentes bases d’apprentissage. Avec la base de 12 configurations, bien que qu’ayant peu de donn´ees, nous obtenons un mod`ele pr´edictif correcte selon le RMSE et le R2.

3.4.2

Mod´elisation du plateau

Apprentissage

Base de 80 configurations

Le mod`ele final est compos´e de cinq neurones en couche cach´ee et poss`ede une valeur de τ de 1 ∗ 104. Les mesures de l’apprentissage sont indiqu´ees dans les figures 3.16 et 3.17.

L’apprentissage est correcte pour cette base.

RMSE R2 0.062 0.798

Table 3.16: ´Evaluation de l’estimation du plateau lors d’une validation crois´ee `a partir du mod`ele g´en´er´e par le set de 80 cas.

RMSE R2 0.009 1

Table 3.17: ´Evaluation de l’estimation du plateau lors d’une autopr´ediction `a partir du mod`ele g´en´er´e par le set de 80 cas.

Figure 3.14: Autopr´ediction du plateau `a partir du mod`ele g´en´er´e par le set de 80 configu- rations. En abscisse : valeur de plateau normalis´ee mesur´ee, en ordonn´ee : valeur de plateau normalis´ee pr´edite.

Base de 32 configurations

Le mod`ele final est compos´e de cinq neurones en couche cach´ee et poss`ede une valeur de τ de 0.1. Les mesures de l’apprentissage sont indiqu´ees dans les figures3.18et3.19. L’apprentissage est correcte pour cette base.

RMSE R2 0.237 0.661

Table 3.18: ´Evaluation de l’estimation du plateau lors d’une validation crois´ee `a partir du mod`ele g´en´er´e par le set de 32 cas.

RMSE R2 0.15 0.8

Table 3.19: ´Evaluation de l’estimation du plateau lors d’une autopr´ediction `a partir du mod`ele g´en´er´e par le set de 32 cas.

Figure 3.15: Autopr´ediction du plateau `a partir du mod`ele g´en´er´e par le set de 32 configu- rations.En abscisse : valeur de plateau normalis´ee mesur´ee, en ordonn´ee : valeur de plateau normalis´ee pr´edite.

Base de 12 configurations

Cinq neurones en couche cach´ee sont affect´es au mod`ele final. Le taux d’apprentissage,τ , a ´

et´e fix´e τ a 1 ∗ 104. Les mesures de l’apprentissage sont indiqu´ees dans les figures 3.18et3.19. L’apprentissage est correcte pour cette base.

RMSE R2 0.135 1

Table 3.20: ´Evaluation de l’estimation du plateau lors d’une validation crois´ee `a partir du mod`ele g´en´er´e par le set de 12 cas.

RMSE R2 0.001 1

Table 3.21: ´Evaluation de l’estimation du plateau lors d’une autopr´ediction `a partir du mod`ele g´en´er´e par le set de 12 cas.

Figure 3.16: Autopr´ediction du plateau `a partir du mod`ele g´en´er´e par le set de 12 configu- rations.En abscisse : valeur de plateau normalis´ee mesur´ee, en ordonn´ee : valeur de plateau normalis´ee pr´edite.

Validation

Base de 80 configurations

RMSE R2 0.602 0.724

Table 3.22: ´Evaluation de l’estimation du plateau lors de la phase de validation `a partir du mod`ele g´en´er´e par le set de 80 cas.

Figure 3.17: Validation du mod`ele g´en´er´e par la base de 80 configurations pour la pr´ediction du plateau. En abscisse : valeur de plateau normalis´ee mesur´ee, en ordonn´ee : valeur de plateau normalis´ee pr´edite.

Base de 32 configurations

RMSE R2 0.358 0.92

Table 3.23: ´Evaluation de l’estimation du plateau lors de la phase de validation `a partir du mod`ele g´en´er´e par le set de 32 cas.

Figure 3.18: Validation du mod`ele g´en´er´e par la base de 32 configurations pour la pr´ediction du plateau. En abscisse : valeur de plateau normalis´ee mesur´ee, en ordonn´ee : valeur de plateau normalis´ee pr´edite.

Base de 12 configurations

RMSE R2 0.353 0.86

Table 3.24: ´Evaluation de l’estimation du plateau lors de la phase de validation `a partir du mod`ele g´en´er´e par le set de 12 cas.

Figure 3.19: Validation du mod`ele g´en´er´e par la base de 12 configurations pour la pr´ediction du plateau. En abscisse : valeur de plateau normalis´ee mesur´ee, en ordonn´ee : valeur de plateau normalis´ee pr´edite.

Les pr´edictions du plateau restent correcte selon les valeurs de RMSE et R2. N´eanmoins comme pour la base de 65536 configurations, les valeurs RMSE et R2 sont moins int´eressantes que celle des pr´edictions de la pente. La dispersion des points sur les scatterplots est aussi plus importante que ceux ´etablis pour pr´edire pr´edire la pente `a t=0. Le mod`ele demeure plus difficile `a identifier pour le plateau.

Dans l’ensemble, ces r´eseaux de neurones utilisant les bases minimalistes, faciles `a construire, sont assez robustes pour la pr´ediction du mod`ele d’apr`es les crit`eres de mesures. Mˆeme avec la base de 12 configurations, bien que qu’ayant peu de donn´ees, nous obtenons un mod`ele pr´edictif correcte selon le RMSE et le R2. L’utilisation des concentrations des 3 enzymes limitantes et des substrats de d´epart comme entr´ees du syst`eme semble correcte pour bˆatir une base d’apprentissage.

Cependant, il faut nuancer les r´esultats obtenus. Lors de l’identification des mod`ele `a partir de la base d’apprentissage, le r´eseau de neurones a rencontr´e des configurations de syst`eme donnant des valeurs d’hydrog`ene dont le maximum mesur´e et le minimum mesur´e sont 1 et -1 apr`es une normalisation. Le maximum mesur´e et le minimum mesur´e d’hydrog`ene produit, rencontr´es dans la base de validation sont diff´erents et sont respectivement proche de 2 et de -1,5 apr`es normalisation. Ainsi, les mod`eles doivent pr´edire des sorties de configurations qui sont en dehors de la zone couverte par la base d’apprentissage. Alors, la pr´ecision des pr´edictions en dehors des zones couvertes par la base d’apprentissage d´epend de la capacit´e de g´en´eralisation du mod`ele.

En observant les figures 3.11,3.12,3.13, nous avons constat´e que la base de 80 configura- tions est meilleure pour pr´edire en dehors de sa zone d’apprentissage au niveau de la borne sup´erieur, par rapport aux deux autres de taille inf´erieure. Il faudra ˆetre prudent lors de pr´edictions s’´eloignant des bornes de la zone d’apprentissage. N´eanmoins dans leur zone d’apprentissage les mod`eles sont relativement pr´ecis.

Reconstruction et simulation de voies

4.1

Contexte et objectif

Nous avons pu identifier diff´erents mod`eles du syst`eme `a 13 enzymes deYe et al.(2009) : ˆ un mod`ele de connaissance bas´e sur diff´erentes ´equations diff´erentielles

ˆ et un mod`ele syst´emique utilisant des r´eseaux de neurones

A partir du mod`ele analytique, des optimisations ont ´et´e effectu´ees afin d’am´eliorer le syst`eme en terme de production finale et de vitesse de production d’hydrog`ene.

Entre temps, de nouveaux SAB ont ´et´e reconstruits exp´erimentalement pour produire de l’hydrog`ene. Un syst`eme, publi´e en 2013 et compos´e de 13 enzymes, utilise du xylose comme substrat de d´epart (Mart´ın Del Campo et al. (2013)).

Un autre est constitu´e de 15 enzymes et parvient `a transformer du saccharose en hydrog`ene

(Myung et al.(2014)).

Ces nouveaux syst`emes utilisent des enzymes diff´erentes du syst`eme d´ecrit par Ye et al.. Ils poss`edent de meilleures vitesses de production d’hydrog`ene par rapport au syst`eme d´ecrit

par Ye et al., environ 5 fois plus pour le syst`eme d´ecrit par Mart´ın Del Campo et al. et

environ 20 fois plus pour le syst`eme d´ecrit par Myung et al.. Dans un avenir proche, des syst`emes plus performants en terme de production d’hydrog`ene seront certainement d´ecrits. Ces syst`emes seront associ´es `a une composition in´edite en enzymes, ou `a l’utilisation d’une nouvelle mati`ere premi`ere, afin d’obtenir cette meilleure performance de production. Un travail de mod´elisation, `a l’instar de celui r´ealis´e sur le syst`eme de Ye et al.(2009), pourrait aider `a comprendre, `a manipuler et `a am´eliorer le fonctionnement de ces syst`emes. Nous avons d´esir´e mettre en place des outils pour aider `a la reconstruction automatique de potentielles voies synth´etiques et `a leur mod´elisation.

Figure 4.1: Diverses reconstruction de syst`emes artificiels de biotransformation dans la production d’hydrog`ene.

Dans un premier temps, l’objectif de cette ´etude est la conception d’outils permettant `a un utilisateur de construire de mani`ere automatique des voies de synth`ese possibles entre un produit donn´e et un substrat de d´epart. En effet, la reconstruction de voies synth´etiques s’ef- fectue de fa¸con manuelle dans la plupart des travaux de biologie synth´etique. Les r´eactions contenues dans diverses bases biochimiques sont analys´ees par le chercheur afin de rete- nir celles jug´ees utiles. Les r´eactions sont s´electionn´ees et assembl´ees si elles permettent de former une voie m´etabolique donnant le produit d’int´erˆet. Le chercheur v´erifie dans le mˆeme temps que l’assemblage poss`ede tous les cosubstrats/cofacteurs n´ecessaires, et respecte l’´equilibre r´eactionnel et les stœchiom´etries. Ce criblage de r´eactions existantes requiert un temps consid´erable. Ainsi la conception et l’utilisation d’un outil in silico, pour effectuer une recherche et un assemblage automatique des r´eactions utiles, facilite grandement la recons- truction de voies synth´etiques.

Dans un deuxi`eme temps, apr`es avoir reconstruit un syst`eme synth´etique, l’outil int´egrera diff´erentes informations cin´etiques li´ees `a ce syst`eme. Le but est de pouvoir obtenir un mod`ele du syst`eme qui peut pr´edire le comportement cin´etique du syst`eme. L’ensemble des outils forme un workflow d´edi´e `a la r´ealisation de ces diff´erentes tˆaches.

Des travaux sur la reconstruction automatique de voie synth´etique ont d´ej`a ´et´e effectu´es, comme les travaux r´ealis´es par Carbonell et al. (2011) et Cho et al. (2010). Les approches employ´ees par ces travaux servent `a reconstruire des voies synth´etiques dans un organisme chˆassis, comme Escherichia coli dans le travail deCarbonell et al.(2011). Ces approches pri- vil´egient les voies les plus adapt´es pour ces chˆassis, en v´erifiant par exemple la toxicit´e d’une voie pour l’organisme, ou en favorisant par exemple les voies avec le plus de r´eactions d´ej`a pr´esentes dans le chassis. Lors de notre ´etude, nous avons voulu mettre en place un workflow pour la reconstruction automatique de SAB similaires aux syst`emes deZhang et al.(2007) et

Ye et al.(2009). `A partir cette reconstruction, il est alors possible d’utiliser la m´ethodologie

employ´ee dans le chapitre 2 pour identifier un mod`ele analytique.

L’autre point particulier des travaux de Carbonell et al. (2011) et de Cho et al. (2010) sur la reconstruction automatique, est la conception de m´ethode pour pr´edire des transforma- tions biochimiques non r´ef´erenc´ees dans les bases de donn´ees biochimiques. Ces transforma- tions non r´ef´erenc´ees font l’objet de diff´erentes proc´edures pour d´eterminer les plus viables et les meilleures `a utiliser en temps r´eel. Dans le workflow nous utilisons uniquement des r´eactions r´ef´erenc´ees dans des bases de donn´ees et lors d’exp´erience. Nous d´esirons donner une ´ebauche de mod´elisation analytique sur les syst`emes. Nous avons donc recueilli des infor- mations cin´etiques sur les r´eactions d´ej`a ´etudi´ees.L’objectif est aussi que l’utilisateur puisse reconstruire de mani`ere exp´erimentale le plus vite possible les voies synth´etiques. Ainsi en utilisant des r´eactions d´ej`a r´ef´erenc´ees, l’utilisateur est assur´e d’avoir des voies synth´etiques

avec des r´eactions valid´ees exp´erimentalement. Ce chapitre relate la m´ethodologie et la dis- cussion li´ee `a la conception de ce workflow.

Documents relatifs