Base minimaliste - Modélisation de système synthétique pour la production de biohydrogène

Nous souhaitons réduire au maximum la taille de la base d’apprentissage en gardant un modèle de réseau de neurones émettant des prédictions correctes. 3 bases minimalistes ont ´

et´e constitu´ees :

Une base de 80 configurations où nous avons fait varier une seule variable d’entrée à la fois selon 5 valeurs.

Une base de 32 configurations où nous avons fait varier une seule variable d’entrée à la fois selon 2 valeurs.

Une base de 12 configuration où seulement les variables E3, E4, E13, NADP+, cellobiose et Pi ont été modifiées. Par une étude du système nous avons déterminé que ces variables sont parmi les influentes du système et interviennent dans les réactions limitantes du système. Ainsi via l’étude de cette base de 12, il est intéressant de savoir si une modélisation systémique basée uniquement sur les réactions limitantes, qui ont le plus d’influence sur le système, donne des prédictions de précision acceptable. les intervalles de variation sont données ci-dessous :

entre 5 et 20 U/ml pour les 13 enzymes entre 0,5 et 2 mM pour NADP+

35 et 140 mM pour cellobiose et le phosphate

10 U/ml pour une enzymes 1 mM pour le NADP+

70 mM pour le cellobiose et le phosphate

La méthodologie d’apprentissage reste la même que celle utilisée pour la base de 65536 configurations (figure3.2). La même base de validation est utilisée pour valider les nouveaux modèles con¸cus.

3.4.1 Mod´elisation de la pente

Apprentissage

Base de 80 configurations

Le modèle final possède cinq neurones en couche cachée et valeur de τ nulle. Les mesures de l’apprentissage sont indiquées dans les figures 3.7 et 3.8. L’apprentissage est correcte pour cette base.

RMSE R2 0.009 0.863

Table 3.7: Évaluation de l’estimation de la pente lors d’une validation croisée à partir du modèle généré par le set de 80 cas.

RMSE R2 0.001 1

Table 3.8: Évaluation de l’estimation de la pente lors d’une autoprédiction à partir du modèle généré par le set de 80 cas.

Figure 3.8: Autoprédiction de la pente à partir du modèle généré par le set de 80 configurations.En abscisse : valeur de pente normalisée mesurée, en ordonnée : valeur de pente normalisée prédite.

Base de 32 configurations

Le modèle final possède cinq neurones en couche cachée et valeur de τ vaut 1 ∗ 104. Les mesures de l’apprentissage sont indiquées dans les figures 3.9 et 3.10. L’apprentissage est correcte pour cette base.

RMSE R2 0.086 0.791

Table 3.9: Évaluation de l’estimation de la pente lors d’une validation croisée à partir du modèle généré par le set de 32 cas.

RMSE R2 0.003 1

Table 3.10: Évaluation de l’estimation de la pente lors d’une autoprédiction à partir du modèle généré par le set de 32 cas.

Figure 3.9: Autoprédiction de la pente à partir du modèle généré par le set de 32 configurations.En abscisse : valeur de pente normalisée mesurée, en ordonnée : valeur de pente normalisée prédite.

Base de 12 configurations

Le modèle final possède cinq neurones en couche cachée et valeur de τ vaut 1 ∗ 104. Les mesures de l’apprentissage sont indiquées dans les figures 3.11 et 3.12. L’apprentissage est correcte pour cette base.

RMSE R2 0.124 1

Table 3.11: Évaluation de l’estimation de la pente lors d’une validation croisée à partir du modèle généré par le set de 12 cas.

RMSE R2 0.001 1

Table 3.12: Évaluation de l’estimation de la pente lors d’une autoprédiction à partir du modèle généré par le set de 12 cas.

Figure 3.10: Autoprédiction de la pente à partir du modèle généré par le set de 12 configurations.En abscisse : valeur de pente normalisée mesurée, en ordonnée : valeur de pente normalisée prédite.

Validation

Base de 80 configurations

RMSE R2 0.303 0.883

Table 3.13: Évaluation de l’estimation de la pente lors de la phase de validation à partir du modèle généré par le set de 80 cas.

Figure 3.11: Validation du modèle avec la base de 80 configurations pour la prédiction de la pente. En abscisse : valeur de pente normalisée mesurée, en ordonnée : valeur de pente normalisée prédite.

Base de 32 configurations

RMSE R2 0.308 0.882

Table 3.14: Évaluation de l’estimation de la pente lors de la phase de validation à partir du modèle généré par le set de 32 cas.

Figure 3.12: Validation du modèle avec la base de 32 configurations pour la prédiction de la pente. En abscisse : valeur de pente normalisée mesurée, en ordonnée : valeur de pente normalisée prédite.

Base de 12 configurations

RMSE R2 0.265 0.91

Table 3.15: Évaluation de l’estimation de la pente lors de la phase de validation à partir du modèle généré par le set de 32 cas.

Figure 3.13: Validation du modèle avec la base de 12 configurations pour la prédiction de la pente. En abscisse : valeur de pente normalisée mesurée, en ordonnée : valeur de pente normalisée prédite.

Dans l’ensemble, les valeurs des critères calculés pour évaluer la précision du modèles sont correctes pour la prédiction de la pente selon les différentes bases d’apprentissage. Avec la base de 12 configurations, bien que qu’ayant peu de données, nous obtenons un modèle prédictif correcte selon le RMSE et le R2.

3.4.2 Mod´elisation du plateau

Apprentissage

Base de 80 configurations

Le modèle final est composé de cinq neurones en couche cachée et possède une valeur de τ de 1 ∗ 104_{. Les mesures de l’apprentissage sont indiqu´}_{ees dans les figures} _3.16 _et _3.17_.

L’apprentissage est correcte pour cette base.

RMSE R2 0.062 0.798

Table 3.16: Évaluation de l’estimation du plateau lors d’une validation croisée à partir du modèle généré par le set de 80 cas.

RMSE R2 0.009 1

Table 3.17: Évaluation de l’estimation du plateau lors d’une autoprédiction à partir du modèle généré par le set de 80 cas.

Figure 3.14: Autoprédiction du plateau à partir du modèle généré par le set de 80 configurations. En abscisse : valeur de plateau normalisée mesurée, en ordonnée : valeur de plateau normalisée prédite.

Base de 32 configurations

Le modèle final est composé de cinq neurones en couche cachée et possède une valeur de τ de 0.1. Les mesures de l’apprentissage sont indiquées dans les figures3.18et3.19. L’apprentissage est correcte pour cette base.

RMSE R2 0.237 0.661

Table 3.18: Évaluation de l’estimation du plateau lors d’une validation croisée à partir du modèle généré par le set de 32 cas.

RMSE R2 0.15 0.8

Table 3.19: Évaluation de l’estimation du plateau lors d’une autoprédiction à partir du modèle généré par le set de 32 cas.

Figure 3.15: Autoprédiction du plateau à partir du modèle généré par le set de 32 configurations.En abscisse : valeur de plateau normalisée mesurée, en ordonnée : valeur de plateau normalisée prédite.

Base de 12 configurations

Cinq neurones en couche cachée sont affectés au modèle final. Le taux d’apprentissage,τ , a ´

eté fixé τ a 1 ∗ 104. Les mesures de l’apprentissage sont indiquées dans les figures 3.18et3.19. L’apprentissage est correcte pour cette base.

RMSE R2 0.135 1

Table 3.20: Évaluation de l’estimation du plateau lors d’une validation croisée à partir du modèle généré par le set de 12 cas.

RMSE R2 0.001 1

Table 3.21: Évaluation de l’estimation du plateau lors d’une autoprédiction à partir du modèle généré par le set de 12 cas.

Figure 3.16: Autoprédiction du plateau à partir du modèle généré par le set de 12 configurations.En abscisse : valeur de plateau normalisée mesurée, en ordonnée : valeur de plateau normalisée prédite.

Validation

Base de 80 configurations

RMSE R2 0.602 0.724

Table 3.22: Évaluation de l’estimation du plateau lors de la phase de validation à partir du modèle généré par le set de 80 cas.

Figure 3.17: Validation du modèle généré par la base de 80 configurations pour la prédiction du plateau. En abscisse : valeur de plateau normalisée mesurée, en ordonnée : valeur de plateau normalisée prédite.

Base de 32 configurations

RMSE R2 0.358 0.92

Table 3.23: Évaluation de l’estimation du plateau lors de la phase de validation à partir du modèle généré par le set de 32 cas.

Figure 3.18: Validation du modèle généré par la base de 32 configurations pour la prédiction du plateau. En abscisse : valeur de plateau normalisée mesurée, en ordonnée : valeur de plateau normalisée prédite.

Base de 12 configurations

RMSE R2 0.353 0.86

Table 3.24: Évaluation de l’estimation du plateau lors de la phase de validation à partir du modèle généré par le set de 12 cas.

Figure 3.19: Validation du modèle généré par la base de 12 configurations pour la prédiction du plateau. En abscisse : valeur de plateau normalisée mesurée, en ordonnée : valeur de plateau normalisée prédite.

Les prédictions du plateau restent correcte selon les valeurs de RMSE et R2. Néanmoins comme pour la base de 65536 configurations, les valeurs RMSE et R2 sont moins intéressantes que celle des prédictions de la pente. La dispersion des points sur les scatterplots est aussi plus importante que ceux établis pour prédire prédire la pente à t=0. Le modèle demeure plus difficile à identifier pour le plateau.

Dans l’ensemble, ces réseaux de neurones utilisant les bases minimalistes, faciles à construire, sont assez robustes pour la prédiction du modèle d’après les critères de mesures. Même avec la base de 12 configurations, bien que qu’ayant peu de données, nous obtenons un modèle prédictif correcte selon le RMSE et le R2. L’utilisation des concentrations des 3 enzymes limitantes et des substrats de départ comme entrées du système semble correcte pour bâtir une base d’apprentissage.

Cependant, il faut nuancer les résultats obtenus. Lors de l’identification des modèle à partir de la base d’apprentissage, le réseau de neurones a rencontré des configurations de système donnant des valeurs d’hydrogène dont le maximum mesuré et le minimum mesuré sont 1 et -1 après une normalisation. Le maximum mesuré et le minimum mesuré d’hydrogène produit, rencontrés dans la base de validation sont différents et sont respectivement proche de 2 et de -1,5 après normalisation. Ainsi, les modèles doivent prédire des sorties de configurations qui sont en dehors de la zone couverte par la base d’apprentissage. Alors, la précision des prédictions en dehors des zones couvertes par la base d’apprentissage dépend de la capacité de généralisation du modèle.

En observant les figures 3.11,3.12,3.13, nous avons constaté que la base de 80 configurations est meilleure pour prédire en dehors de sa zone d’apprentissage au niveau de la borne supérieur, par rapport aux deux autres de taille inférieure. Il faudra être prudent lors de prédictions s’éloignant des bornes de la zone d’apprentissage. Néanmoins dans leur zone d’apprentissage les modèles sont relativement précis.

Reconstruction et simulation de voies

4.1 Contexte et objectif

Nous avons pu identifier différents modèles du système à 13 enzymes deYe et al.(2009) : un modèle de connaissance basé sur différentes équations différentielles

et un modèle systémique utilisant des réseaux de neurones

A partir du modèle analytique, des optimisations ont été effectuées afin d’améliorer le système en terme de production finale et de vitesse de production d’hydrogène.

Entre temps, de nouveaux SAB ont été reconstruits expérimentalement pour produire de l’hydrogène. Un système, publié en 2013 et composé de 13 enzymes, utilise du xylose comme substrat de départ (Mart´ın Del Campo et al. (2013)).

Un autre est constitué de 15 enzymes et parvient à transformer du saccharose en hydrogène

(Myung et al.(2014)).

Ces nouveaux systèmes utilisent des enzymes différentes du système décrit par Ye et al.. Ils possèdent de meilleures vitesses de production d’hydrogène par rapport au système décrit

par Ye et al., environ 5 fois plus pour le syst`eme d´ecrit par Mart´ın Del Campo et al. et

environ 20 fois plus pour le système décrit par Myung et al.. Dans un avenir proche, des systèmes plus performants en terme de production d’hydrogène seront certainement décrits. Ces systèmes seront associés à une composition inédite en enzymes, ou à l’utilisation d’une nouvelle matière première, afin d’obtenir cette meilleure performance de production. Un travail de modélisation, à l’instar de celui réalisé sur le système de Ye et al.(2009), pourrait aider à comprendre, à manipuler et à améliorer le fonctionnement de ces systèmes. Nous avons désiré mettre en place des outils pour aider à la reconstruction automatique de potentielles voies synthétiques et à leur modélisation.

Figure 4.1: Diverses reconstruction de syst`emes artificiels de biotransformation dans la production d’hydrog`ene.

Dans un premier temps, l’objectif de cette étude est la conception d’outils permettant à un utilisateur de construire de manière automatique des voies de synthèse possibles entre un produit donné et un substrat de départ. En effet, la reconstruction de voies synthétiques s’ef- fectue de fa¸con manuelle dans la plupart des travaux de biologie synthétique. Les réactions contenues dans diverses bases biochimiques sont analysées par le chercheur afin de rete- nir celles jugées utiles. Les réactions sont sélectionnées et assemblées si elles permettent de former une voie métabolique donnant le produit d’intérêt. Le chercheur vérifie dans le même temps que l’assemblage possède tous les cosubstrats/cofacteurs nécessaires, et respecte l’équilibre réactionnel et les stœchiométries. Ce criblage de réactions existantes requiert un temps considérable. Ainsi la conception et l’utilisation d’un outil in silico, pour effectuer une recherche et un assemblage automatique des réactions utiles, facilite grandement la reconstruction de voies synthétiques.

Dans un deuxième temps, après avoir reconstruit un système synthétique, l’outil intégrera différentes informations cinétiques liées à ce système. Le but est de pouvoir obtenir un modèle du système qui peut prédire le comportement cinétique du système. L’ensemble des outils forme un workflow dédié à la réalisation de ces différentes tâches.

Des travaux sur la reconstruction automatique de voie synthétique ont déjà été effectués, comme les travaux réalisés par Carbonell et al. (2011) et Cho et al. (2010). Les approches employées par ces travaux servent à reconstruire des voies synthétiques dans un organisme châssis, comme Escherichia coli dans le travail deCarbonell et al.(2011). Ces approches pri- vilégient les voies les plus adaptés pour ces châssis, en vérifiant par exemple la toxicité d’une voie pour l’organisme, ou en favorisant par exemple les voies avec le plus de réactions déjà présentes dans le chassis. Lors de notre étude, nous avons voulu mettre en place un workflow pour la reconstruction automatique de SAB similaires aux systèmes deZhang et al.(2007) et

Ye et al.(2009). `A partir cette reconstruction, il est alors possible d’utiliser la m´ethodologie

employ´ee dans le chapitre 2 pour identifier un mod`ele analytique.

L’autre point particulier des travaux de Carbonell et al. (2011) et de Cho et al. (2010) sur la reconstruction automatique, est la conception de méthode pour prédire des transforma- tions biochimiques non référencées dans les bases de données biochimiques. Ces transforma- tions non référencées font l’objet de différentes procédures pour déterminer les plus viables et les meilleures à utiliser en temps réel. Dans le workflow nous utilisons uniquement des réactions référencées dans des bases de données et lors d’expérience. Nous désirons donner une ébauche de modélisation analytique sur les systèmes. Nous avons donc recueilli des informations cinétiques sur les réactions déjà étudiées.L’objectif est aussi que l’utilisateur puisse reconstruire de manière expérimentale le plus vite possible les voies synthétiques. Ainsi en utilisant des réactions déjà référencées, l’utilisateur est assuré d’avoir des voies synthétiques

avec des réactions validées expérimentalement. Ce chapitre relate la méthodologie et la dis- cussion liée à la conception de ce workflow.

Dans le document Modélisation de système synthétique pour la production de biohydrogène (Page 101-119)