• Aucun résultat trouvé

CHAPITRE 1 INTRODUCTION

1.3 MÉTHODES DISPONIBLES POUR LA RECONSTRUCTION MÉTABOLIQUE À

1.3.2 Outils pour l'analyse des réseaux

Les principales fonctionnalités des boîtes à outils dédiées à la reconstruction métabolique mentionnées ci-dessus consistent à permettre la création “d'objets” (terme spécifique à la programmation orientée objet) fondamentaux des modèles (principalement sous-forme “d’objets” métabolites, réactions ou encore gènes) et à les stocker dans un “objet” modèle qui peut être sauvegardé ou importé dans le(s) format(s) souhaité(s). Ces boîtes à outils

26

comprennent également des fonctionnalités de base de simulation de modèles telles que la définition de l'objectif et un code enveloppe (“wrapper”) vers l'interface du solveur nécessaire pour optimiser le modèle. Ces fonctionnalités de base pour la simulation sont utiles pour convertir le modèle en un format mathématique qui peut ensuite être utilisé pour des processus de simulation plus avancés et l'évaluation des capacités métaboliques de l'organisme. Je couvre ici certains algorithmes qui ont été développés pour augmenter la qualité des modèles avant qu'ils ne soient utilisés pour la simulation (Figure 1.5).

1.3.2.1 Remplissage des trous dans le réseau

Afin de révéler les capacités biologiques d’un organisme, le réseau doit être le plus fonctionnel possible, c'est-à-dire que le flux soit en mesure de passer par autant de réactions que possible. Comme il a été montré, la formulation mathématique du FBA repose sur l'hypothèse d'équilibre qui ne permet pas l'accumulation de métabolites. Cela signifie que pour une voie métabolique linéaire donnée, une seule réaction manquante bloquerait le flux à travers toutes les réactions en amont et en aval. La voie entière serait alors considérée comme non fonctionnelle, une hypothèse dont la signification biologique reste discutable et qui devrait donc être traitée avec précaution par les usagers du modèle.

Plusieurs algorithmes ont été développés dans le but d'identifier, de résoudre les lacunes des réseaux biologiques et de proposer des gènes qui pourraient catalyser la ou les réactions suggérées (Orth and Palsson, 2010; Pan and Reed, 2018). Comme mentionné, le cadre général de ces algorithmes identifie d'abord les métabolites “cul-de-sac”, c'est-à-dire les métabolites qui ne peuvent être produits ou consommés dans le réseau métabolique. La résolution d'une lacune dans le réseau peut être réalisée en ajoutant une ou plusieurs réactions. Pour trouver des réactions candidates, ces algorithmes interrogent généralement des bases de données de réactions plus importantes telles que celles contenues dans KEGG (Kanehisa et al., 2017) ou MetaCyc (Caspi et al., 2008). La valeur d'ajouter spécifiquement une ou plusieurs réactions ne

27

peut être mesurée qu’en étudiant le lien entre le mécanisme proposé et le contexte dans lequel il s’inscrit dans l'espèce étudiée. Par conséquent, la troisième étape des algorithmes de remplissage des lacunes vise à identifier les meilleurs gènes possibles qui peuvent s'associer à ces réactions.

Le premier algorithme du genre à avoir été développé se nommait GapFilling (Satish Kumar et al., 2007) et n'incluait pas cette troisième étape. Cependant, des versions ultérieures ont intégré différentes façons d'inclure les données expérimentales avec les réactions suggérées. Globalfit (Hartleb et al., 2016) et ProbannoPy (King et al., 2018) sont de bons exemples de méthodes de remplissage des lacunes visant à améliorer un modèle métabolique basé sur des données expérimentales. Pour une couverture plus approfondie des méthodes disponibles, les lecteurs intéressés peuvent consulter cette étude de Pan et Reed (Pan and Reed, 2018). Globalfit a été utilisé pour améliorer la qualité de deux GEMs, ceux de Escherichia coli (iJO1366) et de Mycoplasma genitalium (iPS189). Il utilise un problème d'optimisation à deux niveaux afin de minimiser l'écart entre l'essentialité prédite des gènes et les données expérimentales, en permettant l'incorporation de nouvelles réactions métaboliques au sein du modèle ou de nouvelles réactions d'échange (composants du milieu), ainsi que des métabolites de la BOF. Probanno (Web et Py) attribue une probabilité basée sur le nombre attendu de découvertes de qualité similaire (“e-value”) de la recherche BLASTp pour classer les réactions utilisées afin de combler les lacunes du réseau.

De telles approches sont pertinentes dans le contexte actuel de recherche et de conception de cellules minimales. Même si une cellule minimale a déjà été générée expérimentalement, le nombre de gènes qu'elle contient et pour lesquels une fonction précise n'a pu être attribuée représente une partie importante du génome complet (149/473). Un châssis cellulaire idéal ne devrait pas avoir de propriétés inconnues (Danchin, 2012), car il doit servir de modèle pour les futures conceptions de génomes. Par conséquent, la reconstruction des réseaux métaboliques et l'utilisation d'algorithmes de remplissage des lacunes (“GapFilling”) qui fournissent une

28

annotation fonctionnelle est un moyen systématique de combler les lacunes en matière de connaissances.

1.3.2.2 Fonctions objectives

Les objectifs métaboliques des cellules peuvent être résumés dans une réaction de la matrice stoechiométrique et fixés comme objectif : la fonction objective de biomasse (BOF). L'identification des composants clés nécessaires à la croissance d'une cellule est néanmoins une tâche ardue. Ce processus peut être accompli d'une manière biaisée, qui tente d'incorporer autant que possible les connaissances actuelles sur la composition de l'organisme, ou d'une manière non biaisée dans laquelle les données expérimentales sont utilisées pour déduire les objectifs cellulaires. Rocha et ses collègues ont fait un effort louable pour résumer les connaissances actuelles sur la composition de la biomasse procaryote (Xavier et al., 2017). Dans cette étude approfondie, la composition de la biomasse de 71 modèles préparés manuellement et disponibles dans la base de données BiGG (King et al., 2016) a été comparée avec la distance phylogénétique des espèces qu'ils représentent. L'échange de la BOF d'un modèle à l'autre a montré que la prédiction de l'essentialité de la réaction est sensible à la composition de la BOF. En étudiant davantage l'impact de la composition de la biomasse sur les prédictions d'essentialité des gènes de plusieurs espèces, les auteurs ont trouvé un ensemble de cofacteurs universellement essentiels chez les procaryotes. Ces connaissances fondamentales soulignent l'importance de la précision des BOFs pour la prédiction de l'essentialité des gènes par les GEMs et constituent une ressource importante pour les travaux de modélisations subséquents.

En utilisant des composants cellulaires essentiels préalablement établis, les usagers du modèle peuvent en partie définir la BOF de leur organisme d'intérêt. Néanmoins, la partie restante de la BOF est spécifique à l'espèce et peut être complétée en utilisant une approche non biaisée. Comme dans le cas du remplissage des lacunes, la recherche d’objectif cellulaire peut être

29

effectuée de manière algorithmique. Historiquement, la plupart des algorithmes développés à cette fin ont utilisé les données d'analyse du flux métabolique (AFM) ainsi que diverses méthodes d'optimisation (Burgard and Maranas, 2003; Gianchandani et al., 2008; Zhao et al., 2016). Bien que l'AFM soit un type de données particulièrement bien adapté aux modèles de flux, le nombre de flux générés par les méthodes à la fine pointe demeure grandement inférieur au nombre de réactions incluses dans les GEMs. Des algorithmes récemment développés tentent donc d'utiliser d'autres types de données pour trouver des objectifs cellulaires. BOFdat (Lachance et al., 2019b) utilise un algorithme génétique pour trouver les compositions de biomasse qui offrent la meilleure correspondance entre l'essentialité génétique prédite et expérimentale. Les métabolites identifiés par l'algorithme sont ensuite regroupés en fonction de leur distance relative dans le réseau métabolique pour former des groupes d'objectifs métaboliques qui peuvent être interprétés par les usagers du modèle. Cette méthode sera discutée plus en détail dans le chapitre 2. Une autre approche appelée BIG-BOSS intègre plusieurs types de données omiques pour formuler l'objectif cellulaire en utilisant un modèle contraint par le protéome, avec un problème d'optimisation à deux niveaux, similaire à celui de BOSS (Gianchandani et al., 2008). L’utilisation de cette méthode a montré qu’en combinant l'AFM pour un sous-ensemble de flux avec la protéomique, la composition de la biomasse a été récupérée de manière plus précise qu'en utilisant un seul type de données.

Documents relatifs