• Aucun résultat trouvé

D´efinition des voies m´etaboliques possibles dans un organisme 41

1.2 Les bact´eries endocytobiotes

2.1.3 D´efinition des voies m´etaboliques possibles dans un organisme 41

Morowitz (1999) consid`ere l’ensemble des voies m´etaboliques comme “une vaste g´en´eralisation empirique bas´ee sur un si`ecle et demi de labeur effectu´e par une arm´ee de biochimistes qui ont travaill´e `a la caract´erisation de toutes les r´eac-tions biochimiques ayant lieu dans les cellules vivantes”. En effet, l’inf´erence des voies m´etaboliques repose sur la quasi-universalit´e de celles-ci. Ainsi, au cours du temps, il a ´et´e ´etabli exp´erimentalement chez certains organismes mod`eles des voies m´etaboliques qui servent de r´ef´erence ensuite pour l’´etablissement des voies m´etaboliques d’autres organismes. Certaines voies, comme la glycolyse ou le cycle de Krebs, se retrouvent dans la majorit´e des organismes, mˆeme phylo-g´en´etiquement ´eloign´es. D’autres, comme les voies reli´ees `a la photosynth`ese, ne se trouvent que dans des groupes plus restreints d’organismes. En fonction des organismes ou des environnements, certaines voies peuvent ´egalement connaˆıtre des variantes.

Dans KEGG, il est possible de rep´erer sur les cartes m´etaboliques de r´ef´erence des g`enes ou des r´eactions `a partir de leurs identifiants (voir Section 2.3.1).

Pathologic tente en plus de pr´edire quelles sont les voies susceptibles de se d´erouler dans l’organisme consid´er´e. La pr´ediction est bas´ee essentiellement sur la proportion de r´eactions inf´er´ees chez l’organisme et se d´eroulant dans cette voie, sur leur position dans la chaˆıne de r´eactions selon que la voie est anabolique ou catabolique, et enfin sur la pr´esence de r´eactions inf´er´ees que l’on trouve seulement dans cette voie (Paley & Karp, 2002).

Cependant, ni KAAS ni Pathologic ne sont capables d’inf´erer de nouvelles voies m´etaboliques, c’est-`a-dire ne correspondant `a aucune autre. Pour ceci,

l’ou-til “Pathway Hunter Tool” (PHT) peut ˆetre ul’ou-tilis´e (Rahman et al., 2005). `A partir

d’un ensemble de num´eros EC, d’un m´etabolite source et d’un m´etabolite desti-nation s´electionn´es par l’utilisateur, le PHT calcule toutes les voies m´etaboliques les plus courtes. Ceci peut aider `a proposer des voies alternatives dont la perti-nence peut ensuite ˆetre test´ee exp´erimentalement.

La reconstruction m´etabolique `a partir d’un g´enome permet tr`es rapidement d’obtenir un aper¸cu des capacit´es m´etaboliques d’un organisme, et, par exemple, d’´etudier l’impact de certains ´ev`enements g´enomiques (comme les duplications, les transferts horizontaux, les pertes de g`enes) sur un r´eseau m´etabolique. Ce-pendant, cette ´ebauche de reconstruction contient souvent des erreurs ou des impr´ecisions qui doivent ˆetre ensuite nettoy´ees et compl´et´ees manuellement ou `a partir de m´ethodes plus pr´ecises d´ecrites ci-dessous.

2.1.4 Raffinements des m´ethodes de reconstruction m´

eta-bolique

a. Les g`enes et r´eactions manquants

Apr`es la reconstruction d’un r´eseau m´etabolique, certaines r´eactions appa-raissent comme “manquantes”. Elles correspondent par exemple `a des trous dans les voies m´etaboliques qui ont ´et´e d´etect´ees. Ces r´eactions manquantes peuvent s’expliquer par (Cordwell, 1999; Osterman & Overbeek, 2003) :

– une similarit´e de s´equence faible du g`ene correspondant avec ceux connus pour coder l’enzyme manquante dans d’autres organismes,

– le fait que les produits de la r´eaction peuvent ˆetre obtenus `a partir de voies alternatives ou sont apport´es par l’environnement,

– le fait qu’une autre enzyme pr´esente dans l’organisme est capable de cata-lyser cette r´eaction.

De multiples approches existent pour compl´eter ces trous en essayant d’identi-fier les g`enes capables de coder ces fonctions. Ici encore, elles sont essentiellement bas´ees sur des heuristiques. Divers indices g´enomiques peuvent ˆetre combin´es pour proposer des g`enes candidats `a une r´eaction manquante. L’objectif est ici inverse de l’annotation classique d’un g`ene comme nous l’avons vu pr´ec´edemment. Au lieu d’assigner une fonction `a un g`ene inconnu, nous essayons d’assigner une s´equence `a une fonction. Les m´ethodes sont donc sensiblement diff´erentes mais les hypo-th`eses biologiques utilis´ees sont les mˆemes. Ainsi, Green & Karp (2004); Gerlt (2003); Kharchenko et al. (2006) utilisent entre autres l’hypoth`ese selon laquelle les g`enes codant pour des enzymes intervenant dans la mˆeme voie m´etabolique sont co-localis´es sur le g´enome. Kharchenko et al. (2006) proposent d’utiliser en plus les informations de co-expression et de fusion des g`enes. L’association de diff´erentes m´ethodes afin d’inf´erer les g`enes manquants peut ˆetre r´ealis´ee grˆace `a une approche supervis´ee (comme les machines `a vecteurs de support (SVM en anglais)) qui n´ecessite une connaissance partielle du r´eseau et un ensemble d’apprentissage de qualit´e (Green & Karp, 2004; Yamanishi et al., 2007).

b. La r´eversibilit´e des r´eactions

La direction d’une r´eaction dans certaines conditions physiologiques est d´eter-min´ee par ses propri´et´es thermodynamiques, les propri´et´es cin´etiques de l’enzyme et la concentration des substrats et des produits. Dans une reconstruction m´eta-bolique automatique, la direction des r´eactions est souvent absente et doit ˆetre ajout´ee manuellement. La plupart des mod´elisations prennent en compte les di-rections des r´eactions telles qu’elles apparaissent dans les voies m´etaboliques : si une r´eaction apparaˆıt toujours dans le mˆeme sens quelle que soit la voie m´eta-bolique dans laquelle elle intervient, alors on lui assigne cette direction et on la d´efinit comme irr´eversible.

2.1 Reconstruction des r´eseaux m´etaboliques `a partir des informations

g´enomiques

Cependant, cette mani`ere d’assigner la direction des r´eactions n’est pas com-pl`etement satisfaisante. En effet, chez certains organismes, on peut facilement imaginer qu’une r´eaction, normalement irr´eversible d’apr`es les voies m´etaboliques, puisse se produire dans les deux sens ou mˆeme dans le sens contraire, `a cause de conditions physiologiques tr`es diff´erentes chez cet organisme et chez ceux pour lesquels la voie m´etabolique a ´et´e d´efinie.

D’autres m´ethodes tentent de pr´edire les directions des r´eactions `a partir d’informations contenues dans le r´eseau m´etabolique lui-mˆeme. Ainsi, Yang et al. (2005) montrent comment la direction d’une r´eaction peut ˆetre d´etermin´ee en analysant la matrice stœchiom´etrique d’un r´eseau m´etabolique. Les directions possibles des r´eactions sont calcul´ees grˆace `a celles impos´ees aux r´eactions se situant aux limites du syst`eme (comme les r´eactions de transport) et ´eventuelle-ment de quelques autres r´eactions dont on connaˆıt d´ej`a la direction. Cependant, Yang et al. ont test´e leur m´ethode sur un r´eseau contenant seulement 44 r´eac-tions. L’algorithme propos´e par K¨ummel et al. (2006) exploite les mesures des ´energies de formation (´energies de Gibbs) des m´etabolites qui, si elles ne sont pas connues exactement, peuvent ˆetre estim´ees `a partir de la structure des m´e-tabolites, et des concentrations des m´etabolites si elles sont disponibles. Ensuite, en s’appuyant sur un ensemble d’heuristiques bas´ees sur des r`egles biochimiques, K¨ummel et al. identifient les parties du r´eseau qui sont thermodynamiquement faisables. L’algorithme a ´et´e test´e sur un r´eseau m´etabolique de Escherichia coli K12 bas´e sur le g´enome entier qui compte 920 r´eactions dont 130 ont ´et´e as-sign´ees comme irr´eversibles. Grˆace `a une m´ethode similaire, Feist et al. (2007) propose une reconstruction m´etabolique pour Escherichia coli K12 qui inclut les sens des r´eactions.

c. Utilisation des m´etabolites

Certaines m´ethodes ont ´et´e d´evelopp´ees pour proposer une liste de r´eactions possibles `a partir d’un ensemble de m´etabolites. Arita (2000) s’appuie sur 16 types de liens hypoth´etiques entre m´etabolites pour inf´erer les r´eactions biochimiques possibles `a partir d’un ensemble de compos´es, mˆeme si elles ne correspondent `a aucun num´ero EC. De la mˆeme mani`ere, Kotera et al. (2004) proposent une m´e-thode capable d’assigner des num´eros EC partiels (auxquels il manque le dernier chiffre) `a partir d’un ensemble de substrats et de produits.

d. Utilisation d’´evidences exp´erimentales

Des techniques `a grand d´ebit ont r´ecemment ´et´e d´evelopp´ees pour d´eterminer le m´etabolome d’un organisme (voir Section 1.1). Les m´ethodes d´ecrites ci-dessus peuvent ainsi s’appliquer au catalogue de m´etabolites produit par ces techniques. Breitling et al. (2006) utilisent les r´esultats de spectrom`etres de masse `a ultra-haute r´esolution et le fait qu’un r´epertoire limit´e de transformations intervient

dans les r´eactions chimiques. Leur m´ethode est capable d’inf´erer les transfor-mations chimiques possibles en calculant les diff´erences de masses entre tous les compos´es et en les comparant `a une table de r´ef´erence donnant la correspondance entre les diff´erences de masses et les transformations chimiques.

D’autres techniques `a haut-d´ebit peuvent compl´eter ou affiner les reconstruc-tions automatiques de r´eseaux m´etaboliques. La spectrom´etrie de masse pour l’identification `a grande ´echelle des prot´eines dans un organisme permet de confir-mer la pr´esence d’enzymes pr´edites automatiquement (VerBerkmoes et al., 2004; Wagner et al., 2002). De mˆeme, l’isolement et la purification d’une enzyme et la d´efinition de ses activit´es catalytiques pr´ecisent sa sp´ecificit´e et son mode d’ac-tion. Les ´etudes de ph´enotype et d’expression de g`enes `a grande ´echelle peuvent ˆetre ´egalement utilis´ees conjointement avec les r´esultats de simulations de fonc-tionnement de r´eseau dans le but d’affiner un r´eseau m´etabolique (Covert et al.,

2004). `A une plus petite ´echelle, les informations physiologiques peuvent

four-nir d’importantes pistes suppl´ementaires pour compl´eter l’ensemble des r´eactions d’un r´eseau m´etabolique. Par exemple, dans le r´eseau m´etabolique de Strepto-myces coelicor reconstruit par Borodina et al. (2005), 89 % des r´eactions ont un g`ene annot´e associ´e tandis que le reste des r´eactions a ´et´e inclus en se basant uniquement sur les connaissances physiologiques de la bact´erie.

Enfin, la mod´elisation du r´eseau elle-mˆeme permet d’affiner la qualit´e de celui-ci. Lors de la v´erification d’un r´eseau m´etabolique, les pr´edictions faites par le mod`ele sont compar´ees aux observations exp´erimentales. En cas de contradiction, le mod`ele est corrig´e et l’op´eration r´ep´et´ee jusqu’`a obtenir un r´eseau coh´erent (Borodina et al., 2005; Duarte et al., 2007). De mˆeme, les r´esultats obtenus par l’analyse du mod`ele permettent de v´erifier ou de tester de nouvelles hypoth`eses biologiques et ainsi d’am´eliorer les connaissances du r´eseau m´etabolique de l’or-ganisme consid´er´e.