• Aucun résultat trouvé

Les bases de donn´ees m´etaboliques et leurs outils associ´es . 54

2.3 Exploration et ´echange des donn´ees m´etaboliques

2.3.1 Les bases de donn´ees m´etaboliques et leurs outils associ´es . 54

Les deux bases m´etaboliques les plus utilis´ees dans le monde de la bioinforma-tique sont certainement BioCyc (Caspi et al., 2008) et KEGG (Kanehisa et al., 2008) dont on a d´ej`a parl´e dans le cadre de la reconstruction d’un r´eseau m´e-tabolique `a partir d’un g´enome. Le grand int´erˆet de ces deux bases est qu’elles rendent disponibles des informations `a la fois g´enomiques, biochimiques et m´eta-boliques de la plupart des organismes s´equenc´es `a ce jour. De plus, elles disposent de nombreux outils associ´es. Nous allons passer en revue leur points communs et leurs sp´ecificit´es.

KEGG et BioCyc proposent une exploration visuelle des g´enomes, et des fiches informatives sur les m´etabolites, g`enes, enzymes, r´eactions et voies m´etaboliques. Comme nous l’avons vu pr´ec´edemment, les g`enes dans KEGG sont class´es

selon leur num´ero KO, class´es eux-mˆemes dans les voies m´etaboliques o`u ils

interviennent (Figure 2.8). Dans BioCyc, mis `a part dans la partie r´eserv´ee `a Escherichia coli K12, EcoCyc, les g`enes ne sont class´es d’aucune mani`ere.

La repr´esentation des voies m´etaboliques diff`ere consid´erablement selon la base. Dans KEGG, les voies m´etaboliques sont organis´ees en cartes m´etaboliques

o`u toutes les variantes de la voie sont dessin´ees . `A partir d’une liste d’identifiants

de g`enes ou de num´eros EC, il est possible de surligner les r´eactions correspon-dantes dans chaque voie m´etabolique de r´ef´erence (Figure 2.9). Ces voies sont donc des voies th´eoriques que l’on ne trouve compl`ete chez aucun organisme.

Au contraire des cartes m´etaboliques de KEGG, chaque variante de voie m´e-tabolique dans BioCyc correspond `a une repr´esentation diff´erente (Figure 2.10).

Les deux repr´esentations sont compl´ementaires. La repr´esentation de KEGG permet de superposer facilement les parties de voies m´etaboliques possibles chez un organisme par rapport `a toutes les variantes possibles. D’un autre cˆot´e, la voie m´etabolique telle qu’elle est repr´esent´ee dans BioCyc est plus lisible et toutes les informations, du g`ene `a l’enzyme, y sont repr´esent´ees.

Depuis peu, chaque r´eaction dans KEGG est d´ecompos´ee en transformations ´el´ementaires qui correspondent aux transferts d’atomes entre les m´etabolites par-ticipant `a la r´eaction (Kotera et al., 2004; Oh et al., 2007). Cette d´ecomposition peut ˆetre tr`es utile pour traiter les donn´ees avant la mod´elisation pour ´eviter, par exemple, les chemins non r´ealistes entre compos´es dans un graphe m´etabolique.

La comparaison des donn´ees est facilit´ee dans BioCyc. Lorsque l’utilisateur compulse la fiche d’une r´eaction ou d’une voie m´etabolique particuli`ere, il est possible de tester leur pr´esence chez les autres organismes pr´esents dans la base.

2.3 Exploration et ´echange des donn´ees m´etaboliques

Figure 2.8. Extrait de la classification KO de KEGG.

Lors de la comparaison d’une voie m´etabolique, l’information sur les g`enes et les r´eactions manquantes apparaˆıt (Figure 2.11).

Une analyse comparative des compos´es, des prot´eines, des r´eactions et des voies est possible ´egalement dans BioCyc, fournissant des statistiques d´etaill´ees sur ces objets `a travers une collection d’organismes. Quoique tr`es compl`ete, cette analyse a pourtant, pour nous, un d´efaut majeur. En effet, si une voie m´etabo-lique a ´et´e d´efinie comme pr´esente chez l’organisme consid´er´e, toutes les r´eactions y participant sont consid´er´ees ´egalement pr´esentes, mˆeme si elles correspondent en fait `a des r´eactions manquantes, pour lesquelles aucun g`ene ou enzyme n’a ´et´e assign´e (voir Section 2.1.4).

La diff´erence majeure entre les deux bases de donn´ees r´eside dans leur

philo-sophie. KEGG propose un unique site o`u les reconstructions sont centralis´ees et

effectu´ees par la mˆeme ´equipe. L’´equipe `a l’origine de BioCyc propose un tout autre mode de fonctionnement, fond´e sur le partage des tˆaches. Leur sentiment est qu’aucune ´equipe n’est capable d’expertiser les annotations d’une diversit´e aussi importante d’organismes. Des ´ebauches de reconstruction sont ainsi prˆetes `a ˆetre adopt´ees par d’autres ´equipes sp´ecialistes de certains organismes qui prennent en charge le nettoyage et l’am´elioration des donn´ees. Les organismes dans BioCyc

Figure 2.9. Carte m´etabolique KEGG de la voie de synth`ese de la ph´enylalanine. En vert apparaissent les r´eactions pour lesquelles un g`ene de Escherichia coli K12 a ´et´e annot´e dans KEGG.

sont class´ees en 3 niveaux d’expertise. Le premier contient MetaCyc et EcoCyc. MetaCyc contient plus d’un millier de voies m´etaboliques d´ecrites exp´erimentale-ment chez plus de 1500 organismes (Caspi et al., 2008). C’est cette base qui sert notamment de r´ef´erence pour les reconstructions m´etaboliques. EcoCyc est d´edi´ee aux g´enomes de plusieurs souches d’Escherichia coli et son expertise est effectu´ee par plusieurs ´equipes. C’est certainement la base m´etabolique la plus expertis´ee d´edi´ee `a une esp`ece (Karp et al., 2007). Le deuxi`eme niveau d’expertise contient les reconstructions qui ont connu un d´ebut d’expertise par d’autres ´equipes. Les quelques 200 reconstructions effectu´ees par MaGe (Vallenet et al., 2006) pour le projet MicroScope du g´enoscope entrent dans cette cat´egorie. Enfin, le troisi`eme niveau d’expertise contient pr`es de 350 reconstructions m´etaboliques effectu´ees automatiquement par l’´equipe de BioCyc pour lesquelles aucun nettoyage n’a ´et´e effectu´e. Ces reconstructions sont mises `a diposition pour que d’autres ´equipes les am´eliorent. Le fait de d´el´eguer l’am´elioration de leurs bases de donn´ees `a d’autres ´equipes implique l’existence d’un outil rendant capable non seulement la navigation parmi les donn´ees, mais aussi l’´edition et la cr´eation de nouveaux objets. L’outil associ´e `a BioCyc, les pathway-tools (Karp et al., 2002), r´epond `a cette demande. Cet outil poss`ede la mˆeme interface de navigation que le site web mais permet de compl´eter, corriger ou cr´eer de nouveaux objets, notamment de nouvelles voies m´etaboliques qui seraient propres `a l’organisme pris en charge. De plus, les pathway-tools contiennent l’outil Pathologic destin´e `a la reconstruction

2.3 Exploration et ´echange des donn´ees m´etaboliques

Figure 2.10. Voie de synth`ese de la ph´enylalanine d’Escherichia coli K12 dans BioCyc.

des r´eseaux m´etaboliques `a partir d’informations g´enomiques (voir Section 2.1). Il est possible ainsi d’effectuer une reconstruction m´etabolique `a partir d’an-notations g´enomiques “maison”. Par ailleurs, les pathway-tools permettent tr`es facilement de cr´eer une interface web en tout point semblable `a celle que propose BioCyc, rendant ainsi navigables les donn´ees nouvellement cr´e´ees. Enfin, des in-terfaces de programmation en Lisp, Java et Perl sont disponibles et permettent des requˆetes complexes et l’automatisation de tˆaches en vue de mod´eliser ou d’analyser les donn´ees locales cr´e´ees par les pathway-tools (Krummenacker et al., 2005).

Figure 2.11. Extrait de la comparaison de la voie de synth`ese de la lysine chez Buchnera aphidicola APS et Rickettsia belliidans BioCyc

2.3 Exploration et ´echange des donn´ees m´etaboliques

2.3.2 Les outils de visualisation des r´eseaux m´etaboliques

Nous avons vu que KEGG et BioCyc proposent une visualisation des voies m´etaboliques. Cependant, dans le but d’effectuer une analyse globale du r´eseau, il est int´eressant de pouvoir le visualiser compl`etement. Les deux bases de don-n´ees proposent deux syst`emes tr`es semblables pour visualiser l’ensemble du r´e-seau (Okuda et al., 2008; Paley & Karp, 2006) : la carte m´etabolique est divis´ee en grands processus divis´es eux-mˆemes en voies m´etaboliques. Chacun des deux syst`emes propose en outre de colorer sur la carte m´etabolique des donn´ees exp´e-rimentales, comme celles provenant des mesures d’expression de g`enes.

La diff´erence entre les deux syst`emes est la mˆeme que celle entre les deux repr´esentations de voies m´etaboliques. KEGG met en relief sur une carte m´eta-bolique globale le r´eseau m´etam´eta-bolique de l’organisme consid´er´e tandis que celui-ci sera seul repr´esent´e dans le syst`eme de BioCyc (Figures 2.12 et 2.13).

L’organisation spatiale en voies m´etaboliques dans la repr´esentation graphique implique une duplication des noeuds (compos´es et r´eactions), ce qui la rend plus claire. Pourtant, lorsqu’on mod´elise le r´eseau sous forme de graphes, on peut vouloir voir l’environnement direct de certains noeuds ou v´erifier certains che-mins m´etaboliques. Pour cela, on peut utiliser de nombreux logiciels permettant

de visualiser les graphes, comme yEd2 et Tulip3. Ceux-ci proposent de puissants

modes de visualisation permettant entre autres de dessiner les noeuds du graphe en fonction de certaines mesures, dont celles expos´ees dans la Section 2.2.4. Cytos-cape propose un bon nombre de ces fonctionnalit´es mais ´egalement d’autres, plus sp´ecifiques des graphes biologiques (Shannon et al., 2003). Depuis sa cr´eation, de nombreuses extensions ont ´et´e d´evelopp´ees par diverses ´equipes afin d’impor-ter, analyser et dessiner des donn´ees de r´eseaux biologiques, dont les r´eseaux m´etaboliques. Si ceux-ci sont dans le format SBML (voir Section suivante), ils sont directement import´es et dessin´es dans Cytoscape sous la forme d’un graphe biparti (Figure 2.14).

Cependant, dans le cas d’une repr´esentation sous forme de graphes, l’orga-nisation en voies m´etaboliques que l’on a avec les vues globales de BioCyc et de KEGG est totalement perdue. R´ecemment, nous avons contribu´e au d´evelop-pement d’une solution interm´ediaire en participant `a l’´elaboration d’un logiciel permettant de dessiner certaines voies m´etaboliques correctement tout en n’effec-tuant pas de duplication de noeuds (Bourqui et al., 2007). Les voies m´etaboliques correctement dessin´ees seront celles qui contiendront le plus de noeuds ou celles choisies par l’utilisateur.

2

http://www.yworks.com/en/products_yed_about.html 3

2.3 Exploration et ´echange des donn´ees m´etaboliques

Figure 2.13. Vue globale du m´etabolisme de Buchnera aphidicola APS dans BioCyc.

Figure 2.14. R´eseau m´etabolique de Buchnera aphidicola APS dessin´e par Cytoscape sous la forme d’un graphe biparti. Les noeuds carr´es sont les r´eactions et les noeuds ronds les compos´es. Une arˆete rouge repr´esente une relation r´eaction-substrat et une arˆete verte une relation r´eaction-produit.