• Aucun résultat trouvé

3.5 Discussion

Les bases de donn´ees telles que BioCyc (Caspi & Karp, 2007) et KEGG (Aoki & Kanehisa, 2005) et leurs outils associ´es facilitent grandement l’exploration des donn´ees g´enomiques et m´etaboliques de centaines d’organismes. La mise `a dis-position de r´eseaux entiers a permis leur mod´elisation, sous forme de graphes notamment, et leur analyse globale. Cependant, aucun environnement `a notre connaissance ne fait de fa¸con satisfaisante le lien entre les donn´ees pr´esentes dans les bases et les donn´ees utilis´ees pour la mod´elisation. SymbioCyc tente de r´epondre pour la premi`ere fois `a ce besoin en mettant `a disposition pour une cinquantaine de bact´eries, les fichiers SBML et les diff´erents types de graphes auxquels plusieurs filtres peuvent ˆetre appliqu´es, ´economisant ainsi le temps de programmation de l’utilisateur. Le calcul de statistiques globales permet en outre de d´ecrire chaque jeu de donn´ees, ´etape indispensable avant toute mod´elisation. SymbioCyc ´egalement propose un outil de comparaison de r´eseaux m´etaboliques original permettant facilement de d´egager les principales diff´erences ou ressem-blances m´etaboliques entre organismes et groupes d’organismes. Au-del`a de son utilit´e dans le reste des travaux pr´esent´es ici, SymbioCyc est utilis´ee ´egalement dans d’autres travaux auxquels nous avons particip´es (Bourqui et al., 2007; Pi-card et al., 2008). Certaines fonctionnalit´es de SymbioCyc, peuvent facilement ˆetre export´ees vers d’autres sites. C’est le cas notamment de certaines de ses fonctions de filtre pr´esentes dans MOTUSWeb, projet auquel nous avons ´egale-ment particip´e (Lacroix et al., 2008a).

Toutefois, plusieurs am´eliorations sont possibles. Afin de faciliter sa mise `a jour et l’ajout de nouveaux organismes, il faudrait d’abord automatiser certaines tˆaches dans la construction du site. Une limitation de SymbioCyc est que toutes les donn´ees sont pr´ecalcul´ees, ce qui ne permet pas `a un utilisateur d’explorer et de filtrer ses propres donn´ees. Nous projetons ainsi de rendre publique une interface graphique dont l’utilisation serait locale pour que l’utilisateur puisse traiter n’importe quel r´eseau de la mˆeme fa¸con que dans SymbioCyc. Ensuite, la visualisation des diff´erents graphes pourrait ˆetre facilit´ee par l’int´egration dans SymbioCyc d’un outil comme Cytoscape. Enfin, nous envisageons d’utiliser la visualisation des diagrammes de Venn propos´ee par la librairie Java Aduna pour am´eliorer la comparaison des r´eseaux m´etaboliques. On peut trouver des exemples de tels diagrammes dans la Section 4.

Utilis´ee intensivement durant cette th`ese et dans quelques travaux auxquels nous sommes associ´es, nous esp´erons que SymbioCyc sera bientˆot utilis´ee de fa¸con beaucoup plus large et qu’elle connaˆıtra tr`es vite de nouveaux d´eveloppements.

Chapitre 4

Comparaison des r´eseaux

m´etaboliques des bact´eries

intracellulaires en fonction de

leur style de vie

4.1 Motivation

Le style de vie peut ˆetre consid´er´e comme la somme des effets de l’environ-nement d’un organisme et des relations qu’il ´etablit avec d’autres esp`eces (Cases et al., 2003). Dans le cas de bact´eries intracellulaires, les deux facteurs sont tr`es li´es puisque l’environnement correspond directement `a la cellule de l’hˆote. La vie intracellulaire s’accompagne de pressions de s´election sp´ecifiques, agissant en par-ticulier sur le r´eseau m´etabolique de l’hˆote et de la bact´erie (voir Section 1.2). Certains traits ´evolutifs, comme la r´eduction du r´eseau, sont communs `a toutes les bact´eries intracellulaires mais d’autres d´ependent du type d’interactions en-tretenues avec l’hˆote. Ainsi, chez les bact´eries dont l’association avec l’hˆote est nutritionnelle, certaines voies m´etaboliques n´ecessaires `a l’association sont pr´e-serv´ees tandis que d’autres, redondantes avec celles de l’hˆote, disparaissent. Les reconstructions m´etaboliques permettent d’obtenir la liste des r´eactions et des voies m´etaboliques possibles pour un ensemble d’organismes. La mani`ere la plus classique d’identifier et de comparer les capacit´es m´etaboliques d’un groupe d’or-ganismes est de v´erifier successivement la pr´esence des voies m´etaboliques de r´ef´erence dans chacun des r´eseaux m´etaboliques reconstruits.

Non seulement ce processus est coˆuteux en temps, ce qui limite le nombre

d’organismes que l’on peut comparer, mais il limite aussi l’exploration du r´eseau `a quelques voies m´etaboliques auxquelles on porte un int´erˆet selon des a priori biologiques. L’analyse globale des r´eseaux m´etaboliques permet, en gommant la partition en voies m´etaboliques, une exploration plus large et sans a priori des

capacit´es m´etaboliques d’un grand nombre d’organismes.

4.2 Les m´ethodes de comparaison de r´eseaux

m´etaboliques

4.2.1 La comparaison des ensembles d’entit´es des r´eseaux

m´etaboliques

Une mani`ere de comparer les r´eseaux m´etaboliques de plusieurs organismes est de confronter les ensembles d’objets qui les composent. A ce jour, la compa-raison s’est effectu´ee sur les ensembles d’enzymes (ou g`enes m´etaboliques) et les ensembles de r´eactions.

La comparaison des r´eseaux m´etaboliques d´ecoule souvent de la comparaison des annotations fonctionelles de plusieurs organismes. Pour chaque grand proces-sus m´etabolique (synth`ese des acides amin´es, synth`ese des lipides, glycolyse...), on recueille les g`enes correspondants annot´es dans chaque organisme. De cette fa¸con, Zientz et al. (2004) r´epertorient les diff´erents effets de la vie symbiotique intracellulaire sur le m´etabolisme de trois endocytobiotes mutualistes Buchnera, Blochmannia et Wigglesworthia. De mˆeme, Tamas et al. (2001) ont montr´e les diff´erences g´enomiques mais aussi m´etaboliques entre une bact´erie intracellulaire mutualiste, Buchnera, et une bact´erie intracellulaire parasite, Rickettsia. Ces deux ´etudes, quoique riches en informations, ne portent que sur deux ou trois orga-nismes. De plus, l’´etude ne se fait que sur quelques voies m´etaboliques choisies a priori. Enfin, une telle approche, bas´ee sur les voies m´etaboliques de r´ef´erence, ne permet pas d’appr´ehender des voies alternatives possibles ou une vision d’en-semble du r´eseau m´etabolique.

A l’oppos´e de ces analyses tr`es pr´ecises, certains auteurs ont propos´e des ´etudes `a plus grande ´echelle pour mettre en ´evidence des tendances g´en´erales `a travers de larges collections d’organismes.

Dans l’objectif de comparer le contenu en g`enes des organismes s´equenc´es, une centaine `a cette ´epoque, van Nimwegen (2003) a examin´e la portion de g`enes d´edi´ee aux diff´erentes tˆaches fonctionelles de la cellule. L’auteur indiqua notam-ment une proportion tr`es conserv´ee des g`enes d´edi´es au m´etabolisme parmi les g´enomes analys´es.

Dans le mˆeme temps, Cases et al. (2003) examin`erent la proportion de g`enes d´edi´es `a la r´egulation, au m´etabolisme et au transport de 60 organismes class´es selon leur style de vie. Les auteurs indiquent ainsi une portion plus importante du g´enome des bact´eries intracellulaires pathog`enes d´edi´e au m´etabolisme. Ce-pendant, ce r´esultat souffre d’un manque de pr´ecision, en partie parce que sont class´es parmi les intracellulaires pathog`enes ´egalement les mutualistes tels que

4.2 Les m´ethodes de comparaison de r´eseaux m´etaboliques

Buchnera aphidicola APS, et d’autre part, par manque de d´etail sur l’influence de chaque organisme sur les tendances globales observ´ees.

Aguilar et al. (2004) ont class´e 27 organismes choisis dans les trois grands domaines du vivant (bact´eries, arch´ebact´eries, eucaryotes) en fonction de leur en-semble d’enzymes, d´eduits de l’annotation g´enomique. Celles-ci ont d’abord ´et´e class´ees selon sept grandes classes fonctionnelles. Pour chaque organisme, un pro-fil binaire par classe a ´et´e construit, indiquant pour chaque enzyme sa pr´esence (1) ou son absence (0) dans le prot´eome. A partir de ces profils ont ´et´e construits des matrices de distance entre organismes qui ont servi ensuite `a construire des arbres. Aguilar et al. trouv`erent que la position des organismes dans l’arbre r´e-fl´etait les pressions de l’environnement et des adaptations sp´ecifiques plutˆot que leur classement phylog´en´etique. Par exemple, les trois bact´eries pathog`enes obli-gatoires de leur jeu de donn´ees sont group´ees ensemble dans les sept arbres malgr´e leur grand ´eloignement phylog´en´etique.

Freilich et al. (2005) ont proc´ed´e ´egalement `a une ´etude comparative des ensembles d’enzymes `a travers les trois domaines du vivant. Leur premier objectif ´etait de d´eterminer si la fraction d’enzymes dans le prot´eome est constante dans, et entre, chaque grand domaine du vivant. Seulement six bact´eries ont montr´e une proportion d’enzymes significativement ´elev´ee et six autres une proportion d’enzymes significativement basse parmi les 85 organismes ´etudi´es, ce qui tend `a montrer une relative conservation de la fraction d’enzymes dans le prot´eome `a travers les grands domaines du vivant, confirmant ainsi la tendance indiqu´ee par van Nimwegen (2003).

Parmi les six bact´eries ayant une proportion d’enzymes ´elev´ee, nous trou-vons Buchnera aphidicola APS, deux mycoplasmes et une rickettsie. Les auteurs mettent en avant le caract`ere intracellulaire de ces quatre bact´eries pour expliquer ce r´esultat. La portion ´elev´ee du prot´eome d´edi´ee au m´etabolisme s’expliquerait par la perte massive des prot´eines r´egulatrices chez les bact´eries intracellulaires. Cependant, parmi les 85 organismes ´etudi´es, d’autres sont intracellulaires sans montrer une proportion plus ´elev´ee que la moyenne d’enzymes dans leur pro-t´eome, ce qui invalide l’argument de Freilich et al. pour expliquer la proportion d’enzymes ´elev´ees chez ces quatre bact´eries.

Par ailleurs, en regardant de plus pr`es les r´esultats de Freilich et al. (2005), on remarque que ce r´esultat n’est vraiment significatif que pour Buchnera aphi-dicola APS. En effet, pour chaque organisme, Freilich et ses collaborateurs ont construit deux ensembles d’enzymes en se r´ef´erant `a la collection d’enzymes de SWISS-PROT. Le premier, appel´e “ensemble conservatif”, attribue la fonction d’enzyme `a une prot´eine si sa s´equence est similaire `a plus de 40% avec une enzyme de l’ensemble de r´ef´erence. Le second, appel´e “ensemble permissif”, at-tribue la fonction d’enzyme `a des homologues beaucoup plus distants, avec un pourcentage d’identit´e pouvant ˆetre inf´erieur `a 20%. La proportion d’enzymes re-lativement ´elev´ee chez les six bact´eries signal´ees par Freilich et al. a ´et´e calcul´ee `a partir des ensembles d’enzymes permissifs pour, selon les auteurs, ´eviter le biais

dˆu aux organismes mod`eles dans les ensembles conservatifs. Cependant, si l’on prend en compte les ensembles conservatifs, le r´esultat s’inverse pour les deux my-coplasmes (la proportion d’enzymes devient inf´erieure `a la moyenne) et devient non significative pour la rickettsie. Par contre, la proportion reste significative-ment ´elev´ee pour Buchnera aphidicola APS et les deux autres prot´eobact´eries extracellulaires signal´ees, Haemophilus influenzae et Pasteurella multocida.

Le second objectif de Freilich et al. ´etait de pr´eciser la nature de l’augmenta-tion du nombre d’enzymes dans les diff´erents domaines. Deux modes d’expansion ont ´et´e test´es. Le premier relie l’´elargissement de l’ensemble d’enzymes avec celui du r´epertoire de r´eactions, et le second se base sur l’apparition d’une redon-dance fonctionnelle des enzymes. Les r´eactions correspondent ici aux num´eros EC assign´es aux enzymes. Les auteurs calculent ensuite le ratio entre le nombre d’enzymes et le nombre de r´eactions. Les r´eactions sont ici d´etermin´ees par leur num´ero EC. Freilich et al. montrent ainsi une d´ependance lin´eaire entre le nombre d’enzymes et le nombre de r´eactions chez les procaryotes, absente chez les euca-ryotes. Cependant, le faible nombre d’eucaryotes dans leur jeu de donn´ees pourrait expliquer ce r´esultat. Par ailleurs, le mˆeme calcul indiqua une faible redondance fonctionnelle des enzymes de Buchnera aphidicola APS en comparaison avec les autres organismes.

4.2.2 La comparaison des indices mesur´es sur les graphes

m´etaboliques

Nous avons d´ej`a indiqu´e dans la Section 2.2.4, les principaux indices employ´es dans l’analyse de graphes. Depuis une dizaine d’ann´ees, ces mesures ont ´et´e uti-lis´ees intensivement pour caract´eriser les r´eseaux biologiques, en g´en´eral, et les r´eseaux m´etaboliques en particulier.

Le concept de r´eseau “petit-monde”, formalis´e par Watts & Strogatz (1998) a ´et´e un des premiers `a ˆetre appliqu´e sur les r´eseaux biologiques. Les r´eseaux “petit-monde” sont caract´eris´es par un diam`etre faible, plus exactement par un diam`etre proportionnel au logarithme du nombre de noeuds, ainsi que par un coefficient d’agglom´eration moyen ´elev´e.

Wagner et Fell sont les premiers `a avoir d´eclar´e que le r´eseau m´etabolique de Escherichia coli K12 pouvait ˆetre class´e parmi les r´eseaux petit-monde, concluant que ce type de structure permettait un temps de transition tr`es court entre dif-f´erents ´etats m´etaboliques (Fell & Wagner, 2000; Wagner & Fell, 2001). Arita (2004) contredit ces affirmations en sugg´erant que le mod`ele utilis´e par Fell et Wagner n’est pas assez r´ealiste. Dans le mod`ele d’Arita, les m´etabolites

eux-mˆemes sont mod´elis´es sous formes de graphes o`u les noeuds sont les atomes et

les arˆetes les liaisons chimiques. Les chemins dans le graphe sont calcul´es selon le passage d’atomes de carbone d’un m´etabolite `a un autre, ce qui ´elimine des che-mins entre des compos´es entre lesquels il n’y a pas d’´echange de mati`ere (Arita,

4.2 Les m´ethodes de comparaison de r´eseaux m´etaboliques

2000). Avec son mod`ele, Arita montre que le diam`etre du r´eseau est beaucoup plus grand que celui estim´e pr´ec´edemment.

Une autre mani`ere moins coˆuteuse en temps de calcul d’obtenir des distances

plus r´ealistes entre m´etabolites est de pond´erer les noeuds en fonction de leur degr´e et de donner ainsi une pr´ef´erence aux chemins passant par les noeuds les moins connect´es, les noeuds les plus connect´es intervenant le plus souvent sous forme de cofacteurs et non en tant que source de carbone dans les r´eactions biochimiques (Croes et al., 2006).

Une autre notion populaire pour d´ecrire les r´eseaux biologiques est celle des r´eseaux “sans-´echelle” (scale-free). Ce terme est introduit par Barab´asi & Albert (1999) pour qualifier de nombreux r´eseaux dont la distribution des degr´es suit une loi de puissance, plutˆot qu’une loi de Poisson telle qu’attendue dans le cas d’un r´eseau al´eatoire. Ces r´eseaux sans-´echelle incluent ainsi les r´eseaux g´en´etiques, les r´eseaux de neurones, les r´eseaux sociaux et internet. Quelque temps plus tard, les r´eseaux m´etaboliques eux-mˆemes sont qualifi´es de r´eseaux sans-´echelle (Jeong et al., 2000). Une des principales caract´eristiques d’un r´eseau sans-´echelle est la pr´esence d’un grand nombre de noeuds peu connect´es et d’un nombre faible de noeuds tr`es connect´es. Dans le cas de graphes des compos´es, les premiers sont les compos´es qui interviennent dans tr`es peu de r´eactions et les autres sont les compos´es ubiquitaires dont nous avons parl´e pr´ec´edemment. Les r´eseaux sans-´echelle poss`edent ´egalement les propri´et´es des r´eseaux petit-monde. Barab´asi &

Albert (1999) proposent un mod`ele d’´evolution pour ces r´eseaux o`u les noeuds

apparaissant de novo dans le r´eseau se lieraient pr´ef´erentiellement aux noeuds d´ej`a tr`es connect´es. R´ecemment pourtant, ont vu le jour plusieurs articles destin´es `a mettre en doute la pertinence de ce concept pour les r´eseaux biologiques.

Le premier argument avanc´e est la qualit´e des donn´ees utilis´ees pour cr´eer ces r´eseaux, particuli`erement les r´eseaux prot´eine-prot´eine (Aloy & Russell, 2002; Coulomb et al., 2005) mais on peut ´etendre facilement ces constatations aux r´e-seaux m´etaboliques. En effet, les lacunes, impr´ecisions et erreurs possibles dans les donn´ees peuvent avoir un effet consid´erable sur ce genre de mesures globales. Le deuxi`eme argument est m´ethodologique et remet en question le fait mˆeme que la distribution des degr´es des r´eseaux ´etudi´es suive r´eellement une loi de puissance (Khanin & Wit, 2006; Stumpf et al., 2005). En effet, le test utilis´e dans les ´etudes pr´ec´edentes pour consid´erer si la distribution suit une loi de puissance est seule-ment de tracer une ligne dans la repr´esentation log-log de la distribution. Khanin & Wit (2006) montrent ainsi qu’en appliquant des tests plus robustes, plusieurs r´eseaux ne peuvent plus ˆetre consid´er´es comme “sans-´echelle”. Ils montrent en outre que plusieurs autres types de distributions pourraient correspondre aux propri´et´es des r´eseaux biologiques.

Le troisi`eme argument fait intervenir la nature mˆeme des noeuds dans un r´e-seau m´etabolique. En effet, la distribution des degr´es comme d’autres mesures glo-bales consid`erent tous les noeuds comme ´equivalents. Cependant, chaque noeud dans un graphe m´etabolique, que ce noeud repr´esente un m´etabolite ou une

r´eac-tion, a des propri´et´es sp´ecifiques qu’il est important de prendre en compte. C’est le cas des cofacteurs n’intervenant pas dans l’´echange d’atomes de carbone et des r´eactions les utilisant.

Enfin, l’argument final est certainement celui de Keller (2005) : mˆeme si les r´eseaux biologiques ´etaient reconnus comme ´etant des r´eseaux sans-´echelle, cette propri´et´e paraˆıt tellement g´en´erale quel que soit le r´eseau qu’on ne peut en d´e-gager une quelconque interpr´etation biologique.

Au-del`a des concepts“petit-monde”et“sans-´echelle”, un certain nombre d’autres ´etudes ont utilis´e les mesures sur les graphes afin de d´ecrire les r´eseaux m´etabo-liques et de les comparer entre eux.

Ma & Zeng (2003) mesurent la distribution des degr´es, la longueur des che-mins et le diam`etre sur 80 graphes m´etaboliques, mettant ainsi en ´evidence un diam`etre plus ´elev´e chez les eucaryotes et les procaryotes que chez les arch´ebact´e-ries. Par ailleurs, `a la diff´erence d’´etudes ant´erieures, Ma et al. proposent quelques r`egles heuristiques pour d´eterminer le sens des r´eactions et ´eliminent les compos´es

ubiquitaires dans les r´eactions o`u ils sont consid´er´es comme secondaires.

Rahman & Schomburg (2006) utilisent une mesure tr`es proche de la centra-lit´e d’interposition (betweenness centrality) pour rep´erer les m´etabolites et les r´eactions qui peuvent ˆetre consid´er´es comme des “points chauds” du r´eseau. La comparaison de cette mesure sur deux esp`eces proches phylog´en´etiquement dont une seule est pathog`ene, permet de proposer des cibles th´erapeutiques. Afin de comparer les r´eseaux m´etaboliques des chloroplastes avec ceux de bact´eries photo-synth´etiques, Wang et al. (2006) mesurent leurs connectivit´e moyenne, coefficient d’aggr´egation moyen, longueur moyenne des chemins, diam`etre et modularit´e.

Cette ´etude r´ev´ele un diam`etre et une longueur moyenne des chemins plus grands chez le chloroplaste. Les auteurs d´eclarent utiliser une mod´elisation en hypergraphe des r´eseaux m´etaboliques, ce qui devrait ´eliminer les artefacts dus aux compos´es ubiquitaires durant le calcul de chemins entre deux noeuds. Cepen-dant, dans cette analyse, le calcul des chemins ne semble tenir aucun compte de la structure en hypergraphe, les auteurs signalant par ailleurs l’´elimination des

cofacteurs des r´eactions o`u ils interviennent.

Liu et al. (2007) proposent de relier l’importance topologique des enzymes dans les graphes d’enzymes avec leur conservation phylog´en´etique. Ils montrent ainsi un lien entre les profils phylog´en´etiques des enzymes et le degr´e et la centra-lit´e d’interposition, mais aucun lien avec la centracentra-lit´e de proximit´e. Cependant,