• Aucun résultat trouvé

2.2 Mod´elisation des r´eseaux m´etaboliques

2.2.4 Les graphes m´etaboliques

La mod´elisation des r´eseaux m´etaboliques sous forme de graphes est rapide `a mettre en place et va permettre d’utiliser la batterie de m´ethodes propres `a la th´eorie des graphes pour analyser des caract´eristiques globales du graphe, telles que sa topologie, et ainsi d´egager rapidement certains traits m´etaboliques impor-tants.

a. Les diff´erents types de graphes m´etaboliques

Un graphe est un objet math´ematique compos´e d’objets appel´es noeuds reli´es entre eux par des arˆetes. Formellement, un graphe G est d´efini comme un couple

(V, E) o`u V est un ensemble fini de noeuds (vertices en anglais) et E un ensemble

fini d’arˆetes (edges en anglais) qui est un sous-ensemble de V2. Nous reprenons

sciemment les notations provenant de l’anglais pour que ne pas ´egarer le lecteur habitu´e `a ces notations. De mˆeme un r´eseau m´etabolique sera dans la suite indiqu´e par la lettre N (network ).

La mod´elisation d’un r´eseau m´etabolique sous forme de graphe implique de d´efinir quelles entit´es biologiques vont ˆetre associ´ees aux noeuds et quelles rela-tions chimiques ou biologiques vont ˆetre associ´ees aux arˆetes. Ces choix d´ependent directement du type de questions auxquelles on veut r´epondre avec la mod´elisa-tion.

La Figure 2.5 repr´esente les diff´erents types de graphes m´etaboliques.

Dans le graphe des compos´es, les noeuds correspondent aux m´etabolites et il

y a une arˆete entre deux m´etabolites s’il existe une r´eaction o`u l’un est substrat

et l’autre produit. Dans la Figure 2.5 a, A et C sont reli´es par une arˆete car R1 produit A `a partir de C.

Dans le graphe des r´eactions, les noeuds correspondent aux r´eactions. Il existe une arˆete entre deux r´eactions si l’une produit un m´etabolite consomm´e par l’autre. Dans la Figure 2.5 b, il y a une arˆete entre R1 et R2 car R1 produit D qui est substrat de R2. La r´eaction R5 n’est reli´ee `a aucune autre r´eaction car son produit C n’est substrat d’aucune r´eaction.

Dans le graphe des enzymes, les noeuds correspondent aux enzymes. Il existe une arˆete entre deux enzymes si l’une catalyse au moins une r´eaction qui produit le substrat d’au moins une r´eaction catalys´ee par l’autre. Dans la Figure 2.5 c, il y a une arˆete entre E3 et E1 car E3 catalyse R3 qui produit I, lui-mˆeme substrat de R4, r´eaction catalys´ee par E1.

2.2 Mod´elisation des r´eseaux m´etaboliques

Figure 2.5. Les diff´erents graphes m´etaboliques repr´esenant le r´eseau m´etabolique suivant : {R1 : A + B → C+ D; R2 : D + E → F + G; R3 : F + G → H + I; R4 : I → J + K; R5 : L + A → C}. L’enzyme E1 catalyse les r´eactions R1 et R4, E2, E3 et E5 catalysent respectivement R2, R3 et R5.

Figure 2.6. Le graphe des compos´es des r´eseaux N 1{R1 : A → C; R2 : B → C; C → D} et N 2{R1 : A + B → C; R2 : C → D}

On remarque d´ej`a que ces graphes, bien que repr´esentant le mˆeme r´eseau, n’ont pas du tout les mˆemes propri´et´es, soulignant encore l’importance de bien d´efinir quelles relations on veut repr´esenter dans le r´eseau m´etabolique. Il arrive souvent dans les articles que les graphes de r´eactions et les graphes des enzymes soient confondus alors que leur analyse peut mener `a des conclusions consid´era-blement diff´erentes. La diff´erence de structure des graphes b et c de la Figure 2.5 en est un bon exemple.

Par ailleurs, la mod´elisation d’un r´eseau m´etabolique en l’un de ces trois graphes entraˆıne une perte d’information. En effet, dans la Figure 2.5 a, il existe une arˆete entre A et C laissant penser qu’il suffit de A pour produire C. Or, R1 n´ecessite `a la fois A et B.

D’autres ambig¨uit´es apparaissent aussi lors de telles mod´elisations. Ainsi, dans la Figure 2.6, deux ensembles de r´eactions distincts sont mod´elis´es de la mˆeme mani`ere alors que la signification m´etabolique des deux r´eseaux est tr`es diff´erente. Deux types de formalisations peuvent lever ces ambig¨uit´es : les graphes bi-partis et les hypergraphes.

Un graphe biparti poss`ede deux types de noeuds, un noeud d’un type donn´e ne pouvant ˆetre reli´e par une arˆete qu’`a un noeud de type diff´erent. Formellement, un graphe biparti est un graphe dont l’ensemble de noeuds V est divis´e en deux

sous-ensembles disjoints, V1 et V2, tels que chaque arˆete relie un noeud dans V1

`a un noeud dans V2. Dans un graphe biparti m´etabolique, un type de noeuds

correspond aux m´etabolites et l’autre type aux r´eactions. Dans la Figure 2.5 c, la n´ecessit´e de la pr´esence simultan´ee des 2 m´etabolites A et B pour produire C est mod´elis´ee. De mˆeme, les deux r´eseaux de la Figure 2.6 conduisent maintenant `a deux graphes diff´erents (Figure 2.7).

Un hypergraphe est un graphe o`u les arˆetes (alors appel´ees hyperarˆetes)

peuvent lier plus que deux noeuds. Formellement, un hypergraphe H est une paire

(V, E) o`u V = {v1, v2, ...., vn} est un ensemble de noeuds et E = {e1, e2, ..., em}

2.2 Mod´elisation des r´eseaux m´etaboliques

Figure 2.7. Les graphes bipartis des r´eseaux N 1{R1 : A → C; R2 : B → C; C → D} et N 2{R1 : A + B → C; R2 : C → D}

m´etabolique, les noeuds sont classiquement les m´etabolites et les hyperarˆetes les r´eactions (Figure 2.5 c).

Tous ces types de graphes peuvent ˆetre dirig´es ou non. Dans le cas d’un graphe dirig´e, chaque arˆete portera une direction pr´ecise. On appelle “arc” un lien entre deux noeuds dans un graphe dirig´e. S’il est non dirig´e, l’arˆete ne portera pas

de direction et la relation entre les deux noeuds sera r´eciproque. Dans le cas o`u

toutes ses r´eactions seraient r´eversibles, un r´eseau m´etabolique est mod´elis´e sous

la forme d’un graphe non dirig´e. Dans le cas o`u elles sont toutes irr´eversibles,

le graphe correspondant est dirig´e. Si certaines r´eactions seulement sont irr´ever-sibles, on peut utiliser un mod`ele mixte ou d´ecoupler les r´eactions r´eversibles en deux r´eactions irr´eversibles. Dans beaucoup d’articles, toutes les r´eactions sont consid´er´ees comme r´eversibles. Pourtant les conditions physiologiques et thermo-dynamiques font que certaines r´eactions ont une direction largement favoris´ee. Cependant, l’assignation des directions dans un r´eseau m´etabolique n’est pas imm´ediate et peu de m´ethodes rigoureuses permettent de r´esoudre ce probl`eme actuellement (voir Section 2.1.4).

L’utilisation de graphes non dirig´es peut amener `a d’autres ambig¨uit´es. Par exemple, si les arˆetes des graphes bipartis de la Figure 2.7 ´etaient non dirig´ees, on ne pourrait plus distinguer de quel cˆot´e de la r´eaction se situerait chaque m´etabolite, faussant compl`etement le calcul de chemins entre compos´es. Dans ce cas, il est n´ecessaire d’´etiqueter les arˆetes de fa¸con `a pouvoir distinguer les deux cˆot´es de la r´eaction.

b. Les simplifications des mod`eles possibles

Dans les mod`eles de graphes pr´esent´es pr´ec´edemment, tous les compos´es et toutes les r´eactions sont consid´er´es comme ´equivalents. Pourtant, certains com-pos´es comme les coenzymes (voir Section 1.1) ont une importance centrale dans le r´eseau et interviennent dans de nombreuses r´eactions. On d´esigne souvent ces

compos´es comme “ubiquitaires”. Consid´erer ces compos´es comme les autres peut conduire `a des liens artificiels, particuli`erement dans les graphes simples. Ainsi, dans un graphe des compos´es, de nombreux compos´es seront reli´es `a l’ATP alors que celui-ci n’intervient que comme cofacteur dans la r´eaction et ne peut pro-duire la plupart des compos´es seul. La seconde raison de consid´erer autrement ce type de compos´es est d’ordre plus pratique. En effet, ces compos´es g´en`erent un nombre d’arˆetes tr`es important, ce qui peut augmenter consid´erablement le temps de calcul de certaines m´ethodes.

La fa¸con la plus classique de traiter ce probl`eme est de retirer tout simplement les compos´es qui participent `a de nombreuses r´eactions (Jeong et al., 2000; Ma & Zeng, 2003; Light et al., 2005). Cependant, cette m´ethode n’est pas satisfaisante sur plusieurs points. D’abord, il est difficile de fixer le seuil de connectivit´e `a partir duquel on retire les m´etabolites. Ensuite, certains compos´es comme le pyruvate ou le fructose sont tr`es connect´es mais interviennent r´eellement en tant que substrat ou produit dans le coeur de voies m´etaboliques importantes. Une autre fa¸con de filtrer les compos´es ubiquitaires est de retirer du r´eseau les compos´es reconnus comme intervenant principalement en tant que cofacteurs. Cependant, mˆeme si dans la plupart des r´eactions leur ´elimination ne prˆete pas `a cons´equence, ils ne devraient pas ˆetre ´elimin´es des r´eactions intervenant dans leur propre synth`ese.

Une autre alternative est de retirer les compos´es dans les r´eactions o`u ils

interviennent seulement comme substrats ou produits secondaires. La premi`ere id´ee est d’utiliser les informations contenues dans les voies m´etaboliques et de ne consid´erer dans le r´eseau que les compos´es qui interviennent dans la structure mˆeme des voies (Lacroix et al., 2006).

Par ailleurs, certaines transformations de cofacteurs sont bien connues. Il est donc possible d’´eliminer les compos´es intervenant dans ces transformations des

r´eactions o`u elles ont lieu. Nous reparlerons de ces deux derniers filtres dans la

section consacr´ee `a SymbioCyc.

Enfin, il est possible depuis r´ecemment d’utiliser la d´ecomposition des r´eac-tions en transformar´eac-tions ´el´ementaires que propose la base de donn´ees KEGG (voir Section 2.3.1).

Nous verrons plus tard que l’absence de traitement des compos´es ubiquitaires peut conduire `a des conclusions erron´ees en ce qui concerne l’analyse des graphes m´etaboliques.

c. Les mesures classiques

Une fois que le r´eseau est mod´elis´e sous la forme d’un graphe, les mesures clas-siques de la th´eorie des graphes peuvent ˆetre utilis´ees. Soulignons que la plupart de ces mesures s’appliquent aux graphes simples, raison pour laquelle les graphes m´etaboliques sont des graphes simples dans la plupart des ´etudes. Les mesures couramment utilis´ees pour analyser les graphes m´etaboliques sont les suivantes : le degr´e, la distance, la centralit´e, le diam`etre et le coefficient d’agglom´eration.

2.2 Mod´elisation des r´eseaux m´etaboliques

Le degr´e d’un noeud i est le nombre d’arˆetes le liant `a d’autres noeuds. Si le graphe est dirig´e, on parle de degr´e entrant et de degr´e sortant. Ainsi, dans un graphe de compos´es, le degr´e sortant d’un noeud i correspond au nombre de produits distincts des r´eactions qui utilisent i en tant que substrat et le degr´e entrant d’un noeud i correspond au nombre de compos´es distincts intervenant dans les r´eactions produisant i.

Dans un graphe de r´eactions, le degr´e entrant d’un noeud i correspond au nombre total de r´eactions qui produisent les substrats de i et le degr´e sortant d’un noeud i correspond au nombre total de r´eactions qui utilisent au moins un produit de i en tant que substrat.

La distance entre deux noeuds i et j est la longueur du plus court chemin entre deux noeuds. Autrement dit, c’est le nombre minimal d’arˆetes qu’il faut utiliser pour passer d’un noeud `a l’autre. Si on consid`ere un graphe des compos´es, la distance entre deux noeuds repr´esenterait le nombre minimal de r´eactions utilis´ees pour produire un m´etabolite `a partir d’un autre.

Le diam`etre d’un graphe est la distance maximale entre deux noeuds quel-conques.

Le coefficient d’agglom´eration (clustering coefficient) d’un noeud i est la pro-portion du nombre d’arˆetes existantes sur le nombre d’arˆetes possibles entre les voisins de i. Le coefficient d’agglom´eration moyen renseigne sur la tendance des noeuds `a former des groupes tr`es connect´es autour d’eux.

La centralit´e d’un noeud i peut se mesurer de deux mani`eres. La premi`ere, appel´ee centralit´e d’interposition (betweenness centrality), mesure la proportion des plus courts chemins passant par i sur le nombre total de plus courts chemins entre toutes les paires de noeuds d’un graphe. Dans le cas d’un graphe de r´eac-tions, une telle mesure peut renseigner sur la pr´esence de r´eactions qui soient des “passages oblig´es” dans le r´eseau global. La seconde mesure de centralit´e, appel´ee centralit´e de proximit´e (closeness centrality), mesure la proximit´e d’un noeud par rapport `a tous les autres.

Nous verrons dans la Section 4 comment ces mesures sont utilis´ees pour d´ecrire et comparer les r´eseaux m´etaboliques.

Cependant, l’interpr´etation de ces mesures n´ecessite beaucoup de pr´ecautions par la nature mˆeme du r´eseau et de ses objets (Lacroix et al., 2008b). Un pr´etrai-tement du r´eseau m´etabolique, par des filtres comme ceux propos´es par Symbio-Cyc (voir Section 3), est souvent n´ecessaire afin d’´eviter certains artefacts dus `a la nature des donn´ees.

Par ailleurs, il est important aujourd’hui d’imaginer des mesures propres aux graphes m´etaboliques, ´elabor´ees en gardant `a l’esprit le type d’objets que l’on mod´elise mais aussi la qualit´e des donn´ees disponibles. C’est dans ce cadre que se place le d´eveloppement de PITUFO, comme nous le verrons plus tard dans (Section 5).

2.3 Exploration et ´echange des donn´ees m´