SBGN (Systems biology Graphical Notation)

2.3 Les réseaux biologiques

2.3.3 Représentation mathématique et informatique

2.3.3.2 SBGN (Systems biology Graphical Notation)

Le SBGN est un « langage visuel »[84] développé par un ensemble de biochimistes spécialistes

de la modélisation des réseaux et par des informaticiens. Il existe sur internet de nombreuses bases de

données de processus biologiques, chacune disposant d’un système de représentation propre

[149,151,152,155,157,158,170,172] ou aucun système de représentation [106,171]. De plus de

nombreuses représentations sont ambiguës.

Figure 21 : Incohérence et ambiguïté des représentations actuelles non standardisées de réseaux biologiques

Figure tirée de l’article [84] (a) huit significations différentes associées au même symbole dans une représentation graphique du rôle de la cycline dans la régulation du cycle cellulaire [143]. (b) Neuf symboles différents dans la littérature pour représenter un même processus biologique : l’inhibition de la transcription. (c) Cinq représentations différentes de la cascade des MAP kinases dans la littérature scientifique, illustrant différents niveaux de connaissances biologiques et biochimiques. De gauche à droite: relations entre les gènes [173], influences globales des gènes du système [21], activations et inhibitions des gènes entre eux [22], processus biochimiques (+p : phosphorylation)[1], réactions biochimiques [24]. Dans le dernier schéma, un même type de flèche représente la catalyse et la production.

Afin de faciliter les interactions entre biologistes, il est nécessaire de mettre au point un système

unifié de représentation des processus biologiques. Ce système doit être capable de représenter tous les

processus biologiques connus sans ambiguïté et de manière la plus claire possible. C’est dans cette

optique que le SBGN a été développé. Le SBGN est basé sur l’utilisation de « glyphes ». Ces glyphes

sont les différentes représentations possibles d’un élément du graphe (arrêtes ou nœuds). Chaque

glyphe est un symbole appliqué à un élément du graphe qui fournit des informations sur le rôle de cet

élément (cf. Figure 23).

Figure 22 : Exemple des différentes représentations SBGN d’un même processus biologique : la phosphorylation d’une protéine catalysée par une enzyme et modulée par un inhibiteur.

Les représentations situées en bas de figure sont totalement équivalentes à celles situées en haut. En effet pour le SBGN, les couleurs des nœuds, l’épaisseur des liens ou la position des nœuds n’ont aucune importance. Seuls les glyphes sont pris en compte.

Le SBGN est constitué de trois niveaux représentés par trois types de diagrammes de plus en

plus simples (cf. Figure 22): le diagramme de description de processus [80], le diagramme entité

relation [85] et le diagramme de flux [79].

Le diagramme de description de processus

Un diagramme de description de processus (process diagram) est un diagramme représentant les

processus moléculaires et les interactions ayant lieu entre des composés biochimiques. Ce diagramme

décrit comment un composé se transforme en un autre composé. C’est ce type de diagramme, le plus

décrit ici, qui est employé pour représenter les voies métaboliques. Ce type de diagramme permet de

représenter les différents états d’un même composé (protéine phosphorylée vs. non phosphorylée par

exemple). Pour dessiner un diagramme de description de processus, six types principaux de

glyphes sont disponibles : les glyphes servant à représenter les entités (composés biochimiques), les

processus (réactions, associations, dissociations, …), les conteneurs (compartiments biologiques), les

nœuds de référence (liens vers un sous réseau, annotations, …), les liens (consommation, production,

activation, inhibition, …) et les opérateurs logiques (non utilisés ici, ils permettent d’insérer des

conditions dans les graphes à la façon des algorigrammes).

Figure 23 : Les différents glyphes utilisés dans le diagramme de description de processus

Dans la Figure 22 partie a décrivant la phosphorylation d’une protéine catalysée par une enzyme

et modulée par un inhibiteur et représentée par un diagramme de description de processus, l’enzyme

MEK catalyse quatre réactions différentes de phosphorylation de la protéine ERK sur la tyrosine

(P@Y : phosphorylation sur la tyrosine notée Y dans l’alphabet IUPAC) et la thréonine (P@T :

phosphorylation de la thréonine notée T). La formation d’un complexe MEK/u0126 est également

observée. L’inhibition de MEK par u0126 est implicite dans la séquestration de MEK lors de la

formation du complexe avec u0126 mais elle n’est jamais explicitement notée. Remarque : u0126 est

un inhibiteur des kinases MEK1 et MEK2 qui inhibe la croissance des cellules cancéreuses [31] [36].

Le diagramme entité relation

Le diagramme d’entité relation ne met pas l’accent sur les processus comme le diagramme

précédent mais sur les entités (les nœuds dans le graphe) et leurs relations. Chaque entité n’est

représentée qu’une seule fois, le diagramme est donc souvent plus simple que le diagramme de

susceptibles d’agir sur un composé donné. Les glyphes de processus sont absents de ce type de

diagramme (cf. Figure 24). Les glyphes nécessaires sont répartis en trois groupes : les entités qui

représentent aussi bien les composés biologiques que les états biologiques de ces composés ou les

opérateurs logiques, les influences (stimulations, inhibition, …) et les déclarations (interactions,

assignation qui va permettre de représenter des processus comme la phosphorylation, …). Les

déclarations et les influences étant des relations entre les nœuds.

Figure 24 : Les différents glyphes utilisés dans le diagramme entité relation

Dans la Figure 22 partie b, il n’y a plus de différence de type entre la petite molécule u0126 et

les protéines. Les phosphorylations sur la tyrosine et la thréonine d’ERK sont représentées cette fois

par des assignations de phosphore (P) sur les acides aminés concernés. La catalyse par MEK est

représentée par une stimulation. L’inhibition de u0126 sur MEK est explicite mais la formation du

complexe u0126 / MEK est absente du diagramme.

Le diagramme de flux

Ce type de diagramme est utilisé pour avoir une vision globale d’un réseau. Il ne représente que

les influences entre entités. Les entités ne sont présentes qu’une seule fois et elles sont directement

connectées par des arcs modulateurs. Les différents états ne sont pas non plus représentés.

Figure 25 : Les différents glyphes utilisés dans le diagramme de flux

Dans la partie c de la Figure 22 la phosphorylation et la formation du complexe restent absentes.

Seule l’inhibition d’u0126 sur MEK qui active ERK est représentée.

Développement et évolution du SBGN

De plus en plus de bases de données de voies métaboliques utilisent ce standard : MetaCrop

[156], Reactome [164], Biomodels [151], Panther Patways [166]. En parallèle, de plus en plus de

logiciels supportant le SBGN sont développés. En Octobre 2010 les développeurs du SBGN en

comptaient déjà 19 [128], parmi eux : Cytoscape [118] via le plugin BiNoM [131], VANTED [36] de

manière native ou via un plugin SBGN-ed [23] ou BioCham [12]. Une liste plus complète et

régulièrement mise à jour peut être consultée sur le site internet du SBGN [168].

Depuis Octobre 2010 une librairie informatique est développée : LibSBGN [47]. Cette librairie

a vu le jour afin d’homogénéiser la manière dont les programmes enregistrent les graphes au format

SBGN en définissant un standard d’écriture : le SBGN-ML. Cette librairie permet de lire et d’écrire

des fichiers SBGN-ML. Le SBGN-ML est une implémentation XML du SBGN. Pour l’instant seule

l’écriture des diagrammes de description de processus est possible en SBGN-ML [160]. Un exemple

simple de fichier SBGN-ML est disponible dans la présentation [128]. La libraire est disponible en

Java et en C++. En Novembre 2010, seuls deux éditeurs de graphes biologiques supportaient le format

SBGN-ML : VANTED via SBGN-ed [23] et PathVisio [48].

Le SBGN et le SBGN-ML permettent respectivement de représenter et d’enregistrer les graphes

biologiques mais ils ne permettent pas d’enregistrer des modèles biologiques comportant des données

mathématiques. En effet, dans un modèle biologique il est souvent nécessaire d’associer à une réaction

donnée une loi biochimique et ses paramètres. Pour enregistrer et échanger de telles informations

Dans le document Conception d'outils bioinformatiques pour la modélisation de voies métaboliques et de leur régulation (Page 37-42)