• Aucun résultat trouvé

Chapitre 1: Introduction générale

3. Les réseaux biologiques

3.4. Représentation et visualisation des réseaux biologiques

Il existe plusieurs formats permettant la représentation de réseaux biologiques. Certains ont été développés spécifiquement pour les réseaux biologiques (BioPAX, SBML, ...) alors que d’autres sont plus généraux pour représenter des graphes quels qu’ils soient (OXL, GraphML, ...). Notons que la plupart de ces formats ne se limite pas à la représentation des réseaux en tant que tel mais permet la représentation des données sur les réseaux soit sous forme d’attributs des nœuds, soit sous forme de nœuds décrivant les propriétés. Dans ce dernier cas, nous parlerons alors de graphe étendu.

3.4.2. Formats de réseaux biologiques

a) BioPAX : BioPAX est un modèle XML spécifiquement développé pour permettre l’intégration, l’échange, la visualisation et l’analyse des données de réseaux biologiques (Demir et al., 2010). Il est divisé en trois niveaux : le premier décrit seulement les voies métaboliques, le deuxième prend en compte les voies de signalisation et les interactions

moléculaires en plus des voies métaboliques et le troisième niveau décrit les réseaux de régulation génique et les interactions génétiques.

BioPAX est basé sur une ontologie de concepts avec des attributs, ce qui permet d’avoir des relations entre concepts plus explicites que pour les autres formats (Pavlopoulos et al., 2008). Ainsi, le type d’interactions des entités physiques (en ajoutant les gènes) est particulièrement bien renseigné. Par exemple, il est possible de faire la différence entre une interaction de type dégradation et de type transport (Figure 20). De plus, BioPAX a été développé de manière à être compatible avec les formats existants comme SBML dans leurs domaines d’applications communs (Demir et al., 2010).

b) SBML : Le Systems Biology Markup Language (SBML) est un modèle XML décrivant de manière qualitative et quantitative les modèles de réseaux biochimiques (Finney et Hucka, 2003). En effet, il est orienté vers la description des systèmes dans lesquels des entités biologiques sont impliquées et modifiées par des processus au fil du temps. Il contient notamment des éléments permettant de décrire la fonction mathématique associée au modèle ainsi que les réactions et leurs paramètres entre les espèces réagissant. Ainsi, SBML est particulièrement bien adapté pour modéliser les voies de signalisation cellulaire, des voies métaboliques et les régulations géniques.

Figure 20 : Entités composant BioPAX. Les quatre types de classes composant BioPAX sont les réseaux biologiques (en rouge), les interactions (en vert) et les entités physiques avec les gènes (en bleu). Les flèches représentent les relations entre les entités BioPAX. La figure est extraite de Demir et al. (2010).

c) Formats de graphes

✓ GraphML : GraphML est un modèle XML développé spécifiquement pour les graphes (Brandes et al., 2001). Ainsi, ce modèle a été pensé de façon à décrire tous les types de graphes (orientés, non orientés, mixtes, hiérarchiques et hypergraphes). De

manière générique, GraphML est composé d’entités nœuds reliées entre elles par des arcs, un arc étant caractérisé par un nœud "source" et un nœud "cible".

✓ OXL : Le format OXL est un format spécifique à Ondex. Bien que le programme Ondex soit plutôt dédié à l’analyse de données biologiques (Kohler et al., 2006), le format OXL a été développé de manière à couvrir un grand nombre d’applications. Il est ainsi suffisamment flexible et extensible pour combiner différents types de données (Taubert et al., 2007). OXL est défini comme un schéma XML composé de deux grands types d’éléments : ondexdataseq et ondexmetadata. Ondexdataseq décrit les éléments composant le graphe, tandis qu’ondexmetada contient la liste de tous les types de métadonnées utilisées dans le graphe. Ondexdataseq est composé de 2 groupes d’éléments : les concepts et les relations, représentant respectivement les nœuds et les arcs du graphe (Figure 21). Les concepts sont caractérisés par un identifiant unique (id ), un identifiant textuel alternatif (pid ), des annotations et une description. La base de données source du concept est représentée par elementOf et son type par of Type.

La méthode de mise en évidence du concept est également stockée. Le(s) nom(s) du concept sont collectés dans concept_name et la liste de leurs différents identifiants dans des bases de données dans concept_accession. Il est également possible de définir des attributs comme la date de collecte ou l’organisme source. Cette liste des attributs "personnalisés" correspond à concept_gds. Les relations entre concepts sont décrites comme allant d’un concept source fromConcept vers un concept cible to Concept. Ces relations sont précisées par leur type ofType (interaction, traduction,...). Comme les concepts, il est possible de définir des attributs

supplémentaires (relation_gds) pour mieux caractériser ces relations.

Figure 21 : Extrait d’un fichier OXL représentant les données Ondexdataseq et décrivant une interaction entre deux protéines

Les métadonnées (ondexmetadata) permettent de décrire les types de données utilisées dans le graphe. Elles sont caractérisées par un identifiant unique id, un nom fullname et une description description en texte libre et sont entièrement personnalisables par l’utilisateur. Il existe 6 types de métadonnées : les éléments de type cvs (“controlled vocabularies”) représentent le vocabulaire décrivant les sources de données utilisées pour décrire les concepts et les relations. Les éléments units correspondent aux unités des propriétés des concepts et des relations. Les façons dont les concepts et les relations ont été mis en évidence (mise en évidence expérimentale, ...) sont représentées par les éléments de type evidences. Les éléments de types attrnames (“attribut names”) qui sont des attributs définissables par l’auteur les concept classes et les relation types correspondent respectivement aux différents types de concepts et aux types de relations qui sont utilisées.

✓ RDF : Le Resource Description Framework (RDF) est un modèle d’échange de données sur le Web développé par le W3C8 . Un graphe RDF est composé de triplets (sujet, prédicat, objet) ou le sujet est la ressource à décrire, le prédicat est la propriété associée au sujet et l’objet correspond à la valeur de la propriété. Ainsi, le triplet correspondant à une interaction entre la protéine A et la protéine B est (A, interagit avec, B) ou (B, interagit avec, A).