• Aucun résultat trouvé

2.2 Mesures de distances et similarit ´es s ´emantiques

2.2.3 M ´ethodes hybrides

3 Synth`ese . . . 49

1 Ressources disponibles

1.1 Bases de donn´ees de voies m´etaboliques

Il existe plusieurs bases de donn ´ees de voies m ´etaboliques. Elles diff `erent par trois aspects principaux. Premi `erement, elles peuvent ˆetre d ´edi ´ees `a une seule esp `ece ou `a plusieurs. Deuxi `emement, chacune d’entre elles d ´efinit diff ´eremment le d ´ecoupage des suites de r ´eactions qui constituent une voie m ´etabolique. Troisi `emement, le formalisme employ ´e par chaque base de donn ´ees lui est g ´en ´eralement propre, ce qui rend difficile la comparaison ou la combinaison des donn ´ees issues de plusieurs bases. Une ´etude r ´ecente a montr ´e que les donn ´ees disponibles dans les grandes bases de donn ´ees de voies m ´etaboliques ont un faible niveau de coh ´erence, d’exhaustivit ´e et de compatibi-lit ´e [Soh et al.,2010].

1.1.1 Reactome

Reactome1 est une base de donn ´ees de voies m ´etaboliques multi-esp `eces [Croft et al., 2011]. Cependant, le cœur de Reactome concerne l’Humain, les ´ev `enements or-thologues concernant une vingtaine d’autres esp `eces ´etant manuellement inferr ´es. Les

1. RESSOURCES DISPONIBLES

31

donn ´ees sont toutes revues manuellement par des experts biologistes. L’unit ´e de base employ ´ee pour d ´ecrire une voie m ´etabolique est la r ´eaction. Les diff ´erentes entit ´es bio-logiques participant aux r ´eactions biochimiques forment un r ´eseau d’interactions biolo-giques et sont group ´es au sein de grandes voies m ´etaboliques. Tout le contenu de Reac-tome est librement disponible dans des formats d’ ´echange standards tels que SBML et BioPAX. SBML encode au format XML des mod `eles constitu ´es d’entit ´es (mol ´ecules) inter-ragissant dans des processus (r ´eactions). BioPAX (Biological Pathway Exchange) est un format standard bas ´e sur RDF/OWL qui a pour but de repr ´esenter les voies m ´etaboliques au niveau mol ´eculaire et cellulaire. BioPAX est plus complet que SBML gr ˆace au niveau s ´emantique apport ´e par OWL (Web Ontology Language), qui permet l’application de rai-sonnements `a l’aide d’outils comme Prot ´eg ´e. La figure 1 pr ´esente le nombre de voies m ´etaboliques, r ´eactions, complexes et prot ´eines recens ´es par Reactome en juin 2013. Gr ˆace `a son formalisme standard, sa gratuit ´e et la pr ´esence de la poule parmi les orga-nismes disponibles, Reactome a ´et ´e la base de donn ´ees de r ´ef ´erence pour les travaux men ´es au cours de cette th `ese.

FIGURE1 –Nombre de voies m ´etaboliques, r ´eactions, complexes et prot ´eines recens ´es par Reac-tome en juin 2013.

1.1.2 BioCyc et MetaCyc

BioCyc rassemble pr `es de 3000 bases de donn ´ees de voies m ´etaboliques, chacune d’entre elles ´etant mono-esp `ece, `a l’exception d’une seule (MetaCyc) [Caspi et al.,2012]. Ces bases de donn ´ees sont class ´ees dans trois niveaux en fonction de leur degr ´e de curation.

Le premier niveau contient des bases revues manuellement. Il s’agit des bases concer-nant Homo sapiens, Escherichia coli K12, Arabidopsis thaliana, Saccharomyces cerevi-siae et Leishmania major. `A ces bases mono-esp `ece s’ajoute la seule base multi-esp `eces

32

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

de BioCyc : MetaCyc. Cette base de donn ´ees du premier tiers de BioCyc contient l’infor-mation de 2042 voies m ´etaboliques pour 2414 organismes et sert de base `a l’inf ´erence automatique pour les deux autres tiers de BioCyc.

Le deuxi `eme niveau concerne des esp `eces pour lesquelles les donn ´ees ont ´et ´e ob-tenues par inf ´erence ´electronique et qui ont subi un processus de revue manuelle moins pouss ´e que dans le premier tiers. Parmi les 35 esp `eces de ce deuxi `eme tiers, toutes sont des bact ´eries ou des virus, `a l’exception de Mus musculus, Bos taurus et Drosophilia melanogaster.

Enfin le dernier niveau de BioCyc concerne les voies m ´etaboliques de 2948 esp `eces de bact ´eries et de virus. Les donn ´ees de ce dernier tiers sont issues d’inf ´erences ´electroniques g ´en ´er ´ees par un programme nomm ´e PathoLogic capable de pr ´edire les voies m ´etaboliques d’un organisme `a partir de son g ´enome [Paley et Karp,2002].

Les seuls vert ´ebr ´es pr ´esents dans BioCyc sont donc l’Homme (niveau 1), la Souris (niveau 2) et la Vache (niveau 2). Le contenu de BioCyc est disponible en contractant une license qui est gratuite pour des besoins de recherche acad ´emique. Les donn ´ees sont au format BioPAX. La faible repr ´esentation de vert ´ebr ´es dans BioCyc, et notamment l’absence de la Poule, a conduit `a envisager de n’utiliser BioCyc que dans le cadre d’une g ´en ´eralisation ult ´erieure `a la th `ese des m ´ethodes d ´evelopp ´ees `a d’autres esp `eces.

1.1.3 Kegg

KEGG est une base de donn ´ees de voies m ´etaboliques, revues manuellement, qui concerne plusieurs esp `eces et qui a ´et ´e d ´evelopp ´ee pour l’analyse des fonctionnalit ´es des cellules, des organismes et des ´ecosyst `emes [Kanehisa et Goto,2000]. Elle se base sur l’information mol ´eculaire issue de technologies exp ´erimentales `a haut-d ´ebit telles que le s ´equenc¸age de g ´enomes. KEGG r ´epertorie 2793 esp `eces, dont 192 eukaryotes. Parmi ceux-ci, on compte 26 vert ´ebr ´es dont l’Humain, la Souris et la Poule.

Depuis 2011, le t ´el ´echargement des donn ´ees de KEGG demande de souscrire une licence payante. Ces donn ´ees sont dans un format propre d ´evelopp ´e par KEGG, le format KGML. Ces deux derniers points nous ont tr `es rapidement incit ´e `a abandonner l’utilisation de KEGG.

1.1.4 Wikipathway

Wikipathway est un projet collaboratif visant `a ´elaborer une base de donn ´ees de voies m ´etabolique multi-esp `eces [Pico et al., 2008]. Wikipathway reprend d’une part les sch ´emas de voies m ´etaboliques disponibles dans d’autres bases de donn ´ees telles que Reactome ou KEGG, et d’autre part propose des sch ´emas cr ´e ´es par les utilisateurs `a l’aide d’un outil d’ ´edition graphique. Les donn ´ees sont librement t ´el ´echargeables sous diff ´erents formats, dont BioPAX. En raison de sa nature collaborative, Wikipathway a une composition plus h ´et ´erog `ene (dans les repr ´esentations et formalismes adopt ´es) que les autres bases de donn ´ees disponibles. Par cons ´equent, Wikipathway n’a ´et ´e utilis ´e dans cette th `ese qu’ `a des fins de recherche d’exemples et de v ´erifications crois ´ees ponctuelles.

1. RESSOURCES DISPONIBLES

33

1.1.5 Ingenuity

Ingenuity Pathway Analysis (IPA) est un outil d ´evelopp ´e par Ingenuity Systems pour l’ ´etude des voies m ´etaboliques et r ´eseaux biologiques2. Il fonctionne selon un mod `ele non libre payant. L’export de donn ´ees g ´en ´er ´ees par IPA est tr `es limit ´e et ne se pr ˆete pas `a leur inclusion dans une ´etude `a grande ´echelle. L’int ´er ˆet d’IPA dans le cadre d’une telle ´etude r ´eside en la possibilit ´e de confirmer manuellement une hypoth `ese particuli `ere obtenue avec un autre outil.

1.2 Bases de connaissances et ontologies

En compl ´ement des bases de donn ´ees, il existe des bases de connaissances et ontologies qui r ´epertorient et structurent les informations relatives aux domaines qui nous int ´eressent. Elles constituent une ressource essentielle pour l’annotation des connaissances. Elles permettent l’application de raisonnements afin de faire apparaˆıtre des connaissances implicites `a partir de celles disponibles dans les grandes bases de donn ´ees.

1.2.1 D´efinition et propri´et´es d’une ontologie

Une ontologie est une repr ´esentation formelle des connaissances symboliques dans laquelle les concepts (classes) sont d ´ecrits `a la fois par leur signification et par leurs re-lations [Bard et Rhee,2004]. Une ontologie se pr ´esente sous la forme d’un graphe dans lequel chaque nœud est une classe relative au domaine d ´ecrit par l’ontologie. Ces nœuds peuvent ˆetre reli ´es par diff ´erents liens, le lien le plus fr ´equent ´etant la relation “Is a”, qui relie une classe `a une super-classe.

Le graphe d’une ontologie est orient ´e, c’est- `a-dire que les relations entre les nœud ont un sens. Cela permet la description de la connaissance formalis ´ee en allant des concepts les plus g ´en ´eraux aux plus pr ´ecis. Dans une ontologie, uneclasse(ouconcept, outerme) est un nœud du graphe. Les termes situ ´es en amont d’un nœud sont ses

anc ˆetres et ceux situ ´es en aval sont sesdescendants. Parmi les anc ˆetres d’un terme, ceux qui ne sont s ´epar ´es de ce terme que par une relation sont sesparents. De m ˆeme, parmi les descendants d’un terme, ceux qui ne sont s ´epar ´es de ce terme que par une relation sont sesenfants. Le concept le plus g ´en ´eral d’une ontologie n’a pas de parent ; il s’agit de laracine.

La figure2pr ´esente une ontologie tr `es simple et non exhaustive des vert ´ebr ´es. Il s’agit d’une portion de la NCBI Taxonomy of species3simplifi ´ee pour la claret ´e de l’explication. Dans cet exemple, tous les termes sont li ´es par une relation “is a”. Chaque terme a un ou plusieurs enfants et un seul parent (sauf la racine). Cette structure est celle d’un arbre, et notre ontologie est une simple taxonomie.

2. Ingenuity R Systems,www.ingenuity.com

34

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

FIGURE 2 – Ontologie non exhaustive des vert ´ebr ´es. Les relations sont toutes des liens “is a”. Lesvert ´ebr ´esconstituent un sous-embranchement du r `egne animal. Il se divise en plusieurs classes, dont deux sont figur ´ees ici : lesmammif `ereset lespoissons. Chaque classe peut

ˆetre subdivis ´ee en plusieurs groupes qui comprennent chacune des esp `eces.

Les concepts qui constituent les nœuds d’une ontologie peuvent ˆetre utilis ´es pour d ´ecrire des donn ´ees par un processus d’annotation. L’int ´er ˆet d’une ontologie r ´eside en trois propri ´et ´es importantes :

– Une ontologie est g ´en ´erique, c’est- `a-dire que la connaissance qui y est formalis ´ee est vraie tout le temps, par opposition aux donn ´ees annot ´ees, qui sont anecdoc-tiques. Ainsi, Wallace est un chienest une annotation anecdotique, alors que

les chiens sont des mammif `eresest une connaissance universelle.

– Une ontologie permet le partage et la r ´eutilisation des connaissances. En effet, une m ˆeme ontologie peut servir `a annoter diff ´erents jeux de donn ´ees. Ainsi, la taxo-nomie des esp `eces4 bas ´ee sur celle de Carl von Linn ´e sert de r ´ef ´erence `a des travaux de nombreux domaines. Les principales ontologies biom ´edicales sont dis-ponibles sur bioportal [Whetzel et al.,2011] ou obofoundry5.

– Il est possible de proc ´eder `a du raisonnement sur une ontologie [Eiter et al.,2006]. Plusieurs types de raisonnements peuvent ˆetre appliqu ´es, voire combin ´es comme la g ´en ´eralisation ou l’abstraction, la classification, la mesure de distance ou de si-milarit ´e entre concepts ou ensembles de concepts [Jun et al.,2002;Shahar et al.,

1999;Zhao et al.,2009;Wolstencroft et al.,2006;Kulik et al.,2005].

Une ontologie permet une meilleure exploitation des donn ´ees stock ´ees dans les bases de donn ´ees. Cela recouvre deux types d’am ´elioration, qui ne sont pas exclusives. Une ontologie permet d’enrichir les requ ˆetes afin de r ´eduire le bruit et le silence. Une ontologie permet aussi d’interpr ´eter les r ´esultats d’une requ ˆete afin d’en tirer des connaissances implicites au premier abord.

Dans une ontologie, certaines relations, telle la relation “is a”, sont transitives, permet-tant l’h ´eritage des anc ˆetres. Cela signifie que si un terme C est reli ´e `a un terme B par une relation “is a” et que B est ´egalement reli ´e reli ´e `a A par un “is a”, alors on pourra dire que C is a A. Cette r `egle est vrai quelque soit le nombre de termesinterm ´ediaires. Ainsi, dans l’ontologie donn ´ee en exemple, Homo sapiens et Mus musculus sont tous deux des placentaires mais ´egalement des mammif `eres. Macropus rufus (le kangourou roux) est aussi un mammif `ere, mais par contre il n’est pas placentaire mais marsupial.

4. http://www.ncbi.nlm.nih.gov/taxonomy/

1. RESSOURCES DISPONIBLES

35

En plus de la relation “is a” qui d ´efinit une hi ´erarchie de classes, une ontologie peut comporter des propri ´et ´es affect ´ees `a certaines classes. Dans la Figure3, des propri ´et ´es sont associ ´ees `a certaines classes. Par exemple, on peut affecter la propri ´et ´e ”a la ca-pacit ´e de nager” `a la classe poisson . Cette propri ´et ´e s’applique alors `a toutes les instances de la classes poisson , qu’elles soient directes ou indirectes, c’est- `a-dire instances d’une sous-classe depoisson. Puisque Salmo salar est une sous-classe de

poisson, on en d ´eduit que les saumons ont la capacit ´e de nager. Il faut remarquer qu’il s’agit ici d’une condition n ´ecessaire (tous les poissons ont n ´ecessairement la capacit ´e de nager) mais pas suffisante (des animaux qui ne sont pas des poissons peuvent aussi avoir cette capacit ´e).

Il est ´egalement possible d’affecter une propri ´et ´e n ´ecessaire et suffisante `a une classe, qui agit alors comme une d ´efinition. Par exemple, on peut d ´efinir la classe

mammif `erecomme l’ensemble des animaux poss ´edant des glandes mammaires et allaitant leurs petits. Puisqu’il s’agit d’une condition n ´ecessaire, cette d ´efinition s’applique naturellement `a toutes les instances de mammif `ere. Le fait que ce soit ´egalement une condition suffisante permet de d ´eduire que si un animal poss `ede des glandes mammaires et allaite ses petits, alors c’est une instance de mammif `ere. Si on avait (de fac¸on erron ´ee) fait de la capacit ´e de nager une d ´efinition de la classe poisson, on aurait pu en d ´eduire que les dauphins sont des poissons. A l’inverse, la respiration exclusivement branchiale est propre aux poissons, faisant de cette propri ´et ´e une condition n ´ecessaire et suffisante (le terme exclusivement ayant son importance pour ne pas classer les amphibiens parmi les poissons en raison des branchies qu’ils ne poss `edent qu’au stade larvaire).

FIGURE3 –Ontologie non exhaustive des animaux. Chaque classe peut avoir plusieurs propri ´et ´es. Ici, 7 classes sont d ´ecrites chacune par une propri ´et ´e.

Il est important d’ ˆetre exhaustif dans la d ´efinition des classes afin de ne pas faire d’er-reur. Ainsi, si on ajoute une classeOiseau `a notre exemple, simplement d ´ecrite par les propri ´et ´esposs `ede un becetest ovipare, il sera possible de classer Ornithorhyn-chus anatinus (l’ornithorynque) `a la fois dans les mammif `eres (parce qu’il allaite ses petits) et dans les oiseaux (parce qu’il a un bec et pond des œufs). Pour ´eviter ce genre d’erreurs, il est possible d’utiliser la disjonction. Ainsi, dans la taxonomie des vert ´ebr ´es, toutes les classes sont disjointes : il est impossible d’appartenir `a plusieurs classes `a la fois. Ajouter suffisamment de propri ´et ´es dans la description des classes et utiliser la disjonction `a bon escient permet d’ ´eviter les erreur.

36

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

Toutes les classes d’une ontologie ne sont pas r ´eparties de fac¸on homog `ene. On parle de diff ´erences de granularit ´e. La figure 4 ajoute la classe Oiseau `a notre exemple d’ontologie des vert ´ebr ´es. Or cette classe n’est pas subdvis ´ee en groupes. Les esp `eces qui respectent les propri ´et ´es de la classeOiseauy sont directement rattach ´ees. Seuls deux liens s ´eparent ainsi Gallus gallus de la racine de l’ontologie, contre trois pour Homo sapiens : il y a une diff ´erence de granularit ´e.

FIGURE4 –Ontologie non exhaustive des animaux. On constate une diff ´erence de granularit ´e entre les esp `eces Ciconia ciconia et Gallus gallus qui sont directement attach ´es `a la classe taxomique des oiseaux et les autres esp `eces qui d ´ependent d’abord d’un groupe taxonomique avant d’ ˆetre attach ´e

`a une classe taxonomique.

Enfin, une propri ´et ´e importante des ontologies est pr ´esent ´ee dans la Figure 5 : l’h ´eritage multiple. A partir du moment o `u deux classes ne sont pas disjointes, plusieurs sous-classes peuvent s’y rattacher. Dans cette ontologie qui classifie les animaux en fonction de leur cadre de vie, on peut voir que certains animaux peuvent se trouver dans plusieurs cadres de vie diff ´erents. Ainsi, Oryctolagus cuniculus (le lapin) peut vivre `a l’ ´etat sauvage comme ˆetre domestiqu ´e ou ´elev ´e pour sa viande ou dans un laboratoire. Dans cet exemple, les cadres de vie ne sont pas disjoints, alors que les esp `eces qui y vivent le sont.

FIGURE5 –Ontologie d’animaux class ´es en fonction de leur cadre de vie. Chaque esp `ece peut se trouver dans diff ´erent cadres de vie.

1.2.2 Gene Ontology

Gene Ontology (GO) est un projet visant `a standardiser la repr ´esentation des connais-sances concernant les g `enes et produits de g `enes [Ashburner et al.,2000]. GO propose un vocabulaire contr ˆol ´e, compos ´e de termes hierarchis ´es et permettant de d ´ecrire les

ca-1. RESSOURCES DISPONIBLES

37

ract ´eristiques d’un produit de g `ene. Ce vocabulaire est commun `a tous les produits de g `enes, quels que soient les g `enes et les esp `eces consid ´er ´es. GO est divis ´e en trois sec-tions principales ind ´ependantes relatives aux processus biologiques (biological process, BP), aux fonctions mol ´eculaires (molecular functions, MF) et aux composants cellulaires (cellular component, CC).

Les nœuds de Gene Ontology sont des termes d ´ecrivant les caract ´eristiques d’un produit de g `ene. Ils sont appel ´es “Termes GO”. Ces termes GO sont li ´es par cinq relations diff ´erentes :

– “Is a” est une relation simple de type classe/sous-classe. A is a B signifie que A est une sous-classe de B, c’est- `a-dire que toutes les instances de A sont des instances de B. Si A is a B is a C, on peut inf ´erer que A is a C.

– “Part of” est une relation de composition partielle. C part of D signifie que chaque instance de C est toujours une partie d’au moins une instance de D. Cela n’implique pas que toutes les instances de D aient au moins une partie qui soit une instance de C. Si A part of B part of C, alors A part of C.

– La relation “Regulates” et ses 2 sous-relations “Positively Regulates” et “Negatively Regulates” d ´ecrivent une interaction entre un processus biologique et un autre. A Regulates B signifie que chaque instance de A r ´egule B, mais que toutes les ins-tances de B ne sont pas forc ´ement r ´egul ´ees par A. Si A regulates B is a C, ou bien si A is a B regulates C, alors A regulates C. Il en va de m ˆeme pour les relations Positively et Negatively Regulates.

La figure6pr ´esente un extrait de GO.

FIGURE 6 – Extrait de Gene Ontology. Les relations entre les termes sont repr ´esent ´ees par les fl `eches color ´ees. L’initiale du nom de la relation figure sur la fl `eche (I : is a, P : part of, R sur fond noir : regulates, R sur fond rouge : negatively regulates et R sur fond vert : positively regulates). Cette image est issue de la documentation du site web de GO.

1.2.3 Gene Ontology Annotation

Gene Ontology Annotation (GOA) est un projet du European Bioinformatics Institute (EBI) ayant pour but l’annotation de produits de g `enes de diff ´erentes esp `eces par des

38

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

termes GO [Camon et al.,2003]. Il se base sur plusieurs bases de donn ´ees comme Uni-Prot ou Ensembl, chaque entr ´ee restant unique. GOA est donc un trait d’union entre ces bases de donn ´ees et Gene Ontology [Hill et al.,2008]. Chaque produit de g `ene est iden-tifi ´e dans GOA par son symbole et son num ´ero de taxon, ainsi que par un id propre `a chaque base de donn ´ees de g `enes. C’est par le biais de cette identification que chaque produit de g `ene est associ ´e `a un ou plusieurs termes GO.

La base de donn ´ees GOA propose des tables s ´epar ´ees pour les annotations de pro-duits de g `enes de 7 esp `eces mod `eles (Humain, Souris, Rat, Arabidopsis, Poule, Vache et

Documents relatifs