• Aucun résultat trouvé

Méthodes sémantiques pour la comparaison inter-espèces de voies métaboliques : application au métabolisme des lipides chez l'humain, la souris et la poule

N/A
N/A
Protected

Academic year: 2021

Partager "Méthodes sémantiques pour la comparaison inter-espèces de voies métaboliques : application au métabolisme des lipides chez l'humain, la souris et la poule"

Copied!
216
0
0

Texte intégral

(1)

HAL Id: tel-00926498

https://tel.archives-ouvertes.fr/tel-00926498

Submitted on 9 Jan 2014

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Méthodes sémantiques pour la comparaison inter-espèces

de voies métaboliques : application au métabolisme des

lipides chez l’humain, la souris et la poule

Charles Bettembourg

To cite this version:

Charles Bettembourg.

Méthodes sémantiques pour la comparaison inter-espèces de voies

métaboliques : application au métabolisme des lipides chez l’humain, la souris et la poule.

Bio-Informatique, Biologie Systémique [q-bio.QM]. Université Rennes 1, 2013. Français. �tel-00926498�

(2)

ANNÉE 2013

THÈSE / UNIVERSITÉ DE RENNES 1

sous le sceau de l’Université Européenne de Bretagne

pour le grade de

DOCTEUR DE L’UNIVERSITÉ DE RENNES 1

Mention : Biologie

École doctorale VAS

présentée par

Charles Bettembourg

Préparée au sein des unités de recherche UMR1348 PEGASE et UMR6074 IRISA

PEGASE : Physiologie, Environnement et Génétique pour l’Animal et les Systèmes d'Élevage

IRISA : Institut de recherche en informatique et systèmes aléatoires

Méthodes sémantiques

pour la comparaison

inter-espèces de voies

métaboliques :

application au

métabolisme des

lipides chez l'humain,

la souris et la poule

Thèse soutenue à Rennes

le 16 décembre 2013

devant le jury composé de :

Christine FROIDEVAUX

Professeur, Université Paris-Sud / rapportrice

Philippe BESSIÈRES

Directeur de recherche, INRA / rapporteur

Nathalie AUSSENAC-GILLES

Directrice de recherche, CNRS / examinatrice

Philippe VANDENKOORNHUYSE

Professeur, Université de Rennes 1 / examinateur

Christian DIOT

Directeur de recherche, INRA / directeur de thèse

Olivier DAMERON

Maître de conférences, Université de Rennes 1

(3)
(4)

REMERCIEMENTS

Je tiens tout d’abord `a remercier mes deux directeurs de th `ese, Olivier Dameron et Christian Diot pour leur encadrement. Malgr ´e un emploi du temps parfois tr `es charg ´e, ils ont toujours eu `a cœur de suivre de pr `es l’ ´evolution de mes travaux. Mon agenda se souvient de plus de 120 r ´eunions au cours desquelles le projet de th `ese s’est peu `a peu concr ´etis ´e, et de plus de 2500 mails ´echang ´es entre Olivier, Christian et moi. Sans parler des heures d’ ´echanges par messagerie instantan ´ee pour ´emettre une id ´ee, la discuter et se tenir inform ´e de son devenir. Merci pour cette implication constante, et merci pour votre confiance.

Je suis aussi reconnaissant envers les rapporteurs de cette th `ese, Christine Froide-vaux et Philippe Bessi `eres, pour l’ ´evaluation de mon travail et pour l’int ´er ˆet qu’ils y ont port ´e. Merci aussi `a Nathalie Aussenac-Gilles et `a Philippe Vandenkoornhuyse pour avoir accept ´e de faire partie de mon jury.

Je remercie les membres de mon comit ´e de th `ese, Jacques Mourot, Emmanuelle Becker, Bernard Gibaud, Thomas Faraut et Pierre-Yves Le Bail pour leur suivi et leurs conseils apport ´es au cours de nos discussions.

Ce travail a ´et ´e possible gr ˆace `a un financement plac ´e sur ce sujet situ ´e `a l’interface de la biologie et de l’informatique par le choix du pr ´esident de l’Universit ´e de Rennes 1, Guy Cathelineau que je tiens `a remercier.

Je souhaite remercier ensuite les membres des trois ´equipes qui m’ont accueilli : Un grand merci `a l’ ´equipe G ´en ´etique et G ´enomique de l’unit ´e PEGASE (INRA) qui m’a accueilli pendant presque quatre ans, d `es mon stage de master 2. Je pense d’une part `a ceux qui continuent `a faire tourner le labo : Christian Diot, Pascale Leroy, Sandrine La-garrigue, Olivier Demeure, Pierre-Franc¸ois Roux, Fr ´ed ´eric H ´erault, Olivier Filangi, Colette D ´esert, Fr ´ed ´eric Lecerf, Sophie Allais, H ´el `ene Rom ´e, Jean-Marc Fraslin et Magalie Hou ´ee et d’autre part `a ceux qui y sont pass ´es ou en sont parti : Christine Gourbe, C ´ecile Duby, Walid Bedhiafi, Yoannah Franc¸ois, Thomas Obadia, Aymeric Antoine-Lorquin, Julien Na-varro et ´Emile Richard. Enfin, mille mercis aux anciens doctorants avec qui j’ai pass ´e des moments inoubliables : Yvan Le Bras, Marion Ou ´edraogo, Yuna Blum et Xiaoqiang Wang. Ils m’avaient mis dans l’ambiance d `es mon premier jour au labo, en stage de master 2, avec la pr ´eparation et le tournage d’un court-m ´etrage pr ´esentant leurs travaux. Comment

(5)

4

mieux commencer ? Mais j’aurai l’occasion de reparler de courts-m ´etrages un peu plus loin !

Je remercie ´egalement les membres de l’U936 (INSERM) avec qui j’ai interragi en stage avant la th `ese, et pendant les deux premi `eres ann ´ees de celle-ci : Anita Burgun, Arnaud Rosier, Delphine Rossille, Isabelle St ´evant, Nicolas Schnel et Thomas Bernicot.

Depuis 2013 j’ai aussi ´et ´e accueilli dans le d ´epartement Data and Knowledge Mana-gement `a l’IRISA (INRIA) o `u j’ai pu interragir avec des membres des ´equipes Dyliss et Genescale et des membres de la plateforme bio-informatique GenOuest : Anne Siegel, Dominique Lavenier, Olivier Collin, Jacques Nicolas, Pierre Peterlongo, Sylvain Prigent, Nicolas Maillet, Guillaume Chapuis, Geoffroy Andrieux, Vincent Picard, Ga ¨elle Garet, Ma-thilde Le Boudic-Jamin, Valentin Wucher, Guillaume Collet, Olivier Quenez, Jeanne Cam-befort, Anthony Bretaudeau et Olivier Sallou.

Je tiens `a remercier ici des personnes d’autres laboratoires qui m’ont elles aussi per-mis d’avancer dans mes travaux. Merci `a Nolwenn Le Meur (EHESP), avec qui nous avons ´etudi ´e l’ ´evolution de la complexit ´e de Gene Ontology. Merci `a Dietrich Rebholz-Schuhmann (Universit ´e de Zurich) qui m’a permis de pr ´esenter en s ´eminaire mes travaux concernant GO2PUB au groupe Uniprot de l’EBI.

Cette th `ese fait suite `a des travaux initi ´es d `es mon premier stage de master et j’en profite pour remercier celles et ceux que j’ai rencontr ´e gr ˆace `a ce master et avec qui je suis rest ´e en contact. Certains se retrouveront `a plusieurs endroit dans cette section de remerciements, ce qui me laisse penser que notre petite communaut ´e “master MSB” s’est form ´e `a l’ ´epoque sur des bases solides, pr ´eludant `a de longues amiti ´es aussi bien pro-fessionnelles que personnelles. Merci donc `a Nicolas Maillet, Sylvain Prigent, Geoffroy Andrieux, Thomas Bernicot, Nicolas Schnel, Sylvain L ´eonard, Thomas Vernet, Tristan Bi-tard Feildel, Isabelle St ´evant, Mathilde Le Boudic-Jamin, ´Elodie Ruelle, Charlotte Paillette, Thomas Obadia, Arnaud Le Cavorzin, Damien Choisne, Alexandre Cormier, Julien Na-varro et ´Emile Richard.

Je souhaite aussi remercier les membres des associations dans lesquelles j’ai ´et ´e im-pliqu ´e. Merci donc `a celles et ceux avec qui on a fait vivre DocAIR : Marie Verbanck, C ´ecile Sauder, Thierry Le Naou, Bertrand Vautier, Marion Ou ´edraogo, Yuna Blum et Pierre-Franc¸ois Roux. Merci ´egalement au bureau de LUCA avec qui nous avons souvent col-labor ´e : Emmanuel Gallaud, Leslie Rati ´e, Jocelyn Plassais et Nicolas Loyer. Et merci `a Joseph Chazalon et `a Nicomaque pour avoir r ´eussi `a coordonner les diff ´erentes associa-tions de doctorants rennaises pour cr ´eer des ´ev `enements de grande ampleur tels que le forum Docteurs & Entreprises et le festival Sciences en Cour[t]s. Je fermerai d’ailleurs la parenth `ese assos en parlant de ce festival gr ˆace auquel nous avons pu faire sortir nos ch `eres th ´ematiques scientifiques de nos labos. Gr ˆace `a Sciences en Cour[t]s, j’ai pu par-ticiper `a la r ´ealisation de quatres films, merci donc `a Yvan, Marion, Yuna et Xiao pour la Poule et la Truite, une fable moderne, `a Geoffroy et Nico pour Bioinformaticus, `a Marie et C ´ecile pour Statistix et le probl `eme de la potion magique et `a Pef et H ´el `ene pour Quand les poules ont eu des dents. J’ai ´egalement pu participer `a l’organisation de l’ ´edition 2013 du festival, pour laquelle je remercie toute l’ ´equipe : Marie Verbanck, C ´ecile Sauder, Coraline Lafon, Yuna Blum, Sylvain Prigent, Nicolas Maillet, Ga ¨elle Garet et Sophie Allais.

(6)

tou-5

jours soutenu. Merci donc en particulier `a mon p `ere, qui m’a toujours pouss ´e `a donner le meilleur de moi-m ˆeme, `a mon grand-p `ere, qui voit enfin le bout de ces looooongues ´etudes et `a ma grand-m `ere qui sait sans doute maintenant qu’h ´elas non, m ˆeme en travaillant dans la recherche, je n’ai pas trouv ´e de rem `ede aux rhumatismes... Un grand merci ´egalement `a Francine, Alexandra et Fabien pour leur soutien, et enfin merci `a Xavier-Alexandre et `a Louis-Alexandre pour ˆetre les plus merveilleux neveux du monde, petites graines de docteurs !

(7)
(8)

7

ethodes s´

emantiques pour la comparaison inter-esp`

eces de

voies m´

etaboliques : application au m´

etabolisme des lipides

chez l’humain, la souris et la poule

La comparaison inter-esp `eces de voies m ´etaboliques est une probl ´ematique impor-tante en biologie. Elle constitue un enjeu aussi bien pour la sant ´e humaine que pour l’agronomie. Actuellement, les connaissances sont g ´en ´er ´ees `a partir d’exp ´eriences sur un nombre relativement limit ´e d’esp `eces dites mod `eles. Mieux connaˆıtre une esp `ece per-met de valider ou non une inf ´erence faite `a partir de ces donn ´ees exp ´erimentales. C’est aussi n ´ecessaire pour d ´eterminer si ou dans quelle mesure des r ´esultats obtenus sur une esp `ece mod `ele peuvent ˆetre transpos ´es `a une autre esp `ece.

Cette th `ese propose une m ´ethode de comparaison inter-esp `eces de voies m ´etaboliques. Cette m ´ethode compare chaque ´etape d’une voie m ´etabolique en exploitant les annotations dans Gene Ontology qui leur sont associ ´ees. Ce travail (i) valide l’int ´er ˆet des mesures de similarit ´es s ´emantiques pour interpr ´eter ces annotations, (ii) propose d’utiliser conjointement une mesure de particularit ´e s ´emantique et (iii) propose une m ´ethode bas ´ee sur des motifs de similarit ´e et de particularit ´e pour interpr ´eter chaque ´etape de voie m ´etabolique. Les diff ´erentes ´etapes de cette approche sont appliqu ´ees `a l’ ´etude comparative du m ´etabolisme des lipides chez l’Homme, la souris et la poule.

De nombreux produits de g `enes interviennent tout au long d’une voie m ´etabolique. Des annotations peuvent ˆetre associ ´ees `a ces produits de g `enes afin de d ´ecrire leurs r ˆoles biologiques. En reposant sur une ontologie partag ´ee, ces annotations permettent de comparer les donn ´ees d’esp `eces diff ´erentes et de tenir compte de diff ´erents degr ´es de pr ´ecision. Il existe de nombreuses mesures s ´emantiques qui quantifient la similarit ´e entre des produits de g `enes en fonction des annotations qu’ils ont en commun. Nous en avons identifi ´e et utilis ´e une adapt ´ee `a la probl ´ematique de comparaison inter-esp `eces.

En se focalisant sur la part commune aux produits de g `enes compar ´es, les mesures de similarit ´e s ´emantiques ignorent les caract ´eristiques sp ´ecifiques d’un seul produit de g `ene. Or la comparaison inter-esp `eces de voies m ´etaboliques se doit de quantifier non seulement la similarit ´e des produits de g `enes qui interviennent dans celles-ci, mais ´egalement leurs particularit ´es. Nous avons d ´evelopp ´e une mesure de particularit ´e s ´emantique r ´epondant `a cette probl ´ematique. Pour chaque ´etape de voie m ´etabolique, nous calculons un profil compos ´e de sa valeur de similarit ´e et de ses deux valeurs de particularit ´e s ´emantiques.

Concernant l’interpr ´etation des r ´esultats, il n’est pas possible d’ ´etablir formellement que deux produits de g `enes sont similaires ou que l’un d’eux a des particularit ´es significa-tives sans disposer d’un seuil de similarit ´e et d’un seuil de particularit ´e. Jusqu’ `a pr ´esent, ces interpr ´etations se faisaient sur la base d’un seuil implicite ou arbitraire. Pour combler ce manque, nous avons d ´evelopp ´e une m ´ethode de d ´efinition de seuils pour les mesures de similarit ´e et de particularit ´e s ´emantiques.

Nous avons enfin appliqu ´e une mesure de similarit ´e inter-esp `eces et notre mesure de particularit ´e pour comparer le m ´etabolisme des lipides entre l’Homme, la souris et la poule. Nous avons pu interpr ´eter les r ´esultats `a l’aide des seuils que nous avions d ´efinis. Chez les trois esp `eces, des particularit ´es ont pu ˆetre observ ´ees, y compris au niveau de produits de g `enes similaires. Elles concernent notamment des processus biologiques et

(9)

8

des composants cellulaires. Les fonctions mol ´eculaires pr ´esentent une forte similarit ´e et peu de particularit ´es. Ces r ´esultats sont biologiquement pertinents.

Semantic methods for the cross-species metabolic pathways

comparison : application to human, mice and chicken lipid

metabolism

Cross-species comparison of metabolic pathways is an important task in biology. It is a major stake for both human health and agronomy. Currently, knowledge is acquired from some experiments on a relatively low number of species referred to as “models”. A better understanding of a species determines whether to validate or not an inference made from these experimental data. It also determines whether or to what extent results obtained on model species can be transposed to another species.

This thesis proposes a cross-species metabolic pathways comparison method. Our method compares each step of a metabolic pathway using the associated Gene Ontology annotations. This work (i) validates the interest of the semantic similarity measures for interpreting these annotations, (ii) proposes to use jointly a semantic particularity measure and (iii) proposes a method based on similarity and particularity patterns to interpret each metabolic pathway step. We applied the different steps of this approach to the comparative study of lipid metabolism for human, mice and chicken.

Several gene products are involved throughout a metabolic pathway. They are asso-ciated to some annotations in order to describe their biological roles. Based on a shared ontology, these annotations allow to compare data from different species and to take into account several level of abstraction. Several semantic measures quantifying the similarity between gene products from their annotations have been developed previously. We have identified and used a semantic similarity measure appropriate for cross-species compari-sons.

Because they focus on the common part of the compared gene products, the semantic similarity measures ignore their specific characteristics. Therefore, cross-species meta-bolic pathways comparison has to quantify not only the similarity of the gene products involved, but also their particularity. We have developed a semantic particularity measure addressing this issue. For each pathway step, we proposed to create a profile combining its semantic similarity and its two semantic particularity values.

Concerning the results interpretation, it is not possible to establish formally that two gene products are similar or that one of them have some significant particularities without having a similarity threshold and a particularity threshold. So far, these interpretations were based on an implicit or an arbitrary threshold. To address this gap, we developed a threshold definition method for the semantic similarity and particularity measures.

We last applied a cross-species similarity measure and our particularity measure to compare the lipid metabolism between human, mice and chicken. We then interpreted the results using the previously defined thresholds. In all three species, we observed some particularities, including on similar genes. They concerned notably some biological pro-cesses and cellular components. The molecular functions present a strong similarity and few particularities. These results are biologically relevant.

(10)

AVANT-PROPOS

Contexte

Cette th `ese a ´et ´e r ´ealis ´ee sous la direction de Christian Diot et Olivier Dameron, au sein des ´equipes G ´en ´etique et G ´enomique (UMR PEGASE INRA - Agrocampus Ouest) et Mod ´elisation Conceptuelle des Connaissances Biom ´edicales (UMR 936 INSERM - uni-versit ´e de Rennes 1) puis DYnamics, Logics and Inference for biological Systems and Sequences (UMR IRISA INRIA - CNRS). Le point de d ´epart de ce travail est l’existence de difficult ´es rencontr ´ees lors de l’ ´etude du m ´etabolisme des lipides chez la poule (Gallus gal-lus). En effet, bien que Gallus gallus compte parmi les esp `eces dites mod `eles pour l’ ´etude de ph ´enom `enes biologiques, les fonctions de la plupart de ses g `enes et ses diff ´erents m ´etabolismes sont encore mal connus. Cela conduit `a un processus de transposition de connaissances relatives `a une esp `ece mieux connue, comme l’Homme (Homo sapiens) ou la souris (Mus musculus). Or, on ne dispose pas de crit `eres pr ´ecis pour juger si cette op ´eration est l ´egitime, d’autant plus que Gallus gallus, `a la diff ´erence de Homo sapiens et Mus musculus, n’est pas un mammif `ere. Il n’existe pas de m ´ethode formelle de comparai-son permettant de d ´eterminer si des diff ´erences entre les s ´equences, entre les annotations de produits de g `enes et entre les r ´eactions des voies m ´etaboliques sont ou non associ ´ees

`a des diff ´erences de traits ph ´enotypiques observ ´es.

Ces observations ont motiv ´e une collaboration entre les diff ´erentes ´equipes men-tionn ´ees pr ´ec ´edemment. Christian Diot et l’ ´equipe G&G ont propos ´e la probl ´ematique et fourni l’expertise biologique relative au m ´etabolisme des lipides chez Gallus gallus. Olivier Dameron et l’UMR 936, puis Dyliss, ont d ´efini le cadre informatique et s ´emantique requis pour traiter cette probl ´ematique et ont accompagn ´e les d ´eveloppements m ´ethodologiques r ´ealis ´es. Cette th `ese se situe donc `a la crois ´ee de la biologie et de l’informatique, avec l’ambition d’apporter des solutions pertinentes `a un probl `eme biologique en d ´eveloppant et en utilisant des m ´ethodes et outils s ´emantiques.

La probl ´ematique de comparaison fonctionnelle entre esp `eces n’est pas sp ´ecifique au seul m ´etabolisme des lipides. Les d ´eveloppements propos ´es ici se veulent avant tout g ´en ´eriques ; ils peuvent ˆetre appliqu ´es `a n’importe quel m ´etabolisme et `a n’importe quelle esp `ece (sous r ´eserve d’un minimum de connaissance disponible).

(11)

10

Structure du manuscrit

Le premier chapitre du manuscrit expose le contexte biologique de cette th `ese et d ´efinit notre probl ´ematique et notre objectif.

Le deuxi `eme chapitre permet d’identifier les ressources et m ´ethodes pertinentes dis-ponibles et les besoins de nouveaux d ´eveloppements.

Les deux chapitres suivants d ´ecrivent les m ´ethodes de comparaisons s ´emantiques d’annotations de produits de g `enes. Ils couvrent respectivement le d ´eveloppement d’une nouvelle mesure de particularit ´e s ´emantique et l’interpr ´etation conjointe des valeurs de similarit ´e et de particularit ´e s ´emantiques.

Le chapitre 5 concerne l’application des m ´ethodes pr ´ec ´edemment d ´ecrites `a la comparaison inter-esp `eces de voies m ´etaboliques. Il se focalisera principalement sur le m ´etabolisme des lipides chez la poule, la souris et l’Homme.

Enfin un dernier chapitre d ´ecrit l’apport des approches d ´evelopp ´ees au cours de ce travail de th `ese dans d’autres domaines, comme la recherche bibliographique, la compa-raison fonctionnelle de g `enes dupliqu ´es et l’ ´evolution de Gene Ontology.

(12)

TABLE DES MATI`

ERES

Avant-propos 9

I

Etat de l’art

´

15

1 Introduction 17

1 Contexte biologique . . . 18

1.1 G ´en ´eralit ´es sur le m ´etabolisme des lipides . . . 18

1.2 Particularit ´es du m ´etabolisme des lipides chez les oiseaux . . . 24

2 Comparaison : de l’approche structurelle `a l’approche fonctionnelle . . . 26

3 Objectif . . . 27

2 Mat ´eriel et m ´ethodes 29 1 Ressources disponibles . . . 30

1.1 Bases de donn ´ees de voies m ´etaboliques . . . 30

1.1.1 Reactome . . . 30

1.1.2 BioCyc et MetaCyc . . . 31

1.1.3 Kegg . . . 32

1.1.4 Wikipathway . . . 32

1.1.5 Ingenuity . . . 33

1.2 Bases de connaissances et ontologies. . . 33

1.2.1 D ´efinition et propri ´et ´es d’une ontologie . . . 33

1.2.2 Gene Ontology. . . 36

1.2.3 Gene Ontology Annotation . . . 37

2 Comparaison de termes et d’ensembles de termes d’une ontologie . . . 43

2.1 M ´etriques simples : Jaccard et Dice . . . 43

2.2 Mesures de distances et similarit ´es s ´emantiques . . . 43

2.2.1 M ´ethodes bas ´ees sur les ar ˆetes . . . 44

2.2.2 M ´ethodes bas ´ees sur les nœuds. . . 45

2.2.3 M ´ethodes hybrides . . . 46

(13)

12

TABLE DES MATI `ERES

II

R ´esultats

51

3 Particularit ´e s ´emantique 53

1 Introduction . . . 54

2 Article . . . 57

2.1 Introduction . . . 57

2.1.1 Semantic similarity. . . 58

2.1.2 Limitations of semantic similarity . . . 59

2.2 Method . . . 59

2.2.1 Definition of semantic particularity . . . 59

2.2.2 Formal properties . . . 60

2.2.3 Measure of semantic particularity . . . 60

2.3 Results . . . 62

2.3.1 Case 1 : S. cerevisiae tryptophan degradation . . . 62

2.3.2 Case 2 : Homo sapiens aquaporin-mediated transport. . . 63

2.3.3 Case 3 : Homologs comparison . . . 63

2.4 Discussion . . . 64

2.4.1 Semantic particularity . . . 64

2.4.2 Case studies : benefits of the semantic particularity . . . . 65

2.4.3 Interpretation of similarity and particularity values . . . 66

2.4.4 Synthesis . . . 66

2.5 References . . . 67

3 Synth `ese . . . 78

4 Interpr ´etation des r ´esultats d’une mesure s ´emantique 79 1 Introduction . . . 80

2 Article . . . 82

2.1 Introduction . . . 82

2.2 Method . . . 84

2.2.1 Metrics . . . 84

2.2.2 Similarity threshold determination . . . 86

2.2.3 Particularity threshold . . . 87

2.2.4 Threshold stability study . . . 87

2.2.5 Evaluation . . . 87

2.3 Results and Discussion . . . 87

2.3.1 Determination of a threshold range . . . 87

2.3.2 Threshold value optimization . . . 88

2.3.3 Evaluation . . . 89

2.4 Conclusion . . . 90

2.5 References . . . 91

(14)

TABLE DES MATI `ERES

13

5 Comparaison inter-esp `eces du m ´etabolisme des lipides 109

1 Comparaison structurelle . . . 110

2 Comparaison fonctionnelle . . . 117

2.1 Comparaison entre Homo sapiens et Mus musculus . . . 117

2.1.1 Vue g ´en ´erale . . . 118

2.1.2 Extrait des r ´esultats . . . 124

2.2 Comparaison entre Homo sapiens et Gallus gallus . . . 127

2.2.1 Vue g ´en ´erale . . . 127

2.2.2 Extrait des r ´esultats . . . 132

2.3 Interpr ´etation . . . 134

3 Biais et limites de la comparaison. . . 137

3.1 Structure des voies m ´etaboliques. . . 137

3.2 Annotations . . . 138

3.2.1 Evidence codes . . . 138

3.2.2 Exhaustivit ´e des annotations . . . 139

3.3 Comparaison de g `enes par paires . . . 139

4 Conclusion . . . 139

III

Autres applications

141

6 Application des m ´ethodes s ´emantiques `a d’autres probl ´ematiques 143 1 D ´eveloppement d’une m ´ethode et d’un outil de recherche bibliographique utilisant GO : GO2PUB . . . 147

1.1 Background . . . 148

1.2 Results . . . 149

1.3 Discussion . . . 153

1.4 Resources and methods. . . 155

2 Apport de la similarit ´e s ´emantique dans la comparaison de g `enes dupliqu ´es 161 2.1 Introduction . . . 161

2.2 Results . . . 162

2.3 Discussion . . . 163

2.4 Materials and methods . . . 166

3 Etude de l’ ´evolution de la complexit ´e de Gene Ontology´ . . . 171

3.1 Introduction . . . 171

3.2 Resources and methods. . . 172

3.3 Results . . . 176

3.4 Discussion . . . 182

3.5 Conclusion . . . 187

Conclusion g ´en ´erale 191

Liste des travaux 195

(15)
(16)

Premi `ere partie

´

(17)
(18)

CHAPITRE

1

INTRODUCTION

D

ans ce chapitre, nous pr´esentons le contexte biologique, rappelons ce qu’est une voie m´etabolique, ´elaborons la probl´ematique et d´efinissons l’objectif de cette th`ese. Comme mentionn´e dans l’avant-propos, le point de d´epart de ce travail a ´et´e un constat de difficult´es dans l’´etude du m´etabolisme des lipides chez la poule. Nous expliquerons donc tout d’abord le fonctionnement g´en´eral du m´etabolisme des lipides tel qu’on le connaˆıt grˆace `a l’´etude de l’Homme et du mod`ele murin. Puis nous citerons les particularit´es connues de ce m´etabolisme chez les oiseaux, notamment chez la poule. Nous verrons que les connaissances concernant la structure des voies m´etaboliques refl`etent parfois mal ces particula-rit´es. Cela nous conduira `a identifier le besoin d’une nouvelle approche syst´ematique prenant en compte non seulement les donn´ees relatives `a la structure des voies m´etaboliques que l’on souhaite ´etudier, mais ´egalement les connaissances disponibles sur les g`enes qui interviennent dans ces voies m´etaboliques.

(19)

18

CHAPITRE 1. INTRODUCTION

Sommaire

1 Contexte biologique . . . 18

1.1 G´en´eralit´es sur le m´etabolisme des lipides . . . 18

1.2 Particularit´es du m´etabolisme des lipides chez les oiseaux . . 24

2 Comparaison : de l’approche structurelle `a l’approche fonc-tionnelle . . . 26

3 Objectif . . . 27

1

Contexte biologique

Une voie m ´etabolique est une suite de r ´eactions biochimiques intervenant dans un or-ganisme afin d’en assurer le bon fonctionnement. Les lipides constituent avec les protides et les glucides une des trois classes de nutriments ´energ ´etiques, indispensables `a la vie. Les lipides sont des mol ´ecules hydrophobes ou amphipathiques1issues pour tout ou

par-tie de la condensation de thio-esters (acides gras, glyc ´erolipides, glyc ´erophospholipides, sphingolipides, glycolipides et polyc ´etides) et/ou de la condensation d’unit ´es isopr `enes (prenols et st ´erols) [Fahy et al.,2009]. Leurs r ˆoles sont multiples. Il permettent la couver-ture des besoins ´energ ´etiques, participent `a la constitution des struccouver-tures micro et macro-scopiques de l’organisme et interviennent dans de nombreux m ´ecanismes biochimiques indispensables `a la vie. L’ ´etude du m ´etabolisme des lipides chez les oiseaux est impor-tante tant d’un point de vue appliqu ´e, l’engraissement impacte la valeur ´economique des produits avicoles, que cognitif, au regard de son ´evolution chez les vert ´ebr ´es par exemple. De fait, le sch ´ema global du m ´etabolisme lipidique diff `ere entre les oiseaux et les mam-mif `eres. Apr `es avoir pr ´esent ´e le m ´etabolisme des lipides tel qu’on le connaˆıt chez les mammif `eres, nous aborderons les particularit ´es relev ´ees chez les oiseaux.

1.1

en´

eralit´

es sur le m´

etabolisme des lipides

M ˆeme si cela n’est pas toujours pr ´ecis ´e, il convient d’indiquer que les connaissances acquises sur le m ´etabolisme des lipides proviennent majoritairement d’ ´etudes r ´ealis ´ees sur les esp `eces mod `eles, essentiellement mammif `eres. On verra par la suite que cette pr ´esentation g ´en ´erale a trop souvent tendance `a occulter les particularit ´es d’autres esp `eces, plus ou moins ´eloign ´ees des mammif `eres au regard de l’ ´evolution.

Les lipides pr ´esents dans l’organisme peuvent provenir de l’alimentation ou ˆetre n ´eo-synth ´etis ´es. Les lipides provenant de l’alimentation sont absorb ´es au niveau de l’intes-tin gr ˆele. Il s’agit essentiellement de triglyc ´erides, mol ´ecules constitu ´ees d’un squelette de glyc ´erol dont les trois groupements hydroxyles ont ´et ´e est ´erifi ´es par des acides gras. L’alimentation apporte ´egalement des esters de cholest ´erol, des phospholipides et des

1. Une mol ´ecule amphipathique poss `ede `a la fois un groupement hydrophile et un groupement hydrophobe.

(20)

1. CONTEXTE BIOLOGIQUE

19

vitamines liposolubles (A, D, E et K). Ces lipides suivent un trajet bien d ´efini dans l’or-ganisme : `a partir de l’intestin gr ˆele, ils vont passer dans le syst `eme lymphatique puis dans le sang, o `u ils seront distribu ´es aux tissus qui en ont besoin. A l’issu de ce circuit, les lipides r ´esiduels seront capt ´es par le foie. Dans l’intestin gr ˆele, les acides et sels bi-liaires ´emulsionnent les gouttelettes de lipides alimentaires. La lipase pancr ´eatique lib `ere des monoglyc ´erides et des acides gras qui forment des micelles. La cholest ´erol-est ´erase et la phospholipase hydrolysent r ´eciproquement les esters de cholest ´erols et les phos-pholipides et lib `erent ainsi des acides gras qui entrent aussi dans la composition des mi-celles. Celles-ci sont absorb ´ees de fac¸on passive par les cellules de l’ ´epith ´elium intestinal (ent ´erocytes). Les ent ´erocytes absorbent aussi le cholest ´erol libre et les vitamines liposo-lubles. Les acides gras libres compos ´es de moins de 12 carbones diffusent directement depuis l’ent ´erocyte vers le foie via le syst `eme porte. Dans les ent ´erocytes se produit la re-synth `ese des triglyc ´erides, des esters de cholest ´erol et des phospholipides, qui sont ex-port ´es avec les vitamines liposolubles dans le syst `eme lymphatique sous forme de chylo-microns [Hussain et al.,1996]. Les chylomicrons sont des sph `eres de 75 `a 1200 nm conte-nant en leur centre la partie hydrophobe (triglyc ´erides, partie hydrophobe des phospholi-pides et du cholest ´erol) des liphospholi-pides dig ´er ´es et en p ´eriph ´erie leur partie hydrophile (t ˆete po-laire des phospholipides, groupe hydroxyle du cholest ´erol) ansi que des lipoprot ´eines (apo-lipoprot ´eines). L’apo(apo-lipoprot ´eine principale de ces chylomicrons dits naissants est l’apoli-poprot ´eine B-48 (APOB48). Les apolil’apoli-poprot ´eines A-I, A-II et A-IV participent ´egalement `a la composition de ces chylomicrons naissants. Les chylomicrons export ´es dans le syst `eme lymphatique rejoignent la circulation sanguine au niveau de la veine sous-clavi `ere gauche. Dans la circulation sanguine, ils deviennent matures en acqu ´erant des apolipoprot ´eines C-II, C-III et E gr ˆace `a un ´echange avec des particules lipidiques de haute densit ´e (HDL). L’apolipoprot ´eine C-II ´etant le cofacteur de la lipoprot ´eine-lipase, celle-ci peut lib ´erer les acides gras contenus dans les chylomicrons afin qu’ils soient absorb ´es par les cellules des tissus vascularis ´es. Les chylomicrons transf `erent ensuite leurs apolipoprot ´eines A-I, A-IV, C-II et C-III aux HDL pour devenir des chylomicrons remnants de 30 `a 50 nm de diam `etre qui seront reconnus et absorb ´es par le foie gr ˆace `a leurs APOE et APOB-48. La figure1r ´esume ce transport des lipides alimentaires.

La lipogen `ese (synth `ese de novo des acides gras) a lieu dans deux tissus distincts : le foie et le tissu adipeux [Bergen et Mersmann, 2005]. Elle assure la synth `ese d’acides gras `a longue chaˆıne hydro-carbon ´ee qui seront incorpor ´es dans des triglyc ´erides. Les enzymes cl ´es de cette synth `ese sont l’ac ´etyl-CoA carboxylase (ACC, EC6.4.1.2), la ma-late d ´eshydrog ´enase (EC 1.1.1.39), et l’acide gras synthase (Fatty Acid Synthase, FAS, EC 2.3.1.85). Ces enzymes sont stimul ´ees par l’insuline et inhib ´es par le glucagon. Le pr ´ecurseur de la lipogen `ese est l’ac ´etyl-CoA, qui peut ˆetre obtenu `a l’issue de la gly-colyse (d ´egradation du glucose), de la β-oxydation des acides gras (principale voie de d ´egradation des acide gras) ou encore de la d ´egradation des acides amin ´es c ´etog `enes. L’ac CoA est produit dans la mitochondrie puis export ´e dans le cytoplasme o `u l’ac ´etyl-CoA carboxylase permet la synth `ese du malonyl-´etyl-CoA. La FAS est un complexe enzy-matique permettant la condensation successive d’unit ´es malonyl-CoA sur de l’ac ´etyl-CoA jusqu’ `a obtention de l’acide palmitique. La figure2pr ´esente la suite de r ´eactions mises en œuvre pour obtenir une mol ´ecule d’acide palmitique.

(21)

20

CHAPITRE 1. INTRODUCTION

FIGURE 1 – M ´etabolisme des chylomicrons. Les lipides issus de l’alimentation sont incorpor ´es sous forme de triglyc ´erides et d’esters de cholest ´erol aux chylomicrons au niveau des intestins. Les chylomicrons vont les distribuer aux tissus vascularis ´es lors d’un circuit qui les m `enera finalement vers le foie.

FIGURE2 –Synth `ese de l’acide palmitique. Les acides gras se forment par condensation succes-sives de mol ´ecules de malonyl-CoA.

(22)

1. CONTEXTE BIOLOGIQUE

21

L’acide palmitique sert de base `a la construction d’acides gras insatur ´es `a longue chaˆıne. Ceux-ci sont obtenus par une succession d’ ´elongations (ajout de 2 carbones) et de d ´esaturations (cr ´eation d’une double liaison). Ce processus a lieu dans le r ´eticulum endoplasmique. La d ´esaturation est assur ´ee par une d ´esaturase capable de catalyser le d ´epart de deux atomes d’hydrog `ene de la mol ´ecule d’acide gras, cr ´eant une double liaison carbone/carbone. La position de la double liaison est `a la base des deux nomenclatures des acides gras insatur ´es. Les positions dans les mol ´ecules sont d ´efinies par rapport au groupement le plus r ´eactif, en l’occurrence le groupement carboxyle pour les acides gras. Ainsi, la∆9 d ´esaturase cr ´ee une double liaison sur l’acide palmitique apr `es le 9`emecarbone

depuis le groupe carboxyle pour donner l’acide palmitol ´eique. Cet acide gras est symbo-lis ´es ainsi : (16:1)∆9. Cependant, la num ´erotation des carbones dans un acide gras se fait usuellement dans l’autre sens. On d ´ecrit ainsi l’appartenance `a une≪s ´erie omega≫en

comptant la position de la double liaison `a partir du groupe m ´ethyl terminal. Ainsi, l’acide palmitol ´eique (16:1)∆9 est un acide gras de la s ´erie des ω7 (ou n-7). L’Homme a quatre d ´esaturases diff ´erentes :∆9, ∆6, ∆5 et ∆4. N’ayant pas de ∆12 ni de ∆15 d ´esaturase qui n’existent que dans le r `egne v ´eg ´etal, l’Homme est incapable de synth ´etiser certains acides gras poly-insatur ´es, tels que l’acide linol ´eique (18:2)∆9,12 et l’acide α-linol ´enique, (C18:3)∆9,12,15. Ils sont respectivement pr ´ecurseur des s ´eries ω6 et ω3, `a la base de la synth `ese de nombreuses mol ´ecules comme des prostaglandines ou l’acide arachido-nique. Ces acides gras sont dits essentiels et doivent ˆetre apport ´es par l’alimentation. La figure3r ´esume la synth `ese des diff ´erents acides gras insatur ´es.

C16:0 C18:0 C18:1 9 Alimentation E lon ga tio n C20:0 C22:0 etc C20::111 C22::113 etc C16:1 9 ∆9 C18:1 11 C18:2 6,9 Série ω9 C18:2 9,12 C18:36,9,12 C20:3 8,11,14 C20:45,8,11,14 C22:4 7,10,13,16 C18:3 9,12,15 C18:46,9,12,15 C20:4 8,11,14,17 C20:55,8,11,14 C22:5 7,10,13,16,19 Série ω6 Série ω3 Désaturation ∆9 ∆6 ∆ ∆ ∆ ∆9 ∆ ∆ ∆ ∆ ∆6 ∆ ∆ ∆ ∆ ∆ ∆ ∆ ∆ ∆ ∆6 ∆5 ∆5

FIGURE 3 –Synth `ese des acides gras insatur ´es. Deux r ´eactions sont r ´ep ´et ´ees pour obtenir des acides gras insatur ´es de diff ´erentes s ´eries : une d ´esaturation puis une ´elongation. Les pr ´ecurseurs des acides gras des s ´eries ω6 et ω3 doivent ˆetre fournis par l’alimentation.

Les acides gras obtenus lors de la lipogen `ese peuvent servir de pr ´ecurseurs de diverses mol ´ecules indispensables au fonctionnement de l’organisme. Ils peuvent ´egalement ˆetre stock ´es sous forme de triglyc ´erides par une triple est ´erification d’une mol ´ecule de glyc ´erol. Cette r ´eaction utilise une mol ´ecule de Glyc ´erol-3-Phosphate (G3P) dont les fonctions alcool primaire et secondaire sont d’abord est ´erifi ´ees par deux acides gras pour obtenir un diacylglyc ´erol. Le groupement phosphate du G3P est ´erifi ´e

(23)

22

CHAPITRE 1. INTRODUCTION

est ensuite hydrolys ´e la phosphatidate phosphatase, ce qui permet l’est ´erification d’un troisi `eme acide gras. `A la place de ce troisi `eme acide gras peut venir s’est ´erifier un alcool phosphoryl ´e pour donner un phospholipide.

Les mammif `eres sont ´egalement capables de synth ´etiser du cholest ´erol. Cette synth `ese se fait dans le cytoplasme des cellules du foie et de l’intestin `a partir de l’hydroxy-m ´ethyl-glutaryl-CoA (HMG-CoA). Cet HMG-CoA est issu de la condensation de 3 mol ´ecules d’ac ´etyl-CoA. L’HMG-CoA r ´eductase transforme l’HMG-CoA en m ´evalonate. Le m ´evalonate est pr ´ecurseur d’isopr ´eno¨ıdes qui se condensent en squal `ene, dont les insaturations permettent de former les cycles qui constituent le cholest ´erol.

Les triglyc ´erides servent de lipides de stockage dans les adipocytes. Ils peuvent ˆetre hydrolys ´es en acides gras par des lipases lors de la lipolyse et lib ´er ´es dans le sang afin de fournir de l’ ´energie aux cellules de l’organisme. La lipolyse est activ ´ee par les cat ´echolamines (adr ´enaline et noradr ´enaline). Les adipocytes jouent ´egalement un r ˆole important dans le ph ´enom `ene de sati ´et ´e en ´etant notamment le si `ege de la synth `ese de la leptine, qui r ´egule l’app ´etit au niveau de l’hypothalamus.

Les lipides, mol ´ecules hydrophobes ou amphipathiques, doivent circuler dans le sang afin d’atteindre leur lieu de stockage ou d’utilisation. C’est l’objet du m ´etabolisme des li-poprot ´eines. Nous avons vu le transport des lipides alimentaires par les chylomicrons au d ´ebut de cette section. Les lipides n ´eo-synth ´etis ´es sont transport ´es par des m ´ecanismes similaires utilisant des lipoprot ´eines. En p ´eriode post-prandiale, le foie synth ´etise des lipo-prot ´eines de tr `es faible densit ´e, les VLDL. Elles contiennent des triglyc ´erides, des esters de cholest ´erol et des apolipoprot ´eines B-100 et A-I. Comme les chylomicrons, les VLDL doivent apporter les triglyc ´erides aux tissus p ´eriph ´eriques. Elles doivent donc obtenir des apolipoprot ´eines E et des apolipoprot ´eines C-II afin d’ ˆetre reconnues et hydrolys ´ees par la lipoprot ´eine lipase au niveau des cellules p ´eriph ´eriques. Comme les chylomicrons, les VLDL obtiennent ces apolipoprot ´eines par un ´echange avec des lipoprot ´eines circulantes de haute densit ´e, les HDL. D ´echarg ´ees d’une partie de leurs triglyc ´erides, les VLDL di-minuent de taille tout en devenant plus denses, elles ´evoluent en lipoprot ´eines de densit ´e interm ´ediaire ou IDL. En raison de la taille r ´eduite des IDL par rapport aux VLDL, les apolipoprot ´eines C-II perdent leur affinit ´e avec la particule et sont transf ´er ´ees aux VLDL, aux HDL et aux chylomicrons. Il y a ´egalement un transfert de triglyc ´erides et de phos-pholipides des IDL vers les HDL, et d’esters de cholest ´erol des HDL vers les IDL. Ces derniers ´echanges conduisent `a la derni `ere ´etape de l’ ´evolution de ces lipoprot ´eines qui deviennent des lipoprot ´eines de faible densit ´e ou LDL. Elles contiennent essentiellement des esters de cholest ´erol et une apolipoprot ´eine B-100. Elles peuvent d ´eposer du cho-lest ´erol `a la surface des membranes des cellules p ´eriph ´eriques. Gr ˆace `a leur APO B-100 elles sont reconnues par les cellules p ´eriph ´eriques, qui les internalisent par endocytose et les hydrolysent totalement.

Les chylomicrons comme les VLDL interragissent avec ce qu’on a appel ´e des prot ´eines de haute densit ´e, les HDL. Ces HDL constituent la derni `ere classe de lipo-prot ´eines. Elles sont synth ´etis ´ees par le foie et excr ´et ´ees dans la circulation sanguine. Elles sont constitu ´ees essentiellement de phospholipides et d’apolipoprot ´eines E, A et C, dont elles sont un r ´eservoir circulant pour les autres classes de lipoprot ´eines. Elles ont ´egalement pour r ˆole la r ´ecup ´eration du cholest ´erol libre d ´epos ´e `a la surface de la

(24)

mem-1. CONTEXTE BIOLOGIQUE

23

brane des cellules p ´eriph ´eriques. Elles pi `egent ce cholest ´erol en l’est ´erifiant, ce qui le retire de la circulation. Le foie retire de la circulation les HDL ayant rempli leur mission ; il les internalise et hydrolyse leurs esters de cholest ´erol qui entreront dans la compositions de nouvelles lipoprot ´eines.

Le circuit du cholest ´erol et des triglyc ´erides est pr ´esent ´e dans les figures4et5.

FIGURE 4 –Transport du cholest ´erol dans le sang. Outre les chylomicrons pr ´esent ´es dans la Fi-gure1, les VLDL et les HDL participent au transport du cholest ´erol. Les premiers transportent le cholest ´erol vers les tissus tandis que les deuxi `emes ram `enent le cholest ´erol d ´epos ´e en exc `es vers le foie.

Le mauvais fonctionnement du m ´etabolisme des lipides peut ˆetre `a l’origine de plu-sieurs pathologies. Comme d ´ecrit ci-dessus, les lipides circulent dans le sang ; on parle de lipides plasmatiques. Un exc `es d’apports en lipides peut causer un d ´er `eglement du taux de ces lipides plasmatiques, et ˆetre responsable d’ath ´eroscl ´erose et des pathologies vasculaires associ ´ees [Barton,2013]. La moiti ´e des d ´ec `es caus ´es par une cardiopathie co-ronarienne seraient imputables `a des taux de cholest ´erol trop ´elev ´es [Stamler et al.,1986;

Magnus et Beaglehole,2001]. Les d ´er `eglements du m ´etabolisme des lipides peuvent avoir des origines g ´en ´etiques. Ainsi, 15% des cas d’infarctus du myocarde pr ´ecoces pourraient r ´esulter de troubles h ´er ´editaires du m ´etabolisme des lipides [Gaddi et al.,2007].

En dehors de la circulation sanguine, un autre organe pour ˆetre fortement impact ´e en cas de d ´er `eglement du m ´etabolisme des lipides : le foie. La st ´eatose h ´epatique cor-respond `a l’infiltration de lipides dans les cellules du parenchyme h ´epatique. La forme non-alcoolique concerne entre 6% et 24% de la population (un adulte sur trois et un en-fant ou un adolescent sur dix aux ´Etats-Unis) [Clark et Diehl,2003;Clark,2006;Angulo,

2007]. La pr ´evalence est cependant nettement plus importante en cas de surpoids ou d’ob ´esit ´e [Clark,2006;Angulo,2007;Papandreou et al.,2007;Moore,2010]. La st ´eatose h ´epatique peut d ´eboucher sur une st ´eatoh ´epatite, une fibrose voire une cirrhoses du foie ou un carcinome h ´epatocellulaire [Clark et Diehl, 2003; Qian et Fan, 2005; Reddy et Rao, 2006; Moore, 2010]. La st ´eatose h ´epatique non-alcoolique est fortement associ ´ee `a l’ob ´esit ´e, `a la r ´esistance `a l’insuline (y compris en raison de diab `ete), ainsi qu’ `a un taux

(25)

24

CHAPITRE 1. INTRODUCTION

FIGURE5 –Transport des triglyc ´erides dans le sang. Les chylomicrons transportent les triglyc ´erides provenant de l’alimentation tandis que les VLDL les transportent depuis le foie vers les tissus qui en ont besoin.

´elev ´e de triglyc ´erides ou `a un taux faible de lipoprot ´eines `a faible densit ´e [Clark, 2006;

Reddy et Rao,2006].

1.2

Particularit´

es du m´

etabolisme des lipides chez

les oiseaux

Nous avons vu les grandes lignes du m ´etabolisme des lipides trac ´ees `a partir de connaissances obtenues essentiellement chez les mammif `eres. D’autres esp `eces, les oi-seaux notamment et le poulet en particulier, pr ´esentent cependant des diff ´erences par rapport au sch ´ema que nous venons de d ´ecrire.

Les oiseaux n’ont pas de vaisseaux lymphatiques intestinaux. Apr `es leur absorption dans l’intestin gr ˆele, les lipides alimentaires sont assembl ´es dans les ent ´erocytes sous forme de portomicrons ( ´equivalents aux chylomicrons des mammif `eres) et lib ´er ´es dans la circulation porte. Les portomicrons vont donc ˆetre capt ´es en partie par le foie avant de rejoindre la circulation g ´en ´erale [Fraser et al.,1986].

La lipogen `ese est tr `es limit ´ee dans les tissus adipeux ; elle a principalement lieu dans le foie [Hermier, 1997]. Le stockage des triglyc ´erides d ´epend du substrat lipidique plas-matique issu de l’alimentation et de la synth `ese h ´epatique. L’accumulation excessive et non valorisable de lipides dans les tissus adipeux des poulets de chair est actuellement un probl `eme majeur pour les producteurs [Bourneuf et al.,2006;Daval et al.,2000]. Dans les jeunes poulets de chair approchant leur poids commercial, entre 80 et 85% des acides gras accumul ´es dans les tissus adipeux sont d ´eriv ´es de lipides plasmatiques [Griffin et al.,

1992]. L’alimentation de ces poulets est pauvre en graisses (moins de 10%) constitu ´ees principalement de triglyc ´erides.

(26)

1. CONTEXTE BIOLOGIQUE

25

Tous les autres triglyc ´erides sont synth ´etis ´es dans le foie, d ´ependant comme chez les mammif `eres de la disponibilit ´e de glucose alimentaire qui permet d’obtenir de l’ac ´etyl-CoA [Bergen et Mersmann, 2005]. Les triglyc ´erides ne sont pas les seuls lipides `a ˆetre synth ´etis ´es dans le foie, qui est aussi le principal site de synth `ese du cholest ´erol et des phospholipides. Ces lipides, associ ´es `a des apolipoprot ´eines, sont les principaux consti-tuants des lipoprot ´eines [Hermier,1997].

Les deux principales classes de particules lipoprot ´eiques (HDL et VLDL) sont synth ´etis ´ees et s ´ecr ´et ´ees par le foie, `a destination des tissus de stockage lipidique. Leur partie prot ´eique (apolipoprot ´eines) y est aussi synth ´etis ´ee. L’apolipoprot ´eine B (APOB) et l’apolipoprot ´eine A-1 (APOA1) sont les deux principales apolipoprot ´eines chez le poulet [Brown et Dower, 1990]. A la diff ´erence des mammif `eres, la poule n’a pas d’apolipoprot ´eine E (APOE), mais sa fonction est port ´ee par APOA1 [Daval et al.,

2000]. Les triglyc ´erides, le cholest ´erol, les phospholipides et APOB sont assembl ´es en VLDL secr ´et ´es dans la circulation sanguine. Il en va de m ˆeme pour la formation des HDL avec APOA1. Les triglyc ´erides s’associent pr ´ef ´erentiellement avec APOB pour former des VLDL tandis que les phospholipides et le cholest ´erol s’associent plut ˆot avec APOA1 pour former des HDL [Hermier, 1997]. Chez la poule, les triglyc ´erides sont stock ´ees principalement dans les tissus p ´eriph ´eriques abdominaux. A la diff ´erence des mammif `eres, ces tissus adipeux ne secr `etent pas de leptine, l’hormone de sati ´et ´e, qui n’existe pas chez la poule [Pitel et al.,2010].

Le transfert des triglyc ´erides depuis les VLDL et les portomicrons dans les tissus adi-peux implique leur catabolisme par la lipoprot ´eine lipase (LPL). La LPL est synth ´etis ´ee dans les tissus adipeux, les muscles et autres types cellulaires, mais seules les LPL s ´ecr ´et ´ees et capt ´ees `a la surface des capillaires sont activesHermier[1997]. La LPL est l’enzyme dont le taux est limitant pour l’hydrolyse des lipoprot ´eines plasmatiques riches en triglyc ´erides. L’activit ´e LPL diminue avec une nutrition riche en acides gras insatur ´es des s ´eries ω3 et ω6.

Un oiseau dont la lipogen `ese exc `ede la capacit ´e de synth `ese et de s ´ecr ´etion h ´epatique de lipoprot ´eines d ´eveloppe un foie gras. Dans le cas des poules pondeuses, chez les-quelles la stimulation de la lipogen `ese par les estrog `enes peut conduire au d ´epassement de la capacit ´e de s ´ecr ´etion des VLDL, cela peut provoquer une maladie m ´etabolique : le syndrome de foie gras h ´emorragique, qui r ´eduit la ponte et augmente la mortalit ´e [Hansen et Walzem,1993]. Les palmip `edes sauvages subissent un engraissement g ´en ´eral avant leur migration, leur foie gras servant d’organe de stockage d’ ´energie. Cette capacit ´e na-turelle est utilis ´ee pour la production de foie gras par gavage avec un r ´egime alimentaire riche en glucides. Dans ces conditions, la lipogen `ese h ´epatique augmente radicalement, et le poids du foie peut passer de 100 g `a 1 kg en 2 semaines. La st ´eatose h ´epatique est due `a une accumulation de triglyc ´erides dans les cellules du parenchyme h ´epatique. Chez l’oie, cela provoque une importante augmentation des concentrations de HDL et VLDL. En outre, ces VLDL contiennent moins de triglyc ´erides, t ´emoignant d’un d ´efaut d’incorpora-tion des triglyc ´erides dans les VLDL, `a l’origine de leur accumulad’incorpora-tion dans le foie chez ces esp `eces. Chez les poulets, une grande quantit ´e de triglyc ´erides est stock ´ee tempo-rairement dans le foie, mais n ´ecessite ensuite une hydrolyse et une r ´e-est ´erification avant d’ ˆetre s ´ecr ´et ´ee. Chez les palmip `edes gav ´es, la r ´egulation hormonale ne permet pas au

(27)

26

CHAPITRE 1. INTRODUCTION

foie d’ ´evacuer cet exc `es de lipides, qui s’accumule [Hermier,1997].

On le voit, ces quelques exemples suffisent `a illustrer des diff ´erences qui existent entre un oiseau (la poule) et un mammif `ere. Ils soul `event aussi la question de l’analyse des ressemblances et diff ´erences dans un cadre plus global.

2

Comparaison

inter-esp`

eces

:

de

l’ap-proche structurelle `

a l’approche

fonc-tionnelle

L’int ´egralit ´e des r ´eactions biochimiques qui ont lieu dans un organisme sont li ´ees, comme le montre la figure6issue de la base de donn ´ees KEGG. Il est cependant possible de consid ´erer des segments de suites de r ´eactions, qui constituent une voie m ´etabolique. Ces diff ´erentes voies m ´etaboliques sont symbolis ´ees par les diff ´erentes couleurs de la figure6.

FIGURE6 –Carte du m ´etabolisme de l’Humain propos ´ee par la base de donn ´ees KEGG.

Entre deux esp `eces, une voie m ´etabolique peut ˆetre parfaitement identique, diff ´erer par quelques r ´eactions chimiques, voire ˆetre pr ´esente chez une esp `ece et absente chez une autre. Ainsi, si on consid `ere Homo sapiens et Gallus gallus, la synth `ese de l’acide palmitique se d ´eroule de la m ˆeme fac¸on, alors le ph ´enom `ene de sati ´et ´e fait intervenir des agents diff ´erents (absence de leptine chez Gallus gallus) et que la lactation est totalement absente chez Gallus gallus. La conservation de voies m ´etaboliques entre esp `eces est li ´ee `a leur proximit ´e taxonomique. Il est possible d’ ´evaluer la similarit ´e d’une voie m ´etabolique

(28)

3. OBJECTIF

27

analogue entre deux esp `eces en comparant les r ´eactions pr ´esentes chez chacune des esp `eces.

L’enchaˆınement des r ´eactions au sein des voies m ´etaboliques des esp `eces proches, comme les vert ´ebr ´es, sont souvent rigoureusement identiques. Cela signifie qu’une voie m ´etabolique identique ou tr `es similaire entre deux esp `eces au niveau de sa structure peut ˆetre finalement assez diff ´erente au niveau des fonctions biologiques qui d ´ependent d’elle. On peut ainsi parler de voies m ´etaboliques structurellement identiques ou similaires mais fonctionnellement diff ´erentes. On peut ´egalement envisager le cas inverse de voies m ´etaboliques dont la structure est diff ´erente mais dont les fonctions sont similaires.

Il faut ´etudier plus en d ´etail les intervenants des r ´eactions pour mieux comprendre ce qui provoque les diff ´erences constat ´ees entre esp `eces. Les r ´eactions des voies m ´etaboliques sont g ´en ´eralement catalys ´ees par des enzymes. Lorsqu’une m ˆeme r ´eaction est pr ´esente chez deux esp `eces, l’enzyme impliqu ´ee peut ˆetre cod ´ee par un g `ene homologue. On parle d’homologie quand un g `ene existe en plusieurs versions d ´erivant d’une m ˆeme version originelle `a travers un processus d’ ´evolution. Si ces diff ´erentes versions appartiennent `a des esp `eces diff ´erentes, on parle d’orthologie. Si ces versions co-existent au sein d’une m ˆeme esp `eces, on parle de paralogie. Il est ´egalement possible qu’une enzyme qui catalyse une m ˆeme r ´eaction chez deux esp `eces ne soit pas le produit de l’ ´evolution d’un m ˆeme g `ene originel. On parle alors de g `enes ayant des fonctions analogues, mais n’ayant aucun lien dans l’ ´evolution.

L’ ´etude des fonctions des g `enes a permis d’annoter fonctionnellement ceux-ci, c’est-`a-dire d’associer `a chaque g `ene des mots-cl ´es r ´esumant leur fonction. Le vocabulaire employ ´e lors de ce processus d’annotation est formalis ´e au sein d’une structure appel ´ee Gene Ontology pr ´esent ´ee dans le chapitre suivant.

3

Objectif

L’objectif de cette th `ese ´etait de d ´evelopper une m ´ethode et des outils associ ´es pour comparer fonctionnellement les voies m ´etaboliques entre esp `eces sur la base des anno-tations des produits de g `enes qui y interviennent et en exploitant les connaissances du domaine afin d’interpr ´eter ces annotations. Pour chaque voie m ´etabolique connue, cette m ´ethode avait pour but de v ´erifier l’identit ´e, ou `a d ´efaut, le degr ´e de similarit ´e structurel de cette voie entre plusieurs esp `eces. Ensuite, la m ´ethode devait ˆetre capable d’identifier le degr ´e de similarit ´e et les particularit ´es de chaque produit de g `ene orthologue intervenant dans chaque voie m ´etabolique chez les esp `eces d’int ´er ˆet. Enfin, la mise en parall `ele de la structure d’une voie m ´etabolique et des r ´esultats de la comparaison des g `enes qui y interviennent devait permettre de mieux comprendre les diff ´erences entre esp `eces. Ces travaux avaient pour but de confirmer ou d’infirmer la possibilit ´e de prendre en compte des r ´esultats acquis chez une esp `ece dans l’ ´etude d’une autre.

(29)
(30)

CHAPITRE

2

MAT´

ERIEL ET M´

ETHODES

D

ans ce chapitre, nous pr´esentons les donn´ees et les m´ethodes dispo-nibles pour la comparaison inter-esp`eces de voies m´etaboliques. Cette th`ese se base sur l’analyse de connaissances existantes pour une meilleure compr´ehension de ph´enom`enes biologiques. Il n’y a donc pas eu de g´en´eration de donn´ees exp´erimentales au cours de ce travail. Cela a de-mand´e une ´etude des ressources et approches existantes afin de s’assu-rer de leur pertinence et de leur qualit´e. Les voies m´etaboliques sont d´ecrites dans plusieurs grandes bases de donn´ees. Les g`enes qui y in-terviennent sont annot´es par des ensembles de termes organis´es au sein d’une structure s´emantique particuli`ere appel´ee≪ ontologie≫. Des

m´ethodes propres aux ontologies ont ´et´e d´evelopp´ees par de nombreuses ´equipes afin de comparer ces ensembles d’annotations. Nous r´epertorions donc ici les bases de donn´ees de voies m´etaboliques, d´ecrivons les pro-pri´et´es des ontologies en g´en´eral et de Gene Ontology en particulier, puis pr´esentons les m´ethodes de mesure de similarit´e s´emantique qui permettent la comparaison de produits de g`enes.

(31)

30

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

Sommaire

1 Ressources disponibles . . . 30

1.1 Bases de donn´ees de voies m´etaboliques . . . 30

1.1.1 Reactome . . . 30

1.1.2 BioCyc et MetaCyc . . . 31

1.1.3 Kegg . . . 32

1.1.4 Wikipathway . . . 32

1.1.5 Ingenuity . . . 33

1.2 Bases de connaissances et ontologies . . . 33

1.2.1 D´efinition et propri´et´es d’une ontologie . . . 33

1.2.2 Gene Ontology . . . 36

1.2.3 Gene Ontology Annotation . . . 37

2 Comparaison de termes et d’ensembles de termes d’une ontologie. . . 43

2.1 M´etriques simples : Jaccard et Dice . . . 43

2.2 Mesures de distances et similarit´es s´emantiques . . . 43

2.2.1 M´ethodes bas´ees sur les arˆetes . . . 44

2.2.2 M´ethodes bas´ees sur les nœuds . . . 45

2.2.3 M´ethodes hybrides. . . 46

3 Synth`ese . . . 49

1

Ressources disponibles

1.1

Bases de donn´

ees de voies m´

etaboliques

Il existe plusieurs bases de donn ´ees de voies m ´etaboliques. Elles diff `erent par trois aspects principaux. Premi `erement, elles peuvent ˆetre d ´edi ´ees `a une seule esp `ece ou `a plusieurs. Deuxi `emement, chacune d’entre elles d ´efinit diff ´eremment le d ´ecoupage des suites de r ´eactions qui constituent une voie m ´etabolique. Troisi `emement, le formalisme employ ´e par chaque base de donn ´ees lui est g ´en ´eralement propre, ce qui rend difficile la comparaison ou la combinaison des donn ´ees issues de plusieurs bases. Une ´etude r ´ecente a montr ´e que les donn ´ees disponibles dans les grandes bases de donn ´ees de voies m ´etaboliques ont un faible niveau de coh ´erence, d’exhaustivit ´e et de compatibi-lit ´e [Soh et al.,2010].

1.1.1

Reactome

Reactome1 est une base de donn ´ees de voies m ´etaboliques multi-esp `eces [Croft et al., 2011]. Cependant, le cœur de Reactome concerne l’Humain, les ´ev `enements or-thologues concernant une vingtaine d’autres esp `eces ´etant manuellement inferr ´es. Les

(32)

1. RESSOURCES DISPONIBLES

31

donn ´ees sont toutes revues manuellement par des experts biologistes. L’unit ´e de base employ ´ee pour d ´ecrire une voie m ´etabolique est la r ´eaction. Les diff ´erentes entit ´es bio-logiques participant aux r ´eactions biochimiques forment un r ´eseau d’interactions biolo-giques et sont group ´es au sein de grandes voies m ´etaboliques. Tout le contenu de Reac-tome est librement disponible dans des formats d’ ´echange standards tels que SBML et BioPAX. SBML encode au format XML des mod `eles constitu ´es d’entit ´es (mol ´ecules) inter-ragissant dans des processus (r ´eactions). BioPAX (Biological Pathway Exchange) est un format standard bas ´e sur RDF/OWL qui a pour but de repr ´esenter les voies m ´etaboliques au niveau mol ´eculaire et cellulaire. BioPAX est plus complet que SBML gr ˆace au niveau s ´emantique apport ´e par OWL (Web Ontology Language), qui permet l’application de rai-sonnements `a l’aide d’outils comme Prot ´eg ´e. La figure 1 pr ´esente le nombre de voies m ´etaboliques, r ´eactions, complexes et prot ´eines recens ´es par Reactome en juin 2013. Gr ˆace `a son formalisme standard, sa gratuit ´e et la pr ´esence de la poule parmi les orga-nismes disponibles, Reactome a ´et ´e la base de donn ´ees de r ´ef ´erence pour les travaux men ´es au cours de cette th `ese.

FIGURE1 –Nombre de voies m ´etaboliques, r ´eactions, complexes et prot ´eines recens ´es par Reac-tome en juin 2013.

1.1.2

BioCyc et MetaCyc

BioCyc rassemble pr `es de 3000 bases de donn ´ees de voies m ´etaboliques, chacune d’entre elles ´etant mono-esp `ece, `a l’exception d’une seule (MetaCyc) [Caspi et al.,2012]. Ces bases de donn ´ees sont class ´ees dans trois niveaux en fonction de leur degr ´e de curation.

Le premier niveau contient des bases revues manuellement. Il s’agit des bases concer-nant Homo sapiens, Escherichia coli K12, Arabidopsis thaliana, Saccharomyces cerevi-siae et Leishmania major. `A ces bases mono-esp `ece s’ajoute la seule base multi-esp `eces

(33)

32

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

de BioCyc : MetaCyc. Cette base de donn ´ees du premier tiers de BioCyc contient l’infor-mation de 2042 voies m ´etaboliques pour 2414 organismes et sert de base `a l’inf ´erence automatique pour les deux autres tiers de BioCyc.

Le deuxi `eme niveau concerne des esp `eces pour lesquelles les donn ´ees ont ´et ´e ob-tenues par inf ´erence ´electronique et qui ont subi un processus de revue manuelle moins pouss ´e que dans le premier tiers. Parmi les 35 esp `eces de ce deuxi `eme tiers, toutes sont des bact ´eries ou des virus, `a l’exception de Mus musculus, Bos taurus et Drosophilia melanogaster.

Enfin le dernier niveau de BioCyc concerne les voies m ´etaboliques de 2948 esp `eces de bact ´eries et de virus. Les donn ´ees de ce dernier tiers sont issues d’inf ´erences ´electroniques g ´en ´er ´ees par un programme nomm ´e PathoLogic capable de pr ´edire les voies m ´etaboliques d’un organisme `a partir de son g ´enome [Paley et Karp,2002].

Les seuls vert ´ebr ´es pr ´esents dans BioCyc sont donc l’Homme (niveau 1), la Souris (niveau 2) et la Vache (niveau 2). Le contenu de BioCyc est disponible en contractant une license qui est gratuite pour des besoins de recherche acad ´emique. Les donn ´ees sont au format BioPAX. La faible repr ´esentation de vert ´ebr ´es dans BioCyc, et notamment l’absence de la Poule, a conduit `a envisager de n’utiliser BioCyc que dans le cadre d’une g ´en ´eralisation ult ´erieure `a la th `ese des m ´ethodes d ´evelopp ´ees `a d’autres esp `eces.

1.1.3

Kegg

KEGG est une base de donn ´ees de voies m ´etaboliques, revues manuellement, qui concerne plusieurs esp `eces et qui a ´et ´e d ´evelopp ´ee pour l’analyse des fonctionnalit ´es des cellules, des organismes et des ´ecosyst `emes [Kanehisa et Goto,2000]. Elle se base sur l’information mol ´eculaire issue de technologies exp ´erimentales `a haut-d ´ebit telles que le s ´equenc¸age de g ´enomes. KEGG r ´epertorie 2793 esp `eces, dont 192 eukaryotes. Parmi ceux-ci, on compte 26 vert ´ebr ´es dont l’Humain, la Souris et la Poule.

Depuis 2011, le t ´el ´echargement des donn ´ees de KEGG demande de souscrire une licence payante. Ces donn ´ees sont dans un format propre d ´evelopp ´e par KEGG, le format KGML. Ces deux derniers points nous ont tr `es rapidement incit ´e `a abandonner l’utilisation de KEGG.

1.1.4

Wikipathway

Wikipathway est un projet collaboratif visant `a ´elaborer une base de donn ´ees de voies m ´etabolique multi-esp `eces [Pico et al., 2008]. Wikipathway reprend d’une part les sch ´emas de voies m ´etaboliques disponibles dans d’autres bases de donn ´ees telles que Reactome ou KEGG, et d’autre part propose des sch ´emas cr ´e ´es par les utilisateurs `a l’aide d’un outil d’ ´edition graphique. Les donn ´ees sont librement t ´el ´echargeables sous diff ´erents formats, dont BioPAX. En raison de sa nature collaborative, Wikipathway a une composition plus h ´et ´erog `ene (dans les repr ´esentations et formalismes adopt ´es) que les autres bases de donn ´ees disponibles. Par cons ´equent, Wikipathway n’a ´et ´e utilis ´e dans cette th `ese qu’ `a des fins de recherche d’exemples et de v ´erifications crois ´ees ponctuelles.

(34)

1. RESSOURCES DISPONIBLES

33

1.1.5

Ingenuity

Ingenuity Pathway Analysis (IPA) est un outil d ´evelopp ´e par Ingenuity Systems pour l’ ´etude des voies m ´etaboliques et r ´eseaux biologiques2. Il fonctionne selon un mod `ele non

libre payant. L’export de donn ´ees g ´en ´er ´ees par IPA est tr `es limit ´e et ne se pr ˆete pas `a leur inclusion dans une ´etude `a grande ´echelle. L’int ´er ˆet d’IPA dans le cadre d’une telle ´etude r ´eside en la possibilit ´e de confirmer manuellement une hypoth `ese particuli `ere obtenue avec un autre outil.

1.2

Bases de connaissances et ontologies

En compl ´ement des bases de donn ´ees, il existe des bases de connaissances et ontologies qui r ´epertorient et structurent les informations relatives aux domaines qui nous int ´eressent. Elles constituent une ressource essentielle pour l’annotation des connaissances. Elles permettent l’application de raisonnements afin de faire apparaˆıtre des connaissances implicites `a partir de celles disponibles dans les grandes bases de donn ´ees.

1.2.1

efinition et propri´

et´

es d’une ontologie

Une ontologie est une repr ´esentation formelle des connaissances symboliques dans laquelle les concepts (classes) sont d ´ecrits `a la fois par leur signification et par leurs re-lations [Bard et Rhee,2004]. Une ontologie se pr ´esente sous la forme d’un graphe dans lequel chaque nœud est une classe relative au domaine d ´ecrit par l’ontologie. Ces nœuds peuvent ˆetre reli ´es par diff ´erents liens, le lien le plus fr ´equent ´etant la relation “Is a”, qui relie une classe `a une super-classe.

Le graphe d’une ontologie est orient ´e, c’est- `a-dire que les relations entre les nœud ont un sens. Cela permet la description de la connaissance formalis ´ee en allant des concepts les plus g ´en ´eraux aux plus pr ´ecis. Dans une ontologie, une≪classe≫(ou≪concept≫,

ou≪terme≫) est un nœud du graphe. Les termes situ ´es en amont d’un nœud sont ses ≪anc ˆetres ≫et ceux situ ´es en aval sont ses≪descendants≫. Parmi les anc ˆetres d’un

terme, ceux qui ne sont s ´epar ´es de ce terme que par une relation sont ses≪parents≫.

De m ˆeme, parmi les descendants d’un terme, ceux qui ne sont s ´epar ´es de ce terme que par une relation sont ses≪enfants≫. Le concept le plus g ´en ´eral d’une ontologie n’a pas

de parent ; il s’agit de la≪racine≫.

La figure2pr ´esente une ontologie tr `es simple et non exhaustive des vert ´ebr ´es. Il s’agit d’une portion de la NCBI Taxonomy of species3simplifi ´ee pour la claret ´e de l’explication.

Dans cet exemple, tous les termes sont li ´es par une relation “is a”. Chaque terme a un ou plusieurs enfants et un seul parent (sauf la racine). Cette structure est celle d’un arbre, et notre ontologie est une simple taxonomie.

2. Ingenuity R Systems,www.ingenuity.com

(35)

34

CHAPITRE 2. MAT ´ERIEL ET M ´ETHODES

FIGURE 2 – Ontologie non exhaustive des vert ´ebr ´es. Les relations sont toutes des liens “is a”. Les≪vert ´ebr ´es≫constituent un sous-embranchement du r `egne animal. Il se divise en plusieurs

classes, dont deux sont figur ´ees ici : les≪mammif `eres≫et les≪poissons≫. Chaque classe peut

ˆetre subdivis ´ee en plusieurs groupes qui comprennent chacune des esp `eces.

Les concepts qui constituent les nœuds d’une ontologie peuvent ˆetre utilis ´es pour d ´ecrire des donn ´ees par un processus d’annotation. L’int ´er ˆet d’une ontologie r ´eside en trois propri ´et ´es importantes :

– Une ontologie est g ´en ´erique, c’est- `a-dire que la connaissance qui y est formalis ´ee est vraie tout le temps, par opposition aux donn ´ees annot ´ees, qui sont anecdoc-tiques. Ainsi, ≪Wallace est un chien≫est une annotation anecdotique, alors que ≪ les chiens sont des mammif `eres≫est une connaissance universelle.

– Une ontologie permet le partage et la r ´eutilisation des connaissances. En effet, une m ˆeme ontologie peut servir `a annoter diff ´erents jeux de donn ´ees. Ainsi, la taxo-nomie des esp `eces4 bas ´ee sur celle de Carl von Linn ´e sert de r ´ef ´erence `a des

travaux de nombreux domaines. Les principales ontologies biom ´edicales sont dis-ponibles sur bioportal [Whetzel et al.,2011] ou obofoundry5.

– Il est possible de proc ´eder `a du raisonnement sur une ontologie [Eiter et al.,2006]. Plusieurs types de raisonnements peuvent ˆetre appliqu ´es, voire combin ´es comme la g ´en ´eralisation ou l’abstraction, la classification, la mesure de distance ou de si-milarit ´e entre concepts ou ensembles de concepts [Jun et al.,2002;Shahar et al.,

1999;Zhao et al.,2009;Wolstencroft et al.,2006;Kulik et al.,2005].

Une ontologie permet une meilleure exploitation des donn ´ees stock ´ees dans les bases de donn ´ees. Cela recouvre deux types d’am ´elioration, qui ne sont pas exclusives. Une ontologie permet d’enrichir les requ ˆetes afin de r ´eduire le bruit et le silence. Une ontologie permet aussi d’interpr ´eter les r ´esultats d’une requ ˆete afin d’en tirer des connaissances implicites au premier abord.

Dans une ontologie, certaines relations, telle la relation “is a”, sont transitives, permet-tant l’h ´eritage des anc ˆetres. Cela signifie que si un terme C est reli ´e `a un terme B par une relation “is a” et que B est ´egalement reli ´e reli ´e `a A par un “is a”, alors on pourra dire que C is a A. Cette r `egle est vrai quelque soit le nombre de termes≪interm ´ediaires≫. Ainsi,

dans l’ontologie donn ´ee en exemple, Homo sapiens et Mus musculus sont tous deux des placentaires mais ´egalement des mammif `eres. Macropus rufus (le kangourou roux) est aussi un mammif `ere, mais par contre il n’est pas placentaire mais marsupial.

4. http://www.ncbi.nlm.nih.gov/taxonomy/

Références

Documents relatifs