Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle

(1)

HAL Id: tel-02402050

https://hal.inria.fr/tel-02402050

Submitted on 10 Dec 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

génomique fonctionnelle

Fleur Mougin

To cite this version:

Fleur Mougin. Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle. Bio-

informatique [q-bio.QM]. Université de Rennes 1, 2006. Français. �tel-02402050�

(2)

TH` ESE

pr´ esent´ ee

DEVANT L’UNIVERSIT ´ E DE RENNES I pour obtenir

le grade de : DOCTEUR DE L’UNIVERSIT ´ E DE RENNES I Mention : G´ enie Biologique et M´ edical

PAR Fleur Mougin

Laboratoire : EA 3888

« Mod´ elisation des connaissances biom´ edicales » ( Facult´ e de M´ edecine, Rennes ) Ecole doctorale : Vie, Agro, Sant´ ´ e (VAS)

Titre de la th` ese :

Conception d’un mod` ele Web s´ emantique appliqu´ e ` a la g´ enomique fonctionnelle

Soutenue le 1er d´ ecembre 2006, devant la commission d’examen COMPOSITION DU JURY :

M. Dominique LAVENIER Pr´ esident

M. Pierre LE BEUX Directeurs de th` ese

M. Olivier LOR ´ EAL

M. Philippe BESSI ` ERES Rapporteurs M

^me

Christine FROIDEVAUX

M

^me

Anita BURGUN

(3)

(4)

Remerciements

Les travaux pr´ esent´ es dans cette th` ese ont ´ et´ e r´ ealis´ es au sein de l’ ´ Equipe d’Accueil 3888 ou Mod´ elisation Conceptuelle des Connaissances Biom´ edicales, o` u j’ai commenc´ e par faire des stages. C’est l` a que j’ai r´ eellement d´ ecouvert la recherche et l’int´ erˆ et qu’elle a ´ eveill´ e en moi, malgr´ e ce que j’avais pu dire jusqu’ici. J’y ai ainsi fait mes premiers pas en recherche et j’esp` ere pouvoir y prolonger cette exp´ erience particuli` erement instructive et enrichissante.

Je remercie tout d’abord le directeur de cette th` ese, Pierre Le Beux, pour m’avoir accueillie dans son laboratoire et pour avoir accept´ e de diriger mes travaux durant ces quatre ann´ ees.

Mes remerciements vont ´ egalement ` a Olivier Lor´ eal de l’INSERM U522 qui a co-dirig´ e cette th` ese. Mˆ eme si la compr´ ehension entre les mondes biologique et bioinformatique a parfois ´ et´ e d´ elicate, j’ai vraiment beaucoup appr´ eci´ e de discuter et d’´ echanger avec vous. Vous m’avez tou- jours donn´ e des conseils, remarques et commentaires constructifs qui m’ont permis d’avancer petit ` a petit.

Je souhaite exprimer ma gratitude tout particuli` erement ` a Anita Burgun sans qui ce travail n’aurait pas ´ et´ e ce qu’il est. Merci de m’avoir guid´ ee, conseill´ ee et encourag´ ee tout au long de ma th` ese. La confiance dont tu as fait preuve envers moi d` es le d´ ebut m’a beaucoup motiv´ ee.

Christine Froidevaux et Philippe Bessi` eres m’ont fait l’honneur d’ˆ etre les rapporteurs de cette th` ese, et je les en remercie, de mˆ eme que pour leur participation au Jury. Merci de l’int´ erˆ et que vous avez port´ e ` a mon travail et de vos remarques qui ont contribu´ e ` a am´ eliorer la qualit´ e de ce manuscrit.

Je remercie ´ egalement Dominique Lavenier d’avoir accept´ e de participer au Jury de soute- nance.

Je tiens ` a remercier Olivier Bodenreider, chercheur ` a la National Library of Medicine, pour les conseils stimulants et les suggestions enrichissantes que j’ai eu l’honneur de recevoir de sa part. Nos collaborations et ´ echanges m’ont beaucoup apport´ e, aussi bien scientifiquement que linguistiquement. Merci aussi de m’avoir accueillie au sein de votre institution.

Merci ` a Asuncion Gomez Perez qui m’a permis d’effectuer un stage de six mois au sein de son ´ equipe Ontology Engineering Group du Laboratoire d’Intelligence Artificielle ` a Madrid. Je

3

(5)

remercie ´ egalement Angel, Boris, Edwin, Mari Carmen, Oscar et Raul pour l’hospitalit´ e dont vous avez fait preuve envers moi lors de ce s´ ejour et pour m’avoir donn´ e un aper¸ cu non seulement de ce qu’est la recherche en Espagne mais aussi de la convivialit´ e qui y r` egne.

Je tiens ` a remercier tous ceux du labo qui m’ont soutenue au quotidien : Gwenn, Julie, Marc, Nicolas et Olivier aussi bien par les discussions que j’ai eu la chance d’avoir avec eux, leurs sug- gestions ou contributions. Je pense ici en particulier ` a Olivier qui m’a donn´ e de nombreux conseils instructifs et surtout ` a Julie qui, malgr´ e les nombreuses obligations qui l’attendaient, a pass´ e un temps pr´ ecieux pour relire avec beaucoup d’attention mon manuscrit. Merci en- core pour ton aide, sans tes corrections tr` es d´ etaill´ ees et constructives, ce travail n’aurait pas

´

et´ e le mˆ eme. C’est un r´ eel plaisir de travailler avec vous tous et j’esp` ere que ce n’est qu’un d´ ebut ! J’exprime toute ma profonde et sinc` ere reconnaissance ` a ma famille qui m’a toujours ´ epaul´ ee et encourag´ ee. Merci ` a vous d’avoir support´ e mes humeurs et de m’avoir fait confiance ` a tout moment.

Merci ´ egalement ` a mes amis d’avoir ´ et´ e l` a pour m’´ ecouter ou me changer les id´ ees quand cela ´ etait n´ ecessaire ou bien simplement pour partager un bon moment tous ensemble. La liste n’est pas exhaustive mais je citerais au moins : Agn` es, Amandine, C´ ecile, C´ eline, Dedel, Franck, Fran¸ cois, Gene, Greg, Jay, Jona, Mathilde, Matthias, Matthieu, Maya, R´ emi, Sandrine, Seb God et Soph.

Un p’tit merci sp´ ecial ` a Nathalie Hernandez qui me comprend si bien et avec qui j’appr´ ecie tant de partager mes impressions vis ` a vis de la recherche. Je ne d´ esesp` ere pas d’´ ecrire un article avec toi un jour. Si notre collaboration professionnelle est aussi efficace qu’en Espagne et aussi constructive que notre symbiose amicale, ¸ ca pourrait bien faire des ´ etincelles !

Cette liste serait bien entendu incompl` ete sans toi, Richard. Merci pour ton attention, ton

´

ecoute, ta patience et ton soutien de chaque instant. T’avoir ` a mes cˆ ot´ es est extrˆ emement

r´ econfortant et rassurant, alors que ¸ ca ne devait pas ˆ etre ´ evident de re-signer pour tout ¸ ca. En

r´ esum´ e, merci d’ˆ etre l` a, tout simplement...

(6)

A mon grand p` ` ere,

A Sandrine. `

(7)

(8)

Table des mati` eres

1 Introduction 11

2 Etat de l’art ´ 15

2.1 Contexte . . . . 16

2.1.1 Le domaine biom´ edical . . . . 16

2.1.1.1 Sc´ enario d’interrogation de sources de donn´ ees par les biologistes et m´ edecins . . . . 16

2.1.1.2 Caract´ eristiques des sources de donn´ ees biom´ edicales . . . . 17

2.1.1.3 Recherche d’informations des biologistes et m´ edecins . . . . 18

2.1.2 Le Web s´ emantique . . . . 19

2.1.2.1 Les langages . . . . 19

2.1.2.2 Les m´ eta-donn´ ees . . . . 22

2.1.2.3 Les ontologies . . . . 24

2.1.2.4 Conclusions . . . . 31

2.2 Approches d’int´ egration . . . . 32

2.2.1 Notions et enjeux autour des sources de donn´ ees biom´ edicales . . . . 33

2.2.1.1 Notions concernant les sources de donn´ ees biom´ edicales . . . . . 33

2.2.1.2 Enjeux pour l’int´ egration des sources de donn´ ees biom´ edicales . 36 2.2.2 Approches simples . . . . 37

2.2.3 Approches avanc´ ees . . . . 39

2.2.3.1 Entrepˆ ot de donn´ ees . . . . 40

2.2.3.2 Approche d’int´ egration navigationnelle . . . . 47

2.2.3.3 Syst` eme de m´ ediation . . . . 53

2.2.3.4 Syst` emes hybrides . . . . 62

2.2.3.5 Conclusion - Tableau r´ ecapitulatif . . . . 64

2.3 Probl´ ematique de mise en correspondance de sch´ emas . . . . 71

2.3.1 D´ efinitions et caract´ eristiques de l’op´ eration de mise en correspondance de sch´ emas . . . . 71

2.3.1.1 D´ efinitions . . . . 71

2.3.1.2 Caract´ eristiques . . . . 72

2.3.2 Approches au niveau sch´ ema . . . . 74

2.3.2.1 Terminologiques . . . . 74

2.3.2.2 Structurelles . . . . 76

2.3.2.3 S´ emantiques . . . . 77

7

(9)

2.3.3 Approches au niveau instances . . . . 78

2.3.4 Approches existantes . . . . 79

2.3.5 Conclusion . . . . 82

2.4 Conclusions . . . . 83

3 Objectifs 85 3.1 Objectif principal . . . . 86

3.2 Objectifs sp´ ecifiques . . . . 86

3.2.1 Etape 1 : Acquisition des sch´ ´ emas locaux . . . . 86

3.2.2 Etape 2 : Conception du sch´ ´ ema global . . . . 86

3.2.3 Etape 3 : Mise en correspondance du sch´ ´ ema global avec les sch´ emas locaux 87 4 Mat´ eriels et M´ ethodes 89 4.1 Mat´ eriels . . . . 90

4.1.1 Les sources de donn´ ees int´ egr´ ees . . . . 90

4.1.1.1 Les sources g´ enomiques . . . . 90

4.1.1.2 Les sources prot´ eiques . . . . 92

4.1.1.3 Les sources de donn´ ees m´ edicales . . . . 93

4.1.1.4 Conclusion . . . . 94

4.1.2 Ressources terminologiques . . . . 97

4.1.2.1 L’UMLS . . . . 97

4.1.2.2 WordNet . . . . 99

4.2 M´ ethodes . . . 101

4.2.1 D´ efinitions . . . 101

4.2.2 Constitution d’un corpus de g` enes pour l’interrogation des sources . . . . 102

4.2.3 Etape 1 : Acquisition des sch´ ´ emas locaux . . . 102

4.2.3.1 D´ efinition des ´ el´ ements de donn´ ees . . . 102

4.2.3.2 Extraction des ´ el´ ements de donn´ ees . . . 103

4.2.3.3 Traitement des r´ ef´ erences crois´ ees . . . 106

4.2.3.4 Typage des ´ el´ ements de donn´ ees : exploitation des valeurs associ´ ees108 4.2.3.5 D´ efinition des sch´ emas locaux au format XML . . . 110

4.2.4 Etape 2 : Conception du sch´ ´ ema global . . . 111

4.2.4.1 Origine des cycles dans l’UMLS . . . 111

4.2.4.2 Approche na¨ıve pour ´ eliminer les cycles de l’UMLS . . . 113

4.2.4.3 Approche formelle pour ´ eliminer les cycles de l’UMLS . . . 114

4.2.4.4 M´ ethode de comparaison des approches na¨ıve et formelle . . . . 116

4.2.4.5 D´ efinition du sch´ ema global au format OWL . . . 117

4.2.5 Etape 3 : Mise en correspondance des sch´ ´ emas locaux avec le sch´ ema global118 4.2.5.1 Mise en correspondance directe des ´ el´ ements de donn´ ees dans l’UMLS . . . 118

4.2.5.2 Mise en correspondance via une ressource externe : WordNet . . 119

4.2.5.3 Comparaison des approches directe et indirecte . . . 122

4.2.5.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-

tances . . . 123

(10)

5 R´ esultats 127

5.1 Etape 1 : Acquisition des sch´ ´ emas locaux . . . 128

5.1.1 Extraction des ´ el´ ements de donn´ ees . . . 128

5.1.2 Traitement des r´ ef´ erences crois´ ees . . . 129

5.1.3 Typage des ´ el´ ements de donn´ ees : Exploitation des valeurs associ´ ees . . . 132

5.1.4 D´ efinition des sch´ emas locaux au format XML . . . 133

5.2 Etape 2 : Conception du sch´ ´ ema global . . . 133

5.2.1 Elimination des cycles dans l’UMLS . . . 134 ´

5.2.1.1 R´ esultats globaux . . . 134

5.2.1.2 Nombre de descendants . . . 134

5.2.1.3 Coh´ erence s´ emantique : aspects quantitatifs et qualitatifs . . . . 134

5.2.1.4 Exemple . . . 135

5.2.1.5 Conclusion . . . 135

5.2.2 D´ efinition du sch´ ema global au format OWL . . . 137

5.3 Etape 3 : Mise en correspondance des sch´ ´ emas . . . 139

5.3.1 Mise en correspondance directe des ´ el´ ements de donn´ ees dans l’UMLS . . 139

5.3.2 Mise en correspondance indirecte des ´ el´ ements de donn´ ees dans l’UMLS . 140 5.3.2.1 Mise en correspondance des ´ el´ ements de donn´ ees dans WN . . . 140

5.3.2.2 Mise en correspondance des synsets WN avec des concepts UMLS 141 5.3.3 Comparaison des approches directe et indirecte . . . 142

5.3.3.1 R´ esultats globaux . . . 142

5.3.3.2 Apport de l’approche directe . . . 142

5.3.3.3 Apport de l’approche indirecte . . . 142

5.3.3.4 Validation . . . 143

5.3.3.5 Exemple . . . 143

5.3.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau instances . . . 144

6 Le syst` eme 147 6.1 Description du syst` eme . . . 148

6.1.1 Composants . . . 148

6.1.1.1 M´ ediateur . . . 148

6.1.1.2 Adaptateurs . . . 149

6.1.2 Architecture globale . . . 149

6.1.3 Strat´ egie de requˆ etes . . . 152

6.1.4 Exemples . . . 154

6.1.4.1 Synonymie . . . 155

6.1.4.2 Hi´ erarchie . . . 155

6.1.4.3 Instances . . . 158

6.2 Evolution du syst` ´ eme . . . 160

6.2.1 Ajout d’une nouvelle source . . . 160

6.2.2 Modification d’une source . . . 165

6.3 Synth` ese . . . 167

(11)

7 Discussion 169

7.1 Comparaison avec les syst` emes existants . . . 170

7.2 M´ ethodes exploitant les niveaux sch´ ema et instances . . . 171

7.2.1 M´ ethodes de mise en correspondance au niveau sch´ ema . . . 172

7.2.1.1 Apports . . . 172

7.2.1.2 Limites et perspectives . . . 172

7.2.2 M´ ethodes d´ evelopp´ ees au niveau instances . . . 173

7.2.2.1 Apports . . . 173

7.2.2.2 Limites et perspectives . . . 174

7.3 Sch´ ema global . . . 175

7.3.1 L’UMLS . . . 175

7.3.1.1 Int´ egration terminologique . . . 175

7.3.1.2 Choix de repr´ esentation . . . 176

7.3.1.3 Connaissance suppl´ ementaire . . . 176

7.3.2 WordNet . . . 177

7.3.2.1 Couverture d’ordre g´ en´ eral. . . 177

7.3.2.2 Ambigu¨ıt´ e . . . 177

7.3.2.3 Perspective . . . 178

7.3.3 Conclusion . . . 178

7.4 Apport de m´ ethodes formelles pour le sch´ ema global . . . 178

7.4.1 Am´ elioration du processus de requˆ etes . . . 179

7.4.2 Classification de nouveaux concepts . . . 181

7.4.3 Ontologie de haut niveau . . . 183

7.5 Processus de requˆ etes . . . 184

7.6 G´ en´ eralisation - R´ e-utilisation . . . 184

8 Conclusion g´ en´ erale 187 Bibliographie 188 Glossaire 204 Annexes 206 Annexe A : Les deux hi´ erarchies des types s´ emantiques de l’UMLS . . . 208

Annexe B : Hi´ erarchie des domaines de WordNet . . . 209

Annexe C : Liste des symboles de g` enes et noms associ´ es constituant notre corpus permettant d’interroger les sources biom´ edicales . . . 215

Annexe D : Liste des ´ el´ ements de donn´ ees extraits de la source Aceview et gestion de ses r´ ef´ erences crois´ ees . . . 218

Annexe E : Exemple de requˆ ete . . . 220

Annexe F : Exemples pour l’am´ elioration du processus de requˆ etes . . . 221

(12)

Introduction

La g´ enomique fonctionnelle*

¹

se d´ efinit par l’ « ´ etude et l’analyse directe du transcrip- tome* et du prot´ eome* : elle vise ` a d´ eterminer la fonction des g` enes ` a partir de leurs produits d’expression (ARN* et prot´ eines), ainsi qu’` a ´ etudier leur mode de r´ egulation et leurs interac- tions »

²

. Elle op` ere en parall` ele sur plusieurs centaines ou milliers de s´ equences d’ADN* et de prot´ eines fournies par les projets de s´ equen¸ cage. En plus de leur impact d´ eterminant dans le domaine biologique, les diff´ erentes approches m´ ethodologiques et technologiques de g´ enomique fonctionnelle sont utiles au domaine de la sant´ e, pour le diagnostique et le traitement de certaines maladies et cancers.

Etant donn´ ´ e les grands volumes d’informations manipul´ es dans ce cadre, il est apparu in- dispensable de d´ evelopper des sources capables de stocker, de rendre accessibles et de g´ erer ces donn´ ees massives pour pouvoir ensuite les exploiter. Les biologistes, mais aussi les m´ edecins, ont besoin de connaˆıtre et de disposer du maximum d’informations sur ces donn´ ees dans le cadre de leurs travaux de recherche. Par exemple, ` a partir d’un g` ene impliqu´ e dans une pathologie, les biologistes et m´ edecins ont besoin de disposer d’informations ` a propos de cette maladie (ses manifestations, d’autres g` enes potentiellement impliqu´ es, etc) et ` a propos du g` ene lui-mˆ eme (sa s´ equence, son polymorphisme, les voies m´ etaboliques dans lesquelles il intervient, etc). En effet, l’interpr´ etation des donn´ ees exp´ erimentales n´ ecessite g´ en´ eralement de comparer des donn´ ees cli- niques et biologiques avec des ensembles de donn´ ees d´ ej` a existantes, mais aussi avec des bases de connaissances de r´ ef´ erences.

La recherche dans le domaine de la g´ enomique fonctionnelle n´ ecessite donc d’acc´ eder ` a une multitude de sources de donn´ ees de diff´ erents types : entrepˆ ots, bases et banques de donn´ ees, bases de connaissances, ressources terminologiques, ontologies, etc. D’apr` es le dernier ´ etat des lieux effectu´ e par le journal Nucleic Acids Research, 858 sources de biologie mol´ eculaire ont ´ et´ e recens´ ees au 1

^er

janvier 2006 [Galperin 06]. Celles-ci sont distribu´ ees sur divers serveurs et

´

evoluent tr` es rapidement, ind´ ependamment les unes des autres. Aujourd’hui, le probl` eme qui est donc pos´ e aux biologistes et m´ edecins est celui d’une collecte manuelle d’informations, qui ne peut ˆ etre que partielle, tr` es fastidieuse, voire mˆ eme erron´ ee, ´ etant donn´ e le nombre de sources disponibles. ` A ce probl` eme de distribution s’ajoute celui de la diversit´ e des sources

1

Les mots suivis d’un ast´ erisque sont d´ efinis dans le glossaire

2

Source InfoBioGen - http ://www.infobiogen.fr/glossaire/glossaire.php ?lettre=G#GENOMIQUE-FN

11

(13)

biologiques et m´ edicales, ou biom´ edicales. En effet, celles-ci sont h´ et´ erog` enes ` a de nombreux niveaux [Bry 03], [Froidevaux 02] :

– Contenu

Ces diff´ erentes sources touchent ` a divers disciplines du domaine biom´ edical. Leur contenu diff` ere donc d’une source ` a l’autre. Par exemple, la source GenBank regroupe des donn´ ees biologiques concernant les s´ equences nucl´ eiques et prot´ eiques [Benson 06], alors que OMIM (Online Mendelian Inheritance in Man) traite de donn´ ees m´ edicales en cataloguant des maladies g´ en´ etiques [Hamosh 05].

D’autre part, des sources traitant de la mˆ eme entit´ e biom´ edicale ne fournissent pas forc´ ement des donn´ ees qui se situent au mˆ eme niveau. Entrez Gene, par exemple, contient des informations g´ en´ eralistes au sujet des g` enes [Maglott 05] tandis que KEGG fournit plus sp´ ecifiquement des informations sur les voies m´ etaboliques et r´ eseaux de r´ egu- lation et en cons´ equence les g` enes qui y sont impliqu´ es [Kanehisa 06]. Par ailleurs, certaines sources contiennent des informations sp´ ecifiques ` a un organisme, comme MGD (Mouse Ge- nome Database) [Blake 06] qui concerne la souris en particulier, alors que d’autres sont g´ en´ erales, c’est le cas notamment de Swiss-Prot [Boeckmann 03], base de connaissances universelle de prot´ eines.

– Syntaxe

Au niveau syntaxique, on distingue ´ egalement des diff´ erences entre les sources. En effet, celles-ci sont impl´ ement´ ees de mani` eres diverses ; certaines sous forme de base de donn´ ees relationnelles (par exemple, Entrez Gene) ou plus simplement par des fichiers plats (par exemple, Swiss-Prot). D’autre part, les interfaces Web des sources n’utilisent pas le mˆ eme format pour d´ ecrire leurs donn´ ees. Par exemple, DDBJ (DNA Data Bank of Japan) [Okubo 06] fournit des r´ esultats de requˆ etes au format XML*

³

(eXtensible Markup Language - ou langage de balisage extensible) [Bray 00] tandis que Swiss-Prot se limite au format texte.

– S´ emantique

L’h´ et´ erog´ en´ eit´ e s´ emantique entre les sources est la plus complexe ` a r´ esoudre. En fonction des sources, on rencontre des conflits s´ emantiques dˆ us ` a la diversit´ e des modes de d´ esignation des entit´ es du domaine et ` a l’interpr´ etation de certaines notions fondamentales qui sont propres ` a chacun. L’exemple traditionnellement utilis´ e pour illustrer cet aspect est la d´ efinition mˆ eme d’un g` ene [Schulze-Kremer 02] : dans la source GDB (Genome Data Base) [Letovsky 98], il est d´ efini comme un « fragment d’ADN qui peut ˆ etre transcrit et traduit en une prot´ eine » alors que dans GenBank, il est consid´ er´ e comme un « fragment d’ADN qui porte un trait g´ en´ etique ou un ph´ enotype (incluant des r´ egions codantes non structurelles d’ADN, comme les introns ou les promoteurs) » . Cela pose des probl` emes dans la mesure o` u un mˆ eme terme est utilis´ e pour d´ ecrire deux notions diff´ erentes. Un autre exemple est l’unit´ e de mesure de la distance g´ en´ etique (kilobases ou centimorgans) qui n’est pas toujours la mˆ eme, il est donc n´ ecessaire de faire des conversions pour pouvoir comparer ce type de donn´ ees.

Il existe aussi des diff´ erences de granularit´ e dans la repr´ esentation des donn´ ees se trouvant dans les sources. Un exemple concerne deux sources de contenu identique :

3

http ://www.w3.org/XML/

(14)

!" # ! $ %

& &

" ' ! " # (

)

) *

) * *% &

+ & )

+ & ) ****)))) ++++ &&&& )))) ****))))

+ & ) * ,

++ && )) ** ,,

+ & ) * , ++++ &&&& )))) **** ,,,,

+ & )

) * *% &

) *

) *& ) !" # !

$ % &

& " ' ! " #

) *& )

) *), # - ) *), #

) * ), # . ) * ), #

) *# / ' ) *# /

)

Fig. 1.1 – Extraits de fichiers r´ esultats au format XML des sources GenBank et DDBJ. L’extrait de GenBank apparaˆıt avec un fond blanc et celui de DDBJ avec un fond gris : bien que contenant les mˆ emes informations, leur repr´ esentation de l’organisme Homo Sapiens est diff´ erente. DDBJ utilise un niveau de granularit´ e plus fin que Genbank.

GenBank et DDBJ qui fournissent des donn´ ees sur les s´ equences nucl´ eiques et prot´ eiques au format XML. Mais ce dernier n’a pas la mˆ eme forme dans les deux sources, refl´ etant ainsi deux modes de repr´ esentation diff´ erents pour des informations totalement similaires.

En effet, leur repr´ esentation en XML de l’Homo Sapiens est un organisme d´ ecrit en genre et esp` ece dans GenBank et simplement un organisme dans DDBJ (Figure 1.1).

Les technologies du Web fournissent une r´ eponse au probl` eme de distribution. Cependant, si elles rendent possible l’acc` es aux diff´ erentes sources de donn´ ees, et en ce sens c’est un succ` es, cet acc` es est encore manuel et la mise en correspondance des informations pr´ esentes dans les diff´ erentes sources requiert l’intervention humaine. Automatiser ces acc` es et combiner les r´ esul- tats n´ ecessitent de r´ esoudre les diff´ erents niveaux d’h´ et´ erog´ en´ eit´ e identifi´ es pr´ ec´ edemment. Ces besoins ne sont cependant pas sp´ ecifiques ` a la g´ enomique fonctionnelle et font actuellement l’ob- jet de recherches et d´ eveloppements technologiques dont pourrait profiter notre domaine. C’est dans ce cadre notamment que la notion de Web s´ emantique a ´ et´ e introduite [Berners-Lee 01].

L’objectif g´ en´ eral est de rendre le contenu des pages Web interpr´ etables par les machines, et plus uniquement par les hommes. Ainsi, des outils logiciels pourront r´ ealiser des tˆ aches compliqu´ ees, et ce de mani` ere automatique, afin de faciliter le travail des utilisateurs n´ ecessitant d’acc´ eder ` a des informations pr´ esentes sur Internet. Plus sp´ ecifiquement, un des int´ erˆ ets majeurs du Web s´ emantique en g´ enomique fonctionnelle est d’apporter suffisamment de renseignements sur les ressources, de d´ ecrire leur contenu de mani` ere ` a la fois formelle et signifiante, de telle sorte que des programmes de recherche sur le Web puissent s´ electionner de mani` ere automatique les informations pertinentes pour une question donn´ ee et les combiner. On entend par ressource*

n’importe quelle entit´ e informatique (document ´ electronique, image, service, collection d’autres ressources, etc) ayant une identit´ e

⁴

.

4

http ://www.gbiv.com/protocols/uri/rfc/rfc2396.html

(15)

L’un des axes fondamentaux du Web s´ emantique est l’int´ egration automatique d’informations provenant de sources h´ et´ erog` enes [Laublet 02]. L’objectif est de faciliter les tˆ aches de recherche et de collecte de donn´ ees r´ ealis´ ees par les utilisateurs au cours de leurs travaux en mutualisant les informations existant dans les sources de donn´ ees pertinentes. De plus, la combinaison et une repr´ esentation plus formelle des donn´ ees issues de sources h´ et´ erog` enes devraient permettre de d´ ecouvrir de nouvelles connaissances ` a partir de l’existant. Ainsi, l’id´ ee est de cr´ eer un syst` eme d’int´ egration donnant l’illusion d’interroger un syst` eme homog` ene, global et centralis´ e, plutˆ ot qu’une multitude de sources de donn´ ees distribu´ ees.

Ce travail de th` ese vise ` a aider les biologistes et m´ edecins ` a acc´ eder aux informations dis- ponibles dans les multiples sources de donn´ ees en g´ enomique fonctionnelle. Pour cela, nous proposons une approche pour la conception d’un mod` ele Web s´ emantique, et plus pr´ ecis´ ement d’un syst` eme d’int´ egration de sources de donn´ ees biom´ edicales.

Le manuscrit est organis´ e comme suit :

– la section suivante positionne le sujet dans son contexte, pr´ esente les approches d’int´ egra- tion existantes pour la r´ ealisation de syst` emes, introduit certains de ces diff´ erents syst` emes, et aborde finalement la probl´ ematique de mise en correspondance de sch´ emas qui est n´ e- cessaire lors de la conception de tels syst` emes ;

– la section 3 annonce les objectifs de notre travail ;

– la section 4 pr´ esente le mat´ eriel utilis´ e et les m´ ethodes mises en œuvre pour la conception de notre syst` eme d’int´ egration ;

– la section 5 donne les r´ esultats obtenus grˆ ace aux m´ ethodes d´ etaill´ ees ` a la section pr´ ec´ e- dente ;

– la section 6 pr´ esente le syst` eme que nous avons d´ evelopp´ e au travers d’exemples de requˆ etes et aborde les questions de son ´ evolution ;

– la section 7 positionne notre travail par rapport aux travaux existants en recensant les apports, les limites et les perspectives de ce travail ;

– enfin, la derni` ere section conclut ce travail.

(16)

Etat de l’art ´

15

(17)

Au cours de leurs travaux, les biologistes et m´ edecins doivent rechercher des informations dans des sources de donn´ ees qui sont r´ eparties sur Internet et h´ et´ erog` enes ` a de multiples niveaux.

Dans ce cadre, nous pr´ esentons l’int´ erˆ et d’utiliser les technologies du Web s´ emantique. Nous d´ etaillons ensuite les diff´ erentes approches d’int´ egration qui existent pour fournir aux biologistes et m´ edecins un acc` es unique aux informations situ´ ees dans des sources de donn´ ees biom´ edicales distinctes. Enfin, nous introduisons la notion de mises en correspondance, n´ ecessaires lors de la conception des syst` emes d’int´ egration, et les diff´ erentes m´ ethodes existantes pour les d´ ecouvrir.

2.1 Contexte

2.1.1 Le domaine biom´ edical

2.1.1.1 Sc´ enario d’interrogation de sources de donn´ ees par les biologistes et m´ e- decins

En g´ enomique fonctionnelle, les biologistes comme les m´ edecins n´ ecessitent d’acc´ eder ` a des informations disponibles sur Internet. Ainsi, lors de l’analyse des r´ esultats de puces ` a ADN, les biologistes interrogent de nombreuses sources de mani` ere ` a r´ ecup´ erer l’ensemble des donn´ ees dont ils ont besoin pour interpr´ eter les r´ esultats obtenus au sujet des g` enes ´ etudi´ es par cette technologie. Ces informations se trouvent dans des sources de donn´ ees biom´ edicales qui sont

`

a la fois h´ et´ erog` enes, r´ eparties, autonomes et potentiellement redondantes. En effet, il y a un recouvrement certain entre les informations existant dans les diff´ erentes sources. La difficult´ e du travail des biologistes pour rechercher ces informations li´ ees ` a leurs r´ esultats exp´ erimentaux se situe donc ` a diff´ erents niveaux : l’identification des sources (ainsi que leur URL*) contenant l’information n´ ecessaire, la mani` ere d’interroger ces sources, la navigation entre elles, la collecte des donn´ ees qui les int´ eressent et enfin la fusion et le nettoyage des informations obtenues.

Un exemple de requˆ ete est l’identification des maladies dans lesquelles sont impliqu´ es des

g` enes explor´ es lors des approches transcriptomiques utilisant les puces ` a ADN ainsi que les inter-

actions des prot´ eines qui leur sont associ´ ees (Figure 2.1 page suivante). Pour cela, le biologiste va

interroger des sources qu’il aura pr´ ealablement identifi´ ees comme utiles et pertinentes vis ` a vis de

sa recherche. Il devra ensuite naviguer au sein des sources interrog´ ees de mani` ere ` a collecter les

informations qui l’int´ eressent. Plus pr´ ecis´ ement, cela consiste ` a r´ ecup´ erer dans certaines d’entre

elles les maladies, les symptˆ omes ou les syndromes dans lesquels les g` enes ´ etudi´ es sont impliqu´ es

(sources 1 et 5) et parall` element ` a identifier les prot´ eines associ´ ees aux produits de g` enes ´ etudi´ es

dans une source 2 pour les fournir en entr´ ee d’une autre source 3. Il pourra ainsi r´ ecup´ erer les

interactions de prot´ eines dans la source 3 mais aussi dans la source 4 directement au moyen

des g` enes d´ epos´ es. Une fois cette collecte effectu´ ee, le biologiste devra fusionner et nettoyer les

r´ esultats obtenus notamment dans les sources 1 et 5 en ce qui concerne les maladies ainsi que

ceux fournis par les sources 3 et 4 au sujet des interactions. Cette unification est n´ ecessaire car

elle permet d’homog´ en´ eiser les donn´ ees r´ ecup´ er´ ees dans des sources diff´ erentes et d’y ´ eliminer

des ´ eventuelles redondances.

(18)

Interprétation des

gènes déposés Interactions des protéines associées aux gènes déposés et implication dans des maladies ?

Gènes

Protéines

Maladies Interactions Maladies

Maladies des sources 1 et 5 Interactions des sources 3 et 4

Source 1 Source 2 Source 3 Source 4 Source 5

Maladies et Interactions

INTERROGATION NAVIGATION

COLLECTE

NETTOYAGE FUSION

IDENTIFICATION

Fig. 2.1 – Sc´ enario d’interrogation de sources de donn´ ees pour identifier les maladies dans lesquelles sont impliqu´ es des g` enes d´ epos´ es sur une puce ` a ADN ainsi que les interactions des prot´ eines qui leur sont associ´ ees.

2.1.1.2 Caract´ eristiques des sources de donn´ ees biom´ edicales

Les caract´ eristiques principales des sources de donn´ ees biom´ edicales sont les suivantes [Hernandez 04] :

– les sources contiennent des donn´ ees de nature diverse, dˆ u au fait que le domaine biom´ edical interagit avec de nombreux sous-domaines ou domaines connexes, tels que l’anatomie, la pharmacologie ou encore la chimie. De plus, les donn´ ees que les sources h´ ebergent diff` erent par leur format. Par exemple, certaines stockent des donn´ ees simples, comme GenBank qui fournit des informations textuelles sur les s´ equences alors que d’autres fournissent des donn´ ees sous des formes plus complexes, telles que PDB qui contient des images d´ ecrivant la structure des prot´ eines [Deshpande 05]. Une cons´ equence de la diff´ erence des formats est l’espace de stockage n´ ecessaire qui est largement moindre dans le premier cas que dans le second ;

– les donn´ ees sont h´ et´ erog` enes dans leur repr´ esentation. Cela englobe des diff´ erences dans leur contenu, leur syntaxe et leur s´ emantique. Cet aspect, d´ ej` a abord´ e dans l’intro- duction, soul` eve diff´ erents types de probl` emes comme la redondance d’informations d’une source ` a l’autre, et r´ esultante de cela, la coh´ erence et la compatibilit´ e de ces informations.

En l’occurrence, si des donn´ ees cens´ ees ˆ etre semblables sont divergentes dans deux sources distinctes, on doit pouvoir identifier une incoh´ erence dans au moins l’une des sources ; – les sources ´ etant autonomes, elles sont susceptibles de modifier leur contenu ou leur

sch´ ema ` a tout moment, voire mˆ eme de supprimer des donn´ ees sans en faire ´ etat. Par

(19)

exemple, quand une nouvelle publication apparaˆıt sur un g` ene donn´ e, il peut ˆ etre n´ ecessaire de compl´ eter ou modifier les informations sur ce g` ene dans les sources qui contiennent au moins une entr´ ee le concernant ;

– enfin, les capacit´ es d’interrogation offertes par les interfaces sont diff´ erentes suivant les sources, ce qui complique la tˆ ache de requˆ etes des biologistes et m´ edecins. Ces derniers, qui ne sont pas n´ ecessairement familiers avec chaque site Web h´ ebergeant les sources, risquent de ne pas exploiter au mieux les fonctionnalit´ es d’interrogation offertes et donc de passer ` a cˆ ot´ e d’informations potentiellement pertinentes pour eux.

Ces diff´ erents points illustrent les difficult´ es auxquelles sont confront´ es les biologistes et m´ ede- cins quand ils cherchent ` a r´ ecup´ erer des informations dans les sources de donn´ ees biom´ edicales accessibles sur Internet. L’int´ egration de ces sources doit donc permettre d’aider les biologistes et m´ edecins ` a effectuer ces tˆ aches et ainsi d’inf´ erer de nouvelles connaissances.

2.1.1.3 Recherche d’informations des biologistes et m´ edecins

Le travail de recherche d’informations et de mise en concurrence de r´ esultats avec l’existant apparaˆıt clairement comme une tˆ ache tr` es p´ enible, fastidieuse et source d’erreurs pour les biolo- gistes et m´ edecins. Il est ainsi n´ ecessaire de faciliter ce travail en l’automatisant au maximum.

Les diff´ erents points ´ etant de pouvoir :

– guider les biologistes et m´ edecins pour constituer leurs requˆ etes vis ` a vis des sources sans qu’ils aient besoin de se soucier de la mani` ere dont elles sont impl´ ement´ ees et repr´ esent´ ees ; – proposer des chemins possibles entre les diff´ erentes sources au travers de liens (hyper- textes en particulier) existant entre elles. Ces liens sont nomm´ es r´ ef´ erences crois´ ees (Cross- references en anglais) dans la litt´ erature ;

– r´ ecup´ erer les informations pertinentes qui int´ eressent les biologistes et m´ edecins (vis ` a vis de leur requˆ ete) ;

– agr´ eger des portions d’informations qui se retrouvent r´ eparties dans plusieurs sources ; – analyser les r´ esultats obtenus dans les diff´ erentes sources et les trier de mani` ere ` a rendre

aux biologistes et m´ edecins une r´ eponse ` a leur requˆ ete qui soit globale, homog` ene et non redondante. Plus pr´ ecis´ ement, ils devront pouvoir interroger de mani` ere centralis´ ee di- verses sources et obtenir un r´ esultat unique mutualisant les informations fournies par les sources sans reproduire leurs h´ et´ erog´ en´ eit´ es (contenu, syntaxe et s´ emantique - cf 1 page 12).

Dans ce cadre, les technologies ´ emergentes du Web s´ emantique, visant ` a rendre les informa- tions disponibles sur Internet interpr´ etables non seulement par les hommes mais ´ egalement par les machines, semblent pouvoir r´ epondre ` a ces attentes ou au moins contribuer partiellement ` a leur r´ esolution. Les donn´ ees pr´ esentes dans les sources doivent pouvoir ˆ etre manipul´ ees par des programmes de mani` ere automatique afin de faciliter le travail de recherche d’informations des biologistes et m´ edecins. Traiter cette tˆ ache automatiquement plutˆ ot que manuellement am´ elio- rerait les r´ esultats, notamment en terme d’exhaustivit´ e des donn´ ees r´ ecolt´ ees pouvant r´ epondre

`

a une requˆ ete dans un ensemble de sources. En effet, ´ etant donn´ e le nombre tr` es important de

sources biom´ edicales et le fait qu’il augmente chaque ann´ ee un peu plus [Galperin 06], il est qua-

siment impossible de connaˆıtre l’ensemble des informations disponibles dans les sources. En plus

de cela, les sources existantes ´ evoluent tr` es rapidement et il est tr` es difficile pour les biologistes

(20)

et m´ edecins d’avoir des connaissances constamment ` a jour mˆ eme dans le cas des sources qu’ils utilisent fr´ equemment. Nous consid´ erons les technologies du Web s´ emantique pour r´ esoudre un certain nombre des probl` emes identifi´ es lors de la collecte d’informations sur Internet dans le domaine biom´ edical.

2.1.2 Le Web s´ emantique

Selon Tim Berners-Lee, le Web s´ emantique est « une extension du Web actuel o` u l’infor- mation prend un sens bien pr´ ecis permettant aux hommes et aux machines de travailler en coop´ eration d’une meilleure fa¸ con » [Berners-Lee 01]. La plupart des informations se trouvant sur Internet sont effectivement lisibles par les hommes mais rarement (ou mal) interpr´ etables par les machines. En effet, avec le moteur de recherche Google

¹

, par exemple, si on effectue une recherche sur le mot Virus sans sp´ ecifier explicitement que l’on est int´ eress´ e par les virus dans le domaine m´ edical, parmi les 10 premiers r´ esultats obtenus, seul le quatri` eme r´ epond ` a notre attente (Figure 2.2 page suivante). De plus, les r´ esultats retourn´ es par Google sont g´ en´ erale- ment tr` es nombreux, ici on obtient un total de 531 millions de pages Web, ce qui a logiquement pour effet de noyer les utilisateurs sous une masse d’informations beaucoup trop importante.

Une solution pour obtenir des r´ esultats plus pertinents et restreints est d’affiner sa requˆ ete en ajoutant le mot « m´ edecine » , mais on obtiendra malgr´ e tout du bruit puisque des pages Web contenant notamment la phrase « on s’int´ eresse aux virus informatiques et non ` a ceux observ´ es en m´ edecine » feront partie des r´ esultats propos´ es par Google.

Il est donc apparu n´ ecessaire de repr´ esenter plus formellement le contenu des ressources du Web actuel au moyen de langages visant ` a ajouter de la s´ emantique ` a la description syntaxique des informations disponibles sur Internet. Cette derni` ere sera ainsi exploitable par les machines qui vont pouvoir automatiser le traitement de connaissances formalis´ ees, et plus pr´ ecis´ ement le raisonnement sur celles-ci. En particulier, cet enrichissement a pour but de lib´ erer les utilisateurs d’une grande partie de leur p´ enible travail de recherche d’informations et d’exploiter de grands volumes d’informations grˆ ace ` a des syst` emes g´ erant les connaissances d’un domaine.

Diff´ erents axes peuvent ˆ etre d´ egag´ es dans le Web s´ emantique ainsi que des technologies fondamentales constituant celui-ci. Nous pr´ esentons les composants suivants : les langages, les m´ eta-donn´ ees et les ontologies. Nous verrons en quoi ceux-ci vont permettre de r´ epondre en partie aux probl` emes pos´ es par les diff´ erents types d’h´ et´ erog´ en´ eit´ e identifi´ es pr´ ec´ edemment (cf 1 page 12).

2.1.2.1 Les langages

Une hi´ erarchie de langages constitue le pilier du Web s´ emantique. Ce sont en effet ces lan- gages qui vont permettre de d´ ecrire le contenu des ressources Web, le rendant ainsi lisible et exploitable par les machines. Le mod` ele en couches (Layer cake) (Figure 2.3 page 21), propos´ e par Tim Berners-Lee et le « World Wide Web Consortium

²

» (W3C) plus g´ en´ eralement, illustre la structure des niveaux o` u se situent les diff´ erentes technologies du Web s´ emantique. Chaque ni- veau s’appuie sur les fonctionnalit´ es de ceux qui sont en dessous de lui-mˆ eme. Le W3C s’attache

1

http ://www.google.fr

2

http ://www.w3.org/

(21)

Fig. 2.2 – R´ esultat d’une requˆ ete effectu´ ee sur le mot Virus dans le moteur de

recherche Google.

(22)

URI

Identifiants uniques de ressource

Unicode

XML Espaces de noms

S ig na tu re C ry pt ag e

RDF - Modèle & Syntaxe RDF - Schémas

Ontologie Règles Raisonnement

Preuve

Confiance / Sécurité

Fig. 2.3 – Les technologies du Web s´ emantique organis´ ees par niveaux - Vision de Tim Berners-Lee et du W3C (The Layer Cake).

`

a d´ evelopper des standards et des recommandations pour tous les niveaux, sachant que pour l’instant, les travaux les plus aboutis du Web s´ emantique traitent principalement les couches basses. Au sein de cette architecture pyramidale, on doit pouvoir identifier le langage le mieux adapt´ e ` a l’application que l’on souhaite r´ ealiser [Laublet 02]. Nous nous focalisons ici sur les cinq premi` eres couches pour lesquelles le W3C a propos´ e des standards [Antoniou 04] :

– Unicode - URI

³

(Uniform Resource Identifier) : cette couche de base, dont la syntaxe respecte une norme d’Internet mise en place pour le Web, permet d’identifier une ressource avec certitude, de mani` ere unique. L’URI est la technologie de base du Web car tous ses hyperliens sont exprim´ es sous forme d’URI ;

– XML

⁴

: ce format fournit une syntaxe pour structurer des documents mais n’impose pas de contraintes s´ emantiques sur le sens de ces documents. Il supporte donc l’interop´ erabi- lit´ e syntaxique. Sa syntaxe est parfois utilis´ ee par des langages de plus haut niveau, ce qui garantit leur ´ echange ` a travers le Web. C’est ainsi l’infrastructure de base du Web s´ emantique ;

– RDF*

⁵

(Resource Description Framework) [Lassila 98] : ce langage permet d’exprimer des contraintes sur les ressources ; c’est un mod` ele de donn´ ees standard pour associer aux documents de la s´ emantique exploitable par les machines. Il permet de repr´ esenter toute sorte d’informations et en particulier les m´ eta-donn´ ees que nous d´ efinissons dans la partie qui suit (cf 2.1.2.2 page suivante) ;

– RDF Schema

⁶

[Brickley 00] : c’est un langage dont les caract´ eristiques permettent d’or- ganiser les vocabulaires RDF en hi´ erarchies. On va ainsi pouvoir repr´ esenter un certain nombre de structures constituant les ontologies ;

3

http ://www.w3.org/Addressing/

4

http ://www.w3.org/XML/

5

http ://www.w3.org/RDF/

6

http ://www.w3.org/TR/rdf-schema/

(23)

– Ontologies : comme nous le verrons plus en d´ etail par la suite (cf 2.1.2.3 page 24), elles d´ efinissent des vocabulaires et ´ etablissent l’usage que l’on peut faire des termes dans le contexte d’un domaine sp´ ecifique. De nombreux langages ont ´ et´ e d´ evelopp´ es pour re- pr´ esenter les ontologies, notamment DAML+OIL

⁷

(DARPA Agent Markup Language + Ontology Inference Layer) [Horrocks 02] et plus r´ ecemment OWL*

⁸

(Web Ontology Lan- guage) [Baader 03] qui a ´ et´ e inspir´ e de ce pr´ ec´ edent langage mais offrant des fonctionnalit´ es suppl´ ementaires. C’est un langage plus riche que RDF Schema puisqu’il dispose d’une s´ e- mantique formelle propre et offre des fonctionnalit´ es plus avanc´ ees, comme les relations entre concepts (telles que la disjonction) et les caract´ eristiques des relations (par exemple, la sym´ etrie).

On peut constater que plus le niveau de repr´ esentation offert par les langages est haut, plus les technologies correspondantes ont des capacit´ es avanc´ ees. Nous verrons par la suite que cela d´ etermine ´ egalement la puissance et l’automatisation des tˆ aches que les syst` emes pourront r´ ealiser en exploitant l’information repr´ esent´ ee par ces diff´ erents langages. Dans la partie sur les ontologies (cf 2.1.2.3 page 24), nous d´ efinirons les notions de r` egles et de raisonnement et nous aborderons ces points dans la discussion pour montrer en quoi ces technologies avanc´ ees peuvent ´ egalement ˆ etre utiles dans le cadre de l’int´ egration de sources de donn´ ees h´ et´ erog` enes (cf 7.4 page 178). Nous ne d´ etaillons pas les niveaux sup´ erieurs qui se situent encore au stade de d´ eveloppement.

2.1.2.2 Les m´ eta-donn´ ees

L’information se trouvant sur Internet est tout ` a fait satisfaisante pour les hommes mais le probl` eme est qu’elle ne l’est pas pour les machines qui ne peuvent l’exploiter et l’interpr´ eter que de mani` ere tr` es limit´ ee. La solution est de remplacer le langage HTML par des langages plus appropri´ es pour repr´ esenter les ressources Web de mani` ere plus structur´ ee. De plus, les pages Web devraient contenir des informations suppl´ ementaires concernant leur contenu. C’est ce type d’informations que Tim Berners-Lee a d´ efini comme les m´ eta-donn´ ees, c’est-` a-dire des

« donn´ ees sur les donn´ ees »

⁹

. Plus pr´ ecis´ ement, ce sont des informations structur´ ees et explicites permettant de d´ ecrire des documents. Dans le contexte du Web s´ emantique, elles constituent un module fondamental puisqu’elles sont la base pour d´ ecrire les ressources Web [Nilsson 02]. Les m´ eta-donn´ ees sont ainsi des marqueurs qui saisissent une partie du sens des donn´ ees, participant donc ` a rendre les ressources auxquelles elles sont associ´ ees compr´ ehensibles et exploitables par les machines. Mˆ eme si l’int´ egration des m´ eta-donn´ ees aux contenus num´ eriques n’est pas encore largement adopt´ ee, des travaux et des volont´ es convergent dans ce sens. La principale est la norme Dublin Core

¹⁰

qui est une initiative d´ edi´ ee ` a ces questions depuis 1995. Elle d´ efinit quinze ´ el´ ements dont la s´ emantique a ´ et´ e ´ etablie par un consensus international de professionnels provenant de diverses disciplines telles que la biblioth´ economie, l’informatique, le balisage de

7

http ://www.w3.org/TR/daml+oil-reference

8

http ://www.w3.org/TR/owl-features/

9

http ://www.w3.org/DesignIssues/Metadata.html

10

http ://dublincore.org/

(24)

textes, la communaut´ e mus´ eologique et d’autres domaines connexes. Ces ´ el´ ements sont r´ epartis autour de trois domaines, qui permettent d’identifier et de d´ ecrire les ressources du Web :

– contenu : Titre, Sujet, Description, Source, Langage, Relation, Couverture ; – propri´ et´ e intellectuelle : Cr´ eateur, ´ Editeur, Contributeur, Droits ;

– mat´ erialisation : Date, Type, Format, Identifiant.

Une contribution majeure des m´ eta-donn´ ees est qu’elles facilitent la recherche d’informations sur Internet. Des moteurs de recherche de r´ ef´ erence, tels que CISMeF [Darmoni 00] pour des ressources num´ eriques m´ edicales fran¸caises, les utilisent pour affiner leur mode de recherche.

D’autre part, les m´ eta-donn´ ees sont particuli` erement utiles pour g´ erer l’´ evolution des syst` emes d’une mani` ere flexible, ce qui est une caract´ eristique indispensable pour am´ eliorer l’acc` es aux ressources Web [Busse 99], et en particulier dans le domaine biom´ edical dont les donn´ ees ´ evo- luent tr` es rapidement. En effet, le contenu des ressources change r´ eguli` erement et il faut pouvoir ˆ

etre sˆ ur que cette information est ` a jour. Finalement, les m´ eta-donn´ ees garantissent en partie l’interop´ erabilit´ e en assurant l’´ echange et le partage d’informations rendues lisibles et exploi- tables par les machines.

En terme d’int´ egration, elles sont une bonne solution ` a des stockages trop lourds d’infor- mations [Kashyap 98]. Elles permettent d’abstraire et de capturer l’essentiel des informations se trouvant dans les sources r´ eparties sur Internet, et ce de fa¸ con tout ` a fait ind´ ependante des d´ etails de repr´ esentation propres au contenu de chaque source. De plus, les descriptions des m´ eta-donn´ ees prennent g´ en´ eralement moins de place, au niveau du stockage, que les donn´ ees elles-mˆ emes. Des exemples de m´ eta-donn´ ees sont le nom ou les dates de cr´ eation et de derni` ere modification d’une source.

Plus sp´ ecifiquement dans le domaine biom´ edical, Markowitz et al. ont identifi´ e les m´ eta- donn´ ees suivantes comme n´ ecessaires pour d´ ecrire des bases de donn´ ees, pouvant s’appliquer aux sources de donn´ ees d’une mani` ere plus globale [Markowitz 97] :

1. des informations g´ en´ erales incluant le nom de la source, son URL, le langage dans lequel la source est d´ ecrite, la mani` ere dont elle est impl´ ement´ ee et des mots-cl´ es permettant des recherches de haut niveau dans la source ;

2. le sch´ ema d´ efinissant la structure de la source, voire des d´ efinitions associ´ ees aux diff´ erents

´

el´ ements du sch´ ema ;

3. des vues repr´ esentant des interpr´ etations alternatives des sources en fonction des utilisa- teurs ;

4. les r´ ef´ erences crois´ ees connues qui existent avec d’autres sources.

Cependant, il est important de souligner que ces m´ eta-donn´ ees sont tr` es rarement fournies

par les auteurs des sources. Elles ne sont souvent disponibles que partiellement et lorsque l’on

trouve ces informations, le format dans lequel elles sont d´ ecrites est difficilement exploitable. De

plus, mettre ce type de m´ eta-donn´ ees sous un mˆ eme format est coˆ uteux, tout comme maintenir

ces derni` eres ` a jour peut ˆ etre complexe et prendre beaucoup de temps. Il apparaˆıt donc claire-

(25)

ment que des outils appropri´ es pour effectuer ces diff´ erentes tˆ aches sont indispensables dans la perspective d’int´ egration de sources de donn´ ees biom´ edicales.

En conclusion, il faut noter que mˆ eme si les m´ eta-donn´ ees propose une premi` ere solution pour permettre aux machines d’exploiter plus efficacement les ressources Web, elles ne sont pas suffisantes. En effet, leur contribution principale se situe au niveau syntaxique puisqu’elles cor- respondent ` a une information descriptive sur les structures des ressources Web. Cela ne permet pas de r´ esoudre les h´ et´ erog´ en´ eit´ es de type s´ emantique, n´ ecessitant d’apporter une signification aux termes utilis´ es au sein des ressources. Par exemple, il faut pouvoir utiliser un terme unique pour repr´ esenter la mˆ eme information dans l’indexation de diff´ erents documents. C’est dans cette optique que les ontologies ont ´ et´ e d´ evelopp´ ees.

2.1.2.3 Les ontologies

2.1.2.3.1 D´ efinitions. La notion d’ontologie provient de la philosophie et a ´ et´ e utilis´ ee en informatique.

En philosophie, l’ontologie est un domaine d’´ etude qui s’int´ eresse ` a la nature de ce qui est.

En informatique, une ontologie d´ esigne un mod` ele d’un domaine ou un mod` ele des connais- sances de ce domaine. Il peut donc y avoir plusieurs ontologies. Il n’existe pas de d´ efinition pr´ ecise de ce qu’est une ontologie. La d´ efinition la plus r´ epandue est celle donn´ ee par Gruber [Gruber 93] : « une ontologie est une sp´ ecification explicite d’une conceptualisation » . Cette d´ e- finition a ensuite ´ et´ e compl´ et´ ee pour rendre compte de l’interop´ erabilit´ e s´ emantique, qui est une des raisons de l’´ etude des ontologies en informatique. La notion de conceptualisation se r´ ef` ere

`

a un domaine et plus exactement ` a la mani` ere dont ce dernier va ˆ etre d´ ecrit et la sp´ ecification se rapporte au formalisme qui sera utilis´ e pour r´ ealiser cette description. En d’autres termes, l’ontologie permet de repr´ esenter un ensemble de connaissances de fa¸ con explicite, pour qu’elles soient ensuite compr´ ehensibles par les machines.

De plus, alors que la validit´ e de l’ontologie en philosophie est par nature absolue, celle d’une ontologie en informatique est relative et soumise aux choix de repr´ esentation. Ceci a men´ e Guarino ` a compl´ eter la d´ efinition de Gruber pour faire d’une ontologie un accord sur une conceptualisation partag´ ee et ´ eventuellement partielle [Guarino 97b], [Borst 97]. Cette notion de partage correspond bien ` a l’objectif d’interop´ erabilit´ e identifi´ e pr´ ec´ edemment.

Chandrasekaran a d´ egag´ e les ´ el´ ements qui constituent une ontologie [Chandrasekaran 99].

Une ontologie est ainsi une th´ eorie du contenu sur les sortes d’objets, les propri´ et´ es de ces objets et leurs relations dans un domaine sp´ ecifi´ e de connaissance.

De mani` ere plus pragmatique, une ontologie consiste en :

– des concepts (ou classes) correspondant chacun ` a un regroupement d’entit´ es ayant des caract´ eristiques communes ;

– des propri´ et´ es (ou attributs) associ´ ees ` a ces concepts ;

– des relations hi´ erarchiques permettant aux enfants d’un concept d’h´ eriter des propri´ et´ es du concept parent ;

– des relations associatives entre concepts (c’est ` a dire, autres que hi´ erarchiques [Zhang 04]) ;

(26)

– des axiomes (ou contraintes) qui ont pour but de d´ efinir, dans un langage logique, la description des concepts et des relations permettant de repr´ esenter leur s´ emantique. Par exemple, on pourra d´ efinir des restrictions sur la valeur des attributs ;

– ´ eventuellement des d´ efinitions associ´ ees ` a ces concepts ;

– parfois des instances (ou individus) correspondant aux valeurs associ´ ees aux concepts.

Une ontologie formelle est une ontologie ayant une repr´ esentation dont la s´ emantique est clairement d´ efinie et reposant sur des bases math´ ematiques logiques [Guarino 97a], [Bachimont 00].

Les bases math´ ematiques, avec le fait que les connaissances sont explicites, permettent d’effec- tuer automatiquement des d´ eductions logiques et donc de rendre les connaissances repr´ esent´ ees dans l’ontologie utilisables par des programmes.

Le fait que la s´ emantique soit clairement d´ efinie assure la correspondance entre les ´ el´ ements de l’ontologie et la r´ ealit´ e. Cela fait appel ` a des bases philosophiques explicites, comme la notion d’engagement ontologique (Ontological Commitment en anglais) [Gruber 93]. Cet engagement cherche ` a capter et ` a contraindre un ensemble de conceptualisations. Plus pr´ ecis´ ement, il offre un moyen de sp´ ecifier le sens d’un vocabulaire en contraignant l’ensemble de ses concepts au moyen d’informations explicites sur la nature intentionnelle des concepts et relations ainsi que sur la structure a priori des concepts, c’est-` a-dire les relations existant entre eux [Guarino 94]. Cet aspect est n´ ecessairement compl´ ementaire du formalisme math´ ematique ´ evoqu´ e pr´ ec´ edemment.

En effet, la logique du premier ordre r´ epond bien au besoin de d´ eduction logique mais n’est pas un bon langage de repr´ esentation d’ontologie car il n’y a rien qui indique quels ´ el´ ements de la r´ ealit´ e doivent ˆ etre d´ ecrits par des pr´ edicats unaires et lesquels doivent ˆ etre d´ ecrits par des pr´ edicats binaires, par exemple [Guarino 95].

Le respect du formalisme garantit qu’on va pouvoir faire du raisonnement formel, dont les conclusions sont coh´ erentes avec les faits repr´ esent´ es dans l’ontologie (mais ces faits peuvent eux- mˆ emes ˆ etre contradictoires). Cela soul` eve donc la question de la construction d’ontologies sans contradictions internes. Des travaux ont ´ et´ e men´ es sur des m´ ethodes de construction d’ontologies, notamment [Corcho 03] qui recense les diff´ erentes m´ ethodologies existantes et souligne que, mˆ eme si celles-ci constituent une base pour la mod´ elisation, ces propositions ne sont ni unifi´ ees ni tout ` a fait matures.

Enfin, en plus des capacit´ es de raisonnement, l’aspect logique des ontologies formelles permet de v´ erifier qu’elles ne comportent pas de contradictions internes et l’engagement ontologique per- met de garantir que le contenu (non contradictoire) d’une ontologie correspond bien ` a la r´ ealit´ e que l’on cherche ` a d´ ecrire.

Nous d´ efinissons quelques notions suppl´ ementaires utiles dans la suite de ce manuscrit et directement li´ ees aux ontologies.

La relation de subsomption organise les concepts et relations par niveau de g´ en´ eralit´ e. On

dira ainsi qu’un concept C1 subsume C2 si C1 est plus g´ en´ eral que C2, c’est-` a-dire si l’ensemble

des instances de C2 est un sous-ensemble des instances de C1. On peut interpr´ eter cette relation

comme une sp´ ecialisation (toutes les instances de C2 sont des instances de C1) et on dira aussi

qu’elle est de type est-un (is-a en anglais).

(27)

La relation de composition ´ etablit une correspondance s´ emantique stable qui v´ ehicule une notion de « connexion » , de « faire partie » . On dira ainsi qu’un concept C1 est compos´ e des concepts C2 et C3 si l’ensemble des instances de C1 contient l’union de l’ensemble des instances de C2 avec l’ensemble des instances de C3. On dit aussi que cette relation est de type partie-tout (part-of en anglais).

2.1.2.3.2 Langages de repr´ esentation et raisonnement. Les langages qui peuvent ˆ etre utilis´ es pour d´ ecrire les ontologies formelles sont divers. On citera parmi eux les frames ou les logiques de description.

Les frames sont pr´ esent´ ees comme ´ etant une structure de donn´ ees capable de repr´ esenter des connaissances [Minsky 75]. Les concepts y sont repr´ esent´ es par les frames (dans le sens de quelque chose qui peut / doit ˆ etre rempli) qui sont caract´ eris´ ees par un certain nombre d’at- tributs (appel´ es aussi slots) contenant des informations sur leur contenu. Ces attributs peuvent ˆ

etre de plusieurs natures : valeur de l’attribut, ensemble de valeurs, restriction de valeurs, valeur par d´ efaut, une propri´ et´ e avec une autre frame, une combinaison des diff´ erents cas. Les frames se prˆ etent cependant mal au raisonnement automatique puisque les solutions d´ evelopp´ ees sont souvent ad hoc.

Les logiques de description constituent un compromis entre les frames et la logique du premier ordre. Elles sont bas´ ees sur trois cat´ egories d’entit´ es, inspir´ ees des frames [Napoli 97] : les individus, les relations (appel´ ees propri´ et´ es) entre les individus et les classes qui sont d´ efinies comme des ensembles d’individus (leurs instances).

Par rapport aux frames, les logiques de description disposent d’une s´ emantique rigoureuse pour les individus, les relations et les classes [Baader 91]. Ces derni` eres sont d´ efinies comme des ensembles d’individus. Ceci permet alors d’appliquer le raisonnement ensembliste aux ontologies pour effectuer des inf´ erences et de composer les classes en ´ evitant ainsi l’explosion combinatoire des terminologies. Enfin, cela permet de r´ ealiser une description intentionnelle du domaine, c’est-

`

a-dire que l’on d´ ecrit les caract´ eristiques des classes et des individus et que l’on se base sur ces caract´ eristiques pour organiser les classes en taxonomies pour d´ eterminer de quelle(s) classe(s) un individu est une instance.

Ces types de langages formels offrent des fonctionnalit´ es avanc´ ees grˆ ace ` a leur expressivit´ e.

L’une de ces principales capacit´ es est le raisonnement que l’on peut faire grˆ ace ` a des m´ e- canismes d’inf´ erence r´ ealis´ es par des programmes nomm´ es « classifieurs » . Ces raisonneurs automatiques peuvent d´ eduire (ou inf´ erer) des conclusions ` a partir d’une connaissance implicite donn´ ee, afin de la rendre explicite. Les deux m´ ecanismes d’inf´ erence majeurs sont la classification de concepts et la classification d’instances.

La classification de concepts permet d’int´ egrer automatiquement un nouveau concept dans

une ontologie. Pour cela, le classifieur exploite les propri´ et´ es associ´ ees au concept ` a ajouter

afin de d´ eterminer l’ensemble des relations de subsomption existant entre ce concept et tous

les autres concepts de l’ontologie. Le raisonneur peut ensuite ajouter les relations nouvellement

d´ ecouvertes pour enfin placer automatiquement le nouveau concept au sein de la hi´ erarchie.

(28)

La classification d’instances permet de classer une instance de mani` ere automatique sous un ou plusieurs concepts dont elle satisfait les propri´ et´ es.

Ces m´ ecanismes permettent aussi de v´ erifier la validit´ e d’informations ` a partir des axiomes, notamment la d´ etection de contradictions entre deux faits concernant une instance. Les ontolo- gies formelles permettent ainsi un traitement automatique de la s´ emantique de leur contenu par les machines, constituant un moyen efficace de faciliter la gestion des concepts, leur classification, la comparaison entre leurs propri´ et´ es ou simplement le parcours des ontologies pour en consulter le contenu.

2.1.2.3.3 Les diff´ erents types d’ontologies. On peut d´ egager quatre cat´ egories prin- cipales d’ontologies selon leur couverture et les tˆ aches pour lesquelles elles sont d´ evelopp´ ees [Burgun 01b] :

– les ontologies de haut niveau o` u sont d´ ecrits des concepts li´ es ` a l’Espace ou au Temps s’appliquant ` a tous les domaines. Elles ne doivent pas se r´ ef´ erer ` a des domaines en parti- culier et les concepts qu’on a besoin de d´ ecrire dans un domaine sp´ ecifique doivent pouvoir ˆ

etre reli´ es ` a une ontologie de haut niveau. Ces ontologies se veulent donc universelles et sont cens´ ees ne pas avoir ´ et´ e d´ efinies pour des tˆ aches sp´ ecifiques. Des exemples d’ontolo- gies de ce type sont SUMO

¹¹

(Suggested Upper Merged Ontology) [Pease 02] et DOLCE

¹²

(Descriptive Ontology for Linguistic and Cognitive Engineering) [Masolo 02] ;

– les ontologies g´ en´ erales qui repr´ esentent des connaissances globales, ind´ ependamment d’un domaine et d’une tˆ ache, mais d’un niveau de pr´ ecision moyen. Par exemple, l’ontologie OpenCyc

¹³

;

– les ontologies de domaine, sp´ ecifiques ` a un domaine d’´ etude et ind´ ependantes d’une tˆ ache pr´ ecise. Un exemple est FMA

¹⁴

(Foundational Model of Anatomy) dans le domaine de l’anatomie [Rosse 03] ;

– les ontologies d’application ou de tˆ aches qui ont une port´ ee restreinte et sont construites pour des objectifs sp´ ecifiques. On citera par exemple l’ontologie « The scheduling task on- tology » [Rajpathak 01] qui vise ` a construire des applications pour g´ erer les emplois du temps.

2.1.2.3.4 Lien des ontologies avec les syst` emes terminologiques. Les ontologies sont centr´ ees sur la notion de concept. Celui-ci est caract´ eris´ e par un certain nombre de propri´ e- t´ es communes ` a plusieurs instances. Parall` element, d’autres syst` emes de repr´ esentation, dits terminologiques, sont focalis´ es sur les termes, c’est-` a-dire l’aspect textuel de l’information.

Par rapport aux concepts, ils correspondent par exemple ` a l’´ etiquette permettant de nommer un concept. Ces deux notions sont donc diff´ erentes mais pas ind´ ependantes. Il est fr´ equent d’ˆ etre confront´ e ` a des confusions entre ces syst` emes terminologiques et les ontologies, et en particulier dans le domaine biom´ edical. Un large ´ eventail de ces syst` emes existent et diff` erent notamment selon leur port´ ee (c’est-` a-dire si elles sont g´ en´ eriques ou sp´ ecifiques d’un domaine),

11

http ://www.ontologyportal.org/

12

http ://www.loa-cnr.it/DOLCE.html

13

http ://www.opencyc.org/

14

http ://fma.biostr.washington.edu/

(29)

le type des relations s´ emantiques qui peuvent ˆ etre repr´ esent´ ees et leur degr´ e de formalisation [Aussenac-Gilles 04]. Une proposition de typologie des syst` emes terminologiques existants est donn´ ee dans [de Keizer 00].

2.1.2.3.5 Les bio-ontologies. La confusion entre les ontologies et les syst` emes terminolo- giques est tr` es pr´ esente dans le domaine biom´ edical. Les besoins en repr´ esentation des connais- sances y sont tr` es importants, mais aussi en ce qui concerne la repr´ esentation de l’information textuelle. Nous pr´ esentons dans cette section certains des travaux qui se sont pench´ es sur ces aspects, certains ´ etant ` a la fronti` ere entre les ontologies et les syst` emes terminologiques. Nous ver- rons que la notion d’ontologie dans le domaine biom´ edical est plus « l´ eg` ere » que celle pr´ esent´ ee pr´ ec´ edemment, qui correspond plus ` a celle utilis´ ee en intelligence artificielle. Il apparaˆıt en effet que, parall` element au d´ eploiement croissant des ontologies dans ce domaine, la d´ efinition r´ eelle des ontologies et leurs modes d’utilisation n’ont pas ´ et´ e compl` etement int´ egr´ es [Soldatova 05], [Cannata 05]. Cela pose probl` eme dans la mesure o` u les possibilit´ es de partage de connaissances, leur r´ e-utilisation et l’inf´ erence au sein de ses ontologies sont d` es lors restreints, voire mˆ eme in- existants. Pour faire r´ ef´ erence ` a ce type d’ontologies ou syst` emes de repr´ esentation d´ eriv´ es, nous parlons de bio-ontologies et en pr´ esentons quelques unes pour illustrer ces propos.

Le consortium Gene Ontology

^R

(GO) [Ashburner 00], [Consortium 06] a pour but de cr´ eer un vocabulaire contrˆ ol´ e, structur´ e et commun afin de d´ ecrire les rˆ oles des g` enes et produits de g` enes dans n’importe quel organisme. Elle est organis´ ee suivant trois axes distincts : les processus biologiques d´ ecrivent les diff´ erents rˆ oles d’un produit de g` ene, les composants cellulaires indiquent l’endroit au sein de la cellule o` u les produits de g` enes sont actifs et les fonctions mol´ eculaires pr´ ecisent les activit´ es biochimiques des produits de g` enes. Ces trois cat´ egories, d´ efinies de mani` ere ind´ ependante dans GO, pr´ esentent un niveau de d´ etail tr` es fin et sont organis´ ees sous forme de hi´ erarchies de plus de 20 000 nœuds. Ces derniers, d´ efinis en langage naturel (par exemple, ferrous iron binding), sont des concepts reli´ es entre eux par des relations de types est-un et partie-tout . Au sein d’une hi´ erarchie, un nœud peut avoir plusieurs parents et enfants (on parle d’h´ eritage multiple) et les relations ne forment pas de cycles (nous d´ etaillerons cet aspect par la suite - cf 4.2.4.1 page 111). Ces hi´ erarchies peuvent donc ˆ etre repr´ esent´ ees comme des graphes orient´ es sans cycle, ou DAG (Directed Acyclic Graph en anglais). GO, malgr´ e son nom, n’est pas une ontologie au sens propre. En effet, elle n’utilise pas de langage de repr´ esentation et son format qui est bas´ e sur les DAGs n’offre pas la possibilit´ e de sp´ ecifier des propri´ et´ es ou des d´ efinitions sur les concepts qui soient interpr´ etables par les machines. D’autre part, les concepts organis´ es suivant les trois axes ne sont reli´ es par aucune relation d’une hi´ erarchie ` a l’autre alors qu’ils le devraient. Ainsi, comme les processus biologiques agr` egent des fonctions mol´ eculaires, une relation de type partie-tout devraient inter-connecter les fonctions et processus [Kumar 03].

Il faut cependant noter qu’´ etant donn´ e son succ` es et sa large utilisation dans la communaut´ e bioinformatique, de nombreux travaux sont men´ es pour pallier les probl` emes pos´ es par GO.

Le projet GONG (Gene Ontology Next Generation) notamment vise ` a d´ efinir GO en logique

de description (initialement en DAML+OIL puis en OWL-DL) pour r´ esoudre certaines de ces

limites [Wroe 03]. En particulier, cette traduction permet de d´ etecter des incoh´ erences au sein

des hi´ erarchies et d’inf´ erer de nouvelles relations de subsomption entre les termes GO. Dans