• Aucun résultat trouvé

OntoDB2 : un système flexible et efficient de base de données à base ontologique pour le web sémantique et les données techniques

N/A
N/A
Protected

Academic year: 2022

Partager "OntoDB2 : un système flexible et efficient de base de données à base ontologique pour le web sémantique et les données techniques"

Copied!
241
0
0

Texte intégral

(1)

HAL Id: tel-00452533

https://tel.archives-ouvertes.fr/tel-00452533

Submitted on 2 Feb 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

données à base ontologique pour le web sémantique et les données techniques

Chimène Fankam

To cite this version:

Chimène Fankam. OntoDB2 : un système flexible et efficient de base de données à base ontologique

pour le web sémantique et les données techniques. Informatique [cs]. ISAE-ENSMA Ecole Nationale

Supérieure de Mécanique et d’Aérotechique - Poitiers, 2009. Français. �tel-00452533�

(2)

Ecole Doctorale des Sciences et l’Ingénierie pour l’Information

T T T H H H E E E S S S E E E

pour l’obtention du grade de

D OCTEUR DE L ’E COLE N ATIONALE S UPERIEURE DE M ECANIQUE ET D ’A EROTECHNIQUE

(Diplôme National — Arrêté du 7 Août 2006)

Secteur de Recherche : INFORMATIQUE et APPLICATIONS

Présentée par :

Chimène FANKAM

********************************************************

OntoDB2 : un système flexible et efficient de Base de Données à Base Ontologique pour le Web sémantique et les données

techniques

********************************************************

Directeurs de Thèse

Guy PIERRA et Ladjel BELLATRECHE

********************************************************

Soutenu le 10 Décembre 2009 Devant la Commission d’Examen

********************************************************

JURY

Président : Danielle BOULANGER Professeur, Université de Lyon3 Rapporteurs : Nadine CULLOT Professeur, Université de Bourgogne

Hacid MOHAND-SAÏD Professeur, Université Claude Bernard Lyon 1

Examinateurs :

Jean CHARLET Chercheur, INSERM

Guy PIERRA Professeur, ENSMA, Futuroscope

Ladjel BELLATRECHE Maître de Conférences, ENSMA, Futuroscope

(3)
(4)

Mesremeriements les plussinères s'adressent à:

Guy PIERRA, mon direteur de thèse, pour avoir bien voulu m'aueillir dans le laboratoire,

danssonéquipedereherheetm'avoirenadrédurantesquatreannées. Jeleremeriepourla

onanequ'ilm'atémoignée,poursonentièredisponibilité,sesenouragementsetpourm'avoir

transmis unpeu de sonsavoirfaire etpour toutesles lumièresqu'il aapporté dansette thèse.

Ladjel BELLATRECHE o-direteur de ette thèse, pour son enadrement, son enthousiasme,

sapassionde lareherhe etsurtout pour l'aidequ'il m'a apporté dansmes travaux.

Yamine AIT-AMEUR, Direteur du LISI et membre de l'équipe d'Ingénierie De Données du

LISI pour tousses bonsonseilsetbonnesremarques.

Nadine Cullot et Mohand-Saïd Haid qui ont eu la lourde tâhe de rapporter ma thèse, ainsi

queles autres membres dujuryJeanCHARLET etDanielleBOULANGER, lesquelsm'ont fait

l'honneurd'aepter d'êtreexaminateurs.Je lesremerie pourl'intérêt qu'ilsportent àmestra-

vaux.

Sybille CAFFIAUpour sonamitié,ainsiquetoutelafamilleCAFFIAU(annie,hervé,laurianne

etbaptiste) quim'ont aueillidansleurfamille. Je tiens àlesremerier pour leur gentillesse et

pour lesmerveilleux moments passésen leurompagnie.

Tout le personnel du LISI, etplus partiulièrement, Loé, StéphaneJ., Christian, Henry-Valery,

Ahmed, Nabil, Idir, Eri, Dago, Malo, Youef, Mihaël B, Kamel, Dilek, Claudine, Frédéri,

Laura, Youness, François, Mihaël R, Medhiet Chedlia,pour leur présene etleur soutien or-

dial.

Ma famille, et plus partiulièrement mes parents, qui ont su m'enourager jour après jour et

qui ont toujours ru en moi. Sans leur soutien onstant, tant aetif que matériel, je n'aurai

jamaispu aomplir mes étudesetenvisager ette thèse.

(5)
(6)

mes frères(Joël,Livingstone,Armstrong),

mes soeurs(Marelle,Cédine,Prisilla),

Patriket notre llebienaiméePhebe.

(7)
(8)

Introdution générale 1

Partie I État de l'art

1 Ontologie et formalismes d'ontologies 11

1 La notiond'ontologie . . . 12

1.1 Dénition . . . 12

1.2 Ontologies en Informatique . . . 13

1.3 Conepts primitifsetonepts dénis . . . 13

2 Exemplesde formalismesd'ontologies . . . 16

2.1 Formalismes d'ontologies orientés gestionetéhange de données . . . 16

2.1.1 rdf/rdf-shéma . . . 16

2.1.2 plib . . . 21

2.2 Formalismes d'ontologies orientés inférene . . . 25

2.2.1 daml-ont, oil, daml+oil . . . 25

2.2.2 owl . . . 25

3 Similitudes etdiérenesdes formalismesd'ontologie. . . 32

3.1 Similitudes . . . 32

3.2 Diérenes . . . 32

3.3 Le modèleen oignon . . . 32

3.3.1 Ontologies Coneptuelles anoniques . . . 34

3.3.2 Ontologies Coneptuelles Non anoniques . . . 35

3.3.3 Ontologies Linguistiques . . . 35

(9)

2 Basesde Données à Base Ontologique 39

1 Données àBase Ontologique . . . 41

2 Dénition d'unebdbo . . . 41

3 Arhiteture desbdbo. . . 42

3.1 Représentation desontologies dans lesbdbo . . . 43

3.1.1 bdbode type1 :une tablepour l'ontologie. . . 43

3.1.2 bdbode type2 :unshémaspéiquepour représenterl'ontologie 44 3.1.3 bdbode type3 :approhespéique ave méta-shéma. . . 44

3.1.4 Synthèsesur lareprésentation desontologies danslesbdbo 45 3.2 Représentation desdbo danslesbdbo . . . 46

3.2.1 Approhe vertiale . . . 46

3.2.2 Approhe binaire . . . 47

3.2.3 Approhe horizontale . . . 49

3.2.4 Synthèsesur lareprésentation desdbo . . . 49

4 Montée enhargeetraisonnement dansles bdbo . . . 50

4.1 Montée enhargedes bdbo. . . 50

4.1.1 bdbode type1. . . 50

4.1.2 bdbode type2. . . 51

4.1.3 bdbode type3. . . 51

4.1.4 Synthèsesur lamontéeen hargedesbdbo . . . 51

4.2 Capaitésde Dédutiondesbdbo . . . 51

4.2.1 Raisonnement pendantla requête . . . 52

4.2.2 Raisonnement par saturation . . . 52

4.2.3 Absenede raisonnement . . . 53

4.2.4 Disussionsurle raisonnement dans lesbdbo . . . 53

4.2.5 Ontologies gérées . . . 54

5 Besoinsdes appliationspour lesbdbo . . . 54

5.1 Flexibilité eteaité demodélisation. . . 55

5.1.1 Intégration d'ontologies expriméessuivantdiérentsformalismes 55 5.1.2 Représentation destypesdedonnées nonstandards . . . 56

5.2 Gestion eae degros volumesde données anoniqueset non anoniques 56 6 Quelquesimplémentations existantes debdbo . . . 57

6.1 rdfsuite . . . 57

6.2 Jena. . . 58

6.3 ontodb . . . 59

6.4 Le systèmed'orale . . . 60

6.5 sor . . . 61

(10)

Partie II Notre proposition d'arhiteture

3 Desription du modèleOntoDB2 67

1 Choixdu type d'arhiteture pour labdboontodb2 . . . 68

2 Flexibilité eteiene duformalisme d'ontologie . . . 69

2.1 Desription duformalisme noyaud'ontodb2 . . . 70

2.1.1 Notreproposition :unformalisme d'ontologie noyaubasé surplib 71 2.1.2 Représentation simpliéedu noyau . . . 76

2.2 Enrihissement duformalisme noyau . . . 77

2.2.1 Extension parmodiationde l'entitéClass . . . 78

2.2.2 Extension parmodiationde l'entitéProperty . . . 80

2.2.3 Flexibilité dusystème detypesde données . . . 82

3 Synthèse surleformalisme d'ontologie d'ontodb2 . . . 82

4 Gestion desdbo anoniques etnonanoniques de grandetaille . . . 85

4.1 Représentation de l'information anonique . . . 86

4.2 Représentation de l'information non anonique . . . 86

4.2.1 Classe anonique/ Classe nonanonique . . . 87

4.2.2 Classe dénieomme une restrition . . . 87

4.2.3 Classe dénieomme une intersetion . . . 88

4.3 Aèsaux dbonon anoniques . . . 88

4.3.1 Classe dénieomme une restrition . . . 89

4.3.2 Classe dénieomme une intersetion . . . 92

4.4 Autresméanismes de raisonnements surles dbo . . . 93

4.4.1 Traitementsdesaratéristiques de propriétés owllite . . . 94

4.4.2 Traitementseetués par unméanisme d'indexation . . . . 96

4.5 Synthèse surlesupport desdbo . . . 96

(11)

4 Implémentation de l'arhiteture de bdbo ontodb2 99

1 La partie Métashéma . . . 101

1.1 Ingénieriedirigée par lesmodèles(idm) . . . 102

1.2 express . . . 102

1.2.1 Lesentités . . . 103

1.2.2 Lesattributs . . . 103

1.2.3 Lestypes . . . 103

1.2.4 Lesontraintes. . . 105

1.2.5 Lesfontionsetproédures . . . 105

1.2.6 Représentation desinstanes:lehier physique . . . 105

1.2.7 Lanotation graphique express-g . . . 106

1.3 Génération etexploitation de lareprésentation duméta-shéma express107 2 La partie ontologie . . . 108

2.1 Coneption desshémade représentation desontologies . . . 108

2.2 Shéma de représentation desontologies :Flatlib . . . 110

2.2.1 Simpliation deshiérarhies . . . 111

2.2.2 Simpliation desaggrégats . . . 112

2.2.3 Shéma desorrespondanes entre plib etFlatlib . . . 112

2.3 Shéma d'aèsà lapartie ontologie :Le Peigne . . . 114

2.4 Correspondanes entrele Peigne etFlatlib . . . 116

2.4.1 Hibernate . . . 117

2.4.2 Modulede Génération deshiers de mapping . . . 120

2.5 api d'aèsauxontologies. . . 125

2.6 ImportationdesOntologies . . . 126

2.6.1 Ontologieplib . . . 126

2.6.2 Ontologieowl lite . . . 128

3 Synthèse surlesparties Méta-shémaet Ontologies. . . 132

4 La partiedonnées . . . 133

4.1 Shéma de représentation desdonnées . . . 133

4.1.1 Approhe horizontale . . . 134

4.1.2 Approhe binaire . . . 137

4.1.3 Prise enompte desaratéristiques depropriété . . . 138

4.1.4 Choixdesindex . . . 140

4.2 Strutured'aèsaux données . . . 140

4.2.1 Vuessur leslasses anoniques . . . 140

4.2.2 Vuessur leslasses non anoniques . . . 141

4.3 Lienentreontologieet données . . . 141

(12)

4.6 Synthèse surlapartie donnée . . . 143

5 L'appliation graphiquede gestion:ontoweb. . . 143

5.1 Fenêtre prinipale . . . 145

5.2 Gestion desontologies . . . 145

5.2.1 Desriptionde lasse . . . 145

5.2.2 Desriptionde propriétés . . . 148

5.2.3 Lestypes . . . 148

5.2.4 Le Multilinguisme . . . 150

5.3 Gestion desdbo . . . 151

6 Synthèse surl'implémentation d'ontodb2 . . . 153

Partie III Validation 5 Appliation : Raisonnements numériques sur les ensembles partiellement ordonnés157 1 RaisonnementsNumériques surdesEnsembles Partiellement Ordonnés. . . . 159

1.1 Exemple Motivant . . . 159

1.2 Représentation de donnéesgéographiques . . . 162

1.2.1 Représentation destypesspatiaux . . . 163

1.2.2 Représentation desdonnéesd'indexation . . . 163

1.3 Traitement eae desrequêtes . . . 163

2 Formalisation Proposée . . . 163

2.1 Raisonnement surles Fermetures Transitives Propagées. . . 164

2.2 Tehniques d'ÉtiquetageTopologiqueset Géométriques. . . 164

2.2.1 Tehniquesd'étiquetages topologiques. . . 164

2.2.2 Tehnique d'étiquetage géométrique . . . 166

3 Coneption etImplémentation . . . 167

3.1 Extension dela partie formalismed'ontologies desbdbo . . . 167

3.2 Représentation desInstanes . . . 170

(13)

3.3 Traitement desRequêtes . . . 170

4 Appliation àl'ontologie duog dansla bdboontodb2 . . . 170

4.1 Ontologie . . . 171

4.2 Données . . . 173

4.3 Traitement desrequêtes . . . 173

6 Validation d'OntoDB2 177 1 Flexibilité eteienede lareprésentation ontologique . . . 179

1.1 Flexibilité de représentation . . . 179

1.2 Eienede représentation . . . 179

1.2.1 Rappelsur leshémadesontologies d'ontodb2 etontodb . 179 1.2.2 Desriptiondu ban d'essai. . . 181

1.2.3 Mahine detest . . . 181

1.2.4 Résultatsobtenus . . . 182

2 Flexibilité destypesde données . . . 183

2.1 Rappel surleshéma desdonnéesd'ontodb2,sor etorale . . . 184

2.1.1 Shéma desdonnéesd'ontodb2 :approhehorizontale . . . 184

2.1.2 Shéma desdonnéesde sor . . . 185

2.1.3 Shéma desdonnéesd'orale . . . 185

2.2 Évaluation de l'approhe d'indexation . . . 186

2.2.1 Desriptiondu ban d'essaiog . . . 186

2.2.2 Métriquesutilisées. . . 186

2.2.3 Expressiondesrequêtes . . . 187

2.2.4 Résultatsobtenus . . . 189

3 Aès eae auxdonnées anoniques enrihies après migration d'instanes . 193 3.1 Desription duban d'essai . . . 194

3.2 Temps de hargement desontologies . . . 194

3.3 Résultatdesinterrogations . . . 195

3.3.1 Faisabilité del'approhe proposée . . . 195

3.3.2 Temps deréponse desrequêtes . . . 196

Conlusion et perspetives 201

Bibliographie 205

(14)

Le méta-shéma express 211

Liste des tableaux 217

Table des gures 219

Glossaire 223

(15)
(16)

Le besoin d'expliiterla sémantique desdonnéesdansdiérentsdomainessientiques (bio-

logie, médeine, géographie, ingénierie, et.) s'est traduit par la dénition de données faisant

référeneàdesontologies,enoreappeléesdonnéesàbaseontologique.Avelamultipliation des

ontologies de domaine, etlevolume important de données àmanipuler, estapparu lebesoin de

systèmes suseptibles degérerdes donnéesàbaseontologique de grandetaille.Detelssystèmes

sont appelés dessystèmesde gestionde Basesde Données àBase Ontologique (bdbo).

Lesprinipaleslimitationsdessystèmes degestionde BDBOexistantssont (1)leurrigidité,

due à la prise en ompte des onstrutions d'un unique formalisme d'expression d'ontologies,

(2)l'absene de supportpour les donnéesnonstandard (spatiales, temporelles,et.)et,(3) leur

manque d'eaité pour gérer les données de grande taille. Nous proposons dans ette thèse

un nouveau systèmede gestion de bdbo permettant (1) de supporter des ontologies basées sur

diérents formalismesd'ontologies,(2) l'extension de sonformalisme d'ontologie pour répondre

aux besoins spéiques des appliations, et (3) une gestion originale des données failitant le

passage à grandeéhelle.

Le système que nous proposons dans ette thèse, ontodb2, se fonde sur l'existene d'un

ensemble de onstrutions ommunes aux diérents formalismes d'expression d'ontologies, sus-

eptible de onstituer une ontologie noyau, et sur les tehniques de gestion des modèles pour

permettre l'extension exible de e noyau. Nous proposons également une approhe originale

de gestion desdonnées à base ontologique. Cette approhe part du fait que les données à base

ontologique peuventselassier endonnées anoniques(instanesde lasses primitives)etnon-

anoniques(instanesdelassesdénies).Lesinstanesdelassesdéniespeuvent,sousertaines

hypothèses, s'exprimer en termes d'instanes de lasses primitives. Nousproposons don de ne

représenter quelesdonnéesanoniques,en transformant sousertaines onditions,toutedonnée

non-anonique endonnéeanonique.Enn,nousproposonsd'exploiterl'interpréteurderequêtes

ontologiques pour permettre (1) l'aès aux données non-anoniques ainsi transformées et, (2)

d'indexer et pré-aluler les raisonnements en se basant sur les méanismes du sgbd support.

L'ensembledeespropositionsestvalidé(1)àtraversuneimplémentationsurlesgbdpostgresql

baséesurles formalismesd'ontologies plib,rdfsetowl lite,(2)destestsde performanes sur

desensembles de donnéesissus delagéographie etduWeb.

Mots-lés: Basededonnées,ontologie,formalismed'ontologies,basesdedonnéesàbaseontolo-

gique,méta-modélisation,ingénieriedirigéeparlesmodèles,ingénieriedesdonnées,interrogation

de données, raisonnement, plib,owl

.

(17)
(18)

Contexte

Lesontologies sontdesstruturesquipermettent dereprésenterexpliitement lasémantique

d'un domaine par desmodèles objetsonsensuels dont haque onept (lasse oupropriété) est

assoiéà unidentiateuruniverselpermettant de référener lasémantique quilui orrespond.

Lesontologiessontaujourd'huiutiliséesdansunnombreroissantd'appliations,parexemple

pour failiter la reherhe d'information dans le domaine du Web en annotant les douments

par desinstanes ontologiques, ou, dans ledomaine tehnique, pour représenter desatalogues

de omposants industriels. Par instane ontologique, nous entendons un objet dont le sens est

déni par sonappartenane àune lasse ontologique etpar les valeursd'unertains nombrede

propriétés déniesdanslamêmeontologie. Nousappellerons donnéesàbaseontologiques (dbo)

un ensembled'instanesontologiques.

Ave l'utilisation roissante des ontologies, un ertain nombre de formalismes d'ontologie

ont été proposés : rdf [39 ℄, rdfs [10℄, owl [5℄, plib [57℄, flight [18 ℄, et. Chaun de es

formalismesible undomaine d'appliation partiulieretintroduit, poure faire,desprimitives

de modélisation partiulières. Par exemple, le formalisme plib est largement utilisé dans le

domaine del'ingénierie[41℄,les formalismesrdfsetowlsont utilisésdansledomainedu Web.

Initialement,lesdonnéesàbaseontologiquesétaientgéréespardesoutilsenmémoireentrale.

Avelamultipliationdesontologiesdedomaine,etlevolumeimportantdedonnéesàmanipuler,

estapparulebesoindesystèmessuseptiblesdegérerdesensemblesdedonnéesàbaseontologique

de grande taille. De tels systèmes sont appelés des systèmes de gestion de bases de données

à base ontologique (bdbo). Diérentes bdbo ont ainsi été proposées telles que OntoDB [20℄,

Ontobroker[23℄,rdfsuite[4 ℄,sesame[11 ℄,OntoMS[53 ℄etsor[44℄.Laprinipalearatéristique

de esbdboestqu'ellessont haune onstruitespour supporterunseul formalismed'ontologie

(owl, plib ouflight).

Problèmes

Les organisations évoluent dans un environnement hétérogène et reouvrent diérents do-

maines. De plus, les organisations dénissent, pour failiter l'éhange d'information, des onto-

logies modulaires dénies à partird'ontologies préexistantes. Lesorganisations étant amenéesà

évoluer,lesontologiesqu'ellesmanipulentsontégalementamenéesàévoluerandes'adapteraux

nouveaux besoins. Par exemple,les ontologies doivent hangerpour répondre auxhangements

de laoneptualisation ouau hangement de métierde l'entreprise.Les ontologies etles forma-

(19)

lismesdedesription d'ontologies ont don besoin depouvoirévolueren intégrant les primitives

de modélisationspéiques selon lesbesoins.

Aujourd'hui,lesontologiessontutiliséesdansbiendesdomainestelsquelabiologie, laméde-

ineouenorelagéographie, oùdeplusenplusdedonnéessontégalement déniespar référene

àuneontologie.Cetteforteroissantedesdbonéessitede disposerdebdboapablesdepasser

àl'éhelle 'estàdire detraiterde grandvolumesdedonnées ommesavent lefaireles basesde

données traditionnelles.

Un problème important, pour passer ainsi à l'éhelle, est que les formalismes d'ontologie

modélisent l'information de façon très diérentede la modélisation eetuée dansune base de

donnéestraditionnelle.Eneet,danslesbasesdedonnéeshaqueinformationdoitêtrereprésen-

téedemanièreunique.Cettereprésentation estditeanonique.Pourrépondreàune requêtesur

une information,lesbases dedonnéesont donàreherherenun endroit unique.Auontraire,

laplupart desformalismes d'ontologiepermettent pour lemême objet d'unepartune représen-

tation anonique, mais d'autre part un nombre quelonque d'autres représentations, dites non

anoniques.Par exemple,ilestpossiblededénirunepersonnedesexeféminindemanièreano-

niqueommeappartenantàlalassePersonne etayantlavaleurféminin pourlapropriétégenre.

Maisonpeutégalement ladénir sousunedeuxièmeforme,nonanonique,ommeappartenant

à lalasseFemme.

L'avantage de ette approhe de modélisation oerte par les formalismes d'ontologie est de

pouvoir orir plusieurs alternatives de désignation du même objet et, d'assurer l'équivalene

entre es diérentes désignations. Cette approhe est utile par exemple dans le domaine de la

reherhe doumentaire, où de nombreux termes synonymes sont utilisés dans les douments

pour référener le même onept. L'inonvénient de ette approhe, si elle est traitée en l'état

dans les bases de données, est que pour répondre à une requête sur une information, les bases

de donnéesauront àreherherà plusieurs endroits.Pour évitere problème auquel leslogiiels

de gestion de bases de données ne sont pas préparés, deux méthodes sont utilisées pour gérer

les informations modélisées de façon non anonique. La première méthode, dite par saturation,

onsiste à aluler toutes les desriptions possiblesdes diérents objets età les stokerdans la

basede données. Le systèmepeutalors reherher à n'importe quel endroit où une information

peutêtrerangéeetillatrouveratouteentière.L'inonvénientdeetteméthodeestqu'ellegénère

un grand volume de données et un temps de re-alul des relations souvent important lors des

mises à jour. La seonde méthode, par raisonnement, onsiste à réaliser des inférenes lors de

l'interrogation des données. L'inonvénient de ette méthode outre le fait qu'elle n'existe pas

dans les sgbd lassiques, est qu'elle est relativement lente et ne passe pas à l'éhelle pour les

grands volumesde données.

Intérêt initial du laboratoire : le domaine tehnique et plib

Lestravauxprésentésdansemémoireontétéréalisésdansleadredesreherhesdel'équipe

Ingénierie de Données (idd) dulaboratoirelisi.Les thèmesprinipaux de ette équipe portent

sur la modélisation à base ontologique, sur l'intégration, la gestion persistante et l'éhange de

données ave omme domaine d'appliation privilégié le seteur de l'ingénierie et des données

tehniques. Ces reherhes s'appuient sur des problématiques onrètes à traiter dans le adre

(20)

tehnique etpublié sous formed'une sériede normesiso,lemodèle plib(iso 13584).

Audébut desannées2000, un travailétait lané,au lisi,pour réaliserun systèmede bdbo

supportant omplètement le formalisme d'ontologie plib. Une arhiteture de bdbo appelée

ontodb, permettant de gérer de grandes tailles de données à base ontologique plib, a été na-

lisée en 2004. Compte tenu de la omplexité du modèle objet plib, omposé de 217 entités et

de 118types, satradution enbasede donnéesaégalement aboutiàun systèmeomplexeom-

portant 568 tablesde représentation pour leniveau ontologique.La omplexité de plib rendsa

ompréhension relativement diile etle système obtenu est également diilement extensible

sauf pour l'équipe l'ayant développé ou pour une personne ayant une très bonne onnaissane

de plib.Deplus, leformalisme d'ontologieplib étantorientéversl'éhange, ilnedénit pasde

onept non anonique. lesystèmeontodb negère de efait quedesdonnées anoniques.

ontodb est aujourd'hui largement utilisé en dehors du domaine de l'ingénierie. Il est utilisé

surdesproblématiquesonrètesàrésoudredansleasdediérentsprojetsdereherhesmenés

aulisi,notamment danslesprojetse-w okhubetdafoe.Or, haunedeesappliationsamis

en évidene le besoin de pouvoir ompléter ontodb en intégrant des méanismes adaptés aux

besoinsspéiquespropres à haque appliation.Dans ledomaine de l'indexation de doument,

lebesoin estapparude pouvoir utiliserdestypesde donnéesspéiques,et de pouvoirolleter

destermes diérentsdérivant lemême onept.Dans ledomaine médial,lebesoinest apparu

de permettre à desmédeins dediérentesspéialitésde partager desinformations surlemême

patient. Or, les langages ourants employés par les spéialistes et les généralistes sont parfois

très diérents. Néanmoins, esderniers devant aéder à toutes lesinformations disponiblessur

un patient, ilest néessairedesupporter à lafoisplusieurs langagesde desription, etdon une

desription anonique,mais aussidesreprésentationsnon anoniques dansontodb.

Objetifs

Ce sont les diultésmentionnées i-dessus qui ont amené à dénir les objetifs duprésent

travail.Ils'agitd'élaborerdespropositionspourlestroisproblématiquesdereherhesuivantes:

1. Support d'un formalisme d'ontologie exibilité et eae. Il s'agit de dénir un

systèmedebdbodotéd'unformalismed'ontologieapable des'adapterauxévolutions du

formalisme d'ontologie. Pour ela, le formalisme d'ontologie supporté doit non seulement

ouvrir leformalisme d'ontologie plib, maisil doitaussi êtreapable de supporter toutes

ou ertaines des primitivesde modélisation d'autres formalismesd'ontologie (rdfs, owl,

flight, et. ). Cette exibilité devra en partiulier, permettre d'intégrer les méanismes

identiés ommeimportantspourlesappliationsdesprojetsmenésaulisi.Ons'intéresse

égalementàl'eaitédeeformalismed'ontologie.Cedernierdoitenpartiuliersupporter

de faon eae l'aès aux ontologies plib et il doit avoir un aès simple pour les non

spéialistesdeplib,eteidefaçonsimpliée;'estàdire(1)modiableparunutilisateur

non spéialistede plib et(2)eae en temps detraitement.

2. Introdution de types de données spéiques. Les types de données de la bdbo

doivent pouvoir être étendus an de permettre la représentation de domaines de valeurs

(21)

qui n'étaient pasprévusinitialement par lesystème.

3. Gestion simultanée des données anoniques et non anoniques sans saturation

niraisonnement.Uneapprohedoitêtreproposéepourquelabdbopuisselireetgérerà

lafoisdesdonnéesanoniques etnonanoniques sansutiliser unedesméthodeslassique.

Notre proposition

Les objetifs mentionnés i-dessus ne pouvant être développés dans ontodb, nous nous

sommes intéressé, dans ette thèse, à la dénition d'une arhiteture de bdbo nouvelle que

nousappelons ontodb2.Nousproposons dansontodb2 :

1. d'utiliser les tehnique d'idm pour dénir une représentation fortement simpliée du for-

malismed'ontologiesupporté,depouvoird'expression aumoinségalàplib,maisaisément

modiable etbeauoupplusrapide;

2. d'utiliser les tehniques d'ingénierie dirigée par les modèles (idm) assoiées à une arhi-

teture de bdbo de type mof 1

pour supporter et représenter aisément les modiations

du système de type de données et en partiulier, orir le support des types de données

géographiques;

3. d'élaborerunenouvelleapprohedegestiondesinstanesonsistantàonvertirlesdonnées

non anoniques en données anoniques (migration d'instanes) puis, à représenter et à

interroger (1) les lasses anoniques omplétées en utilisant les méanismes usuels des

bases de données et(2) les lasses non anoniques par des vues onstruitessur les lasses

anoniques.

Organisation du mémoire

Ce manusrit s'organise en trois parties omportant haune deux hapitres. La partie 1

présentel'étatdel'artetlaproblématiquetellequ'elleesttraitéedansuneétudebibliographique.

La partie 2 dérit les solutions que nous avons proposées et développées an de résoudre les

problèmes identiés. Enn, laPartie 3présente lavalidation dusystème debdbo ontodb2 que

nousavonsonçu.

Partie 1 : État de l'art

Cettepartie présente unétat del'artsur lesontologies etlessystèmes de gestionde bdbo.

Lehapitre 1présente une analysedu oneptd'ontologie. Après une dénition,nousypré-

sentons deuxfamillesde formalismesd'expressionsd'ontologies :(1)les formalismesd'ontologie

orientésgestion enéhange dedonnées plib etrdfset(2)les formalismesorientées inférenes,

où nous disutons en partiulier du formalisme owl. La prinipale ontribution de e hapitre

est de proposer une omparaison de es diérents formalismes en termes des similitudes et des

diérenesqu'ils omportent suivant les troisouhes dumodèle en oignonde lassiation des

ontologies.

1

MetaObjetFlexibility

(22)

unelassiationdesarhiteturesdebdbosuivantlastruturationqu'ilsutilisentpourlarepré-

sentation desontologies. Nousprésentons ensuiteles approhesadoptées danses arhitetures

pourlareprésentation desdboetpourlagestiondelamontéeenhargeetl'interrogation dees

dbo. Nousdisutons ensuite danse hapitre des besoins atuelsdes appliationset, montrons

au travers de l'étude d'un ertain nombre de systèmes représentatifs de l'ore atuel que es

besoinsrestent enoreàêtresatisfaits.L'objetifvisédanse hapitre estdemettreen évidene

dansles systèmes existants, les besoinsqui n'étaient pasbien ouverts.

A partir deslimitations exposées préédemment, la partie 2 présente les exigenes que doit

satisfaire labdboontodb2 que nousproposons.

Partie 2 le système de bdbo ontodb2

La deuxième partie débutepar ladesription du systèmeontodb2 au hapitre 3. Nousdis-

utons tout d'abord dans e hapitre, du hoix du type d'arhiteture adopté pour ontodb2

et desonstrutions hoisies pour onstituer leformalisme noyau du systèmeontodb2. Nous y

présentonségalement leshypothèsesfondamentalesquiontjustiélehoix deesonstrutions.

Nousdérivonsensuitelesextensionsdeeformalismed'ontologieenprésentantdanshaqueas

desexemplesdeonstrutionsd'utilitégénéralequipourrontêtreintégréesauformalismenoyau.

Passant à lagestion desdbo,nous proposonsensuite unesolution de gestionetd'interrogation

eae des dbo par représentation de dbo non anoniques en dbo anoniques par migration

d'instanes dans ontodb2. Nous illustrons à travers des exemples, omment est réalisée ette

transformation, puis omment sont interrogées les dbo par exploitation à lafois du langage de

requête ontologique et desméanismesusuelsdes basesde données.

Le hapitre 4 est onsaré à l'implémentation du prototype de bdbo que nous avons déve-

loppé sur le sgbd relationnel objet postgresql. Nous y présentons l'implémentation des dié-

rentesomposantesdelabdboontodb2.Nousommençonsparlaprésentationdel'ensemblede

l'environnement dans lequel notre travail de thèse a étédéveloppé. Tout d'abord, nous dénis-

sons lanotiond'ingénierie dirigéepar les modèles (idm)que nousavonslargement utiliséet qui

onsisteàgénérer lesodes(programmes)àpartir desmodèles.Nousprésentonsalors lelangage

express et l'ensemble de la tehnologie qui lui assoiée. Nous présentons en partiulier l'envi-

ronnement d'idm eo(express CompilerCompiler) quenousavonsutilisé pourimplémenter

de manièregénérique nosdiérentsmodules.

Nous présentons la struture Flatlib et la struture en Peigne du formalisme d'ontologie

dénies pour failiter respetivement la représentation desontologies dans les bases de données

et leurmanipulations par les appliations. Des règles de transformations sont dénies entre es

deux strutures en exploitant la bibliothèque de mapping Hibernate. Ces orrespondanes sont

utilisées pour lagénérationrespetivement delastruture destables etdesapi Java d'aèsde

lapartie ontologie etde lapartie méta-shéma denotre arhiteture.

(23)

Partie 3 : Validation du système de bdbo ontodb2

Le hapitre 5 présente notre approhe d'extension du système de types de données et du

formalismed'ontologiedelabdboontodb2.Nousyprésentonsommentlestypesgéométriques

sont intégrés dansontodb2 etomment leformalisme d'ontologie est étendupour permettre le

supportdesrelations d'ordre etdes propriétés propagées par unerelation d'ordre.

Dans le hapitre 6, nous présentons les expérimentations réalisées sur un ensemble de don-

nées de tests. Nous présentons également une évaluation des résultats et mettons en évidene

la faisabilité et l'eaité des solutions proposées pour les onstrutions supportées et implé-

mentées.Le premieressaipermetdereleverles apports delastruturede représentation hoisie

pour leniveau ontologique. Nousprésentons ensuitelesperformanesde l'approhede substitu-

tiondeertainsraisonnementsdédutifspardesrequêtesnumériquesetalphanumériques. Enn,

nousprésentonsles premiersrésultatsobtenus dansl'intégrationd'instanesnon anoniquespar

migration d'instanes.

Pour onlure les travaux présentés i-dessus, dans le hapitre Conlusion, nous faisons un

résumé dela problématique, de nospropositions etdes prinipalesapprohes suivies. Nousdis-

utons également deslimites etdespoints restantà approfondir danslefutur.

Cemanusrit omporte également en annexe,lemodèleexpressdu méta-shémaexpress

que nous avons utilisé. La liste suivante représente les publiations onernant le travail dans

ette thèse.

ChimèneFankam, Yamine Ait-AmeurandGuy Pierra,Exploitation ofOntology Lan-

guagesforbothPersisteneandreasoningPurposes:MappingPLIB,OWLand

Flight ontology models. Third International Conferene on Web Information Systems

andTehnologies(WEBIST),Editedby:JoaquimFilipe,JoséCordeiro,BrunoEnarnação

andVitor Pedrosa.,INSTICC Press,Marh,2007, pp.254-262.

ChimeneFankam,PriseenomptedesontologiesnonanoniquesdanslesBDBO:

le modèle ONTODB2, Ph D. présentation, XXVème Congrès INFORSID (INFOR-

SID'07),Perros-GuireFrane, Mai, 2007,pp 561-562.

ChimèneFankam,Stéphane Jean,GuyPierra andLadjelBellatrehe,Enrihissementde

l'arhiteture ANSI/SPARC pour expliiter la sémantique des données : une

approhe fondée sur les ontologies,Ates de la2ème Conférene franophone surles

Arhitetures Logiielles (CAL'08), edited byRevue RNTI,mars, 2008,pp.47-61.

ChimeneFankam,Ladjel Bellatrehe andGuyPierra,OntoDB2:Support of Multiple

Ontology Models within Ontology Based Database, 11th International Conferene

on Extending Database Tehnology (EDBT'08) Ph.D. Workshop, Mars, 2008,. Nantes

Frane, pp21-27.

Nabil Belaid , Idir Aït Sadoune, Chimene Fankam, Stephane Jean, Yamine Aït Ameur,

Guy Pierra, and Jean-Franois Rainaud, Une arhiteture orientée servies pour la

gestion sémantiques des données géologiques pour le stokage de CO2, 26eme

CongrèsINFORSIDSystèmesd'InformationetdeDéisionpourl'Environnement,Fontai-

(24)

ChimèneFankam, StéphaneJeanandGuyPierra,NumerireasoningintheSemanti

Web, ESWC - SEMMA : First International Workshop on Semanti Metadata Manage-

mentandAppliations,SeMMA2008,LoatedattheFifthEuropeanSemantiWebConfe-

rene, vol. 346 CEUR WorkshopProeedings, edited byKhalidBelhajjameandMathieu

d'Aquin and Peter Haase and Paolo Missier, Tenerife, Spain, edited by CEUR-WS.org,

June, 2008,pp.84 - 103.

Yamine AïtAmeur, Nabil Belaid, Mohammed Bennis, Olivier Corby, Rose Dieng-Kuntz,

JérémieDouy,PrisilleDurville,ChimèneFankam,FabienL.Gandon,AlainGiboin,Pa-

trik Giroux, Sandrine Grataloup, Bruno Grilheres, Florian Husson, Stéphane Jean, Joel

Langlois, Phu-Hiep Luong, Laura Silveira Mastella, Olivier Morel, Mihel Perrin, Guy

Pierra, Jean-François Rainaud, Idir Aït-Sadoune, Eri Sardet, Franois Tertre and João

Franiso Valiati, Semanti Hubs for Geologial Projets, Workshop on Semanti

Metadata Management and Appliations (SeMMA2008),June, 2008, pp.3-17.

Chimène Fankam, Stéphane Jean, Ladjel Bellatrehe and Yamine Aït Ameur, Exten-

ding the ANSI/SPARC Arhiteture Database with Expliit Data Semantis :

An Ontology-Based Approah, Seond European Conferene on Software Arhite-

ture(ECSA), editedbyLNCS Springer,September, 2008, pp.318-321.

Chimène Fankam, Stéphane Jean and Guy Pierra, Raisonnement Numérique sur les

Relations d'Ordre pour le Web Sémantique,Atesde ladeuxièmeéditiondesJour-

nées Franophones sur les Ontologies (JFO 2008), edited by ACM, Déembre, 2008, pp.

4-15.

Chimène Fankam, Ladjel Bellatrehe, Hondjak Dehainsala, Yamine Ait Ameur and Guy

Pierra, SISRO : oneption de bases de données à partir d'ontologies de do-

maine, Tehnique etsieneinformatiques (TSI),vol. 28,2009.

Chimène Fankam, Stéphane Jean,Guy Pierra, Ladjel Bellatrehe andYamine Ait Ameur,

Towards Conneting Database Appliations to Ontologies, First International

ConfereneonAdvanesinDatabases,Knowledge,andDataAppliations,editedbyIEEE

Computer Soiety,Conferene Publishing Servie,Marh 2009,pp.131-137.

Selma Khouri, Ladjel Bellatrehe and Chimène Fankam, SISROM2C : Un outil de

modélisation oneptuelle à base ontologique d'un entrept de données, 5èmes

JournéesfranophonessurlesEntreptsdeDonnéesetl'Analyseenligne(EDA'09),edited

byRNTI,Juin, 2009, Toulouse, Frane, pp123-138.

(25)
(26)

État de l'art

(27)
(28)

Ontologie et formalismes d'ontologies

Sommaire

1 La notiond'ontologie . . . 12

1.1 Dénition . . . 12

1.2 OntologiesenInformatique . . . 13

1.3 Coneptsprimitifs etoneptsdénis . . . 13

2 Exemples de formalismesd'ontologies. . . 16

2.1 Formalismesd'ontologiesorientésgestionet éhangededonnées . . 16

2.1.1 rdf/rdf-shéma . . . 16

2.1.2 plib . . . 21

2.2 Formalismesd'ontologiesorientésinférene . . . 25

2.2.1 daml-ont,oil,daml+oil . . . 25

2.2.2 owl . . . 25

3 Similitudeset diérenesdes formalismesd'ontologie . . . 32

3.1 Similitudes . . . 32

3.2 Diérenes . . . 32

3.3 Lemodèleenoignon . . . 32

3.3.1 OntologiesConeptuellesanoniques . . . 34

3.3.2 OntologiesConeptuellesNonanoniques . . . 35

3.3.3 OntologiesLinguistiques . . . 35

Introdution

Parallèlement à l'explosion de la quantité d'information numérique dans de nombreux do-

maines au ours desdernières années, de nombreux travaux ont étémenés pour développerdes

méthodespermettantdereprésenterexpliitementlasigniationdeesdonnéessousdesformes

éhangeables etexploitablespar desordinateurs.

Les ontologies, dénies par Gruber [26 ℄ omme une spéiation expliite d'une oneptua-

lisation, se sont imposées omme un moyen pour expliiter la sémantique des données. Elles

permettent auxprogrammes d'éhanger ette sémantique et, le aséhéant, de réaliser desrai-

sonnements et des traitements intelligents sur les données dans des domaines aussi variés que

(29)

l'intégration des soures de données hétérogènes, ou la reherhe d'information sur le Web. Un

problème important est qu'un domaine donné peut être ouvert par plusieurs ontologies qui

peuvent être dérites en utilisant des langages diérents et basées sur diérentes logiques. De

e fait, l'intégration des données requiert souvent non seulement l'intégration des shémas ou

modèles, mais aussi l'intégration des langages d'ontologies sous-jaents et en onséquene des

logiquesd'ontologies sous-jaentes.

Ce problème s'étant souvent posé dans les appliations que traite le laboratoire, pouvoir

failiter laoopération voire l'intégration des diérents formalismes d'ontologie au sein du sys-

tème ontodb2 fait partie des objetifs de notre travail. Cei suppose d'analyser les diérents

formalismes d'ontologie, tout au moins eux qui nous intéresse diretement, an de voir leurs

points ommuns et leurs diérenes. Cei nous permettra alors d'envisager des approhes leur

permettant de oopérer.

Leplande ehapitreestlesuivant.Danslasetion1,nousdénissonslanotiond'ontologie

et les problèmes liés à leur représentation dans les bases de données. Dans la setion 2, nous

présentons deux atégories de formalismes d'expression des ontologies et les problèmes qu'ils

visent à résoudreautraversdesonstruteurs qu'ilsorent. Ces deuxatégories deformalismes

sontplib,d'unepart,adaptéaudomainetehnique,etowld'autrepartdéveloppépourfailiter

l'aèsauxdonnéesduWeb.Cesformalismessontlesplusutilisés.Nousprésentonsensuite,dans

la setion 3 une omparaison de es formalismes. Cette omparaison nous permet de montrer

la omplémentarité des diérents formalismes et nous amène à proposer une lassiation des

ontologiesquenousutilisonsdanslasuitedeetravail,pourfaireoopérerdiérentsformalismes

d'ontologie.

1 La notion d'ontologie

La notion d'ontologie est apparue en informatique dans les années 90. Une ontologie est

essentiellement une représentation expliite de la oneptualisation d'un domaine, telle qu'elle

estperçueparuneommunautédonnée[26℄.Lesontologiessontaujourd'huiutiliséesdansdivers

domaines eton retrouve dans la littérature 2

de nombreuses dénitions du terme ontologie en

fontion du seteurd'ativité visé [27℄ (indexation de doument, traitement automatique de la

langue naturelle (taln), intégration de données). En e qui nous onerne, nous adoptons la

dénitionsuivante :

1.1 Dénition

Uneontologieest une représentation formelle, expliite, référençable et onsensuellede l'en-

semble des onepts partagés d'un domaine en terme de lasses d'appartenane et de propriétés

aratéristiques [37 ℄.

Cettedénitionmetenavant troisaratéristiquesquidistinguent uneontologie dedomaine

desautresmodèlesinformatiquestelsquelesmodèlesoneptuelsetlesmodèlesdeonnaissane.

Une ontologieestune représentation :

2

http://websemantique.org/Ontologie

(30)

formelle,expriméedansunlangagedesyntaxeetdesémantiqueformalisé(rdfshéma[10℄,

daml+oil[15 ℄, owl[5 ℄, plib[35 ℄,et.) permettant ainsides raisonnements automatiques

ayantpourobjetsoitd'eetuerdesvériationsdeonsistane,soitd'inférerdenouveaux

faits;

onsensuelle,'est-à-direadmiseparl'ensembledesmembres (etdessystèmes)d'uneom-

munautéet,

référençable, 'est-à-dire que toute entité ou relation dérite dans l'ontologie peut être

diretementréférenéeparunsymbole(identiant),àpartirden'importequelontexte,

an d'expliiterlasémantiquede l'élément référençant.

1.2 Ontologies en Informatique

D'unpointdevuepratique,uneontologieinformatique estformaliséeenutilisant inqsortes

de omposants:

1. Les lasses (atégories d'objets modélisés qui ont une existene propre dans le domaine

modélisé) :une lasseestuneolletiond'objets dénieenintention. Exemple:Territoire,

Doument,Personne,et.

2. Lespropriétés(attributsdesobjetsmodélisésquipermettentdearatériseruneinstane

d'unelasse) :une propriétéestune relationbinaireentredeuxlasses ouentreune lasse

etun domaine devaleurs.

3. Lesdomainesdevaleurs(outypesdedonnées):undomainedevaleursestunensemble

mathématiquedénienextensionouenintention.Exemple:réels,aratères,booléen,mais

aussiles typesstruturés:liste, tableau,

. . .

4. Lesindividus(ou instanes):unindividu dudomaine modéliséestreprésentédefaçon

ontologique omme une instane appartenant à une lasse dénie dans l'ontologie. Par

exemple, L'individu Anne Dupont peut être déni ontologiquement omme une instane

de lalassedespersonnes, ave lavaleur 1990 pour lapropriété année de naissane et,la

valeurféminin pourlapropriétégenre,silalassedespersonnesetlespropriétés annéede

naissane etgenresont dénies dansl'ontologie.

5. Lesaxiomesquisontdesprédiatss'appliquantsurlesrelations,leslassesoulesinstanes

et permettent d'assurer l'intégrité desdonnées ou de faire des inférenes.Exemple :l'âge

d'unepersonnedoitêtreunevaleurpositive,uneinstanenepeutêtrearatérisée quepar

les propriétés appliablesà salasse

1.3 Conepts primitifs et onepts dénis

La oneption d'une ontologie se fait en exploitant un formalisme d'expression d'ontolo-

gies. Ces formalismes utilisent des représentations orientées objet. Ilspermettent de dénir des

onstruteurs en vuede réerdes ontologies au travers desonepts énumérési-dessus. Depuis

leur émergeneen informatique,plusieurs ourants ontétésuivispour dénirles ontologies. On

peutdistinguer deuxprinipaux ourant :

1. Lesformalismesd'ontologieorientésgestionetéhange dedonnéesquivisentàreprésenter

lasémantiquededonnéesd'undomained'appliationdemanièrepréiseetuniquedefaçon

(31)

à permettre lepartage etl'éhange d'information.

2. Les formalismes d'ontologies orientés inférene qui visent à permettre ertains raisonne-

ments sur un domaine d'appliation pour résoudre ertains problèmes, en exploitant des

onnaissanesrelatives audomaine étudié.

Lesformalismesd'ontologie orientés gestionetéhange dedonnées dénissent desonstru-

teurs qui vont permettre de dérire les onepts des ontologies de manière à failiter l'éhange

d'information.Deefait,esontologiespermettentdereprésenterhaqueinformationdemanière

unique ou anonique. Nous aratérisons les ontologies dénies par es formalismes d'ontologie

anoniques.

Au ontraire, les formalismes d'ontologie orientés inférene vont dénir plusieurs onstru-

teursquivont permettentde dénirlemêmeonept(lasses, propriétésetinstanes)de l'onto-

logie.Nousappelonsesonstruteurslesonstruteurs d'équivalene oneptuelle arilsorent

le moyen de représenter de diérentes manières le même onept ou la même information. Par

exemple,l'individuAnneDupontpeutêtredéritommeuneinstanedelalassePersonne ave

lesaratéristiquesnometgenre, ouenoreommeuneinstanedelalasseFemme sietteder-

nièreestégalementdénieauniveaudel'ontologieommeéquivalenteàl'ensembledespersonnes

pourlesquelles lavaleur de lapropriétégenre est féminin.ainsi,AnneDupont peutêtredérite

dedeuxmanières équivalentesqui permettentde faireautomatiquement desinférenes entrees

représentations. Lesontologies possédant de tels onstrutions sontdites nonanoniques.

Unproblèmefondamentalquirésultede esdiérentesfaçonsdemodéliserl'information par

les formalismes d'ontologie est leur représentation au sein des bases de données. En eet, les

bases de données sontutilisées par un très grand nombre d'appliations arelles fournissent un

environnement de persistane robuste, séurisé et eae des données. Il apparaît ependant

qu'à ladiérene desbases de données qui représente l'information de manière unique, etdon

anonique, les données dénies à partir d'ontologies non anoniques peuvent être redondantes

et dérites de plusieurs manières. Si l'on onsidère par exemple une ontologie qui omporte les

lassesPersonneetFemme;lalasseFemmeétantdénieommeégaleàlarestritiondelalasse

Personneauxindividusdontlavaleurpourlapropriétégenreestégaleàféminin(Personne[genre

='féminin'℄),lareprésentationdansunebasededonnéesd'unensembled'instanesdepersonnes

omportant lesfemmes etleshommes néessite:

soit que toutes les instanes de Femme soient toujours représentées omme des instanes

delalassePersonneetdanseas,ellesseraientimmédiatement représentableen basede

données,

soit quelabase dedonnéessoit apable,lorsque l'ondemande delister toutesles femmes,

de faire l'union de elles représentées omme Personne[genre = 'féminin'℄ et de elles

représentées ommeFemme,

soit quedes méanismes soient fournis pour transformerles instanes de la lasse Femme

en instanesde lalassePersonne.

La première solution bien qu'immédiate est assez restritive ar elle restreint le langage auto-

risé pour dénir les instanes. Cei est tout à fait aeptable si l'objetif de l'ontologie est de

pouvoir éhanger de l'information. C'est par ontre, moins aeptable par exemple si l'on veut

(32)

identier des instanes dans des douments érits. Dans e as, en eet, un grand nombre de

formuleséquivalentessontengénéralutiliséespour lesmêmesonepts.Ladeuxièmeformeviole

leprinipedeanoniitédesbasesdedonnées.Elleexigerasoitdesméanismesderaisonnement

extérieurs (raisonneurs ), soit de dupliquer l'information, e qui est ontraditoire ave la

théorie des bases de données et posera les problèmes lassiques de mise à jour etde ohérene

danslabasede donnéesrésultante.C'est lasolutionsouventutiliséepourgérerles instanesdes

lasses des ontologies que e soit en mémoire entrale [50℄ ou en mémoire seondaire [36℄. La

troisième solution ne restreint paslelangage utilisable pour dérire l'information à représenter,

maiselle requiert lamiseen÷uvrede méanismesspéiques pour permettrelatransformation

des données dérites à partir d'ontologie avant de les harger dans la base de données. C'est

l'approhe quenousproposeronsdansettethèse pour lier lapuissaned'expression dulangage

de représentation de l'information etlaohérene de labasede données résultante

Mettre en ÷uvre de tels méanismes néessite d'identier les onstruteurs oerts par les

diérents formalismesd'ontologies, etdedistinguer les onstruteursd'équivalene oneptuelle

des autres onstruteurs. Cette distintion permet de dénir deux atégories de onepts dans

les ontologies :

1. les onepts primitifs ouanoniques quisont desonepts"pourlesquelsnousnesommes

pas apables de donner une dénition axiomatique omplète " [26℄. La dénition de es

oneptss'appuiesurunedoumentationtextuelleetunsavoirpartagéavelesutilisateurs

maisnepeutseréduireaved'autresonepts.L'ensembledesoneptsprimitifssutpour

dénirlesfrontièresdudomaineoneptualiséparuneontologie.Lesoneptsprimitifssont

la fondation surlaquelle d'autres onepts de l'ontologie pourront ensuiteêtre dénis par

équivalene, si besoin est. La dénition de onepts primitifs étant toujours, au moins

partiellement, informelle, le seul ritère de qualité pour une telle dénition, est qu'elle

représenteunonsensusparmiuneommunauté.Sansuntelonsensus,onnepeutertier

ni la omplétude de l'ensemble des onepts onsensuels dérits, nila onsistane (il n'y

a pas de ontradition entre les dénitions informelles et les relations formelles que l'on

dénit entreonepts)des dénitionsfourniespar une ontologie;

2. les onepts dénis ou non anoniques quisont les onepts pour lesquels une ontologie

fournit une dénition axiomatique omplète au moyen de onditions néessaires et suf-

santes exprimées en termes d'autres onepts primitifs ou eux-mêmes dénis[26℄. Les

dénitions de tels onepts sont onservatives ar elles assoient un nouveau onept à

quelque hosequi est déjà dénipar un autre moyen dansl'ontologie en oursde onep-

tion. Elles n'introduisent don pas de nouvelles instanes mais des alternatives de dési-

gnation pour desonepts quel'on pouvaitdéjà désigner. Ellesn'enrihissent don pasles

onnaissanes sur e domaine, mais levoabulaire qui permetde les représenter. Dans e

type de formalisme d'ontologieou les langagesde modélisation permettent non seulement

dedériredesoneptsprimitifs,maisomportentégalementdiérentsopérateurspermet-

tant de omposer les onepts pour onstruire des onepts dénis, ette aratéristique

est la base des méanismes d'inférene. Par exemple, un système d'inférene permettra

de déider qu'une Femme est une Personne etqu'une Personne de genre = 'féminin' est

une Femme. Il permettra également d'eetuer des lassiations automatiques, 'est-à-

dirededéduireautomatiquementdesrelationsdesubsomptionentreoneptsdesrelations

(33)

d'équivalene oneptuelle. Il permettra également de aluler l'appartenane d'instanes

à ertaineslasses, àpartirde ladénitionaxiomatique omplètedes onepts dénis.

Nous présentons dans les setions suivantes quelquesformalismes qui permettent de onstruire

les ontologies.

2 Exemples de formalismes d'ontologies

Les ontologies sont exprimées à partirde formalismes d'ontologies.Ces formalismesorent

desonstruteurspermettantde dénirlesdiérentsonepts (lasses,propriétés,typesde don-

nées,individus,

. . .

) quel'onretrouvedansuneontologie.Lesontologiessontutiliséesdansdié-

rentesdisiplines (basesde données, taln,reherhed'information,

. . .

) ete,ave desobjetifs

diérents.Ilexistedondiérentsformalismesdedénitiond'ontologiessuivantlesobjetifsspé-

iques visés par les diérentesspéialités. Nousintroduisons dansette setion, les prinipaux

formalismesd'ontologies. L'objetif estde ressortir(1)e qu'ilsont en ommun et(2)e quiles

distinguent. Nous allons ainsi pouvoir déterminer, dans quelle mesure il est possible, au moins

partiellement, d'intégrer leur apaité.

2.1 Formalismes d'ontologies orientés gestion et éhange de données

Dans ette setion, nous présentons les formalismes d'ontologie rdf-shéma et plib. Ces

formalismesorentrespetivement dansledomaine duWeb etde l'ingénierie,desonstruteurs

permettant de représenter les informations de l'univers du disours de manière à failiter le

partage etl'éhange desontologies etdes instanesassoiées.

2.1.1 rdf/rdf-shéma

Ils'agitii dedeuxformalismesdéveloppéspour expliiter parannotation (unepartie)de la

sémantiqueduWeb.rdfdénitàlafoisunesyntaxe,utilisableensuitepourtouslesformalismes

duWeb(dontrdf-shémaetowl)etunméanismed'annotationpermettantensuited'annoter

les éléments existants du Web, qualiés de ressoures. Il ne s'agit don pas d'un formalisme

d'ontologie.

rdf-shémaétendrdfpourpermettrededénirdeslassesetdespropriétésdevenantdon

un formalisme simple de dénition d'ontologies. rdf-shéma peut utiliser la syntaxe rdf. Il

utilise aussi rdf pour annoter les ressoures du Web qui seront représentées omme instanes

deslasses de l'ontologie rdf-shéma.

2.1.1.1 rdf

rdf(Resoure DesriptionFramework) estlepremierlangageapparupourdénirlasémantique

sur le Web. A l'origine, il était essentiellement destiné à assoier aux douments du Web des

annotations sémantiques (titre, auteur,

. . .

) exploitablespar mahine. Puis, l'utilisation des an- notationsaétéétendueàtouteinformationpouvantêtreréférenéesurleWeb(siteWebomplet,

page Web, ou enore un élément partiulier d'une page Web) et, l'information que l'on voulait

représentera étéétendueà lasigniationderessoure Web.La syntaxeduformalisme rdfest

(34)

utilisée parles autres formalismesd'ontologies Weben partiulierpour dérireles individusdes

lasses desontologies.

Le développement derdf a étémotivé par laperspetivede :

manipuler desméta-données Web,an de fournir desinformations surles ressouresWeb

etles systèmesqui lesutilisent;

failiter la reherhe et le traitement automatique de l'information du Web par la o-

opération (indexation, lassement, diusion,

. . .

) des agents logiiels qui exploitent es

méta-données.

Unmodèle rdfest dénià partirde quatreensembles :

1. Les Ressoures.Uneressoure esttoutélément quel'onpeutréférenerpar unidentiant

appeléuri.

2. Les Littéraux qui sont des valeurs éventuellement typées par un des types de données

primitifdéni par xml shéma.

3. Lesprédiats. Unprédiatestunepropriété, unaspet,unearatéristique,unattributou

une relation spéiquequel'on peututiliser pour dérireune ressoure.

4. Les délarations qui permettent de dériretout élément selon un méanisme partiulière-

ment simple.Unedélaration estuntripletdelaforme:sujet,prédiat,objet;oùsujet est

une ressoure, prédiat est une propriété, et objet est soit une ressoure, soit un littéral.

Par exemple :La Frane est un Territoire estune délaration rdf possible.

Unmodèlerdfestungrapheorientéétiqueté(arl'objetd'unedélarationpeutêtrelesujet

d'uneautre) danslequellesn÷udssont desressoures(oudeslittéraux) etlesars représentent

les prédiats.

Document Territoire

Bilan.doc France

rdf:type rdf:type

estGéolocaliséPar

Fig. 1.1 Exempled'ungraphe rdf.

Exemple : La gure 1.1 illustre un exemple de graphe rdf. Les deux noeuds Territoire

et Doument représentent des ressoures, et le n÷ud est un littéral. Les ars représentent les

prédiats.Chaquearestorientédusujet versl'objetdeladélaration.Cetexemple serautilisé

etenrihitoutau longde e mémoire.

rdf représente toute information par un ensemble de délarations. Il ne permetependant

pas de dénir des voabulaires permettant de formuler des ontraintes sémantiques plus rihes

(par exemple, de dénir l'ensemble des valeurs permises pour une propriété) ou de faire des

raisonnements. De plus, rdf ne permet pas de atégoriser le domaine modélisé en termes de

lasses etde propriétés. Ce n'est don pas un formalisme d'ontologie. Il fournit par ontre une

syntaxe et un langage simple pour annoter les ressoures du Web. Ce langage est notamment

utilisé :

(35)

pour représenterles onstrutions de l'ensemble deslangages d'annotation duWeb(xml,

html,

. . .

),

parleslangagesd'ontologiesduWeb(daml+oil,rdf-shéma, owl,

. . .

)pourreprésenter les aratéristiques des ressouresen représentant elles-i omme des instanes de lasse

d'ontologie.

Ande aratériser l'ensemblede ressouresdu Web,leformalisme rdfs-shéma aétépro-

posé.

2.1.1.2 rdfs-shéma

rdfs-shéma, aussiappelérdfs estlepremier formalisme d'ontologie dénisur leWeb. rdfs-

shéma fournit les prédiats essentiels pour représenter (en rdf) une ontologie. Ces prédiats

prédénispourrontalorsêtreutilisésandedénirdesontologiesrdfs(aussiappelévoabulaire

rdf) etaratériser ainsiles ressouresduWeb.rdfs-shémaestundespiliers duWeb séman-

tique. Grâe à rdfs-shéma, il est par exemple possible de dénir que le onept de Territoire

danslevoabulaireintituléespae géographique,représenteunezonegéographique.Unefois

que e voabulaire est formellement déni grâe à rdfs-shéma, n'importe quel outil peut dé-

sormais utiliser le fait que Territoire est un as partiulier de zone géographique. Les données

de tels outils pourront être publiées sur Internet etfaire l'objetd'une indexation par un autre

outil onnaissant e voabulaire:les utilisateursdee dernier outil pourront don parexemple,

listertouslesdoumentsquifontréféreneà(sontgéoloaliséspar)lazonegéographiqueFrane.

RDF-Shémaestunsystèmedetypagepour rdf.L'utilisationonjointederdfetrdf-shéma

dansleWeb Sémantique permetdon àlafois dereprésenter(enrdf-shéma) une ontologie et

(enrdf) desinstanes dénies en termesde etteontologie.

rdf-shéma est le plus simple formalisme d'ontologie. Il est doté du nombre minimum de

onstruteurs néessaires à la dénition d'une ontologie. Ces onstruteurs vont être retrouvés

danstousles autres langagesd'ontologie duWeb(daml+oil, owl).

Construteursde lasses

Pour modéliserles ressouresdu Web,rdfspermetde :

dénirdeslasses(rdfs:lass):unelasseestunensembledénien intensionde plusieurs

objets analogues d'un ertain point de vue et que l'on souhaite regrouper. Exemple : la

lassedesterritoires.

organiser les lasses en une hiérarhie de spéialisation (rdfs :sublassOf). Exemple : la

lasseCommune peutêtre dénieommeune sous-lasse de lalasseTerritoire.

Construteursde propriétés

rdfspermetausside:

dénir des propriétés (rdfs :property). Exemple : ode_iso est une propriété de la lasse

Territoire.

organiserles propriétés enune hiérarhiede spéialisation((rdfs:subProperty)).Exemple :

a_pour_ls estune sous-propriété de a_pour_enfants.

rdfsdénit également :

(36)

Laouleslassesauxquellesontpeutaeterunepropriétéet,quionstituent ledomaine 3

de la propriété (rdfs :domain) (par exemple : la lasse Doument peut être l'objet de la

propriété estGeoloalisePar). Lorsque le domaine d'une propriété n'est pas déni, ette

dernière peut être utilisée pour dérire n'importe quelle instane appartenant à l'univers

dudisours oneptualisé par l'ontologie.

le o-domaine, ou le domaine de valeurs d'une propriété, (rdfs :range) (par exemple : la

propriété estGeoloalisePar à pour valeur un élément de la lasse Territoire). Comme la

dénitiondudomaine,ladénitionduo-domained'unepropriétépeut êtredéniparune

ouplusieurs lasses (ave lesensd'intersetion) 4

,lestypesdedonnées peuvent également

être utilisées.

Types de données

Les valeursd'unepropriété peuvent être desinstanes de lasses ou deslittéraux. Ces littéraux

peuvent êtretypésen utilisant les typesdedonnées prédénisdexml shéma. Ceipermetpar

exempledereprésenterdesvaleursdetypeshaînedearatères,numériqueoudate.Parailleurs,

rdfs fournit également des types olletions (rdfs :Container). rdfs utilise des onstruteurs

de olletions dénisdansrdf, enpartiulier les listes(rdf :List)etles sas (rdf :Bag).

Construteursd'individus

Lesinstanes deslasses rdfssont dénies en rdf, par deuxtypesde triplets.

1. Lestripletsdelaforme(i,rdf:type,C)indiquentquei estuneinstanedelalasseC.rdfs

supporte la multiinstaniation qui permet à une instane d'appartenir à plusieurs lasses

même si eslasses nesont pasliées par unerelation de subsumption (spéialisation).

2. Les autres triplets, de laforme (i, p, v),aratérisent l'instanei par la valeur v pour la

propriété p.

Axiomes

rdfsnepermetpasdedénirdenouveaux axiomesendehorsdel'appartenaneàune lasseou

lasubsumption de lasse. Par ontre, un modèlerdfs estlui-mêmebasé surertains axiomes:

1. rdfspermetlaméta-modélisation.Eneet,iln'imposepasdedisjontionentrel'ensemble

deslasses etl'ensembledes instanes; ainsi,une information peutàlafois êtrereprésen-

tée omme une lasse et omme une instane en fontion de son rle dans un ontexte

partiulier.

2. rdfsnepermetpasladénitionderéférenesirulaires dansladénitiondelasubsump-

tiondeslasses etdespropriétés.Une propriéténe peutêtresous-propriété d'elle-mêmeou

d'unede ses sous-propriétés.

Autres onepts

3

Lorsqueplusieurslassessontspéiées,ledomainedelapropriétéorrespond àl'intersetiondeeslasses

4

Siplusieurslassessontutilisées,seuleslesinstanesquiappartiennentàl'intersetiondeeslassespeuvent

sevoiraetéeslapropriété.

(37)

rdfsdénitlalasseressoure ommelassemèrede toutelasse. Tout estune ressoure

dansle Web sémantique, sauf lanotion de littéral. Et, toute lasse est une sous-lasse de

lalasseressoure.

Leslasses,lespropriétésetlesinstanespeuventégalementêtredéritesdefaçontextuelle

enutilisant les attributs rdfs:label etrdfs :omment, rdfs:seeAlso,rdfs :isDenedBy.

Lagure1.2montreun exempled'ontologie présentéesurlaformed'ungraphe. Cetteonto-

logieomporteleslassesPersonne,Etudiant (souslassedePersonne),Doument etTerritoire.

En dessous de ette ontologie, nous avonsprésentédes données de ette ontologie. Les uri des

instanes sont entourées par des ovales tandis que les valeurs littérales sont représentées dans

desretangles.Enn,nousprésentonsunextrait del'ontologieet desdonnéessuivantlasyntaxe

rdf/xmlquiestunesyntaxe xmlpourlesontologiesrdfs.Nousvoyonsnotamment aveette

syntaxe que la propriété nom de la lasse Personne représente le nomd'usage de la Personne.

Cettepréision estfournie parle onstruteur rdfs :label. Notonsque, ommelemontreette -

gure,ilestpossibledepréiseraveleonstruteursrdfs:labelunattributxml:lang quirenseigne

surlalangue utiliséedansladesription dulabel.

Document Territoire

estGéolocaliséPar Personne

aEcrit

String nomPrenom Ontologie

Données

http://rdf.insee.fr/geo/doc#01 http://rdf.insee.fr/geo/ter#01

estGéolocaliséPar

Rapport des zones sismologiques de la France http://rdf.insee.fr/geo/etu#01

aEcrit

Philippe Magnet

titre nomPrenom

nom

Castellane

Propriété Valeur de propriété

Classe Instance

Ontologie (cog="http://rdf.insee.fr/geo# )

<rdfs:class rdf:id= " cog:Personne" />

<rdfs:class rdf:id= " cog:Document" />

<rdfs:class rdf:id= " cog:Etudiant" >

<rdfs:subclassof rdf:about= " cog:Personne" />

</rdfs:class>

<rdf:Property rdf:id= " cog:nomPrenom" >

<rdfs:label xml:lang= "fr">nom d ’usage</rdfs:label>

<rdfs:domain rdf:about= "cog:Personne" / >

<rdfs:range rdf:resource= "xsd:string " />

</rdf:Property>

Etudiant

Héritage

Données

<cog:Document rdf:about= " http://rdf.insee.fr/geo/doc#01"/ >

<cog:Etudiant rdf:about= " http://rdf.insee.fr/geo/pers#01" />

<cog:nomPrenom> Philippe Magnet </cog:nomPrenom>

<cog:aEcrit rdf:resource = " http://rdf.insee.fr/geo/doc#01"/>

</cog:Etudiant>

titre

Fig. 1.2 Exempled'ontologieexpriméeen rdf shéma.

rdfsa étendu rdf par un ensemble de onstruteurs permettant la dénition d'ontologies

sur le Web. Cependant, rdfsne ontient auune primitive expliite permettant de dérire des

équivalenes oneptuelles. Les ontologies dénies suivant le formalisme rdfs sont don être

omposées de onepts anoniques uniquement. Danslasetion suivantenousprésentonsle for-

malisme plib qui dans le domaine de l'ingénierie permet de dénir des ontologies anoniques

beauoupplusomplètes.

(38)

2.1.2 plib

plib(partslibrary:seriesdenormesiso13584),initiéen1987,estunformalismed'ontologie

onçu initialement dansle adredu domaine tehnique pour éhanger etmodéliser ave la plus

grande préision possible les diérentes atégories (lasses) de omposants industriels et leurs

instanes telles qu'ellessont, par exemple,dérites danslesatalogues. Pour ela,une ontologie

plib dénit de façon très ne, les atégories et les propriétés qui aratérisent les objets d'un

domaine du monde réel, ainsi que les abstrations que les diérentes ommunautés peuvent en

onstruire [56 ℄. Enn, plib fournit des opérateurs de modularité permettant d'intégrer dans

un environnement homogène et ohérent les ontologies partiellement hétérogènes dénies par

diérentes soures.

Nousprésentonsi-dessousles diérents onstruteursdu formalismed'ontologie plib.

2.1.2.1 Construteurs de lasses

Le modèleplibpermetdedélarerdeslasses etdelesorganiseren deshiérarhies desubsump-

tion. Une lasseplib peutêtredénie ommeétant :

une lasse de dénition (item_lass) qui ontient les propriétés essentielles d'une lasse,

'est a dire les propriétés ommunes qui aratérisent les instanes de la lasse pour tous

les ateursquiutilisent l'ontologie;

unelassedereprésentation(funtional_model_lass)quiontientlespropriétésquin'ont

de sens que par rapport à un point de vue métier(par exemple le nombre d'instanes

quiexistentenstok,pourlegestionnairedestok,ouletauxderemiseparquantité,pour

leommerial);

unelassedepointde vue(funtional_view_lass) quidénitlaperspetivedanslaquelle

sont dénies les propriétés des lasses de représentation (par exemple : gestion de stok,

onditions ommeriales,

. . .

).

Lahiérarhie deslasses plib estdénie par :

la relation sémantique de subsumption nommée is_a qui dénit une hiérarhie (simple)

ave fatorisation/héritagedes propriétés;

unedeuxième relation sémantiquenomméeis_ase_of qui permetégalement d'exprimer

la subsumption entre lasses. Celle-i n'est ependant pas odée par le méanisme d'hé-

ritage. La relation sémantique is_ase_of permet d'indiquer qu'une lasse est inluse

dans une autre lasse (subsumption) maisqu'elle souhaite, au niveau logique, n'importer

expliitement qu'une partie despropriétés de ette dernière.

Le méanisme is_ase_of permet de onstruire des ontologies modulaires qui n'importent des

autres ontologies du domaine que ertaines lasses et pour haune de es lasses, que le sous-

ensembledespropriétés néessairespourl'objetifvisé.Ainsi,eméanismepermetladénition

d'ontologies autonomes qui restent toutefois artiulées aux autres ontologies du domaine par

subsumption. Cetteartiulationformelle vaainsipermettre departager etd'éhanger equi est

ommun.Larelationdesubsumptionaveimportationséletivedepropriétésis_ase_of permet

auxonstruteurs deredénirentièrement lastruture deslassesen fontiondesbesoinsparti-

uliersqueviseàrésoudrel'ontologiemiseen÷uvre.Ellepermetaussid'assurerl'autonomietant

struturelle(superlasse,propriété)quetemporelle(évolutionéventuelledesautresontologiesdu

domaine)d'uneontologie. Eneet,l'ontologieenoursdedénitionneontient pasdiretement

Références

Documents relatifs

Une approche basée sur l’utilisation d’ontologies et des technologies du Web Sémantique permet de lier des données patient à des connaissances mé- dicales et pharmacologiques,

Biotechnology Information (NCBI), branche de la Bibliothèque nationale de médecine des États- Unis sous l'autorité de la National Institutes of Health (NCI). PubChem répertorie

‚ Par exemple : le nom d’un livre et de ses auteurs ñ Inutile de faire plusieurs requêtes. ñ Sélection sur

‚ Par exemple : le nom d’un livre et de ses auteurs ñ Inutile de faire plusieurs requêtes. ñ Sélection sur

Vous pouvez maintenant créer une base de données personnelle, dans le domaine de votre choix, mais qui satisfait aux conditions suivantes : au moins trois tables distinctes, avec

h) Nom et prime des joueurs sponsorisés par Peugeot entre 1985 et 1990. i) Nom et année de naissance des joueurs ayant participé au tournoi de Rolland Garros de 1989. j) Nom

Cette requête retourne exactement les mêmes colonnes qu’il y a dans la base de données. Pour en savoir plus sur le sujet il est recommandé de lire l’article avantage et

Mais comme tout ce travail à déjà été réalisé dans d’autres travaux et que nous avons déjà à disposition une base de données qui gère les triples stores avec un