HAL Id: tel-00452533
https://tel.archives-ouvertes.fr/tel-00452533
Submitted on 2 Feb 2010
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
données à base ontologique pour le web sémantique et les données techniques
Chimène Fankam
To cite this version:
Chimène Fankam. OntoDB2 : un système flexible et efficient de base de données à base ontologique
pour le web sémantique et les données techniques. Informatique [cs]. ISAE-ENSMA Ecole Nationale
Supérieure de Mécanique et d’Aérotechique - Poitiers, 2009. Français. �tel-00452533�
Ecole Doctorale des Sciences et l’Ingénierie pour l’Information
T T T H H H E E E S S S E E E
pour l’obtention du grade de
D OCTEUR DE L ’E COLE N ATIONALE S UPERIEURE DE M ECANIQUE ET D ’A EROTECHNIQUE
(Diplôme National — Arrêté du 7 Août 2006)
Secteur de Recherche : INFORMATIQUE et APPLICATIONS
Présentée par :
Chimène FANKAM
********************************************************
OntoDB2 : un système flexible et efficient de Base de Données à Base Ontologique pour le Web sémantique et les données
techniques
********************************************************
Directeurs de Thèse
Guy PIERRA et Ladjel BELLATRECHE
********************************************************
Soutenu le 10 Décembre 2009 Devant la Commission d’Examen
********************************************************
JURY
Président : Danielle BOULANGER Professeur, Université de Lyon3 Rapporteurs : Nadine CULLOT Professeur, Université de Bourgogne
Hacid MOHAND-SAÏD Professeur, Université Claude Bernard Lyon 1
Examinateurs :
Jean CHARLET Chercheur, INSERM
Guy PIERRA Professeur, ENSMA, Futuroscope
Ladjel BELLATRECHE Maître de Conférences, ENSMA, Futuroscope
Mesremeriements les plussinères s'adressent à:
Guy PIERRA, mon direteur de thèse, pour avoir bien voulu m'aueillir dans le laboratoire,
danssonéquipedereherheetm'avoirenadrédurantesquatreannées. Jeleremeriepourla
onanequ'ilm'atémoignée,poursonentièredisponibilité,sesenouragementsetpourm'avoir
transmis unpeu de sonsavoirfaire etpour toutesles lumièresqu'il aapporté dansette thèse.
Ladjel BELLATRECHE o-direteur de ette thèse, pour son enadrement, son enthousiasme,
sapassionde lareherhe etsurtout pour l'aidequ'il m'a apporté dansmes travaux.
Yamine AIT-AMEUR, Direteur du LISI et membre de l'équipe d'Ingénierie De Données du
LISI pour tousses bonsonseilsetbonnesremarques.
Nadine Cullot et Mohand-Saïd Haid qui ont eu la lourde tâhe de rapporter ma thèse, ainsi
queles autres membres dujuryJeanCHARLET etDanielleBOULANGER, lesquelsm'ont fait
l'honneurd'aepter d'êtreexaminateurs.Je lesremerie pourl'intérêt qu'ilsportent àmestra-
vaux.
Sybille CAFFIAUpour sonamitié,ainsiquetoutelafamilleCAFFIAU(annie,hervé,laurianne
etbaptiste) quim'ont aueillidansleurfamille. Je tiens àlesremerier pour leur gentillesse et
pour lesmerveilleux moments passésen leurompagnie.
Tout le personnel du LISI, etplus partiulièrement, Loé, StéphaneJ., Christian, Henry-Valery,
Ahmed, Nabil, Idir, Eri, Dago, Malo, Youef, Mihaël B, Kamel, Dilek, Claudine, Frédéri,
Laura, Youness, François, Mihaël R, Medhiet Chedlia,pour leur présene etleur soutien or-
dial.
Ma famille, et plus partiulièrement mes parents, qui ont su m'enourager jour après jour et
qui ont toujours ru en moi. Sans leur soutien onstant, tant aetif que matériel, je n'aurai
jamaispu aomplir mes étudesetenvisager ette thèse.
mes frères(Joël,Livingstone,Armstrong),
mes soeurs(Marelle,Cédine,Prisilla),
Patriket notre llebienaiméePhebe.
Introdution générale 1
Partie I État de l'art
1 Ontologie et formalismes d'ontologies 11
1 La notiond'ontologie . . . 12
1.1 Dénition . . . 12
1.2 Ontologies en Informatique . . . 13
1.3 Conepts primitifsetonepts dénis . . . 13
2 Exemplesde formalismesd'ontologies . . . 16
2.1 Formalismes d'ontologies orientés gestionetéhange de données . . . 16
2.1.1 rdf/rdf-shéma . . . 16
2.1.2 plib . . . 21
2.2 Formalismes d'ontologies orientés inférene . . . 25
2.2.1 daml-ont, oil, daml+oil . . . 25
2.2.2 owl . . . 25
3 Similitudes etdiérenesdes formalismesd'ontologie. . . 32
3.1 Similitudes . . . 32
3.2 Diérenes . . . 32
3.3 Le modèleen oignon . . . 32
3.3.1 Ontologies Coneptuelles anoniques . . . 34
3.3.2 Ontologies Coneptuelles Non anoniques . . . 35
3.3.3 Ontologies Linguistiques . . . 35
2 Basesde Données à Base Ontologique 39
1 Données àBase Ontologique . . . 41
2 Dénition d'unebdbo . . . 41
3 Arhiteture desbdbo. . . 42
3.1 Représentation desontologies dans lesbdbo . . . 43
3.1.1 bdbode type1 :une tablepour l'ontologie. . . 43
3.1.2 bdbode type2 :unshémaspéiquepour représenterl'ontologie 44 3.1.3 bdbode type3 :approhespéique ave méta-shéma. . . 44
3.1.4 Synthèsesur lareprésentation desontologies danslesbdbo 45 3.2 Représentation desdbo danslesbdbo . . . 46
3.2.1 Approhe vertiale . . . 46
3.2.2 Approhe binaire . . . 47
3.2.3 Approhe horizontale . . . 49
3.2.4 Synthèsesur lareprésentation desdbo . . . 49
4 Montée enhargeetraisonnement dansles bdbo . . . 50
4.1 Montée enhargedes bdbo. . . 50
4.1.1 bdbode type1. . . 50
4.1.2 bdbode type2. . . 51
4.1.3 bdbode type3. . . 51
4.1.4 Synthèsesur lamontéeen hargedesbdbo . . . 51
4.2 Capaitésde Dédutiondesbdbo . . . 51
4.2.1 Raisonnement pendantla requête . . . 52
4.2.2 Raisonnement par saturation . . . 52
4.2.3 Absenede raisonnement . . . 53
4.2.4 Disussionsurle raisonnement dans lesbdbo . . . 53
4.2.5 Ontologies gérées . . . 54
5 Besoinsdes appliationspour lesbdbo . . . 54
5.1 Flexibilité eteaité demodélisation. . . 55
5.1.1 Intégration d'ontologies expriméessuivantdiérentsformalismes 55 5.1.2 Représentation destypesdedonnées nonstandards . . . 56
5.2 Gestion eae degros volumesde données anoniqueset non anoniques 56 6 Quelquesimplémentations existantes debdbo . . . 57
6.1 rdfsuite . . . 57
6.2 Jena. . . 58
6.3 ontodb . . . 59
6.4 Le systèmed'orale . . . 60
6.5 sor . . . 61
Partie II Notre proposition d'arhiteture
3 Desription du modèleOntoDB2 67
1 Choixdu type d'arhiteture pour labdboontodb2 . . . 68
2 Flexibilité eteiene duformalisme d'ontologie . . . 69
2.1 Desription duformalisme noyaud'ontodb2 . . . 70
2.1.1 Notreproposition :unformalisme d'ontologie noyaubasé surplib 71 2.1.2 Représentation simpliéedu noyau . . . 76
2.2 Enrihissement duformalisme noyau . . . 77
2.2.1 Extension parmodiationde l'entitéClass . . . 78
2.2.2 Extension parmodiationde l'entitéProperty . . . 80
2.2.3 Flexibilité dusystème detypesde données . . . 82
3 Synthèse surleformalisme d'ontologie d'ontodb2 . . . 82
4 Gestion desdbo anoniques etnonanoniques de grandetaille . . . 85
4.1 Représentation de l'information anonique . . . 86
4.2 Représentation de l'information non anonique . . . 86
4.2.1 Classe anonique/ Classe nonanonique . . . 87
4.2.2 Classe dénieomme une restrition . . . 87
4.2.3 Classe dénieomme une intersetion . . . 88
4.3 Aèsaux dbonon anoniques . . . 88
4.3.1 Classe dénieomme une restrition . . . 89
4.3.2 Classe dénieomme une intersetion . . . 92
4.4 Autresméanismes de raisonnements surles dbo . . . 93
4.4.1 Traitementsdesaratéristiques de propriétés owllite . . . 94
4.4.2 Traitementseetués par unméanisme d'indexation . . . . 96
4.5 Synthèse surlesupport desdbo . . . 96
4 Implémentation de l'arhiteture de bdbo ontodb2 99
1 La partie Métashéma . . . 101
1.1 Ingénieriedirigée par lesmodèles(idm) . . . 102
1.2 express . . . 102
1.2.1 Lesentités . . . 103
1.2.2 Lesattributs . . . 103
1.2.3 Lestypes . . . 103
1.2.4 Lesontraintes. . . 105
1.2.5 Lesfontionsetproédures . . . 105
1.2.6 Représentation desinstanes:lehier physique . . . 105
1.2.7 Lanotation graphique express-g . . . 106
1.3 Génération etexploitation de lareprésentation duméta-shéma express107 2 La partie ontologie . . . 108
2.1 Coneption desshémade représentation desontologies . . . 108
2.2 Shéma de représentation desontologies :Flatlib . . . 110
2.2.1 Simpliation deshiérarhies . . . 111
2.2.2 Simpliation desaggrégats . . . 112
2.2.3 Shéma desorrespondanes entre plib etFlatlib . . . 112
2.3 Shéma d'aèsà lapartie ontologie :Le Peigne . . . 114
2.4 Correspondanes entrele Peigne etFlatlib . . . 116
2.4.1 Hibernate . . . 117
2.4.2 Modulede Génération deshiers de mapping . . . 120
2.5 api d'aèsauxontologies. . . 125
2.6 ImportationdesOntologies . . . 126
2.6.1 Ontologieplib . . . 126
2.6.2 Ontologieowl lite . . . 128
3 Synthèse surlesparties Méta-shémaet Ontologies. . . 132
4 La partiedonnées . . . 133
4.1 Shéma de représentation desdonnées . . . 133
4.1.1 Approhe horizontale . . . 134
4.1.2 Approhe binaire . . . 137
4.1.3 Prise enompte desaratéristiques depropriété . . . 138
4.1.4 Choixdesindex . . . 140
4.2 Strutured'aèsaux données . . . 140
4.2.1 Vuessur leslasses anoniques . . . 140
4.2.2 Vuessur leslasses non anoniques . . . 141
4.3 Lienentreontologieet données . . . 141
4.6 Synthèse surlapartie donnée . . . 143
5 L'appliation graphiquede gestion:ontoweb. . . 143
5.1 Fenêtre prinipale . . . 145
5.2 Gestion desontologies . . . 145
5.2.1 Desriptionde lasse . . . 145
5.2.2 Desriptionde propriétés . . . 148
5.2.3 Lestypes . . . 148
5.2.4 Le Multilinguisme . . . 150
5.3 Gestion desdbo . . . 151
6 Synthèse surl'implémentation d'ontodb2 . . . 153
Partie III Validation 5 Appliation : Raisonnements numériques sur les ensembles partiellement ordonnés157 1 RaisonnementsNumériques surdesEnsembles Partiellement Ordonnés. . . . 159
1.1 Exemple Motivant . . . 159
1.2 Représentation de donnéesgéographiques . . . 162
1.2.1 Représentation destypesspatiaux . . . 163
1.2.2 Représentation desdonnéesd'indexation . . . 163
1.3 Traitement eae desrequêtes . . . 163
2 Formalisation Proposée . . . 163
2.1 Raisonnement surles Fermetures Transitives Propagées. . . 164
2.2 Tehniques d'ÉtiquetageTopologiqueset Géométriques. . . 164
2.2.1 Tehniquesd'étiquetages topologiques. . . 164
2.2.2 Tehnique d'étiquetage géométrique . . . 166
3 Coneption etImplémentation . . . 167
3.1 Extension dela partie formalismed'ontologies desbdbo . . . 167
3.2 Représentation desInstanes . . . 170
3.3 Traitement desRequêtes . . . 170
4 Appliation àl'ontologie duog dansla bdboontodb2 . . . 170
4.1 Ontologie . . . 171
4.2 Données . . . 173
4.3 Traitement desrequêtes . . . 173
6 Validation d'OntoDB2 177 1 Flexibilité eteienede lareprésentation ontologique . . . 179
1.1 Flexibilité de représentation . . . 179
1.2 Eienede représentation . . . 179
1.2.1 Rappelsur leshémadesontologies d'ontodb2 etontodb . 179 1.2.2 Desriptiondu ban d'essai. . . 181
1.2.3 Mahine detest . . . 181
1.2.4 Résultatsobtenus . . . 182
2 Flexibilité destypesde données . . . 183
2.1 Rappel surleshéma desdonnéesd'ontodb2,sor etorale . . . 184
2.1.1 Shéma desdonnéesd'ontodb2 :approhehorizontale . . . 184
2.1.2 Shéma desdonnéesde sor . . . 185
2.1.3 Shéma desdonnéesd'orale . . . 185
2.2 Évaluation de l'approhe d'indexation . . . 186
2.2.1 Desriptiondu ban d'essaiog . . . 186
2.2.2 Métriquesutilisées. . . 186
2.2.3 Expressiondesrequêtes . . . 187
2.2.4 Résultatsobtenus . . . 189
3 Aès eae auxdonnées anoniques enrihies après migration d'instanes . 193 3.1 Desription duban d'essai . . . 194
3.2 Temps de hargement desontologies . . . 194
3.3 Résultatdesinterrogations . . . 195
3.3.1 Faisabilité del'approhe proposée . . . 195
3.3.2 Temps deréponse desrequêtes . . . 196
Conlusion et perspetives 201
Bibliographie 205
Le méta-shéma express 211
Liste des tableaux 217
Table des gures 219
Glossaire 223
Le besoin d'expliiterla sémantique desdonnéesdansdiérentsdomainessientiques (bio-
logie, médeine, géographie, ingénierie, et.) s'est traduit par la dénition de données faisant
référeneàdesontologies,enoreappeléesdonnéesàbaseontologique.Avelamultipliation des
ontologies de domaine, etlevolume important de données àmanipuler, estapparu lebesoin de
systèmes suseptibles degérerdes donnéesàbaseontologique de grandetaille.Detelssystèmes
sont appelés dessystèmesde gestionde Basesde Données àBase Ontologique (bdbo).
Lesprinipaleslimitationsdessystèmes degestionde BDBOexistantssont (1)leurrigidité,
due à la prise en ompte des onstrutions d'un unique formalisme d'expression d'ontologies,
(2)l'absene de supportpour les donnéesnonstandard (spatiales, temporelles,et.)et,(3) leur
manque d'eaité pour gérer les données de grande taille. Nous proposons dans ette thèse
un nouveau systèmede gestion de bdbo permettant (1) de supporter des ontologies basées sur
diérents formalismesd'ontologies,(2) l'extension de sonformalisme d'ontologie pour répondre
aux besoins spéiques des appliations, et (3) une gestion originale des données failitant le
passage à grandeéhelle.
Le système que nous proposons dans ette thèse, ontodb2, se fonde sur l'existene d'un
ensemble de onstrutions ommunes aux diérents formalismes d'expression d'ontologies, sus-
eptible de onstituer une ontologie noyau, et sur les tehniques de gestion des modèles pour
permettre l'extension exible de e noyau. Nous proposons également une approhe originale
de gestion desdonnées à base ontologique. Cette approhe part du fait que les données à base
ontologique peuventselassier endonnées anoniques(instanesde lasses primitives)etnon-
anoniques(instanesdelassesdénies).Lesinstanesdelassesdéniespeuvent,sousertaines
hypothèses, s'exprimer en termes d'instanes de lasses primitives. Nousproposons don de ne
représenter quelesdonnéesanoniques,en transformant sousertaines onditions,toutedonnée
non-anonique endonnéeanonique.Enn,nousproposonsd'exploiterl'interpréteurderequêtes
ontologiques pour permettre (1) l'aès aux données non-anoniques ainsi transformées et, (2)
d'indexer et pré-aluler les raisonnements en se basant sur les méanismes du sgbd support.
L'ensembledeespropositionsestvalidé(1)àtraversuneimplémentationsurlesgbdpostgresql
baséesurles formalismesd'ontologies plib,rdfsetowl lite,(2)destestsde performanes sur
desensembles de donnéesissus delagéographie etduWeb.
Mots-lés: Basededonnées,ontologie,formalismed'ontologies,basesdedonnéesàbaseontolo-
gique,méta-modélisation,ingénieriedirigéeparlesmodèles,ingénieriedesdonnées,interrogation
de données, raisonnement, plib,owl
.
Contexte
Lesontologies sontdesstruturesquipermettent dereprésenterexpliitement lasémantique
d'un domaine par desmodèles objetsonsensuels dont haque onept (lasse oupropriété) est
assoiéà unidentiateuruniverselpermettant de référener lasémantique quilui orrespond.
Lesontologiessontaujourd'huiutiliséesdansunnombreroissantd'appliations,parexemple
pour failiter la reherhe d'information dans le domaine du Web en annotant les douments
par desinstanes ontologiques, ou, dans ledomaine tehnique, pour représenter desatalogues
de omposants industriels. Par instane ontologique, nous entendons un objet dont le sens est
déni par sonappartenane àune lasse ontologique etpar les valeursd'unertains nombrede
propriétés déniesdanslamêmeontologie. Nousappellerons donnéesàbaseontologiques (dbo)
un ensembled'instanesontologiques.
Ave l'utilisation roissante des ontologies, un ertain nombre de formalismes d'ontologie
ont été proposés : rdf [39 ℄, rdfs [10℄, owl [5℄, plib [57℄, flight [18 ℄, et. Chaun de es
formalismesible undomaine d'appliation partiulieretintroduit, poure faire,desprimitives
de modélisation partiulières. Par exemple, le formalisme plib est largement utilisé dans le
domaine del'ingénierie[41℄,les formalismesrdfsetowlsont utilisésdansledomainedu Web.
Initialement,lesdonnéesàbaseontologiquesétaientgéréespardesoutilsenmémoireentrale.
Avelamultipliationdesontologiesdedomaine,etlevolumeimportantdedonnéesàmanipuler,
estapparulebesoindesystèmessuseptiblesdegérerdesensemblesdedonnéesàbaseontologique
de grande taille. De tels systèmes sont appelés des systèmes de gestion de bases de données
à base ontologique (bdbo). Diérentes bdbo ont ainsi été proposées telles que OntoDB [20℄,
Ontobroker[23℄,rdfsuite[4 ℄,sesame[11 ℄,OntoMS[53 ℄etsor[44℄.Laprinipalearatéristique
de esbdboestqu'ellessont haune onstruitespour supporterunseul formalismed'ontologie
(owl, plib ouflight).
Problèmes
Les organisations évoluent dans un environnement hétérogène et reouvrent diérents do-
maines. De plus, les organisations dénissent, pour failiter l'éhange d'information, des onto-
logies modulaires dénies à partird'ontologies préexistantes. Lesorganisations étant amenéesà
évoluer,lesontologiesqu'ellesmanipulentsontégalementamenéesàévoluerandes'adapteraux
nouveaux besoins. Par exemple,les ontologies doivent hangerpour répondre auxhangements
de laoneptualisation ouau hangement de métierde l'entreprise.Les ontologies etles forma-
lismesdedesription d'ontologies ont don besoin depouvoirévolueren intégrant les primitives
de modélisationspéiques selon lesbesoins.
Aujourd'hui,lesontologiessontutiliséesdansbiendesdomainestelsquelabiologie, laméde-
ineouenorelagéographie, oùdeplusenplusdedonnéessontégalement déniespar référene
àuneontologie.Cetteforteroissantedesdbonéessitede disposerdebdboapablesdepasser
àl'éhelle 'estàdire detraiterde grandvolumesdedonnées ommesavent lefaireles basesde
données traditionnelles.
Un problème important, pour passer ainsi à l'éhelle, est que les formalismes d'ontologie
modélisent l'information de façon très diérentede la modélisation eetuée dansune base de
donnéestraditionnelle.Eneet,danslesbasesdedonnéeshaqueinformationdoitêtrereprésen-
téedemanièreunique.Cettereprésentation estditeanonique.Pourrépondreàune requêtesur
une information,lesbases dedonnéesont donàreherherenun endroit unique.Auontraire,
laplupart desformalismes d'ontologiepermettent pour lemême objet d'unepartune représen-
tation anonique, mais d'autre part un nombre quelonque d'autres représentations, dites non
anoniques.Par exemple,ilestpossiblededénirunepersonnedesexeféminindemanièreano-
niqueommeappartenantàlalassePersonne etayantlavaleurféminin pourlapropriétégenre.
Maisonpeutégalement ladénir sousunedeuxièmeforme,nonanonique,ommeappartenant
à lalasseFemme.
L'avantage de ette approhe de modélisation oerte par les formalismes d'ontologie est de
pouvoir orir plusieurs alternatives de désignation du même objet et, d'assurer l'équivalene
entre es diérentes désignations. Cette approhe est utile par exemple dans le domaine de la
reherhe doumentaire, où de nombreux termes synonymes sont utilisés dans les douments
pour référener le même onept. L'inonvénient de ette approhe, si elle est traitée en l'état
dans les bases de données, est que pour répondre à une requête sur une information, les bases
de donnéesauront àreherherà plusieurs endroits.Pour évitere problème auquel leslogiiels
de gestion de bases de données ne sont pas préparés, deux méthodes sont utilisées pour gérer
les informations modélisées de façon non anonique. La première méthode, dite par saturation,
onsiste à aluler toutes les desriptions possiblesdes diérents objets età les stokerdans la
basede données. Le systèmepeutalors reherher à n'importe quel endroit où une information
peutêtrerangéeetillatrouveratouteentière.L'inonvénientdeetteméthodeestqu'ellegénère
un grand volume de données et un temps de re-alul des relations souvent important lors des
mises à jour. La seonde méthode, par raisonnement, onsiste à réaliser des inférenes lors de
l'interrogation des données. L'inonvénient de ette méthode outre le fait qu'elle n'existe pas
dans les sgbd lassiques, est qu'elle est relativement lente et ne passe pas à l'éhelle pour les
grands volumesde données.
Intérêt initial du laboratoire : le domaine tehnique et plib
Lestravauxprésentésdansemémoireontétéréalisésdansleadredesreherhesdel'équipe
Ingénierie de Données (idd) dulaboratoirelisi.Les thèmesprinipaux de ette équipe portent
sur la modélisation à base ontologique, sur l'intégration, la gestion persistante et l'éhange de
données ave omme domaine d'appliation privilégié le seteur de l'ingénierie et des données
tehniques. Ces reherhes s'appuient sur des problématiques onrètes à traiter dans le adre
tehnique etpublié sous formed'une sériede normesiso,lemodèle plib(iso 13584).
Audébut desannées2000, un travailétait lané,au lisi,pour réaliserun systèmede bdbo
supportant omplètement le formalisme d'ontologie plib. Une arhiteture de bdbo appelée
ontodb, permettant de gérer de grandes tailles de données à base ontologique plib, a été na-
lisée en 2004. Compte tenu de la omplexité du modèle objet plib, omposé de 217 entités et
de 118types, satradution enbasede donnéesaégalement aboutiàun systèmeomplexeom-
portant 568 tablesde représentation pour leniveau ontologique.La omplexité de plib rendsa
ompréhension relativement diile etle système obtenu est également diilement extensible
sauf pour l'équipe l'ayant développé ou pour une personne ayant une très bonne onnaissane
de plib.Deplus, leformalisme d'ontologieplib étantorientéversl'éhange, ilnedénit pasde
onept non anonique. lesystèmeontodb negère de efait quedesdonnées anoniques.
ontodb est aujourd'hui largement utilisé en dehors du domaine de l'ingénierie. Il est utilisé
surdesproblématiquesonrètesàrésoudredansleasdediérentsprojetsdereherhesmenés
aulisi,notamment danslesprojetse-w okhubetdafoe.Or, haunedeesappliationsamis
en évidene le besoin de pouvoir ompléter ontodb en intégrant des méanismes adaptés aux
besoinsspéiquespropres à haque appliation.Dans ledomaine de l'indexation de doument,
lebesoin estapparude pouvoir utiliserdestypesde donnéesspéiques,et de pouvoirolleter
destermes diérentsdérivant lemême onept.Dans ledomaine médial,lebesoinest apparu
de permettre à desmédeins dediérentesspéialitésde partager desinformations surlemême
patient. Or, les langages ourants employés par les spéialistes et les généralistes sont parfois
très diérents. Néanmoins, esderniers devant aéder à toutes lesinformations disponiblessur
un patient, ilest néessairedesupporter à lafoisplusieurs langagesde desription, etdon une
desription anonique,mais aussidesreprésentationsnon anoniques dansontodb.
Objetifs
Ce sont les diultésmentionnées i-dessus qui ont amené à dénir les objetifs duprésent
travail.Ils'agitd'élaborerdespropositionspourlestroisproblématiquesdereherhesuivantes:
1. Support d'un formalisme d'ontologie exibilité et eae. Il s'agit de dénir un
systèmedebdbodotéd'unformalismed'ontologieapable des'adapterauxévolutions du
formalisme d'ontologie. Pour ela, le formalisme d'ontologie supporté doit non seulement
ouvrir leformalisme d'ontologie plib, maisil doitaussi êtreapable de supporter toutes
ou ertaines des primitivesde modélisation d'autres formalismesd'ontologie (rdfs, owl,
flight, et. ). Cette exibilité devra en partiulier, permettre d'intégrer les méanismes
identiés ommeimportantspourlesappliationsdesprojetsmenésaulisi.Ons'intéresse
égalementàl'eaitédeeformalismed'ontologie.Cedernierdoitenpartiuliersupporter
de faon eae l'aès aux ontologies plib et il doit avoir un aès simple pour les non
spéialistesdeplib,eteidefaçonsimpliée;'estàdire(1)modiableparunutilisateur
non spéialistede plib et(2)eae en temps detraitement.
2. Introdution de types de données spéiques. Les types de données de la bdbo
doivent pouvoir être étendus an de permettre la représentation de domaines de valeurs
qui n'étaient pasprévusinitialement par lesystème.
3. Gestion simultanée des données anoniques et non anoniques sans saturation
niraisonnement.Uneapprohedoitêtreproposéepourquelabdbopuisselireetgérerà
lafoisdesdonnéesanoniques etnonanoniques sansutiliser unedesméthodeslassique.
Notre proposition
Les objetifs mentionnés i-dessus ne pouvant être développés dans ontodb, nous nous
sommes intéressé, dans ette thèse, à la dénition d'une arhiteture de bdbo nouvelle que
nousappelons ontodb2.Nousproposons dansontodb2 :
1. d'utiliser les tehnique d'idm pour dénir une représentation fortement simpliée du for-
malismed'ontologiesupporté,depouvoird'expression aumoinségalàplib,maisaisément
modiable etbeauoupplusrapide;
2. d'utiliser les tehniques d'ingénierie dirigée par les modèles (idm) assoiées à une arhi-
teture de bdbo de type mof 1
pour supporter et représenter aisément les modiations
du système de type de données et en partiulier, orir le support des types de données
géographiques;
3. d'élaborerunenouvelleapprohedegestiondesinstanesonsistantàonvertirlesdonnées
non anoniques en données anoniques (migration d'instanes) puis, à représenter et à
interroger (1) les lasses anoniques omplétées en utilisant les méanismes usuels des
bases de données et(2) les lasses non anoniques par des vues onstruitessur les lasses
anoniques.
Organisation du mémoire
Ce manusrit s'organise en trois parties omportant haune deux hapitres. La partie 1
présentel'étatdel'artetlaproblématiquetellequ'elleesttraitéedansuneétudebibliographique.
La partie 2 dérit les solutions que nous avons proposées et développées an de résoudre les
problèmes identiés. Enn, laPartie 3présente lavalidation dusystème debdbo ontodb2 que
nousavonsonçu.
Partie 1 : État de l'art
Cettepartie présente unétat del'artsur lesontologies etlessystèmes de gestionde bdbo.
Lehapitre 1présente une analysedu oneptd'ontologie. Après une dénition,nousypré-
sentons deuxfamillesde formalismesd'expressionsd'ontologies :(1)les formalismesd'ontologie
orientésgestion enéhange dedonnées plib etrdfset(2)les formalismesorientées inférenes,
où nous disutons en partiulier du formalisme owl. La prinipale ontribution de e hapitre
est de proposer une omparaison de es diérents formalismes en termes des similitudes et des
diérenesqu'ils omportent suivant les troisouhes dumodèle en oignonde lassiation des
ontologies.
1
MetaObjetFlexibility
unelassiationdesarhiteturesdebdbosuivantlastruturationqu'ilsutilisentpourlarepré-
sentation desontologies. Nousprésentons ensuiteles approhesadoptées danses arhitetures
pourlareprésentation desdboetpourlagestiondelamontéeenhargeetl'interrogation dees
dbo. Nousdisutons ensuite danse hapitre des besoins atuelsdes appliationset, montrons
au travers de l'étude d'un ertain nombre de systèmes représentatifs de l'ore atuel que es
besoinsrestent enoreàêtresatisfaits.L'objetifvisédanse hapitre estdemettreen évidene
dansles systèmes existants, les besoinsqui n'étaient pasbien ouverts.
A partir deslimitations exposées préédemment, la partie 2 présente les exigenes que doit
satisfaire labdboontodb2 que nousproposons.
Partie 2 le système de bdbo ontodb2
La deuxième partie débutepar ladesription du systèmeontodb2 au hapitre 3. Nousdis-
utons tout d'abord dans e hapitre, du hoix du type d'arhiteture adopté pour ontodb2
et desonstrutions hoisies pour onstituer leformalisme noyau du systèmeontodb2. Nous y
présentonségalement leshypothèsesfondamentalesquiontjustiélehoix deesonstrutions.
Nousdérivonsensuitelesextensionsdeeformalismed'ontologieenprésentantdanshaqueas
desexemplesdeonstrutionsd'utilitégénéralequipourrontêtreintégréesauformalismenoyau.
Passant à lagestion desdbo,nous proposonsensuite unesolution de gestionetd'interrogation
eae des dbo par représentation de dbo non anoniques en dbo anoniques par migration
d'instanes dans ontodb2. Nous illustrons à travers des exemples, omment est réalisée ette
transformation, puis omment sont interrogées les dbo par exploitation à lafois du langage de
requête ontologique et desméanismesusuelsdes basesde données.
Le hapitre 4 est onsaré à l'implémentation du prototype de bdbo que nous avons déve-
loppé sur le sgbd relationnel objet postgresql. Nous y présentons l'implémentation des dié-
rentesomposantesdelabdboontodb2.Nousommençonsparlaprésentationdel'ensemblede
l'environnement dans lequel notre travail de thèse a étédéveloppé. Tout d'abord, nous dénis-
sons lanotiond'ingénierie dirigéepar les modèles (idm)que nousavonslargement utiliséet qui
onsisteàgénérer lesodes(programmes)àpartir desmodèles.Nousprésentonsalors lelangage
express et l'ensemble de la tehnologie qui lui assoiée. Nous présentons en partiulier l'envi-
ronnement d'idm eo(express CompilerCompiler) quenousavonsutilisé pourimplémenter
de manièregénérique nosdiérentsmodules.
Nous présentons la struture Flatlib et la struture en Peigne du formalisme d'ontologie
dénies pour failiter respetivement la représentation desontologies dans les bases de données
et leurmanipulations par les appliations. Des règles de transformations sont dénies entre es
deux strutures en exploitant la bibliothèque de mapping Hibernate. Ces orrespondanes sont
utilisées pour lagénérationrespetivement delastruture destables etdesapi Java d'aèsde
lapartie ontologie etde lapartie méta-shéma denotre arhiteture.
Partie 3 : Validation du système de bdbo ontodb2
Le hapitre 5 présente notre approhe d'extension du système de types de données et du
formalismed'ontologiedelabdboontodb2.Nousyprésentonsommentlestypesgéométriques
sont intégrés dansontodb2 etomment leformalisme d'ontologie est étendupour permettre le
supportdesrelations d'ordre etdes propriétés propagées par unerelation d'ordre.
Dans le hapitre 6, nous présentons les expérimentations réalisées sur un ensemble de don-
nées de tests. Nous présentons également une évaluation des résultats et mettons en évidene
la faisabilité et l'eaité des solutions proposées pour les onstrutions supportées et implé-
mentées.Le premieressaipermetdereleverles apports delastruturede représentation hoisie
pour leniveau ontologique. Nousprésentons ensuitelesperformanesde l'approhede substitu-
tiondeertainsraisonnementsdédutifspardesrequêtesnumériquesetalphanumériques. Enn,
nousprésentonsles premiersrésultatsobtenus dansl'intégrationd'instanesnon anoniquespar
migration d'instanes.
Pour onlure les travaux présentés i-dessus, dans le hapitre Conlusion, nous faisons un
résumé dela problématique, de nospropositions etdes prinipalesapprohes suivies. Nousdis-
utons également deslimites etdespoints restantà approfondir danslefutur.
Cemanusrit omporte également en annexe,lemodèleexpressdu méta-shémaexpress
que nous avons utilisé. La liste suivante représente les publiations onernant le travail dans
ette thèse.
ChimèneFankam, Yamine Ait-AmeurandGuy Pierra,Exploitation ofOntology Lan-
guagesforbothPersisteneandreasoningPurposes:MappingPLIB,OWLand
Flight ontology models. Third International Conferene on Web Information Systems
andTehnologies(WEBIST),Editedby:JoaquimFilipe,JoséCordeiro,BrunoEnarnação
andVitor Pedrosa.,INSTICC Press,Marh,2007, pp.254-262.
ChimeneFankam,PriseenomptedesontologiesnonanoniquesdanslesBDBO:
le modèle ONTODB2, Ph D. présentation, XXVème Congrès INFORSID (INFOR-
SID'07),Perros-GuireFrane, Mai, 2007,pp 561-562.
ChimèneFankam,Stéphane Jean,GuyPierra andLadjelBellatrehe,Enrihissementde
l'arhiteture ANSI/SPARC pour expliiter la sémantique des données : une
approhe fondée sur les ontologies,Ates de la2ème Conférene franophone surles
Arhitetures Logiielles (CAL'08), edited byRevue RNTI,mars, 2008,pp.47-61.
ChimeneFankam,Ladjel Bellatrehe andGuyPierra,OntoDB2:Support of Multiple
Ontology Models within Ontology Based Database, 11th International Conferene
on Extending Database Tehnology (EDBT'08) Ph.D. Workshop, Mars, 2008,. Nantes
Frane, pp21-27.
Nabil Belaid , Idir Aït Sadoune, Chimene Fankam, Stephane Jean, Yamine Aït Ameur,
Guy Pierra, and Jean-Franois Rainaud, Une arhiteture orientée servies pour la
gestion sémantiques des données géologiques pour le stokage de CO2, 26eme
CongrèsINFORSIDSystèmesd'InformationetdeDéisionpourl'Environnement,Fontai-
ChimèneFankam, StéphaneJeanandGuyPierra,NumerireasoningintheSemanti
Web, ESWC - SEMMA : First International Workshop on Semanti Metadata Manage-
mentandAppliations,SeMMA2008,LoatedattheFifthEuropeanSemantiWebConfe-
rene, vol. 346 CEUR WorkshopProeedings, edited byKhalidBelhajjameandMathieu
d'Aquin and Peter Haase and Paolo Missier, Tenerife, Spain, edited by CEUR-WS.org,
June, 2008,pp.84 - 103.
Yamine AïtAmeur, Nabil Belaid, Mohammed Bennis, Olivier Corby, Rose Dieng-Kuntz,
JérémieDouy,PrisilleDurville,ChimèneFankam,FabienL.Gandon,AlainGiboin,Pa-
trik Giroux, Sandrine Grataloup, Bruno Grilheres, Florian Husson, Stéphane Jean, Joel
Langlois, Phu-Hiep Luong, Laura Silveira Mastella, Olivier Morel, Mihel Perrin, Guy
Pierra, Jean-François Rainaud, Idir Aït-Sadoune, Eri Sardet, Franois Tertre and João
Franiso Valiati, Semanti Hubs for Geologial Projets, Workshop on Semanti
Metadata Management and Appliations (SeMMA2008),June, 2008, pp.3-17.
Chimène Fankam, Stéphane Jean, Ladjel Bellatrehe and Yamine Aït Ameur, Exten-
ding the ANSI/SPARC Arhiteture Database with Expliit Data Semantis :
An Ontology-Based Approah, Seond European Conferene on Software Arhite-
ture(ECSA), editedbyLNCS Springer,September, 2008, pp.318-321.
Chimène Fankam, Stéphane Jean and Guy Pierra, Raisonnement Numérique sur les
Relations d'Ordre pour le Web Sémantique,Atesde ladeuxièmeéditiondesJour-
nées Franophones sur les Ontologies (JFO 2008), edited by ACM, Déembre, 2008, pp.
4-15.
Chimène Fankam, Ladjel Bellatrehe, Hondjak Dehainsala, Yamine Ait Ameur and Guy
Pierra, SISRO : oneption de bases de données à partir d'ontologies de do-
maine, Tehnique etsieneinformatiques (TSI),vol. 28,2009.
Chimène Fankam, Stéphane Jean,Guy Pierra, Ladjel Bellatrehe andYamine Ait Ameur,
Towards Conneting Database Appliations to Ontologies, First International
ConfereneonAdvanesinDatabases,Knowledge,andDataAppliations,editedbyIEEE
Computer Soiety,Conferene Publishing Servie,Marh 2009,pp.131-137.
Selma Khouri, Ladjel Bellatrehe and Chimène Fankam, SISROM2C : Un outil de
modélisation oneptuelle à base ontologique d'un entrept de données, 5èmes
JournéesfranophonessurlesEntreptsdeDonnéesetl'Analyseenligne(EDA'09),edited
byRNTI,Juin, 2009, Toulouse, Frane, pp123-138.
État de l'art
Ontologie et formalismes d'ontologies
Sommaire
1 La notiond'ontologie . . . 12
1.1 Dénition . . . 12
1.2 OntologiesenInformatique . . . 13
1.3 Coneptsprimitifs etoneptsdénis . . . 13
2 Exemples de formalismesd'ontologies. . . 16
2.1 Formalismesd'ontologiesorientésgestionet éhangededonnées . . 16
2.1.1 rdf/rdf-shéma . . . 16
2.1.2 plib . . . 21
2.2 Formalismesd'ontologiesorientésinférene . . . 25
2.2.1 daml-ont,oil,daml+oil . . . 25
2.2.2 owl . . . 25
3 Similitudeset diérenesdes formalismesd'ontologie . . . 32
3.1 Similitudes . . . 32
3.2 Diérenes . . . 32
3.3 Lemodèleenoignon . . . 32
3.3.1 OntologiesConeptuellesanoniques . . . 34
3.3.2 OntologiesConeptuellesNonanoniques . . . 35
3.3.3 OntologiesLinguistiques . . . 35
Introdution
Parallèlement à l'explosion de la quantité d'information numérique dans de nombreux do-
maines au ours desdernières années, de nombreux travaux ont étémenés pour développerdes
méthodespermettantdereprésenterexpliitementlasigniationdeesdonnéessousdesformes
éhangeables etexploitablespar desordinateurs.
Les ontologies, dénies par Gruber [26 ℄ omme une spéiation expliite d'une oneptua-
lisation, se sont imposées omme un moyen pour expliiter la sémantique des données. Elles
permettent auxprogrammes d'éhanger ette sémantique et, le aséhéant, de réaliser desrai-
sonnements et des traitements intelligents sur les données dans des domaines aussi variés que
l'intégration des soures de données hétérogènes, ou la reherhe d'information sur le Web. Un
problème important est qu'un domaine donné peut être ouvert par plusieurs ontologies qui
peuvent être dérites en utilisant des langages diérents et basées sur diérentes logiques. De
e fait, l'intégration des données requiert souvent non seulement l'intégration des shémas ou
modèles, mais aussi l'intégration des langages d'ontologies sous-jaents et en onséquene des
logiquesd'ontologies sous-jaentes.
Ce problème s'étant souvent posé dans les appliations que traite le laboratoire, pouvoir
failiter laoopération voire l'intégration des diérents formalismes d'ontologie au sein du sys-
tème ontodb2 fait partie des objetifs de notre travail. Cei suppose d'analyser les diérents
formalismes d'ontologie, tout au moins eux qui nous intéresse diretement, an de voir leurs
points ommuns et leurs diérenes. Cei nous permettra alors d'envisager des approhes leur
permettant de oopérer.
Leplande ehapitreestlesuivant.Danslasetion1,nousdénissonslanotiond'ontologie
et les problèmes liés à leur représentation dans les bases de données. Dans la setion 2, nous
présentons deux atégories de formalismes d'expression des ontologies et les problèmes qu'ils
visent à résoudreautraversdesonstruteurs qu'ilsorent. Ces deuxatégories deformalismes
sontplib,d'unepart,adaptéaudomainetehnique,etowld'autrepartdéveloppépourfailiter
l'aèsauxdonnéesduWeb.Cesformalismessontlesplusutilisés.Nousprésentonsensuite,dans
la setion 3 une omparaison de es formalismes. Cette omparaison nous permet de montrer
la omplémentarité des diérents formalismes et nous amène à proposer une lassiation des
ontologiesquenousutilisonsdanslasuitedeetravail,pourfaireoopérerdiérentsformalismes
d'ontologie.
1 La notion d'ontologie
La notion d'ontologie est apparue en informatique dans les années 90. Une ontologie est
essentiellement une représentation expliite de la oneptualisation d'un domaine, telle qu'elle
estperçueparuneommunautédonnée[26℄.Lesontologiessontaujourd'huiutiliséesdansdivers
domaines eton retrouve dans la littérature 2
de nombreuses dénitions du terme ontologie en
fontion du seteurd'ativité visé [27℄ (indexation de doument, traitement automatique de la
langue naturelle (taln), intégration de données). En e qui nous onerne, nous adoptons la
dénitionsuivante :
1.1 Dénition
Uneontologieest une représentation formelle, expliite, référençable et onsensuellede l'en-
semble des onepts partagés d'un domaine en terme de lasses d'appartenane et de propriétés
aratéristiques [37 ℄.
Cettedénitionmetenavant troisaratéristiquesquidistinguent uneontologie dedomaine
desautresmodèlesinformatiquestelsquelesmodèlesoneptuelsetlesmodèlesdeonnaissane.
Une ontologieestune représentation :
2
http://websemantique.org/Ontologie
formelle,expriméedansunlangagedesyntaxeetdesémantiqueformalisé(rdfshéma[10℄,
daml+oil[15 ℄, owl[5 ℄, plib[35 ℄,et.) permettant ainsides raisonnements automatiques
ayantpourobjetsoitd'eetuerdesvériationsdeonsistane,soitd'inférerdenouveaux
faits;
onsensuelle,'est-à-direadmiseparl'ensembledesmembres (etdessystèmes)d'uneom-
munautéet,
référençable, 'est-à-dire que toute entité ou relation dérite dans l'ontologie peut être
diretementréférenéeparunsymbole(identiant),àpartirden'importequelontexte,
an d'expliiterlasémantiquede l'élément référençant.
1.2 Ontologies en Informatique
D'unpointdevuepratique,uneontologieinformatique estformaliséeenutilisant inqsortes
de omposants:
1. Les lasses (atégories d'objets modélisés qui ont une existene propre dans le domaine
modélisé) :une lasseestuneolletiond'objets dénieenintention. Exemple:Territoire,
Doument,Personne,et.
2. Lespropriétés(attributsdesobjetsmodélisésquipermettentdearatériseruneinstane
d'unelasse) :une propriétéestune relationbinaireentredeuxlasses ouentreune lasse
etun domaine devaleurs.
3. Lesdomainesdevaleurs(outypesdedonnées):undomainedevaleursestunensemble
mathématiquedénienextensionouenintention.Exemple:réels,aratères,booléen,mais
aussiles typesstruturés:liste, tableau,
. . .
4. Lesindividus(ou instanes):unindividu dudomaine modéliséestreprésentédefaçon
ontologique omme une instane appartenant à une lasse dénie dans l'ontologie. Par
exemple, L'individu Anne Dupont peut être déni ontologiquement omme une instane
de lalassedespersonnes, ave lavaleur 1990 pour lapropriété année de naissane et,la
valeurféminin pourlapropriétégenre,silalassedespersonnesetlespropriétés annéede
naissane etgenresont dénies dansl'ontologie.
5. Lesaxiomesquisontdesprédiatss'appliquantsurlesrelations,leslassesoulesinstanes
et permettent d'assurer l'intégrité desdonnées ou de faire des inférenes.Exemple :l'âge
d'unepersonnedoitêtreunevaleurpositive,uneinstanenepeutêtrearatérisée quepar
les propriétés appliablesà salasse
1.3 Conepts primitifs et onepts dénis
La oneption d'une ontologie se fait en exploitant un formalisme d'expression d'ontolo-
gies. Ces formalismes utilisent des représentations orientées objet. Ilspermettent de dénir des
onstruteurs en vuede réerdes ontologies au travers desonepts énumérési-dessus. Depuis
leur émergeneen informatique,plusieurs ourants ontétésuivispour dénirles ontologies. On
peutdistinguer deuxprinipaux ourant :
1. Lesformalismesd'ontologieorientésgestionetéhange dedonnéesquivisentàreprésenter
lasémantiquededonnéesd'undomained'appliationdemanièrepréiseetuniquedefaçon
à permettre lepartage etl'éhange d'information.
2. Les formalismes d'ontologies orientés inférene qui visent à permettre ertains raisonne-
ments sur un domaine d'appliation pour résoudre ertains problèmes, en exploitant des
onnaissanesrelatives audomaine étudié.
Lesformalismesd'ontologie orientés gestionetéhange dedonnées dénissent desonstru-
teurs qui vont permettre de dérire les onepts des ontologies de manière à failiter l'éhange
d'information.Deefait,esontologiespermettentdereprésenterhaqueinformationdemanière
unique ou anonique. Nous aratérisons les ontologies dénies par es formalismes d'ontologie
anoniques.
Au ontraire, les formalismes d'ontologie orientés inférene vont dénir plusieurs onstru-
teursquivont permettentde dénirlemêmeonept(lasses, propriétésetinstanes)de l'onto-
logie.Nousappelonsesonstruteurslesonstruteurs d'équivalene oneptuelle arilsorent
le moyen de représenter de diérentes manières le même onept ou la même information. Par
exemple,l'individuAnneDupontpeutêtredéritommeuneinstanedelalassePersonne ave
lesaratéristiquesnometgenre, ouenoreommeuneinstanedelalasseFemme sietteder-
nièreestégalementdénieauniveaudel'ontologieommeéquivalenteàl'ensembledespersonnes
pourlesquelles lavaleur de lapropriétégenre est féminin.ainsi,AnneDupont peutêtredérite
dedeuxmanières équivalentesqui permettentde faireautomatiquement desinférenes entrees
représentations. Lesontologies possédant de tels onstrutions sontdites nonanoniques.
Unproblèmefondamentalquirésultede esdiérentesfaçonsdemodéliserl'information par
les formalismes d'ontologie est leur représentation au sein des bases de données. En eet, les
bases de données sontutilisées par un très grand nombre d'appliations arelles fournissent un
environnement de persistane robuste, séurisé et eae des données. Il apparaît ependant
qu'à ladiérene desbases de données qui représente l'information de manière unique, etdon
anonique, les données dénies à partir d'ontologies non anoniques peuvent être redondantes
et dérites de plusieurs manières. Si l'on onsidère par exemple une ontologie qui omporte les
lassesPersonneetFemme;lalasseFemmeétantdénieommeégaleàlarestritiondelalasse
Personneauxindividusdontlavaleurpourlapropriétégenreestégaleàféminin(Personne[genre
='féminin'℄),lareprésentationdansunebasededonnéesd'unensembled'instanesdepersonnes
omportant lesfemmes etleshommes néessite:
soit que toutes les instanes de Femme soient toujours représentées omme des instanes
delalassePersonneetdanseas,ellesseraientimmédiatement représentableen basede
données,
soit quelabase dedonnéessoit apable,lorsque l'ondemande delister toutesles femmes,
de faire l'union de elles représentées omme Personne[genre = 'féminin'℄ et de elles
représentées ommeFemme,
soit quedes méanismes soient fournis pour transformerles instanes de la lasse Femme
en instanesde lalassePersonne.
La première solution bien qu'immédiate est assez restritive ar elle restreint le langage auto-
risé pour dénir les instanes. Cei est tout à fait aeptable si l'objetif de l'ontologie est de
pouvoir éhanger de l'information. C'est par ontre, moins aeptable par exemple si l'on veut
identier des instanes dans des douments érits. Dans e as, en eet, un grand nombre de
formuleséquivalentessontengénéralutiliséespour lesmêmesonepts.Ladeuxièmeformeviole
leprinipedeanoniitédesbasesdedonnées.Elleexigerasoitdesméanismesderaisonnement
extérieurs (raisonneurs ), soit de dupliquer l'information, e qui est ontraditoire ave la
théorie des bases de données et posera les problèmes lassiques de mise à jour etde ohérene
danslabasede donnéesrésultante.C'est lasolutionsouventutiliséepourgérerles instanesdes
lasses des ontologies que e soit en mémoire entrale [50℄ ou en mémoire seondaire [36℄. La
troisième solution ne restreint paslelangage utilisable pour dérire l'information à représenter,
maiselle requiert lamiseen÷uvrede méanismesspéiques pour permettrelatransformation
des données dérites à partir d'ontologie avant de les harger dans la base de données. C'est
l'approhe quenousproposeronsdansettethèse pour lier lapuissaned'expression dulangage
de représentation de l'information etlaohérene de labasede données résultante
Mettre en ÷uvre de tels méanismes néessite d'identier les onstruteurs oerts par les
diérents formalismesd'ontologies, etdedistinguer les onstruteursd'équivalene oneptuelle
des autres onstruteurs. Cette distintion permet de dénir deux atégories de onepts dans
les ontologies :
1. les onepts primitifs ouanoniques quisont desonepts"pourlesquelsnousnesommes
pas apables de donner une dénition axiomatique omplète " [26℄. La dénition de es
oneptss'appuiesurunedoumentationtextuelleetunsavoirpartagéavelesutilisateurs
maisnepeutseréduireaved'autresonepts.L'ensembledesoneptsprimitifssutpour
dénirlesfrontièresdudomaineoneptualiséparuneontologie.Lesoneptsprimitifssont
la fondation surlaquelle d'autres onepts de l'ontologie pourront ensuiteêtre dénis par
équivalene, si besoin est. La dénition de onepts primitifs étant toujours, au moins
partiellement, informelle, le seul ritère de qualité pour une telle dénition, est qu'elle
représenteunonsensusparmiuneommunauté.Sansuntelonsensus,onnepeutertier
ni la omplétude de l'ensemble des onepts onsensuels dérits, nila onsistane (il n'y
a pas de ontradition entre les dénitions informelles et les relations formelles que l'on
dénit entreonepts)des dénitionsfourniespar une ontologie;
2. les onepts dénis ou non anoniques quisont les onepts pour lesquels une ontologie
fournit une dénition axiomatique omplète au moyen de onditions néessaires et suf-
santes exprimées en termes d'autres onepts primitifs ou eux-mêmes dénis[26℄. Les
dénitions de tels onepts sont onservatives ar elles assoient un nouveau onept à
quelque hosequi est déjà dénipar un autre moyen dansl'ontologie en oursde onep-
tion. Elles n'introduisent don pas de nouvelles instanes mais des alternatives de dési-
gnation pour desonepts quel'on pouvaitdéjà désigner. Ellesn'enrihissent don pasles
onnaissanes sur e domaine, mais levoabulaire qui permetde les représenter. Dans e
type de formalisme d'ontologieou les langagesde modélisation permettent non seulement
dedériredesoneptsprimitifs,maisomportentégalementdiérentsopérateurspermet-
tant de omposer les onepts pour onstruire des onepts dénis, ette aratéristique
est la base des méanismes d'inférene. Par exemple, un système d'inférene permettra
de déider qu'une Femme est une Personne etqu'une Personne de genre = 'féminin' est
une Femme. Il permettra également d'eetuer des lassiations automatiques, 'est-à-
dirededéduireautomatiquementdesrelationsdesubsomptionentreoneptsdesrelations
d'équivalene oneptuelle. Il permettra également de aluler l'appartenane d'instanes
à ertaineslasses, àpartirde ladénitionaxiomatique omplètedes onepts dénis.
Nous présentons dans les setions suivantes quelquesformalismes qui permettent de onstruire
les ontologies.
2 Exemples de formalismes d'ontologies
Les ontologies sont exprimées à partirde formalismes d'ontologies.Ces formalismesorent
desonstruteurspermettantde dénirlesdiérentsonepts (lasses,propriétés,typesde don-
nées,individus,
. . .
) quel'onretrouvedansuneontologie.Lesontologiessontutiliséesdansdié-rentesdisiplines (basesde données, taln,reherhed'information,
. . .
) ete,ave desobjetifsdiérents.Ilexistedondiérentsformalismesdedénitiond'ontologiessuivantlesobjetifsspé-
iques visés par les diérentesspéialités. Nousintroduisons dansette setion, les prinipaux
formalismesd'ontologies. L'objetif estde ressortir(1)e qu'ilsont en ommun et(2)e quiles
distinguent. Nous allons ainsi pouvoir déterminer, dans quelle mesure il est possible, au moins
partiellement, d'intégrer leur apaité.
2.1 Formalismes d'ontologies orientés gestion et éhange de données
Dans ette setion, nous présentons les formalismes d'ontologie rdf-shéma et plib. Ces
formalismesorentrespetivement dansledomaine duWeb etde l'ingénierie,desonstruteurs
permettant de représenter les informations de l'univers du disours de manière à failiter le
partage etl'éhange desontologies etdes instanesassoiées.
2.1.1 rdf/rdf-shéma
Ils'agitii dedeuxformalismesdéveloppéspour expliiter parannotation (unepartie)de la
sémantiqueduWeb.rdfdénitàlafoisunesyntaxe,utilisableensuitepourtouslesformalismes
duWeb(dontrdf-shémaetowl)etunméanismed'annotationpermettantensuited'annoter
les éléments existants du Web, qualiés de ressoures. Il ne s'agit don pas d'un formalisme
d'ontologie.
rdf-shémaétendrdfpourpermettrededénirdeslassesetdespropriétésdevenantdon
un formalisme simple de dénition d'ontologies. rdf-shéma peut utiliser la syntaxe rdf. Il
utilise aussi rdf pour annoter les ressoures du Web qui seront représentées omme instanes
deslasses de l'ontologie rdf-shéma.
2.1.1.1 rdf
rdf(Resoure DesriptionFramework) estlepremierlangageapparupourdénirlasémantique
sur le Web. A l'origine, il était essentiellement destiné à assoier aux douments du Web des
annotations sémantiques (titre, auteur,
. . .
) exploitablespar mahine. Puis, l'utilisation des an- notationsaétéétendueàtouteinformationpouvantêtreréférenéesurleWeb(siteWebomplet,page Web, ou enore un élément partiulier d'une page Web) et, l'information que l'on voulait
représentera étéétendueà lasigniationderessoure Web.La syntaxeduformalisme rdfest
utilisée parles autres formalismesd'ontologies Weben partiulierpour dérireles individusdes
lasses desontologies.
Le développement derdf a étémotivé par laperspetivede :
manipuler desméta-données Web,an de fournir desinformations surles ressouresWeb
etles systèmesqui lesutilisent;
failiter la reherhe et le traitement automatique de l'information du Web par la o-
opération (indexation, lassement, diusion,
. . .
) des agents logiiels qui exploitent esméta-données.
Unmodèle rdfest dénià partirde quatreensembles :
1. Les Ressoures.Uneressoure esttoutélément quel'onpeutréférenerpar unidentiant
appeléuri.
2. Les Littéraux qui sont des valeurs éventuellement typées par un des types de données
primitifdéni par xml shéma.
3. Lesprédiats. Unprédiatestunepropriété, unaspet,unearatéristique,unattributou
une relation spéiquequel'on peututiliser pour dérireune ressoure.
4. Les délarations qui permettent de dériretout élément selon un méanisme partiulière-
ment simple.Unedélaration estuntripletdelaforme:sujet,prédiat,objet;oùsujet est
une ressoure, prédiat est une propriété, et objet est soit une ressoure, soit un littéral.
Par exemple :La Frane est un Territoire estune délaration rdf possible.
Unmodèlerdfestungrapheorientéétiqueté(arl'objetd'unedélarationpeutêtrelesujet
d'uneautre) danslequellesn÷udssont desressoures(oudeslittéraux) etlesars représentent
les prédiats.
Document Territoire
Bilan.doc France
rdf:type rdf:type
estGéolocaliséPar
Fig. 1.1 Exempled'ungraphe rdf.
Exemple : La gure 1.1 illustre un exemple de graphe rdf. Les deux noeuds Territoire
et Doument représentent des ressoures, et le n÷ud est un littéral. Les ars représentent les
prédiats.Chaquearestorientédusujet versl'objetdeladélaration.Cetexemple serautilisé
etenrihitoutau longde e mémoire.
rdf représente toute information par un ensemble de délarations. Il ne permetependant
pas de dénir des voabulaires permettant de formuler des ontraintes sémantiques plus rihes
(par exemple, de dénir l'ensemble des valeurs permises pour une propriété) ou de faire des
raisonnements. De plus, rdf ne permet pas de atégoriser le domaine modélisé en termes de
lasses etde propriétés. Ce n'est don pas un formalisme d'ontologie. Il fournit par ontre une
syntaxe et un langage simple pour annoter les ressoures du Web. Ce langage est notamment
utilisé :
pour représenterles onstrutions de l'ensemble deslangages d'annotation duWeb(xml,
html,
. . .
),parleslangagesd'ontologiesduWeb(daml+oil,rdf-shéma, owl,
. . .
)pourreprésenter les aratéristiques des ressouresen représentant elles-i omme des instanes de lassed'ontologie.
Ande aratériser l'ensemblede ressouresdu Web,leformalisme rdfs-shéma aétépro-
posé.
2.1.1.2 rdfs-shéma
rdfs-shéma, aussiappelérdfs estlepremier formalisme d'ontologie dénisur leWeb. rdfs-
shéma fournit les prédiats essentiels pour représenter (en rdf) une ontologie. Ces prédiats
prédénispourrontalorsêtreutilisésandedénirdesontologiesrdfs(aussiappelévoabulaire
rdf) etaratériser ainsiles ressouresduWeb.rdfs-shémaestundespiliers duWeb séman-
tique. Grâe à rdfs-shéma, il est par exemple possible de dénir que le onept de Territoire
danslevoabulaireintituléespae géographique,représenteunezonegéographique.Unefois
que e voabulaire est formellement déni grâe à rdfs-shéma, n'importe quel outil peut dé-
sormais utiliser le fait que Territoire est un as partiulier de zone géographique. Les données
de tels outils pourront être publiées sur Internet etfaire l'objetd'une indexation par un autre
outil onnaissant e voabulaire:les utilisateursdee dernier outil pourront don parexemple,
listertouslesdoumentsquifontréféreneà(sontgéoloaliséspar)lazonegéographiqueFrane.
RDF-Shémaestunsystèmedetypagepour rdf.L'utilisationonjointederdfetrdf-shéma
dansleWeb Sémantique permetdon àlafois dereprésenter(enrdf-shéma) une ontologie et
(enrdf) desinstanes dénies en termesde etteontologie.
rdf-shéma est le plus simple formalisme d'ontologie. Il est doté du nombre minimum de
onstruteurs néessaires à la dénition d'une ontologie. Ces onstruteurs vont être retrouvés
danstousles autres langagesd'ontologie duWeb(daml+oil, owl).
Construteursde lasses
Pour modéliserles ressouresdu Web,rdfspermetde :
dénirdeslasses(rdfs:lass):unelasseestunensembledénien intensionde plusieurs
objets analogues d'un ertain point de vue et que l'on souhaite regrouper. Exemple : la
lassedesterritoires.
organiser les lasses en une hiérarhie de spéialisation (rdfs :sublassOf). Exemple : la
lasseCommune peutêtre dénieommeune sous-lasse de lalasseTerritoire.
Construteursde propriétés
rdfspermetausside:
dénir des propriétés (rdfs :property). Exemple : ode_iso est une propriété de la lasse
Territoire.
organiserles propriétés enune hiérarhiede spéialisation((rdfs:subProperty)).Exemple :
a_pour_ls estune sous-propriété de a_pour_enfants.
rdfsdénit également :
Laouleslassesauxquellesontpeutaeterunepropriétéet,quionstituent ledomaine 3
de la propriété (rdfs :domain) (par exemple : la lasse Doument peut être l'objet de la
propriété estGeoloalisePar). Lorsque le domaine d'une propriété n'est pas déni, ette
dernière peut être utilisée pour dérire n'importe quelle instane appartenant à l'univers
dudisours oneptualisé par l'ontologie.
le o-domaine, ou le domaine de valeurs d'une propriété, (rdfs :range) (par exemple : la
propriété estGeoloalisePar à pour valeur un élément de la lasse Territoire). Comme la
dénitiondudomaine,ladénitionduo-domained'unepropriétépeut êtredéniparune
ouplusieurs lasses (ave lesensd'intersetion) 4
,lestypesdedonnées peuvent également
être utilisées.
Types de données
Les valeursd'unepropriété peuvent être desinstanes de lasses ou deslittéraux. Ces littéraux
peuvent êtretypésen utilisant les typesdedonnées prédénisdexml shéma. Ceipermetpar
exempledereprésenterdesvaleursdetypeshaînedearatères,numériqueoudate.Parailleurs,
rdfs fournit également des types olletions (rdfs :Container). rdfs utilise des onstruteurs
de olletions dénisdansrdf, enpartiulier les listes(rdf :List)etles sas (rdf :Bag).
Construteursd'individus
Lesinstanes deslasses rdfssont dénies en rdf, par deuxtypesde triplets.
1. Lestripletsdelaforme(i,rdf:type,C)indiquentquei estuneinstanedelalasseC.rdfs
supporte la multiinstaniation qui permet à une instane d'appartenir à plusieurs lasses
même si eslasses nesont pasliées par unerelation de subsumption (spéialisation).
2. Les autres triplets, de laforme (i, p, v),aratérisent l'instanei par la valeur v pour la
propriété p.
Axiomes
rdfsnepermetpasdedénirdenouveaux axiomesendehorsdel'appartenaneàune lasseou
lasubsumption de lasse. Par ontre, un modèlerdfs estlui-mêmebasé surertains axiomes:
1. rdfspermetlaméta-modélisation.Eneet,iln'imposepasdedisjontionentrel'ensemble
deslasses etl'ensembledes instanes; ainsi,une information peutàlafois êtrereprésen-
tée omme une lasse et omme une instane en fontion de son rle dans un ontexte
partiulier.
2. rdfsnepermetpasladénitionderéférenesirulaires dansladénitiondelasubsump-
tiondeslasses etdespropriétés.Une propriéténe peutêtresous-propriété d'elle-mêmeou
d'unede ses sous-propriétés.
Autres onepts
3
Lorsqueplusieurslassessontspéiées,ledomainedelapropriétéorrespond àl'intersetiondeeslasses
4
Siplusieurslassessontutilisées,seuleslesinstanesquiappartiennentàl'intersetiondeeslassespeuvent
sevoiraetéeslapropriété.
rdfsdénitlalasseressoure ommelassemèrede toutelasse. Tout estune ressoure
dansle Web sémantique, sauf lanotion de littéral. Et, toute lasse est une sous-lasse de
lalasseressoure.
Leslasses,lespropriétésetlesinstanespeuventégalementêtredéritesdefaçontextuelle
enutilisant les attributs rdfs:label etrdfs :omment, rdfs:seeAlso,rdfs :isDenedBy.
Lagure1.2montreun exempled'ontologie présentéesurlaformed'ungraphe. Cetteonto-
logieomporteleslassesPersonne,Etudiant (souslassedePersonne),Doument etTerritoire.
En dessous de ette ontologie, nous avonsprésentédes données de ette ontologie. Les uri des
instanes sont entourées par des ovales tandis que les valeurs littérales sont représentées dans
desretangles.Enn,nousprésentonsunextrait del'ontologieet desdonnéessuivantlasyntaxe
rdf/xmlquiestunesyntaxe xmlpourlesontologiesrdfs.Nousvoyonsnotamment aveette
syntaxe que la propriété nom de la lasse Personne représente le nomd'usage de la Personne.
Cettepréision estfournie parle onstruteur rdfs :label. Notonsque, ommelemontreette -
gure,ilestpossibledepréiseraveleonstruteursrdfs:labelunattributxml:lang quirenseigne
surlalangue utiliséedansladesription dulabel.
Document Territoire
estGéolocaliséPar Personne
aEcrit
String nomPrenom Ontologie
Données
http://rdf.insee.fr/geo/doc#01 http://rdf.insee.fr/geo/ter#01
estGéolocaliséPar
Rapport des zones sismologiques de la France http://rdf.insee.fr/geo/etu#01
aEcrit
Philippe Magnet
titre nomPrenom
nom
Castellane
Propriété Valeur de propriété
Classe Instance
Ontologie (cog="http://rdf.insee.fr/geo# )
<rdfs:class rdf:id= " cog:Personne" />
<rdfs:class rdf:id= " cog:Document" />
<rdfs:class rdf:id= " cog:Etudiant" >
<rdfs:subclassof rdf:about= " cog:Personne" />
</rdfs:class>
<rdf:Property rdf:id= " cog:nomPrenom" >
<rdfs:label xml:lang= "fr">nom d ’usage</rdfs:label>
<rdfs:domain rdf:about= "cog:Personne" / >
<rdfs:range rdf:resource= "xsd:string " />
</rdf:Property>
Etudiant
Héritage
Données
<cog:Document rdf:about= " http://rdf.insee.fr/geo/doc#01"/ >
<cog:Etudiant rdf:about= " http://rdf.insee.fr/geo/pers#01" />
<cog:nomPrenom> Philippe Magnet </cog:nomPrenom>
<cog:aEcrit rdf:resource = " http://rdf.insee.fr/geo/doc#01"/>
</cog:Etudiant>
titre
Fig. 1.2 Exempled'ontologieexpriméeen rdf shéma.
rdfsa étendu rdf par un ensemble de onstruteurs permettant la dénition d'ontologies
sur le Web. Cependant, rdfsne ontient auune primitive expliite permettant de dérire des
équivalenes oneptuelles. Les ontologies dénies suivant le formalisme rdfs sont don être
omposées de onepts anoniques uniquement. Danslasetion suivantenousprésentonsle for-
malisme plib qui dans le domaine de l'ingénierie permet de dénir des ontologies anoniques
beauoupplusomplètes.
2.1.2 plib
plib(partslibrary:seriesdenormesiso13584),initiéen1987,estunformalismed'ontologie
onçu initialement dansle adredu domaine tehnique pour éhanger etmodéliser ave la plus
grande préision possible les diérentes atégories (lasses) de omposants industriels et leurs
instanes telles qu'ellessont, par exemple,dérites danslesatalogues. Pour ela,une ontologie
plib dénit de façon très ne, les atégories et les propriétés qui aratérisent les objets d'un
domaine du monde réel, ainsi que les abstrations que les diérentes ommunautés peuvent en
onstruire [56 ℄. Enn, plib fournit des opérateurs de modularité permettant d'intégrer dans
un environnement homogène et ohérent les ontologies partiellement hétérogènes dénies par
diérentes soures.
Nousprésentonsi-dessousles diérents onstruteursdu formalismed'ontologie plib.
2.1.2.1 Construteurs de lasses
Le modèleplibpermetdedélarerdeslasses etdelesorganiseren deshiérarhies desubsump-
tion. Une lasseplib peutêtredénie ommeétant :
une lasse de dénition (item_lass) qui ontient les propriétés essentielles d'une lasse,
'est a dire les propriétés ommunes qui aratérisent les instanes de la lasse pour tous
les ateursquiutilisent l'ontologie;
unelassedereprésentation(funtional_model_lass)quiontientlespropriétésquin'ont
de sens que par rapport à un point de vue métier(par exemple le nombre d'instanes
quiexistentenstok,pourlegestionnairedestok,ouletauxderemiseparquantité,pour
leommerial);
unelassedepointde vue(funtional_view_lass) quidénitlaperspetivedanslaquelle
sont dénies les propriétés des lasses de représentation (par exemple : gestion de stok,
onditions ommeriales,
. . .
).Lahiérarhie deslasses plib estdénie par :
la relation sémantique de subsumption nommée is_a qui dénit une hiérarhie (simple)
ave fatorisation/héritagedes propriétés;
unedeuxième relation sémantiquenomméeis_ase_of qui permetégalement d'exprimer
la subsumption entre lasses. Celle-i n'est ependant pas odée par le méanisme d'hé-
ritage. La relation sémantique is_ase_of permet d'indiquer qu'une lasse est inluse
dans une autre lasse (subsumption) maisqu'elle souhaite, au niveau logique, n'importer
expliitement qu'une partie despropriétés de ette dernière.
Le méanisme is_ase_of permet de onstruire des ontologies modulaires qui n'importent des
autres ontologies du domaine que ertaines lasses et pour haune de es lasses, que le sous-
ensembledespropriétés néessairespourl'objetifvisé.Ainsi,eméanismepermetladénition
d'ontologies autonomes qui restent toutefois artiulées aux autres ontologies du domaine par
subsumption. Cetteartiulationformelle vaainsipermettre departager etd'éhanger equi est
ommun.Larelationdesubsumptionaveimportationséletivedepropriétésis_ase_of permet
auxonstruteurs deredénirentièrement lastruture deslassesen fontiondesbesoinsparti-
uliersqueviseàrésoudrel'ontologiemiseen÷uvre.Ellepermetaussid'assurerl'autonomietant
struturelle(superlasse,propriété)quetemporelle(évolutionéventuelledesautresontologiesdu
domaine)d'uneontologie. Eneet,l'ontologieenoursdedénitionneontient pasdiretement