4.6 Les ontologies dans les systèmes de gestion des données
4.6.2 Les ontologies dans le processus d’intégration
Les ontologies ont intervenu dans les systèmes d’intégration, matérialisés comme les ED
et virtuels, principalement pour résoudre les problèmes d’intégration dûs aux différents conflits
syntaxiques et sémantiques (cf. section 3). Leur usage dans les systèmes de gestion des données a par la suite été étendu aux autres tâches de conception comme la modélisation conceptuelle, la modélisation multidimensionnelle, le processus ETL, l’optimisation, etc [90].
L’introduction des ontologies dans les systèmes d’intégration a permis la gestion efficace
des différents conflits de façon automatique. Les premières approches d’intégration proposaient
de gérer manuellement les conflits sémantiques, et exigeaient donc l’intervention d’un expert humain. Les conflits syntaxiques sont traités de façon automatique. Plusieurs systèmes d’inté-gration des données ont suivi cette approche : le système Tsimmis [36], la fédération des bases de données et les systèmes multi-bases de données [18]. Deux limites majeures sont à
mention-ner pour ces approches : (1) la difficulté de l’évolution rapide des sources, et (2) la difficulté de
4. Les ontologies pour la gestion des données et des besoins Les approches semi-automatiques permettent l’automatisation partielle des conflits séman-tiques. Ces travaux se basent sur les ontologies linguistiques uniquement. Ces dernièrs traitent des termes, et non pas des concepts, ce qui peut générer des conflits de noms. Le système Momis
[22] utilisant l’ontologie linguistique WordNet28suit cette approche.
Les approches automatiques se caractérisent par l’incorporation des ontologies concep-tuelles, qui permettent le traitement automatique des conflits sémantiques des données sources [18]. Plusieurs projets utilisent cette approche comme Buster [150], Picsel [63] ou SHOE [75]. Dans [155] trois principales structures basées sur les ontologies conceptuelles ont été défi-nies : (1) structure à base d’une ontologie unique, (2) structure à base d’ontologies multiples et, (3) structure à base d’une ontologie partagée. Ces structures sont classifiées selon la façon dont les ontologies conceptuelles sont connectées aux sources. Nous les détaillons dans ce qui suit.
Figure 2.13 – Les structures d’ontologies conceptuelles dans les systèmes d’intégration [90]
4.6.2.1 - Structure basée sur une ontologie unique : correspond à une structure
d’intégra-tion à base d’une ontologie unique, comme les systèmes Picsel [63] et COIN [64]. Le déve-loppement de cette structure est conditionné par la définition de sources de données du même domaine et partageant un vocabulaire commun. Cette structure comporte de nombreux incon-vénients : (i) l’ajout d’une nouvelle source peut nécessiter de redéfinir l’ontologie; (ii) cette structure ne permet pas une autonomie schématique des sources.
4.6.2.2 - Structure basée sur des ontologies multiples : dans cette structure, la sémantique
de chaque source est définie par une ontologie locale. La mise en correspondance des différentes
ontologies sources (locales) est effectuée deux par deux. Le principal inconvénient de cette ap-proche est la complexité de définition des mappings. Les apap-proches qui utilisent cette structure présentent une complexité de mappings : pour N sources, la complexité de mappings est de
N(N-1)/2. Leur avantage est qu’elles offrent une grande autonomie à chaque source participant
au système d’intégration.
4.6.2.3 - Structure basée sur une ontologie partagée : Dans cette structure, chaque source
contient sa propre ontologie locale. Afin de réduire le nombre de mappings, les ontologies locales sont mises en correspondance avec une ontologie partagée. Ces approches supposent donc l’existence d’une ontologie partagée entre les sources. L’alignement entre les ontologies locales et l’ontologie partagée peut se faire a priori ou a posteriori [18]. Pour les approches a posteriori, chaque source définit de façon autonome sa propre ontologie. Des algorithmes de découverte de mappings (matching ontologique) sont utilisés afin d’aligner les entités des
différentes ontologies locales et partagée. Dans le cas des approches à priori, les ontologies
locales des sources sont définies à partir de l’ontologie partagée.
Nous étudierons dans nos propositions les deux dernières structures ontologiques, que nous considérons comme les plus réalistes pour notre contexte, et nous proposerons des solutions pour chaque scénario.
Dans ces structures d’intégration que nous venons de détailler, les sources d’informations sont définies par une ontologie locale. Certaines sources stockent leurs ontologies locales, ce qui donne lieu à une "base de données à base ontologique".
Les structures ontologiques présentées reposent sur la définition des mappings ontologiques entre les ontologies. Cette tâche fait appel au domaine du matching ontologique. Vu l’impor-tance de cette tâche, nous lui réservons une nouvelle section pour sa présentation.
5 Le matching comme solution d’intégration d’ontologies
Les ontologies ont été introduites pour réduire les hétérogéniétés syntaxiques et séman-tiques, mais elle ont paradaxalement introduit une forme d’hétérogénéité à un plus haut niveau [116]. Cette hétérogénéité est dûe à la diversité des visions des concepteurs d’ontologies ainsi que la variation de la couverture du domaine [44].
La notion de matching (ou appariement) d’ontologies est apparue pour résoudre les
hé-térogéniétés entre différentes ontologies en les alignant via un ensemble de correspondances
sémantiques définies entre les entités de ces ontologies [54] et ceci dans le but d’assurer leur interopérabilité sémantique. Plusieurs domaines utilisent le matching ontologique comme le web sémantique, la communication entre agents, la composition des services web et les sys-tèmes pair-à-pair (P2P) [54]. Pour notre étude, la notion de matching ontologique nous intéresse dans le cas des structures d’intégration à base ontologiques étudiées précédemment (cf. section
5. Le matching comme solution d’intégration d’ontologies 4.6.2), où les ontologies locales à chaque source sont conçues indépendamment et doivent être alignées.
Plusieurs méthodes d’alignement d’ontologies automatiques ou semi-automatiques ont été élaborées. Elles peuvent être de type terminologique, structurel, sémantique et extensionnel. Certaines méthodes combinent plusieurs types d’alignement [54].
Nous commençons par définir le processus de matching et de matching ontologique pour détailler par la suite les catégories de techniques de matching existantes.
5.1 Définitions
Nous définissons dans ce qui suit la terminologie essentielle relative au matching [54] :