Les ontologies dans le processus d’intégration

4.6 Les ontologies dans les systèmes de gestion des données

4.6.2 Les ontologies dans le processus d’intégration

Les ontologies ont intervenu dans les systèmes d’intégration, matérialisés comme les ED

et virtuels, principalement pour résoudre les problèmes d’intégration dûs aux différents conflits

syntaxiques et sémantiques (cf. section 3). Leur usage dans les systèmes de gestion des données a par la suite été étendu aux autres tâches de conception comme la modélisation conceptuelle, la modélisation multidimensionnelle, le processus ETL, l’optimisation, etc [90].

L’introduction des ontologies dans les systèmes d’intégration a permis la gestion efficace

des différents conflits de façon automatique. Les premières approches d’intégration proposaient

de gérer manuellement les conflits sémantiques, et exigeaient donc l’intervention d’un expert humain. Les conflits syntaxiques sont traités de façon automatique. Plusieurs systèmes d’inté-gration des données ont suivi cette approche : le système Tsimmis [36], la fédération des bases de données et les systèmes multi-bases de données [18]. Deux limites majeures sont à

mention-ner pour ces approches : (1) la difficulté de l’évolution rapide des sources, et (2) la difficulté de

4. Les ontologies pour la gestion des données et des besoins Les approches semi-automatiques permettent l’automatisation partielle des conflits séman-tiques. Ces travaux se basent sur les ontologies linguistiques uniquement. Ces dernièrs traitent des termes, et non pas des concepts, ce qui peut générer des conflits de noms. Le système Momis

[22] utilisant l’ontologie linguistique WordNet28suit cette approche.

Les approches automatiques se caractérisent par l’incorporation des ontologies concep-tuelles, qui permettent le traitement automatique des conflits sémantiques des données sources [18]. Plusieurs projets utilisent cette approche comme Buster [150], Picsel [63] ou SHOE [75]. Dans [155] trois principales structures basées sur les ontologies conceptuelles ont été défi-nies : (1) structure à base d’une ontologie unique, (2) structure à base d’ontologies multiples et, (3) structure à base d’une ontologie partagée. Ces structures sont classifiées selon la façon dont les ontologies conceptuelles sont connectées aux sources. Nous les détaillons dans ce qui suit.

Figure 2.13 – Les structures d’ontologies conceptuelles dans les systèmes d’intégration [90]

4.6.2.1 - Structure basée sur une ontologie unique : correspond à une structure

d’intégra-tion à base d’une ontologie unique, comme les systèmes Picsel [63] et COIN [64]. Le déve-loppement de cette structure est conditionné par la définition de sources de données du même domaine et partageant un vocabulaire commun. Cette structure comporte de nombreux incon-vénients : (i) l’ajout d’une nouvelle source peut nécessiter de redéfinir l’ontologie; (ii) cette structure ne permet pas une autonomie schématique des sources.

4.6.2.2 - Structure basée sur des ontologies multiples : dans cette structure, la sémantique

de chaque source est définie par une ontologie locale. La mise en correspondance des différentes

ontologies sources (locales) est effectuée deux par deux. Le principal inconvénient de cette ap-proche est la complexité de définition des mappings. Les apap-proches qui utilisent cette structure présentent une complexité de mappings : pour N sources, la complexité de mappings est de

N(N-1)/2. Leur avantage est qu’elles offrent une grande autonomie à chaque source participant

au système d’intégration.

4.6.2.3 - Structure basée sur une ontologie partagée : Dans cette structure, chaque source

contient sa propre ontologie locale. Afin de réduire le nombre de mappings, les ontologies locales sont mises en correspondance avec une ontologie partagée. Ces approches supposent donc l’existence d’une ontologie partagée entre les sources. L’alignement entre les ontologies locales et l’ontologie partagée peut se faire a priori ou a posteriori [18]. Pour les approches a posteriori, chaque source définit de façon autonome sa propre ontologie. Des algorithmes de découverte de mappings (matching ontologique) sont utilisés afin d’aligner les entités des

différentes ontologies locales et partagée. Dans le cas des approches à priori, les ontologies

locales des sources sont définies à partir de l’ontologie partagée.

Nous étudierons dans nos propositions les deux dernières structures ontologiques, que nous considérons comme les plus réalistes pour notre contexte, et nous proposerons des solutions pour chaque scénario.

Dans ces structures d’intégration que nous venons de détailler, les sources d’informations sont définies par une ontologie locale. Certaines sources stockent leurs ontologies locales, ce qui donne lieu à une "base de données à base ontologique".

Les structures ontologiques présentées reposent sur la définition des mappings ontologiques entre les ontologies. Cette tâche fait appel au domaine du matching ontologique. Vu l’impor-tance de cette tâche, nous lui réservons une nouvelle section pour sa présentation.

5 Le matching comme solution d’intégration d’ontologies

Les ontologies ont été introduites pour réduire les hétérogéniétés syntaxiques et séman-tiques, mais elle ont paradaxalement introduit une forme d’hétérogénéité à un plus haut niveau [116]. Cette hétérogénéité est dûe à la diversité des visions des concepteurs d’ontologies ainsi que la variation de la couverture du domaine [44].

La notion de matching (ou appariement) d’ontologies est apparue pour résoudre les

hé-térogéniétés entre différentes ontologies en les alignant via un ensemble de correspondances

sémantiques définies entre les entités de ces ontologies [54] et ceci dans le but d’assurer leur interopérabilité sémantique. Plusieurs domaines utilisent le matching ontologique comme le web sémantique, la communication entre agents, la composition des services web et les sys-tèmes pair-à-pair (P2P) [54]. Pour notre étude, la notion de matching ontologique nous intéresse dans le cas des structures d’intégration à base ontologiques étudiées précédemment (cf. section

5. Le matching comme solution d’intégration d’ontologies 4.6.2), où les ontologies locales à chaque source sont conçues indépendamment et doivent être alignées.

Plusieurs méthodes d’alignement d’ontologies automatiques ou semi-automatiques ont été élaborées. Elles peuvent être de type terminologique, structurel, sémantique et extensionnel. Certaines méthodes combinent plusieurs types d’alignement [54].

Nous commençons par définir le processus de matching et de matching ontologique pour détailler par la suite les catégories de techniques de matching existantes.

5.1 Définitions

Nous définissons dans ce qui suit la terminologie essentielle relative au matching [54] :

Dans le document Donner une autre vie à vos besoins fonctionnels : une approche dirigée par l'entreposage et l'analyse en ligne (Page 59-62)