Partie I Etat de l'Art
Chapitre 2 Intégration de données 31
2.9 Exemples de prototypes de systèmes d'intégration
connaissances est exploitée dans la construction et l'utilisation des systèmes à base de
connaissances.
L'utilité des ontologies dans le domaine de l'intégration de données peut se retrouver dans les
deux premières catégories identiées par Ushold et Gruninger.
Les ontologies peuvent jouer plusieurs rôles dans le processus d'intégration. Elles peuvent
être utilisées pour établir les liens sémantiques entre des éléments dans des sources diérentes
(e.g., OBSERVER [Mena et al., 2000]). Elles peuvent aussi servir de modèle d'interrogation pour
le système intégré lorsqu'elles sont utilisées pour décrire le schéma global (e.g., SIMS [Arens
et al., 1997], PICSEL [Rousset et Reynaud, 2003]). Dans le cadre de l'intégration explicite de
sources structurées et non structurées, nous décrivons dans le chapitre 5 leur utilisation pour la
caractérisation sémantique des sources textuelles.
Classiquement, nous distinguons trois architectures en fontion de la façon dont les ontologies
sont utilisées au sein d'une infrastructure d'intégration [Wache et al., 2001] :
1. Architecture utilisant une ontologie unique : dans cette approche, chaque source
à intégrer est liée à une seule ontologie de domaine globale (e.g., PICSEL [Rousset et
Reynaud, 2003]). Ceci implique qu'une nouvelle source ne peut être décrite par sa propre
ontologie. Tout ajout de source peut entraîner la modication de l'ontologie globale.
2. Architecture utilisant plusieurs ontologies : dans cette approche, chaque source à
intégrer est décrite par sa propre ontologie, indépendamment des autres sources. Des
cor-respondances entre les ontologies doivent être dénies (exemple de OBSERVER [Mena
et al., 2000]). Ces correspondances peuvent se révéler parfois très complexes, notamment à
cause de niveaux de granularité diérents entre les ontologies.
3. Architecture utilisant une approche hybride : dans cette approche, la sémantique
de chaque source est décrite par sa propre ontologie. Cependant, les diérentes ontologies
sont connectées entre elles par un vocabulaire commun partagé (e.g. le projet Kraft [Visser
et al., 1999]).
2.9 Exemples de prototypes de systèmes d'intégration
Les bases de données ont été introduites dans les entreprises au début des années 60, au
départ pour assurer la gestion de petites applications commerciales. Depuis, un long chemin a
été parcouru, et les applications sont devenues de plus en plus complexes et stratégiques pour
les organisations. Le développement rapide d'internet et des nouvelles technologies a fait naître
des applications nouvelles. Pour une organisation, le besoin d'intégrer les données issues de ces
diérentes applications devient une évidence.
Les premières approches d'intégration, sous forme de systèmes fédérés, ont vu le jour dans
les années 1980 [Hurson et Bright, 1991]. Comme exemple on peut citer le système
MULTI-BASE [Landers et Rosenberg., 1982]. Après les systèmes multibases ou fédérés, sont apparus
les systèmes d'intégration à base de médiateurs (e.g., Garlic [Cody et al., 1995]), les systèmes à
base d'agents (e.g, InfoSleuth [Bayardo, Jr. et al., 1997]), et plus récemment encore les système
à base d'ontologies (e.g., OBSERVER [Mena et al., 2000], MOMIS [Beneventano et al., 2001]
et PICSEL [Rousset et Reynaud, 2003]), les systèmes Pair-à-Pair (e.g., Edutella [Nejdl et al.,
2002a], Hyperion [Arenas et al., 2003] et SomeWhere [Rousset et al., 2006]) et enn les systèmes
d'intégration à base de web services (e.g., Active XML [Abiteboul et al., 2002a]).
Ontologie Source 1 Source 2 Source 3 Ontologie Ontologie b Ontologie Globale Source 1 Source 2 Source 3 a Ontologie Source 1 Source 2 Source 3 Ontologie Ontologie Ontologie commune c
Fig. 2.4 Utilisation classique des ontologies dans l'intégration
Dans cette section, nous décrivons sommairement un certain nombre d'entre eux (nous ne
pouvons tous les présenter, mais les systèmes choisis sont représentatifs de leur famille). Nous
al-lons discuter rapidement des systèmes suivants : Information Manifold [Kirk et al., 1995] comme
exemple de système utilisant l'approche LAV, TSIMMIS [Garcia-Molina et al., 1997] comme
exemple de système utilisant plusieurs médiateurs, SIMS [Arens et al., 1994][Arens et al., 1997]
qui utilise une ontologie globale et l'approche centrée-requête (GAV), MOMIS [Beneventano
et al., 2001] comme exemple de système utilisant une approche de découverte semi-automatique
de correspondances, OBSERVER [Mena et al., 2000] comme exemple de système utilisant
plu-sieurs ontologies, PICSEL [Rousset et Reynaud, 2003] qui repose sur la combinaison d'un
for-malisme à base de règles et d'un forfor-malisme à base de classes, AutoMed [Boyd et al., 2002]
comme exemple de système utilisant une approche mixte pour l'expression des correspondances
et enn XYLEME [Abiteboul et al., 2002b] comme exemple de système d'intégration de données
semi-structurées.
2.9.1 Information Manifold
Information Manifold (IM) est un système de navigation et d'interrogation pour des sources
structurées et peu structurées. Son objectif est de fournir une interface d'interrogation uniforme
pour plusieurs sources de données. Le système a été notamment utilisé pour intégrer des
infor-mations provenant de plusieurs sources sur le web.
IM est basé sur l'utilisation d'une base de connaissances qui décrit le modèle conceptuel
du domaine et les propriétés des sources d'information. La base de connaissances repose sur
un modèle de données très riche. IM considère comme source structurée les bases de données,
les documents SGML, tandis que les sources peu structurées sont les sites FTP, les chiers
bibliographiques, etc. Le langage utilisé pour représenter le contenu des sources d'information
2.9. Exemples de prototypes de systèmes d'intégration
est une combinaison de règles de Horn et de notions issues de la logique de description CLASSIC
[Brachman et al., 1991]. Les correspondances entre le schéma de médiation et les sources suivent
l'approche LAV, qu'IM a été le premier à proposer.
2.9.2 TSIMMIS
TSIMMIS (The Stanford-IBM Manager of Multiple Information Sources) est un système
des-tiné à l'intégration (manuelle) de plusieurs sources hétérogènes. C'est un système fédéré basé sur
l'architecture médiateur/adaptateurs utilisant l'approche centrée-requête [Garcia-Molina et al.,
1997]. Le modèle de données utilisé pour décrire le contenu des sources et pour exprimer les
re-quêtes est l'Object Exchange Model (OEM). Chaque adaptateur est un programme qui s'occupe
d'une source particulière. Il reçoit les requêtes posées dans le langage OEM et les transforme en
langage compréhensible par la source. Les sources traitées sont structurées et semi-structurées.
TSIMMIS ne fournit pas de schéma global unique et utilise plusieurs médiateurs.
2.9.3 SIMS
SIMS (Services and Information Management of Decision Systems) est un système qui permet
d'intégrer des bases de données et de connaissances ainsi que des pages web [Arens et al., 1994].
Le système d'intégration utilise l'architecture médiateur/adaptateurs suivant l'approche
centrée-source et une ontologie globale, appelée le modèle du domaine, décrite en LOOM [MacGregor,
1991]. L'interrogation du système se fait en utilisant des requêtes exprimées en langage LOOM
et un sous-ensemble de SQL (qui inclut les opérateurs de jointure, de sélection et de projection).
Le traitement des requêtes inclut des phases de planication et d'optimisation sémantique de
requêtes lors desquelles plusieurs plans de résolution sont évalués.
2.9.4 OBSERVER
OBSERVER utilise plusieurs ontologies de domaine préexistantes pour décrire les
informa-tions contenues dans les sources à l'aide d'un système basé sur les DL.
Les termes issus des ontologies sont utilisés comme vocabulaire de caractérisation des
infor-mations spéciques à un domaine (pour chaque source). Une des ontologies considérées dans
OBSERVER est la ressource lexicale WordNet [Fellbaum, 1999], utilisée pour expliciter le sens
des noms d'attributs et des tables relationnelles de certaines sources. Comme le système gère
plusieurs ontologies, la notion de correspondance entre ontologies a été introduite. Elle s'établit
à l'aide de relations inter-ontologies (Interontologies Terminological Relationships) telles que la
synonymie et l'hyperonymie. Ainsi, pour une source décrite à l'aide d'une ontologie A, le
sys-tème est capable de l'interroger à l'aide de termes d'une ontologie B, si toutefois des relations
inter-ontologiques ont été dénies entre ces ontologies.
OBSERVER ne prend pas en compte la notion d'ontologie globale, et des ontologies déjà
existantes sont utilisées pour la description des sources (de nouvelles ontologies pour décrire une
source ne sont pas construites). Dans cette approche, on considère qu'il est plus facile de gérer
séparement plusieurs ontologies de taille réduite : si plusieurs ontologies sont disponibles, il est
considéré comme plus aisé de dénir des correspondances entre elles plutôt que de les intégrer
dans une ontologie globale.
2.9.5 PICSEL
PICSEL, Production d'Interface à base de Connaissances pour les Services En Ligne
[Goas-doué et al., 2000] est un projet développé au sein de l'équipe IASI du LRI pour le compte de
France Télécom R&D. Le système intègre des bases de données relationnelles et des documents
XML. PICSEL utilise un schéma global (qui modélise le domaine concerné par l'intégration)
ex-primé dans un langage appelé CARIN [Levy et Rousset, 1995] combinant le pouvoir d'expression
d'un formalisme à base de règles et d'un formalisme à base de classes.
2.9.6 MOMIS
MOMIS (Mediator envirOnment for Multiple Information Sources) [Beneventano et al., 2001],
qui implémente l'approche médiateur/adaptateurs, est fondé sur l'utilisation d'une logique de
description très riche, ODL-I3, pour décrire les schémas des sources de données à intégrer. Les
sources peuvent à la fois être des sources structurées et semi-structurées. Le schéma global est
inféré à partir des diérents schémas sources (approche GAV). MOMIS utilise ARTEMIS
(Ana-lysis and Reconciliation Tool Environment for Multiple Information Sources) [Castano et al.,
2001][Castano et Antonellis, 1999] pour les correspondances entre les diérents schémas.
AR-TEMIS procède par analyse sémantique et par clustering de classes décrites en ODL-I3 pour
suggérer les correspondances entre schémas.
2.9.7 AutoMed
AutoMed [Boyd et al., 2002] propose une approche d'intégration basée sur une séquence
d'étapes de transformations bidirectionnelles [McBrien et Poulovassilis, 2003]. Pour transformer
un schéma donné en un autre, on procède de façon incrémentale à l'ajout, la suppression ou
le renommage de constructeurs. Une des particularités du système est l'utilisation d'un modèle
de données basé sur les graphes, appelé hypergraphe data model (HDM), permettant aussi bien
de prendre en compte le modèle entité/association, le modèle relationnel, UML, etc. Il propose
comme approche de mise en correspondance des schéma locaux et du schéma global l'approche
BAV (Both-As-View). Les chemins dénis à travers les tranformations BAV permettent de dénir
les relations logiques entre schémas. Une autre particularité d'AutoMed est qu'il peut aussi bien
implémenter un schéma virtuel de médiation qu'un entrepôt de données.
2.9.8 XYLEME
XYLEME [Abiteboul et al., 2002b][Rousset et Reynaud, 2003] est un exemple de système
d'intégration de données semi-structurées XML. Dans son médiateur, le schéma global est un
ensemble de DTDs abstraites constituant la hiérarchie de termes qui structurent le vocabulaire
du domaine concerné par le processus d'intégration. XYLEME combine l'approche LAV et GAV,
car la correspondance entre le schéma global et les sources est exprimée par de simples
corres-pondances de chemins.
2.10 Les systèmes d'intégration dans le domaine biomédical
Dans le document
Une Architecture à base d'Ontologies pour la Gestion Unifiées des Données Structurées et non Structurées
(Page 58-61)