Exemples de prototypes de systèmes d'intégration

Partie I Etat de l'Art

Chapitre 2 Intégration de données 31

2.9 Exemples de prototypes de systèmes d'intégration

connaissances est exploitée dans la construction et l'utilisation des systèmes à base de

connaissances.

L'utilité des ontologies dans le domaine de l'intégration de données peut se retrouver dans les

deux premières catégories identiées par Ushold et Gruninger.

Les ontologies peuvent jouer plusieurs rôles dans le processus d'intégration. Elles peuvent

être utilisées pour établir les liens sémantiques entre des éléments dans des sources diérentes

(e.g., OBSERVER [Mena et al., 2000]). Elles peuvent aussi servir de modèle d'interrogation pour

le système intégré lorsqu'elles sont utilisées pour décrire le schéma global (e.g., SIMS [Arens

et al., 1997], PICSEL [Rousset et Reynaud, 2003]). Dans le cadre de l'intégration explicite de

sources structurées et non structurées, nous décrivons dans le chapitre 5 leur utilisation pour la

caractérisation sémantique des sources textuelles.

Classiquement, nous distinguons trois architectures en fontion de la façon dont les ontologies

sont utilisées au sein d'une infrastructure d'intégration [Wache et al., 2001] :

1. Architecture utilisant une ontologie unique : dans cette approche, chaque source

à intégrer est liée à une seule ontologie de domaine globale (e.g., PICSEL [Rousset et

Reynaud, 2003]). Ceci implique qu'une nouvelle source ne peut être décrite par sa propre

ontologie. Tout ajout de source peut entraîner la modication de l'ontologie globale.

2. Architecture utilisant plusieurs ontologies : dans cette approche, chaque source à

intégrer est décrite par sa propre ontologie, indépendamment des autres sources. Des

cor-respondances entre les ontologies doivent être dénies (exemple de OBSERVER [Mena

et al., 2000]). Ces correspondances peuvent se révéler parfois très complexes, notamment à

cause de niveaux de granularité diérents entre les ontologies.

3. Architecture utilisant une approche hybride : dans cette approche, la sémantique

de chaque source est décrite par sa propre ontologie. Cependant, les diérentes ontologies

sont connectées entre elles par un vocabulaire commun partagé (e.g. le projet Kraft [Visser

et al., 1999]).

2.9 Exemples de prototypes de systèmes d'intégration

Les bases de données ont été introduites dans les entreprises au début des années 60, au

départ pour assurer la gestion de petites applications commerciales. Depuis, un long chemin a

été parcouru, et les applications sont devenues de plus en plus complexes et stratégiques pour

les organisations. Le développement rapide d'internet et des nouvelles technologies a fait naître

des applications nouvelles. Pour une organisation, le besoin d'intégrer les données issues de ces

diérentes applications devient une évidence.

Les premières approches d'intégration, sous forme de systèmes fédérés, ont vu le jour dans

les années 1980 [Hurson et Bright, 1991]. Comme exemple on peut citer le système

MULTI-BASE [Landers et Rosenberg., 1982]. Après les systèmes multibases ou fédérés, sont apparus

les systèmes d'intégration à base de médiateurs (e.g., Garlic [Cody et al., 1995]), les systèmes à

base d'agents (e.g, InfoSleuth [Bayardo, Jr. et al., 1997]), et plus récemment encore les système

à base d'ontologies (e.g., OBSERVER [Mena et al., 2000], MOMIS [Beneventano et al., 2001]

et PICSEL [Rousset et Reynaud, 2003]), les systèmes Pair-à-Pair (e.g., Edutella [Nejdl et al.,

2002a], Hyperion [Arenas et al., 2003] et SomeWhere [Rousset et al., 2006]) et enn les systèmes

d'intégration à base de web services (e.g., Active XML [Abiteboul et al., 2002a]).

Ontologie Source 1 Source 2 Source 3 Ontologie Ontologie b Ontologie Globale Source 1 Source 2 Source 3 a Ontologie Source 1 Source 2 Source 3 Ontologie Ontologie Ontologie commune c

Fig. 2.4 Utilisation classique des ontologies dans l'intégration

Dans cette section, nous décrivons sommairement un certain nombre d'entre eux (nous ne

pouvons tous les présenter, mais les systèmes choisis sont représentatifs de leur famille). Nous

al-lons discuter rapidement des systèmes suivants : Information Manifold [Kirk et al., 1995] comme

exemple de système utilisant l'approche LAV, TSIMMIS [Garcia-Molina et al., 1997] comme

exemple de système utilisant plusieurs médiateurs, SIMS [Arens et al., 1994][Arens et al., 1997]

qui utilise une ontologie globale et l'approche centrée-requête (GAV), MOMIS [Beneventano

et al., 2001] comme exemple de système utilisant une approche de découverte semi-automatique

de correspondances, OBSERVER [Mena et al., 2000] comme exemple de système utilisant

plu-sieurs ontologies, PICSEL [Rousset et Reynaud, 2003] qui repose sur la combinaison d'un

for-malisme à base de règles et d'un forfor-malisme à base de classes, AutoMed [Boyd et al., 2002]

comme exemple de système utilisant une approche mixte pour l'expression des correspondances

et enn XYLEME [Abiteboul et al., 2002b] comme exemple de système d'intégration de données

semi-structurées.

2.9.1 Information Manifold

Information Manifold (IM) est un système de navigation et d'interrogation pour des sources

structurées et peu structurées. Son objectif est de fournir une interface d'interrogation uniforme

pour plusieurs sources de données. Le système a été notamment utilisé pour intégrer des

infor-mations provenant de plusieurs sources sur le web.

IM est basé sur l'utilisation d'une base de connaissances qui décrit le modèle conceptuel

du domaine et les propriétés des sources d'information. La base de connaissances repose sur

un modèle de données très riche. IM considère comme source structurée les bases de données,

les documents SGML, tandis que les sources peu structurées sont les sites FTP, les chiers

bibliographiques, etc. Le langage utilisé pour représenter le contenu des sources d'information

2.9. Exemples de prototypes de systèmes d'intégration

est une combinaison de règles de Horn et de notions issues de la logique de description CLASSIC

[Brachman et al., 1991]. Les correspondances entre le schéma de médiation et les sources suivent

l'approche LAV, qu'IM a été le premier à proposer.

2.9.2 TSIMMIS

TSIMMIS (The Stanford-IBM Manager of Multiple Information Sources) est un système

des-tiné à l'intégration (manuelle) de plusieurs sources hétérogènes. C'est un système fédéré basé sur

l'architecture médiateur/adaptateurs utilisant l'approche centrée-requête [Garcia-Molina et al.,

1997]. Le modèle de données utilisé pour décrire le contenu des sources et pour exprimer les

re-quêtes est l'Object Exchange Model (OEM). Chaque adaptateur est un programme qui s'occupe

d'une source particulière. Il reçoit les requêtes posées dans le langage OEM et les transforme en

langage compréhensible par la source. Les sources traitées sont structurées et semi-structurées.

TSIMMIS ne fournit pas de schéma global unique et utilise plusieurs médiateurs.

2.9.3 SIMS

SIMS (Services and Information Management of Decision Systems) est un système qui permet

d'intégrer des bases de données et de connaissances ainsi que des pages web [Arens et al., 1994].

Le système d'intégration utilise l'architecture médiateur/adaptateurs suivant l'approche

centrée-source et une ontologie globale, appelée le modèle du domaine, décrite en LOOM [MacGregor,

1991]. L'interrogation du système se fait en utilisant des requêtes exprimées en langage LOOM

et un sous-ensemble de SQL (qui inclut les opérateurs de jointure, de sélection et de projection).

Le traitement des requêtes inclut des phases de planication et d'optimisation sémantique de

requêtes lors desquelles plusieurs plans de résolution sont évalués.

2.9.4 OBSERVER

OBSERVER utilise plusieurs ontologies de domaine préexistantes pour décrire les

informa-tions contenues dans les sources à l'aide d'un système basé sur les DL.

Les termes issus des ontologies sont utilisés comme vocabulaire de caractérisation des

infor-mations spéciques à un domaine (pour chaque source). Une des ontologies considérées dans

OBSERVER est la ressource lexicale WordNet [Fellbaum, 1999], utilisée pour expliciter le sens

des noms d'attributs et des tables relationnelles de certaines sources. Comme le système gère

plusieurs ontologies, la notion de correspondance entre ontologies a été introduite. Elle s'établit

à l'aide de relations inter-ontologies (Interontologies Terminological Relationships) telles que la

synonymie et l'hyperonymie. Ainsi, pour une source décrite à l'aide d'une ontologie A, le

sys-tème est capable de l'interroger à l'aide de termes d'une ontologie B, si toutefois des relations

inter-ontologiques ont été dénies entre ces ontologies.

OBSERVER ne prend pas en compte la notion d'ontologie globale, et des ontologies déjà

existantes sont utilisées pour la description des sources (de nouvelles ontologies pour décrire une

source ne sont pas construites). Dans cette approche, on considère qu'il est plus facile de gérer

séparement plusieurs ontologies de taille réduite : si plusieurs ontologies sont disponibles, il est

considéré comme plus aisé de dénir des correspondances entre elles plutôt que de les intégrer

dans une ontologie globale.

2.9.5 PICSEL

PICSEL, Production d'Interface à base de Connaissances pour les Services En Ligne

[Goas-doué et al., 2000] est un projet développé au sein de l'équipe IASI du LRI pour le compte de

France Télécom R&D. Le système intègre des bases de données relationnelles et des documents

XML. PICSEL utilise un schéma global (qui modélise le domaine concerné par l'intégration)

ex-primé dans un langage appelé CARIN [Levy et Rousset, 1995] combinant le pouvoir d'expression

d'un formalisme à base de règles et d'un formalisme à base de classes.

2.9.6 MOMIS

MOMIS (Mediator envirOnment for Multiple Information Sources) [Beneventano et al., 2001],

qui implémente l'approche médiateur/adaptateurs, est fondé sur l'utilisation d'une logique de

description très riche, ODL-I3, pour décrire les schémas des sources de données à intégrer. Les

sources peuvent à la fois être des sources structurées et semi-structurées. Le schéma global est

inféré à partir des diérents schémas sources (approche GAV). MOMIS utilise ARTEMIS

(Ana-lysis and Reconciliation Tool Environment for Multiple Information Sources) [Castano et al.,

2001][Castano et Antonellis, 1999] pour les correspondances entre les diérents schémas.

AR-TEMIS procède par analyse sémantique et par clustering de classes décrites en ODL-I3 pour

suggérer les correspondances entre schémas.

2.9.7 AutoMed

AutoMed [Boyd et al., 2002] propose une approche d'intégration basée sur une séquence

d'étapes de transformations bidirectionnelles [McBrien et Poulovassilis, 2003]. Pour transformer

un schéma donné en un autre, on procède de façon incrémentale à l'ajout, la suppression ou

le renommage de constructeurs. Une des particularités du système est l'utilisation d'un modèle

de données basé sur les graphes, appelé hypergraphe data model (HDM), permettant aussi bien

de prendre en compte le modèle entité/association, le modèle relationnel, UML, etc. Il propose

comme approche de mise en correspondance des schéma locaux et du schéma global l'approche

BAV (Both-As-View). Les chemins dénis à travers les tranformations BAV permettent de dénir

les relations logiques entre schémas. Une autre particularité d'AutoMed est qu'il peut aussi bien

implémenter un schéma virtuel de médiation qu'un entrepôt de données.

2.9.8 XYLEME

XYLEME [Abiteboul et al., 2002b][Rousset et Reynaud, 2003] est un exemple de système

d'intégration de données semi-structurées XML. Dans son médiateur, le schéma global est un

ensemble de DTDs abstraites constituant la hiérarchie de termes qui structurent le vocabulaire

du domaine concerné par le processus d'intégration. XYLEME combine l'approche LAV et GAV,

car la correspondance entre le schéma global et les sources est exprimée par de simples

corres-pondances de chemins.

2.10 Les systèmes d'intégration dans le domaine biomédical

Dans le document Une Architecture à base d'Ontologies pour la Gestion Unifiées des Données Structurées et non Structurées (Page 58-61)