• Aucun résultat trouvé

Chapitre 4 : Présentation de l’approche HAV pour l’intégration de sources de données

2. Mapping

1. Introduction

Les entrepôts de données et les systèmes de médiation sont aujourd’hui très développés et connus. Cependant, leur mise en œuvre pose un certain nombre de problèmes, en particulier l’intégration de données, le mapping et la génération de requêtes en fonction du contenu des sources et des besoins des utilisateurs. Ce problème est d’autant plus crucial lorsque les sources sont nombreuses et hétérogènes.

L'une des caractéristiques pour la classification des approches à l'intégration de l'information, est de savoir si les données sont matérialisées dans un entrepôt, ou si elles sont conservées dans les sources, dans ce cas, l'approche est appelée virtuelle. Dans ce chapitre, nous présentons une approche virtuelle de l'intégration de données hétérogènes qui peut être utilisée aussi bien pour la construction du schéma global des systèmes de médiation que pour celui des entrepôts qui prennent avantage de l'approche virtuelle de l'intégration pour matérialiser leurs données.

« ‘’e

L’approche proposée dans la présente thèse est une alternative d’intégration qui se propose d’améliorer l’intégration de sources de données hétérogènes en combinant les deux approches de base : GAV et LAV. Son objectif principal est de soutenir et d'améliorer la conception du schéma global sur lequel seront matérialisées les données de l'entrepôt et de faciliter l’interrogation des sources.

Dans ce chapitre, nous présentons notre proposition pour l’intégration de sources de données hétérogènes dans les entrepôts de données. Cette proposition consiste en une approche hybride d’intégration nommée HAV. Nous introduirons les deux approches d’intégration de base pour ensuite montrer comment nous les combinons pour obtenir notre approche HAV. Cette présentation sera suivie par la description de l’architecture qui supportera cette approche et enfin, un cadre formel sera défini pour HAV.

2. Mapping

Il est rapidement apparu que l'un des principaux goulets d'étranglement dans la mise en place d'une application d'intégration de données est l'effort nécessaire pour créer les descriptions de sources, et plus spécifiquement, l’écriture des correspondances sémantiques entre les sources et le schéma de médiation. Les données des sources et de l’entrepôt peuvent être définies en utilisant les approches Local-As-View (LAV) ou l’approche Global As View (GAV). Nous avons présenté dans la première partie de cette thèse ces approches qui sont utilisées dans le monde des systèmes d’intégration tels que les systèmes de médiation et les entrepôts en fournissant une description générale de ces systèmes. Dans cette section, nous présentons plus en détail ces méthodes de base pour mieux saisir leurs avantages et leurs inconvénients et justifier ainsi leur combinaison dans notre approche.

Chapitre 4 : Présentation de l’approche HAV...

2.1 Global-as-View (GAV)

L’approche GAV a été la première à être proposée pour intégrer des informations. Elle consiste à définir le schéma global en fonction des schémas des sources de données à intégrer puis à le connecter aux différentes sources comme nous pouvons le voir sur la figure 4.1

Pour cela, les prédicats du schéma global, aussi appelés relations globales, sont définis comme des vues sur les prédicats des schémas des sources à intégrer.

S Schéma global C ccc s Correspondance entre schémas Schémas locaux S1 S2

Figure 4.1 : Exemple de définition du schéma global dans GAV

Comme les requêtes d’un utilisateur s’expriment en termes des prédicats du schéma global, nous obtenons facilement une requête en termes des schémas des sources de données intégrées, en remplaçant les prédicats du schéma global par leur définition.

Comme le montre la figure 4.2, un schéma global G (A1, X.A2, B1, Y.A2) est généré en unissant des schémas de sources de X et Y. Toutes les entités à partir des schémas source ont des noms correspondants dans le schéma global, même certains d'entre eux partagent le même sens, comme X.A2 et Y.A2). Cependant, elles mènent aussi à une difficulté dans la mise à jour du schéma

Disque (marque, capacité)

Create view Disque (marque, capacité) as Select fournisseur capacité

From S1.DisqueDur Union

Select supplier, capacity*1024 From S2.HardDisk

DisqueDur

(situation, fournisseur, prix, capacité, cache)

HardDisk

(situation, supplier,

Chapitre 4 : Présentation de l’approche HAV...

global en raison de la dépendance entre le schéma global et les sources locales. Par exemple, si le schéma global a été mis à jour (ajout ou suppression de nouvelles entités), tous les nœuds locaux ont à mettre à jour leurs vues locales sur le nouveau schéma global. D'autre part, le fait d’ajouter ou supprimer des sources peut entraîner des changements considérables pour le schéma global. Comme le montre la figure 1.2, si une nouvelle source Z a été ajoutée au système, en conséquence le schéma global doit être mis à jour dans G '(A1, X.A2, B1, Y.A2, Z.A1, C2).

G est changé en G’ Vue globale Sources locales Nouvelle source

4.2: Exemple d’ajout d’une nouvelle source dans GAV 2.2 Local-as-View (LAV)

Contrairement à l’approche GAV, LAV suppose l’existence d’un schéma global et consiste à définir les schémas des sources de données à intégrer comme des vues du schéma global. Ces vues définissent comment les informations mappent sur le schéma global en exprimant un mapping entre une relation dans le schéma local en une (un ensemble de) relation(s) dans le schéma global [Pottinger et al 2000], un exemple de LAV est illustré dans la figure 4.3. Le principal avantage de l'approche LAV sur l'approche GAV est qu'il n'y a pas de dépendance sur le schéma global. Dans LAV, chaque schéma de source est mappé sur le schéma global.

G’(X.A1, X.A2, B1, Y.A2, Z.A1, C2)

G (A1, X.A2, B1, Y.A2, )

Chapitre 4 : Présentation de l’approche HAV... Schéma global C Correspondance E entre schémas Schémas locaux S1 S2

Figure 4.3 : Exemple de définition du schéma global dans LAV

L’ajout de nouvelles sources nécessite seulement les définitions des mappings nécessaires entre le schéma de la source et le schéma global comme le montre la figure 4.4. Toutefois, dans cette approche la réponse aux requêtes devient plus difficile parce que la reformulation de la requête est difficile à réaliser.

Vue globale Sources locales Nouvelle source G n’est pas changé

Figure 4.4 : Exemple d’ajout d’une nouvelle source dans LAV G(A1, A2, B1, B2, C2)

X (A1, A2) Y (B1, A2) Z (A1, C2) Disque (marque, capacité)

Create view

S1( fournisseur, capacité) As

Select marquee, capacité From SG.Disque

DisqueDur

(situation, fournisseur, prix, capacité, cache)

HardDisk

(situation, supplier,

price, tax, capacity) Create view

S2( supplier, capacity) As

Select marquee, capacité/1000 From SG.Disque

Chapitre 4 : Présentation de l’approche HAV...

Avant de présenter l‘approche que nous proposons HAV, dressons un bilan de ces deux approches.

2.3 Bilan sur les approches GAV et LAV

Les deux problématiques soulevées dans GAV et LAV sont : la réécriture des requêtes (réécriture des requêtes utilisateurs sur les sources et construction de la réponse) et la scalabilité du système d’intégration (ajout ou suppression de sources de données) [Xuan 2006]. L’approche GAV facilite la réécriture des requêtes mais l’approche LAV est plus intéressante pour assurer la scalabilité du système d’intégration.

En effet, une requête utilisateur s’exprime en termes des relations du schéma global, sa réécriture en fonction des schémas des sources, dans une approche GAV, nécessite un simple dépliement des relations utilisées dans la requête, par leurs définitions locales. Cette réécriture, dans une approche LAV, devient un problème complexe nécessitant des inférences. D’autre part, l’ajout d’une nouvelle source de données, pouvant nécessiter une mise à jour du schéma global et du mapping entre le schéma global et les schémas des sources dans une approche GAV, est facilité dans une approche LAV. Seules les vues des nouvelles sources doivent être rajoutées (sous réserve que le schéma global ait été bien défini initialement).

Documents relatifs