Schéma Intégrateur du PseudmonasDW - Vue Global sur le système PseudomonasDW

Chapitre 3 Utilisation d’une approche hybride pour l’intégration sémantique des données de

2 Vue Global sur le système PseudomonasDW

3.3 Schéma Intégrateur du PseudmonasDW

Comme nous avons mentionné avant, PseudomonasDW vise à intégrer un ensemble de

sources de données biologiques hétérogènes dans un seul système. Dans l’approche déclarative (Calvanese, et al., 1998), suivie dans ce travail, la structuration des données de l’entrepôt se fait grâce au schéma global. Le schéma intégrateur (global) peut intégrer les données à différents niveaux. Nous pouvons distinguer l’intégration syntaxique qui a été effectuée par les services de données et consiste à convertir l’ensemble des données des sources dans le modèle choisi pour l’entrepôt. À cette étape, le schéma global de l’entrepôt est constitué de l’union des schémas des sources. Si les sources offrent chacune des informations sur des entités différentes, cette intégration est suffisante pour n’avoir aucune redondance au niveau du schéma intégrateur.

Néanmoins, PseudomonasDW intègre des sources de données offrant des

informations chevauchantes. Une agrégation d’information a été alors requise pour identifier des objets équivalents d’un point de vue sémantique, c’est-à-dire nous avons appliqué une intégration sémantique pour supprimer toute redondance au niveau du schéma de l’entrepôt. L’intégration sémantique est fondée sur la construction d’un schéma global intégrateur et vise à convertir les données des sources en termes des données dans ce schéma global intégrateur.

« Le schéma global correspond à la description des relations entre toutes les données partagées dans le système sans aucune description de leur implémentation ou de leur stockage physique, il garantit un échange de données d’une façon compréhensible » (King, et al., 2008).

En général, la mise en œuvre d’un système intégrateur de données exige la détermination de la manière par laquelle le schéma global sera spécifié (par exemple : quel modèle de données doit être adopté et quel type de contraintes sur les données peut être exprimé). Pour PseudmonasDW, nous avons suivi l’approche GAV (Global-As View) qui

consiste à définir le schéma global en fonction des schémas locaux des sources de données (voir chapitre 2). Notre propose est d’utiliser une ontologie (PseudomonasDW Ontology) comme un schéma global de l’entrepôt. Notre ontologie a été construite par la

réconciliation de tous les différents schémas de sources en une seule ontologie cohérente (Figure 24).

108

Figure 24. Quelques conceptes de l'ontologie de domaine de PseudomonasDW

Dans le contexte du Web sémantique, l’ontologie de domaine est utilisée comme un schéma pour l’intégration de données. Le principe d’un tel schéma est de fournir une interface unique pour l’interrogation de sources de données hétérogènes. Pratiquement, une ontologie de domaine est plus générale et sémantiquement plus riche qu’un simple schéma conceptuel.

Une ontologie de domaine est une « description intentionnelle de ce qui nous connaissons autour de l’essence des entités d’un domaine particulier en utilisant des concepts et des relations entre ces concepts» (Sun and Liu, 2006). L’ontologie de domaine de PseudomonasDW organise, sous forme d’une hiérarchie, les connaissances sur notre

domaine en regroupant les entités du domaine en sous catégories suivant ses caractéristiques. Notre ontologie de domaine est principalement utilisée comme une terminologie pour la description explicite et cohérente de nos données. Elle assure l’encapsulation sémantique des sources de données en définissant la hiérarchie de concepts. Elle est considérée comme une classification de toutes les entités biologiques manipulées par l’entrepôt. L’ontologie de PseudmonasDW représente un modèle de connaissance qui

modélise des connaissances biologiques et bioinformatique dans un cadre conceptuel simple limité par des relations parent-enfant de type ‘isA’. L’enfant est une classe qui représente un sous-ensemble des éléments du parent ; chaque enfant hérite toutes les propriétés de son parent en plus des siennes spécifiques. Les concepts de l’ontologie

109

peuvent être classés en deux catégories : la catégorie des concepts biologiques et la catégorie des concepts reliés aux sources de données.

 Les concepts biologiques représentent toutes les classes qui modélisent les entités biologiques. (par exemple les classes : gene, genome, protein, enzyme…)

 Les concepts reliés aux sources de données sont représentés par des classes référant directement aux sources de données. Nous citons comme exemple le concept Source qui représente les sources biologique intégrées dans l’entrepôt et le concept Entry qui représente les entrées dans les sources de données originales. Ce type de concept a un rôle très important pour garder les traces de données dans PseudmonasDW.

Pour des informations sémantiques additionnelles, l’ontologie définie deux types de propriétés: (i) propriétés des objets (object properties) qui représentent les relations entre les individus d’une ou deux classes différentes. (ii) propriétés des types de données (datatype properties) qui relient un individu avec des types de données. L’ontologie de

PseudmonasDW contient 110 classes, 79 propriétés des types de données et 44 propriétés

des objets.

Pour mieux illustrer le rôle des propriétés dans la transmission de la sémantique au niveau de l’ontologie, nous détaillons un exemple du monde réel (Figure 25) dont les éclipses représentent les concepts, les flèches continues représentent les propriétés des objets alors que les flèches discontinues représentent les propriétés des types de données. Le gène algU code pour la protéine ‘RNA polymerase sigma-H factor’ qui est un facteur

d’initiation qui promeuve l’attachement de l’ARN polymérase à des sites d’initiation spécifiques (Martin, et al., 1993). Ce facteur sigma régule des gènes comme algD (code

pour la protéine ‘GDP-mannose 6-dehydrogenase’) qui est impliqué dans la synthèse d’alginate (Roychoudhury, et al., 1992).

 Les deux gènes algU et algD codent respectivement au régulateur ‘RNA polymerase

sigma-H factor’ et l’enzyme ‘GDP-mannose 6-dehydrogenase’.  algU régule le gène algD.

 Les gènes algU et algD codent pour des protéines ayant respectivement les mêmes

abréviations que leurs gènes.

 Le régulateur a le nom ‘Sigma-30’ comme un nom alternatif.

110

Figure 25. Représentation schématique de l'exemple traité dans cette section. Il montre quatre conceptes biologiques (éclipses) liées par des propriétés d'objet (dlèches rouges), deux relation parent-enfant (flèches bleues) et deux propriétés de données (flèches vertes).

A partir de cet exemple nous pouvons déduire :

 Quatre concepts : ‘Gene’, ‘Protein’, ‘Regulator’ et ‘Enzyme’.

 Trois propriétés d’objets : ‘codefor’ et son inverse ‘codedBy’ qui relient les deux concepts ‘Gene’ et ‘Protein’ plus la propriété ‘Regulates’ qui relie ‘Regulator’ au ‘Gene’.  Trois propriétés des types de données : ‘hasShortName’ pour les deux concepts

‘Regulator’ et ‘Enzyme’, ‘hasAlternativeName’ pour le concept ‘Regulator’ et enfin ‘hasEc’ pour le concept ‘Enzyme’.

 Les deux concepts ‘Regulator’ et ‘Enzyme’ sont considérés comme des enfants du concept ‘Protein’.

Dans PseudmonasDW, nous avons choisi OWL comme un langage d’ontologie

standard. Pour être plus précis, nous avons utilisé OWL-Lite (qui un sous langage de OWL) parce que nous avons envisagé dès le départ de développer une simple ontologie de domaine qui présente une simple hiérarchie des concepts.

Dans le document Une approche hybride pour une intégration sémantique des données biologiques de Pseudomonas (Page 110-113)