• Aucun résultat trouvé

Architecture de l’intégration des données biologiques au sein de PseudmonasDW

Chapitre 3 Utilisation d’une approche hybride pour l’intégration sémantique des données de

2 Vue Global sur le système PseudomonasDW

2.2 Architecture de l’intégration des données biologiques au sein de PseudmonasDW

D’une communauté à l’autre, l’entrepôt est une architecture dans laquelle les données sont plus ou moins structurées ainsi que plus ou moins historisées. On trouve dans la littérature(Calvanese, et al., 1998) la distinction de deux approches dans la construction d’entrepôts respectivement appelées approches procédurale et déclarative.

 Dans l’approche procédurale les données sont intégrées de façon ad- hoc sans chercher à construire un schéma intégrateur. Dans le cas où aucune structure ni aucun historique ne sont imposées aux données, on parlera plus souvent de la notion de dépôt de données (ou data repository) que d’entrepôt de données (ou data warehouse).

 Dans l’approche déclarative (Calvanese, et al., 1998) la structuration des données de l’entrepôt se fait grâce à son schéma global, ou schéma intégrateur. Le modèle dans lequel le schéma global est défini détermine le langage de requêtes utilisé pour interroger l’entrepôt.

98

Pour PseudomonasDW, nous avons choisi l’approche déclarative qui malgré sa

complexité reste majoritairement suivie. L’approche déclarative nous a motivé à réaliser notre contribution en faisant appel au système médiateur et l’architecture entrepôt pour une intégration hybride et forte au sein d’un schéma global. Ce schéma regroupe les instances provenant des diverses sources intégrées et nous a garanti un échange de données d’une façon compréhensible. Le système médiateur que nous avons utilisé, SB-KOM (System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes, 2009), est basé sur une infrastructure nommée KOMF (Chniber and Kerzazi, 2008). Le KOMF est une infrastructure générique pour enregistrer et gérer les ontologies, leurs relations et les informations reliées aux ressources. Cette infrastructure est basée sur un middleware nommé ‘SD-Core’ (Navas-Delgado and Aldana-Montes, 2009). Une description détaillée de cette infrastructure est présentée dans la section 3. KOMF a été instancié avec succès dans le contexte de la biologie moléculaire pour l’intégration des sources de données biologiques qui sont accessible via le web (Briache, et al., 2012).

Dans cette section, nous décrivons l’architecture générale du notre entrepôt de données. PseudmonasDW est composé de plusieurs composants indépendamment

implémentés et jouent des rôles différents et complémentaires dans le processus de l’intégration de données. La Figure 18 montre une représentation schématique de l’architecture du système.

La couche de sources représente la base du système et elle constitue le point d’accès aux bases des données KEGG (Kanehisa, et al., 2006), BRENDA (Chang, et al., 2009), Uniprot (Consortium, 2010), GenBank (Benson, et al., 2011) et PRODORIC (Münch, et al., 2003).

Derrière le système entrepôt de données se place toute la logistique pour établir un flux de données entre PseudmonasDW et les bases de données intégrées. Cela s’est

achevé via le processus ETL (Extract-Transform-Load) (Thomas and Stefan, 2008). Il s’agit d’une technologie informatique intergicielle (comprendre middleware) permettant d’effectuer des synchronisations massives d’information d’une base de données vers une autre. Ce processus repose sur des connecteurs servant à exporter ou importer les données dans les applications, des transformateurs qui manipulent les données, et des mises en correspondance (mappages). Notre objective de l’utilisation du processus ETL est l’intégration et la réexportation de données des sources originales dans PseudmonasDW.

Dans le système PseudmonasDW, les bases de données publiques sont

uniformément accédées et interrogées par le médiateur SB-KOM (System Biology Khaos Ontology-based Mediator) (Navas-Delgado and Aldana-Montes, 2009). Le médiateur offre des interfaces d’adaptateurs pour les sources de données et aussi transforme les données dans un modèle de données commun utilisé par SB-KOM. Le système PseudmonasDW

est constitué d’un ensemble des services de données (un service de données pour chaque source de données) qui encapsulent la fonctionnalité des adaptateurs. Ces derniers

99

occupent une partie très importante dans les éléments internes des services de données. Un adaptateur reçoit une requêtes XQuery à partir du SB-KOM, la transforme en une requête appropriée à la source de données qui le convient, performe tous les traitements supplémentaires et retourne un document XML au médiateur. Le rôle du service de données est de permettre à l’administrateur de PseudmonasDW d’utiliser les

fonctionnalités des adaptateurs pour interroger et extraire les informations sollicitées à partir des sources de données via leurs pages web ou le mécanisme FTP.

Le SB-KOM utilise les ontologies comme des schémas intégrateurs dans le but de performer la réécriture des requêtes et par conséquence l’activation de la fonctionnalité de l’étape de transformation. Autrement dit, les réponses des requêtes XQuery – matérialisées au niveau des documents XML - sont envoyées à SB-KOM qui les transforme et les combine en une instance du schéma intégrateur (ou schéma global). Les résultats finaux obtenus sont donc chargés au niveau de l’entrepôt de données et fournis aux utilisateurs au format HTML.

Dans ce contexte, le processus ETL (Extract-Transform-Load) s’initialise par

l’intervention de l’administrateur du PseudmonasDW. Ce dernier choisit l’information

qu’il souhaite extraire puis sélectionne l’espèce à stocker dans l’entrepôt de données. Ensuite, le système extrait automatiquement toutes les données souhaitées par le biais des services web. Finalement, le système transforme les données extraites en un format commun en utilisant les différents composants de SB-KOM. Notre proposition est d’utiliser une ontologie pour l’intégration de données, où chaque source de données est reliée avec le schéma global par des règles de correspondances définies (mappings).

Le stockage de données dans PseudmonasDW se fait d’une manière intergicielle

en utilisant quelques bibliothèques de Java (Exemple : Jena75 et Java DOM76). Nous avons

aussi utilisés eXist77 qui nous a permis de stocker automatiquement nos données dans un

entrepôt de données XML natif. Une description détaillée de différents composants du système est cité dans la section suivante.

75 http://jena.apache.org/

76 http://docs.oracle.com/javase/1.4.2/docs/api/org/w3c/dom/package-summary.html 77

100

101

3 DIFFERENTS MODULE D’INTEGRATION AU SEIN DE

L’ENTREPOT DE DONNEES PSEUDOMONASDW

Comme nous avons déjà mentionné dans les paragraphes précédents, nos objectifs dans cette thèse sont (i) l’inclusion de données génomiques de haut débit (ii) l’intégration de plusieurs sources de données en utilisant une approche hybride permettant l’utilisation d’un système médiateur pour une intégration sémantique au sein d’un entrepôt de données. (iii) le maintien de données de PseudmonasDW à jours avec celles des bases de données

d’origine.

En générale, l’intégration de données dans PseudomonasDW a été effectuée selon

deux niveaux : le premier niveau est l’intégration syntaxique qui consiste à extraire les données de sources originales et les transformer en un modèle uniforme (XML) utilisé par SB-KOM. Nous avons choisi XML –autrement dit XML, XML schema et XQuery- comme un modèle de données commun. Le deuxième niveau d’intégration est appelé intégration sémantique qui consiste à convertir les données extraites en terme du schéma global du

PseudomonasDW en créant des règles de correspondance entre chaque schéma de source

et celui de l’entrepôt. PseudomonasDW a un ensemble de modules qui dépend fortement

à des technologies de XML et de web sémantique. Dans ce qui suit, nous donnons une description détaillée sur les différents composants de PseudomonasDW.