• Aucun résultat trouvé

Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp

1 Résumé des contributions

Conscients du fait que les sources biologiques aujourd’hui ouvertes sur le Web ne fournissent pas encore les métadonnées, ou ne garantissent pas les droits nécessaires à leur exploitation de façon aisée par le biais de procédures (semi-automatisées), nos travaux se sont concentrés sur la résolution d’une classe de problèmes d’intégration qui se rencontrent

169

principalement à l’échelle individuelle : l’objectif visé étant d’automatiser autant que possible les phases d’interrogation des sources de données biologiques hétérogènes, divers et reparties sur le web et de réconciliation des résultats partiels. Les contributions de nos travaux concernent plusieurs points :

Adaptation d’une approche hybride pour l’intégration sématique des données biologiques de Pseudomonas Sp

La quantité des données issues de l’étude biotechnologique de l’espèce de Pseudomonas requérant un accès à une grande diversité de données réparties dans de multiples sources de données. Nous avons donc opté pour le développement d’un entrepôt de données et ainsi proposé des solutions pour une intégration systématique et réconciliée de données hétérogènes.

PseudmonasDW est un entrepôt de données semi-structuré pour stocker, gérer, et intégrer les informations biologiques collectées de sources de données via le Web. PseudmonasDW se focalise sur l’intégration de données de pseudomonas sp.

Pour la conception du système PseudmonasDW, nous avons utilisé le processus d’intégration qualifié d’ascendant (ou bottom-up) où nous sommes partis du besoin de représenter au sein d’un même schéma les données souhaitées, pour ensuite choisir les sources de données ainsi que le processus d’intégration appropriés. PseudomonasDW intègre des données génomiques, protéiques, enzymatiques et métaboliques à partir de cinq sources de données divers et réparties sur le web : Genbank, PRODORIC, Uniprot, BRENDA et KEGG.

Ainsi, pour l’intégration les données, nous avons combiné les deux approches matérialisé et virtuelle pour exploiter leurs avantages dans un nouveau environnement hybride. Dont nous avons utilisé les services de données pour extraire et transformer les données collectées à partir des sources de données. Les adaptateurs forment une partie importante dans les services de données qui fournissent des moyens pour interroger et corréler les différents types d’informations intégrés. Les services de données initialisent le processus d’ETL, dont les adaptateurs sont considérés comme une interface qui reçue des requêtes XQuery, interroge les sources de données, extraite les données souhaités et les transforme en un modèle commun utilisé par le SB-KOM. La sémantique de nos services de données inclut des informations sur le schéma de la source et la provenance de données. Contrairement à l’entrepôt de données GEDAW, cité dans la partie introductive de ce manuscrit, garder la traçabilité et la provenance de données est nécessaire, dans le domaine de la bioinformatique, dont il est très important de savoir quelle source de données a été utilisée dans l’extraction d’une telle donnée. Nous avons développé cinq services de données : un service pour une source de données.

PseudomonasDW intègre des sources de données offrant des informations chevauchantes. Une agrégation d’information a été alors requise pour identifier des objets

170

équivalents d’un point de vue sémantique. Nous avons appliqué une intégration sémantique pour supprimer toute redondance au niveau du schéma de l’entrepôt. L’intégration sémantique dans PseudomonasDW est fondée sur la construction d’un schéma global intégrateur et vise à convertir les données des sources en termes des données dans ce schéma global intégrateur.

Dans PseudmonasDW, nous avons suivi l’approche GAV (Global-As View) qui consiste à définir le schéma global en fonction des schémas locaux des sources de données. Notre propose était l’utilisation d’une ontologie (PseudomonasDW Ontology) comme un schéma global de l’entrepôt. Notre ontologie a été construite par la réconciliation de tous les différents schémas de sources en une seule ontologie cohérente.

L’ajout d’une source de données exige une modification profonde du schéma global de PseudomonasDW. Contrairement aux entrepôts de données GenMapper et GeWare, cités dans la partie introductive de ce manuscrit, qui sont adaptés à l’ajout de nouvelle sources de données par l’utilisation du modèle générique GAM. Ce modèle modélise les sources de données plutôt que leur contenu. La modification de schéma global au niveau de GenMapper et GeWareest considérée comme une extension du schéma plutôt qu’une modification profonde.

Les différents composants du SB-KOM (contrôleur, planificateur de requête et l’évaluateur/intégrateur) participent dans le processus ETL dans PSeudomonasDW. Le médiateur est basé sur le répertoire sémantique SD-Core dans lequel nous avons enregistré notre ontologie, les schémas des sources et nos règles de correspondances. Le SD-Core a joué le rôle du middleware entre PseudomonasDW et le SB-KOM.

Les instances de notre schéma intégrateur servent d’étape de transformation préalable au peuplement de PseudomonasDW. L’utilisation de l’ontologie et des instances permet l’inclusion de raisonnement aux différents niveaux. Les différentes instances retournées par le SB-KOM sont chargées dans PseudmonasDW après une translation automatique en XML par le biais de quelques bibliothèques du Java. L’utilisation d’un système médiateur pour une intégration sémantique de données dans un entrepôt de données nous a permis d’exploiter leurs avantages dans une nouvelle approche. D’une part, les données sont physiquement stockées dans l’entrepôt pour être prêtes à une interrogation directe et rapide. Et d’autre part, l’intégration et la mise à jour des données sont virtuellement achevées en utilisant le médiateur.

Les bases de données UniProt et GenBank créent des listes de diffusion. Ces listes sont destinées à la distribution des messages qui annoncent les mises à jour effectuées au niveau de ces deux bases de données. L’abonnement à ces listes nous a permis de recevoir les dernières modifications et de garder une trace des mises à jour des entrées individuelles. Les sources de données PRODORIC, BRENDA et KEGG sont périodiquement mis à jour et fournissent des archives complètes qui contiennent uniquement les entrées

171

actualisées. Ces archives nous ont permis de spécifier quelles entrées intégrées dans PseudomonasDW ont été mis à jour. Lorsque le système est informé par les entrées modifiées, la mise à jour des données est pratiquement intégrée à l'aide du SB-KOM.

Nous avons développé un module Java qui génère des requêtes conjonctives et les envoie au système SB-KOM pour performer les processus d’extraction et de transformation. SB-KOM fait appel aux services de Web que nous avons développé pour extraire uniquement les données modifiées à partir des entrées originales. Par la suite, il est possible de lancer automatiquement le processus d'intégration pour mettre à jour l'entrepôt de données en remplaçant seulement les données obsolètes par elles actualisées.

Dans PseudomonasDW, le système est une plate-indépendant et n’exige aucune installation local. Il est disponible pour l’utilisateur via une interface Web contrairement à certains entrepôts exemple de BioWarehouse qui est un système linux-dépendant et exige une installation locale. Cela rendre l’utilisation de ce type de système une tâche fastidieuse surtout pour les biologistes qui ne maîtrisent pas l’outil informatique et particulièrement la plateforme Linux.

Avec PseudmonasDW, nous aimerions fournir aux biologistes un outil accessible pour élucider les processus cellulaire d’intérêt en utilisant une stratégie de système intégré.

Développement d’une plateforme Biologique pour les Pseudomonas

Pour le développement des bases de données de PseudomonasDW, nous nous sommes basés sur les approches qui abordent la problématique de l'entreposage de documents XML. Nous avons perçu un entrepôt XML comme une collection de documents XML qui contiennent les données extraites. Nous avons utilisé eXist pour stocker nos documents XML dans des bases de données natives. eXist, nous a permis de charger automatiquement (en utilisant les différentes ses différentes options) les documents XML dans 33 collections : une collection pour chaque espèce entreposé dans PseudomonasDW.

Dans le but de faciliter et d’accélérer le processus d’interrogation des bases de données de PseudomonasDW, nous avons développé des indexes qui sont créés et maintenus automatiquement dans eXist. Nous avons suivis la nouvelle procédure d’indexation basée sur les noms des éléments. Cela nous a permis de retrouver facilement tous les éléments d’un certain nom quelle que soit leur imbrication.

Les bases de données de PseudomonasDW sont publiquement accessibles via une interface Web disponible sur le lien http://www.pseudomonasdw.khaos.uma.es . C’est une application web que nous avons développé en utilisant principalement quelques technologies du Web et de Java (JSP, Java, Servlet API, XHTML, CSS, XSLT, JavaScript, JQuery). L’application Web est implémentée sur le serveur Web Apache 2.0.

172

L’interface utilisateur de PseudomonasDW incorpore des outils bioinformatiques pour permettre aux utilisateurs d’analyser et comparer les données stockées. Nous avons incorporé l’outil GBrowse qui permet la navigation dans les génomes et leur visualisation, il affiche une représentation graphique d'une section d'un génome, ainsi que les positions des gènes en plus d'autres éléments fonctionnels. Nous avons intégré aussi l’outil Blast qui est un programme permettant de réaliser des alignements et des comparaisons locaux entre deux séquences (nucléiques ou protéiques).

PseudomonasDW contient 170000 entrés et fournit des informations sur un ensemble très vaste d'espèces de Pseudomonas. Actuellement, 33 espèces sont intégrés où 10 d'entre eux ne s’affichent pas dans la base de données « Pseudomonas Genome database ». Ces espèces sont: pseudomonas aeruginosa M18, Pseuomonas aeruginosa NCGM2.S1, Pseuomonas aeruginosa 152504, Pseuomonas aeruginosa 138244, Pseudomonas putida BIRD-1, Pseudomonas putida S16, Pseuomonas stutzeri ATCC 17588, Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis.

La base de données « Pseudomonas Genome database » ne donne aucune information sur les enzymes associées à la protéine. En outre, des informations sur les voies métaboliques où le produit du gène est impliqué sont limitées aux noms de ces voies et quelques liens vers la base de données KEGG. L'entrée de PseudomonasDW liste des sections spécifiques pour les enzymes et les voies métaboliques.

Le fait d'étendre PseudomonasDW par un wiki biologique (PDWiki), ce qui n'est

pas le cas dans la base de données « Pseudomonas Genome database », est de donner à la plate-forme la possibilité de migrer à partir d'un ensemble de bases de données biologiques classiques vers un très riche référentiel de connaissances pour les Pseudomonas où les données biologiques sont enrichies par la communauté d’annotations. Ceci permet aux utilisateurs de PseudomonasDW de collaborer entre eux en éditant et en ajoutant

davantage des données pour la plate-forme et d'intégrer les connaissances spécialisées de nombreux groupes de chercheurs appartenant à des disciplines biologiques différentes.