• Aucun résultat trouvé

Panorama des entrepôts de données existants en Bioinformatique

Chapitre 2 Approches d’intégration de données en bioinformatique

3 approches d’intégration en bioinformatique

3.2 Approche matérialisée (Entrepôt de données)

3.2.6 Panorama des entrepôts de données existants en Bioinformatique

A) GUS

L’entrepôt GUS (Genomics Unified Schema) (Davidson, et al., 2001) est le premier grand entrepôt de données biologiques, et il est encore à l’heure actuelle le plus important. GUS est une plate-forme générique de gestion de données sur les organismes modèles ou sur les maladies. GUS intègre des données très diverses, depuis les données génomiques aux protéomiques en passant par les données transcriptomiques. Il offre en outre un support pour l’annotation semi-automatique, le nettoyage des données, la fouille de données et

83

l’analyse de requêtes complexes. GUS a un schéma générique. Il est en effet utilisé pour stocker des données diverses : du génome complet « Plasmodb65 » (Collaborative,

2001) aux données biomédicales liées au pancréas « EPConDB66 » (Mazzarelli, et al.,

2007) .

Le schéma de GUS comporte plus de 180 tables divisées en 5 domaines distincts (provenance des données, ontologies utilisées pour annoter les données, séquences et annotations, données d’expression, données de régulation des gènes). GUS intègre de nombreuses sources, notamment GenBank, UniProt, Prodom, InterPro, GO, dbEST et dbSNP67. Le schéma de GUS est constitué de l’union des schémas des sources mais il

possède aussi un ensemble de tables fortement intégrées où les données sont le résultat d’une série d’algorithmes qui permettent l’unification des instances. Une sous-partie des données de GUS est donc intégrée au niveau sémantique. C’est là la particularité de GUS : chaque utilisateur peut définir des traitements sur les données de l’entrepôt et choisir de regrouper les entrées de son choix, il contribue ainsi un peu plus à l’intégration verticale.

B) GEDAW

Gene Expression DAta Warehouse (Guérin, et al., 2005) est un entrepôt de données développé au sein de l’équipe bioinformatique de l’INSERM U522 (Régulations des équilibres fonctionnels du foie normal et pathologique) en collaboration avec l’IRISA de Rennes. Il est spécialisé dans les données du transcriptome hépatique et dédié à l’analyse des données générées par son étude. Ces données sont de natures et d’origines variées, dont une bonne partie se trouve disséminée dans des sources biomédicales sur le Web très disparates (au niveau des contenus et des structures), qu’il faut intégrer. La finalité de GEDAW est de fournir une aide à la décision permettant d’orienter les recherches biologiques. La fouille précise des données expérimentales enrichies par les données intégrées est destinée à émettre des hypothèses qui vont ainsi guider la recherche sur le foie. GEDAW utilise des techniques d’intégration à partir de sources de données structurées ou semi-structurées uniquement (GenBank au format XML, GeneOntology, UMLS, et le Transcriptome au format relationnel). GEDAW propose des règles de correspondance pour regrouper plusieurs fiches de GenBank qui décrivent une même instance biologique, en l’occurrence un même gène. Ces règles de correspondance peuvent être définies en utilisant des alignements de séquences (si un BLAST entre deux séquences renvoie un fort score de similarité alors les deux séquences sont relatives au même gène), ou encore en utilisant l’inclusion de séquences (la séquence contenue dans une fiche est incluse dans celle contenue dans une autre). Par son expertise, le chercheur biologiste peut lui aussi émettre des règles de nettoyage des données.

65 http://plasmodb.org/plasmo/

66 http://www.cbil.upenn.edu/epcondb42/ 67

84

Dans GEDAW, l’intégration se fait donc au niveau des schémas, essentiellement les schémas de GenBank (définis par des DTDs), mais surtout au niveau des instances elles- mêmes avec une intégration horizontale et verticale. Dans le premier cas, des techniques de détection des analogies structurelles et des correspondances ont été mises en place afin de transformer les structures des sources vers une forme canonique (le schéma global). Dans le second cas, la réconciliation des données se fait par regroupement d’entrées pour identifier les instances. Cette identification se fait donc à l’aide de l’expression de critères pour faire correspondre les entrées et éliminer les redondances et les divergences des informations.

C) BioWarehouse

BioWarehouse (Lee, et al., 2006) a été conçu et développé comme un système de construction et de gestion d’entrepôts de données, afin de permettre l’interopérabilité de bases de données bioinformatiques disparates. Les sources définies à la conception de BioWarehouse sont : BioCyc68, CMR69, GenBank, KEGG et Uniprot.

L’extraction des données s’effectue selon la lecture des bases définies et le chargement de données est fait dans la base de BioWareHouse selon le schéma global de l’entrepôt (conversion des sources en un schéma relationnel et selon la sémantique de BioWarehouse). Chaque module de chargement (loader) est spécifique à la source correspondante, ces modules sont implémentés généralement en C ou en Java. Le chargement des données dans la base s’effectue sans traitement autre que le respect de la sémantique et du schéma global.

Le schéma d’intégration de BioWarehouse est défini de façon globale dans un fichier XML en deux parties. La première partie, appelée «CORE» définit l’ensemble des données, la seconde partie appelée «MAGE» est une extension pour gérer les annotations d’expressions géniques. Les tables du schéma relationnel sont définies à partir de schémas fréquemment rencontrés en biologie avec une unification des termes utilisés (utilisation d’ontologies) : ceci permet une intégration de données de sources diverses chargées à partir de différents modules.

L’implémentation de BioWarehouse a été prévue pour être utilisée selon un schéma relationnel et pouvant être utilisé avec des bases relationnelles libres comme MySQL ou commerciales comme ORACLE.

68 http://biocyc.org/ 69

85 D) GenMapper

GenMapper70 (Genetic Mapper) (Do and Rahm, 2004) intègre des données génomiques,

biologiques et médicales provenant de 60 sources de données dont Entrez Gene, Unigene, UniProt, GO, InterPro, KEGG et OMIM.

L’une des caractéristiques de GenMapper est d’être basé non pas sur un schéma global (de type étoile ou flocon), mais sur un schéma générique, appelé GAM (Generic Annotation Management). Ce schéma permet une représentation uniforme de toutes les données intégrées dans l’entrepôt. En effet, le schéma repose sur deux classes principales que sont ‘Source’ et ‘Objet’, ce qui permet de représenter dans GAM chaque source comme associée à un ensemble d’objets (ou données contenues dans la source). Ainsi, le système est particulièrement bien adapté à l’ajout de nouvelles sources de données. Le réseau de cross-références existant entre les sources de données est exploité et contenu dans le schéma GAM.

GenMapper propose une interface conviviale de conception de requête, où l’utilisateur choisit son ou ses objets à analyser (par exemple, un ensemble de protéines). Il choisit ensuite les informations qu’il souhaite obtenir sur les objets de départ. Une vue sur GAM est générée et fournit à l’utilisateur une vision des données associées à ses objets de départ.

GenMapper n’intègre pas de données d’expression mais par ses capacités d’enrichissement de données, il est largement utilisé pour l’annotation et la recherche d’informations sur des groupes de gènes différentiellement exprimés.

E) GEWARE

GeWare71 (Gene Expression Warehouse) (Kirsten, et al., 2004) est un entrepôt de données

qui intègre des données d’expression issues des puces à ADN Affymetrix, des informations sur les expériences et des données sur les gènes étudiés. Il supporte différents types d’analyses telles que le traitement des données d’expression, la visualisation de données, la création de groupes de gènes et l’analyse de ces groupes, des analyses OLAP.

Il est basé sur un modèle multidimensionnel relationnel où la table centrale de faits correspond aux données d’expression et où les dimensions correspondent aux annotations et aux traitements pouvant être effectués dans l’entrepôt. Les dimensions sont organisées en hiérarchies, les analyses OLAP permettent ainsi d’effectuer des opérations de drill- down* et de roll-up*, pour accéder à différents niveaux d’annotations.

GeWare fournit une interface Web servant pour l’intégration des données et les analyses. Le modèle générique GAM, décrit précédemment dans le système GenMapper,

70 http://ducati.izbi.uni-leipzig.de:8080/GenMapper/servlet/gui.MainFrame 71

86

est utilisé pour capturer les annotations sur les gènes étudiés dans GeWare, les données sont ensuite transférées de GAM à la dimension concernée de GeWare.