• Aucun résultat trouvé

III. LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE

3. DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN BIOINFORMATIQUE

Au contraire, dans le schéma de Columba, les redondances existent. Par exemple, on intègre dans Columba l’annotation fonctionnelle provenant de GO et celle provenant des mots clés de Swiss-Prot. Les concepteurs de Columba considèrent que les redondances ne sont pas des informations dupliquées mais plutôt des données complémentaires intéressantes puisque obtenues par différentes personnes et/ou dans différentes expériences. Il n’y a donc pas de discrimination à faire. De plus, ils estiment que les utilisateurs ont leur préférence en termes de choix des sources à interroger.

L’entrepôt de données Columba est accessible via le Web64. Des requêtes peuvent être formulées soit à l’aide de mots clés et d’opérateurs de type AND, OR et NOT, soit par le biais de formulaires permettant de guider l’utilisateur dans sa formulation. De cette manière, l’utilisateur peut affiner sa requête pas à pas et ainsi obtenir des ensembles de structures protéiques qui partagent certaines propriétés.

2.2.2.4. EnsMart

EnsMart est un entrepôt de données qui conceptuellement suit la même approche que Columba. Il intègre des données génomiques multi-espèces, provenant des banques de Ensembl (Kasprzyk et al., 2004). Le système est basé sur un schéma en étoile, où le gène est placé au centre et où il est relié à différentes dimensions qui représentent les sources de données intégrées. Ainsi, le gène est relié à sa position génomique, ses facteurs de transcription et ses données d’expression.

EnsMart est accessible via le Web65. L’utilisateur compose ses requêtes via des formulaires qui permettent de définir un ensemble de données à interroger, ainsi que des filtres à appliquer.

3. DISCUSSION SUR LES APPROCHES D’INTÉGRATION EN

Données intégréesIntégration Serrée vs LâcheMole de donnéesIntégration sémantiqueNiveau de transparenceAscendant vs DescendantVirtuel vs MatérialiséAccès aux données K2LâcheStructuré, orienté objetDonnées complémentairesAucune, choix des sourcesDescendantVirtuelRequêtes OQL TAMBISSerréeStructuré, relationnel-objet

Données majoritairement complémentairesTotaleDescendantVirtuelRequêtes CPL BACIISSerréeStructuré, relationnel-objetDonnées chevauchantesTotaleDescendantVirtuelRequêtes via formulaires Web SRSLâcheFichiers platsDonnées majoritairement complémentairesSchémaDescendantVirtuelNavigation Web BioMediatorSerréeStructuré, relationnel-objet

Données majoritairement complémentairesTotaleDescendantVirtuelRequêtes PQL BioNavigationSerréeStructuré, relationnel-objetQuelques chevauchementsTotale ou choix des sourcesDescendantVirtuelRequêtes via un graphe BioGuideSerréeStructuré, relationnel-objetQuelques chevauchementsChoix des sourcesDescendantVirtuelRequêtes via un graphe GUSSerréeStructuré, relationnelDonnées complémentairesTotaleAscendantMatérialiséRequêtes SQL via formulaires Web AtlasSerréeStructuré, relationnelDonnées chevauchantesTotale ou choix des sourcesAscendantMatérialiséRequêtes SQL via APIs ColumbaSerréeStructuré, relationnel multidimensionnel Données chevauchantesTotale ou choix des sourcesAscendantMatérialiséRequêtes SQL via formulaires Web EnsMartSerréeStructuré, relationnel miltidimensionnel

Données chevauchantesSchéma et langageAscendantMatérialiséRequêtes SQL via formulaires Web

Ap proc hes non ma ria lis ée

s s alisée matéri oches Appr

Tous types

Systèmes décrits

Points de variation Table 5 – Table récapitulative des systèmes d’intégration décrits en section III.2 et de leurs points de variation

L’approche matérialisée, ou entrepôt de données, telle que décrite en section III.2.2.1, fournit deux avantages majeurs. Premièrement, le fait de stocker les données en local dans un schéma global facilite l’optimisation et l’exécution des requêtes. De plus, les données étant disponibles localement, l’approche permet aux utilisateurs d’ajouter leurs propres annotations, permettant ainsi de modifier, de valider et/ou de nettoyer les données intégrées. Cet avantage est illustré dans l’entrepôt GUS (section III.2.2.2.1).

Cependant, même si ce second point est idéal pour les utilisateurs du système, les modifications ou validations efficaces sont très couteuses en temps et demandent un haut degré d’expertise de la part de l’utilisateur. De plus, le fait d’ajouter des annotations personnelles dans l’entrepôt complique fortement la tâche de mise à jour de l’entrepôt via les sources de données, si des données ont été modifiées ou supprimées.

Malgré ces aspects négatifs, il est important de noter que l’entrepôt de données est la seule approche permettant de lutter efficacement contre les données inconsistantes provenant de différentes sources, mais également de fournir des moyens d’analyses avancés sur de grands volumes de données. Ainsi, même si la phase d’intégration est très couteuse lors de la conception d’un entrepôt de données, ceci est largement compensé par les capacités d’analyses ultérieures.

Les approches non matérialisées de type médiation ou navigationnelle sont des approches très récentes dans le domaine de la bioinformatique. Ce sont des approches conviviales et intuitives qui, contrairement à l’approche entrepôt de données, sont plutôt dédiées à des analyses ponctuelles, sur de faibles volumes de données. Leur avantage réside dans le fait d’interroger les sources en ligne et donc de disposer de données à jour. Cependant, les temps d’exécution sont très dépendants de la disponibilité et de l’accessibilité de ces sources externes.

Parmi les approches non matérialisées, on distingue les approches fournissant une totale transparence vis-à-vis des sources interrogées, telles que TAMBIS ou BioMediator, par le biais d’ontologies définissant les entités biologiques requises dans la requête, et les approches qui permettent de sélectionner les sources à interroger et/ou les stratégies d’interrogation. Ainsi, BioNavigation propose des critères à l’utilisateur pour évaluer la satisfaction d’une requête, et BioGuide propose à l’utilisateur de paramétrer ses préférences.

Parmi les approches non matérialisées il faut souligner l’importance qu’a prise l’intégration navigationnelle, surtout depuis que des travaux sont menés pour optimiser les chemins, tels que dans BioNavigation.

La plupart des approches non matérialisées n’effectuent qu’une intégration horizontale des données en intégrant uniquement des sources de données complémentaires et rarement chevauchantes (excepté BACIIS). En se limitant à des sources ayant des informations différentes sur des entités, on limite les capacités du système d’intégration en termes de fiabilité et de complétude. En effet, le système ne peut résoudre les problèmes liés aux données absentes ou contradictoires, ni identifier les données de mauvaise qualité. De même, le système ne peut sélectionner les sources qui bénéficient de meilleurs temps de réponses aux requêtes et qui renvoient de meilleurs résultats sur les plans qualitatif et quantitatif.

IV. INTÉGRATION POUR L’ANALYSE DU