• Aucun résultat trouvé

Partie I Etat de l'Art

Chapitre 2 Intégration de données 31

2.10 Les systèmes d'intégration dans le domaine biomédical

plusieurs appareils de mesures font que des travaux sur l'intégration sont de plus en plus

ap-pliqués au domaine biomédical. Par exemple, pour étudier un phénomène donné, les biologistes

sont obligés de tenir compte des aspects physiologique, génétique, anatomique, biochimique, etc.

2.10. Les systèmes d'intégration dans le domaine biomédical

Tandis que les médecins, pour établir un diagnostic donné ou la corrélation entre certains

phéno-mènes, doivent prendre en compte les aspects anatomique, fonctionnel, etc. Plusieurs travaux ont

été menés dans le domaine de l'intégration de données biomédicales. Karp [Karp, 1996] fournit

une taxonomie des approches utilisées.

Nous présentons ici des travaux contemporains dans le domaine.

2.10.1 Sequence Retrieval System

Sequence Retrieval System (SRS) [Zdobnov et al., 2002] est plus proche d'un système de

recherche basé sur les mots-clés que d'un système intégré. Son approche d'intégration consiste

à analyser des chiers plats ou des banques de données qui contiennent des chiers textes de

structurés avec les noms de champs. Il crée et stocke un index pour chaque champ et utilise ces

index locaux au moment de l'interrogation pour retrouver les entrées pertinentes. SRS possède

son propre analyseur de chiers plats appelé ICARUS (Interpreter of Commands And Recursive

Syntax). L'utilisation de ICARUS permet à SRS de détecter la présence de liens et d'indexer

tous les enregistrements en utilisant une technique d'indexation basée sur les mots-clés. SRS

ore la possibilité de garder les références croisées entre sources. Si une source A fait reférence à

une source B, alors la reférence de B vers A est aussi considérée. De même, des références entre

sources peuvent être générées par transitivité.

2.10.2 TAMBIS

TAMBIS (Transparent Access to Multiple Bioinformatics Information Sources) est un système

de médiation basé sur une ontologie [Stevens et al., 2000]. Les requêtes dans TAMBIS sont

formulées à travers une interface graphique où l'utilisateur navigue à travers les concepts dénis

au niveau du schéma global et choisit ceux qui l'intéressent pour la requête courante. Le système

utilise la logique de description GRAIL [Rector et Bechhofer, 1997], qui est aussi utilisée pour

exprimer des requêtes sur le système. Toute requête exprimée en GRAIL est traduite en QIF

(Query Internal Format), puis dans un plan d'exécution dépendant des sources.

2.10.3 DiscoveryLink

DiscoveryLink, développé chez IBM, est un système d'intégration de sources basé sur les

adaptateurs [Haas et al., 2001]. Il sert d'intermédiaire aux applications qui ont besoin

d'accé-der à plusieur sources biomédicales. DiscoveryLink consiste en fait en une couche d'intégration

contruite sur le projet Garlic. Il sert de middleware entre les applications et un ensemble

d'adap-tateurs. Les applications soumettent des requêtes SQL à DiscoveryLink sans se soucier de la

nature des sources. Garlic est un système fédéré de traitement de requêtes qui communique

avec plusieurs adaptateurs dédiés pour déterminer le plan optimal d'exécution d'une requête et

l'exécuter [Roth et al., 1996]. DiscoveryLink est basé sur un modèle orienté-objet.

2.10.4 Knowledge-based Integration of Neuroscience Data : KIND

KIND [Gupta et al., 2000] est un système d'intégration de sources de données dans le domaine

des neurosciences. Il étend l'approche conventionnelle médiateur/adaptateurs avec l'utilisation

de plusieurs bases de connaissances qui fournissent le lien sémantique entre les sources à travers

des faits et règles sur le domaine d'application. KIND est basé sur le langage F-logic [Kifer et al.,

1995]. Notons que le système n'intègre que des sources structurées.

2.10.5 ONTOFUSION

Ontofusion [P ?rez-Rey et al., 2006] est un système d'intégration de données biomédicales

(structurées) basé sur les ontologies. L'intégration s'eectue au travers de deux processus : un

processus de mapping et un processus d'unication. Dans le processus de mapping, le schéma

physique de chaque base de données est relié à un schéma qualié de "schéma virtuel". Un

schéma virtuel est déni dans ce système comme étant l'ensemble des ontologies qui représentent,

à un niveau conceptuel, la structure des informations contenues dans une source donnée. Durant

le processus d'unication, plusieurs schémas virtuels correspondant aux diérentes bases sont

regroupés au sein d'un schéma virtuel unique. Le système distingue trois types de sources : i) les

bases de données dites publiques (e.g., SwissProt24) ; ii) les bases de données privées qui ont un

schéma physique accessible et connu iii) et enn les bases de données stockant des vocabulaires

biomédicaux. Cette dernière catégorie sert à stocker des ontologies ou vocabulaires biomédicaux

comme UMLS [Bodenreider, 2004], et la Gene Ontology [Consortium, 2001]. Ce stockage local des

vocabulaires peut poser la question de leur mise à jour lorsque leur source primaire est modiée.

2.10.6 Neurobase

Neurobase [Barillot et al., 2003] est un projet commun entre plusieurs laboratoires français

(2003-2005), dédié à la gestion de données et de connaissances réparties en neuroimagerie. Son

objectif initial était de spécier un modèle de reférence pour le partage de données hétérogènes

et distribuées en imagerie cérébrale. Neurobase implémente un système fédéré suivant l'approche

méditaur/adaptateurs utilisant un reférentiel sémantique commun (une ontologie médicale dénie

pour les besoins du projet). Il est basé sur le médiateur Le Select25, qui permet de partager des

données et des programmes hétérogènes et distribuées à travers un langage de requêtes de haut

niveau.

2.11 Conclusion

Dans ce chapitre, nous avons fait une rapide présentation des travaux concernant

l'intégra-tion de données hétérogènes. Après avoir décrit les deux grandes approches utilisées pour la

gestion uniée, nous avons décrit les diérents types de conits à résoudre lors de l'intégration

de systèmes hétérogènes. L'aspect modélisation des données, c'est à dire comment intégrer les

diérents schémas des sources, et leur interrogation, c'est à dire comment répondre ecacement

aux requêtes posées sur le schéma global, ont été abondamment abordés dans la littérature

[Ha-levy, 2001][Goasdoué et al., 2000]. Nous avons décrit les approches utilisées pour établir des

correspondances entre diérents schémas. Les systèmes que nous avons décrits ne s'occupent pas

de l'étape de prétraitement des sources à intégrer.

Pour l'établissement des correspondances entre schémas, la plupart des systèmes sont basés

sur une analyse manuelle du schéma eectuée par un expert, soit du domaine, soit d'intégration,

même si des approches semi-automatiques de mise en correspondance sont parfois proposées,

avec notamment l'utilisation de techniques issues de l'intelligence artielle. Apporter une certaine

automatisation dans le processus de prise en compte des sources peut permettre une économie

de temps et de coût.

24

http ://www.ebi.ac.uk/swissprot/

2.11. Conclusion

2.11.1 Le rôle de l'intelligence articielle (IA)

La communauté IA est une communauté assez active dans le domaine de l'intégration de

données. Son rôle peut se situer à trois niveaux : les logiques de description, les travaux sur la

planication en IA et les travaux sur l'apprentissage (Machine Learning) [Halevy, 2005].

1. Les DLs : Les logiques de description, une branche de la Représentation de la Connaissance,

ont été identiées comme un bon moyen de description des relations entre les diérentes

sources de données [Catarci et Lenzerini, 1993]. L'approche LAV a été inspirée d'une part

par le fait que les sources de données doivent être représentées de manière déclarative (le

schéma de médiation de IM est basé sur la DL CLASSIC [Borgida et al., 1989]) et d'autre

part par les travaux combinant le pouvoir expressif des DLs et les langages d'interrogation

des bases de données [Levy et Rousset, 1995].

2. Les travaux sur la planication en IA : ces travaux ont inuencé la reexion sur la

reformu-lation et le traitement de requêtes dans les systèmes d'intégration [Arens et al., 1994][Barish

et Knoblock, 2003].

3. Les travaux sur l'apprentissage en IA jouent un rôle central pour les systèmes d'intégration,

dans la génération semi-automatique de correspondances sémantiques [Rahm et Bernstein,

2001].

2.11.2 Le rôle des ontologies

En vue de faciliter l'interopérabilité, les ontologies fournissent un vocabulaire partagé qui

peut servir à décrire les diérentes sources. Les systèmes existants utilisent essentiellement les

ontologies dans la dénition du schéma global (schéma de médiation), parfois dans la description

des sources locales.

Nous montrerons dans l'architecture de gestion uniée que nous proposons (voir chapitre 4),

que les ontologies peuvent aussi être utilisées pour décrire le contenu de sources textuelles en vue

de leur prise en compte dans un système d'intégration.

La proposition que nous faisons tient compte des avancées faites dans le domaine de

l'inté-gration, en particulier sur la réécriture de requêtes et la mise en correspondance entre schémas

(ontologies), que nous n'avons pas abordée dans notre travail.