Partie I Etat de l'Art
Chapitre 2 Intégration de données 31
2.10 Les systèmes d'intégration dans le domaine biomédical
plusieurs appareils de mesures font que des travaux sur l'intégration sont de plus en plus
ap-pliqués au domaine biomédical. Par exemple, pour étudier un phénomène donné, les biologistes
sont obligés de tenir compte des aspects physiologique, génétique, anatomique, biochimique, etc.
2.10. Les systèmes d'intégration dans le domaine biomédical
Tandis que les médecins, pour établir un diagnostic donné ou la corrélation entre certains
phéno-mènes, doivent prendre en compte les aspects anatomique, fonctionnel, etc. Plusieurs travaux ont
été menés dans le domaine de l'intégration de données biomédicales. Karp [Karp, 1996] fournit
une taxonomie des approches utilisées.
Nous présentons ici des travaux contemporains dans le domaine.
2.10.1 Sequence Retrieval System
Sequence Retrieval System (SRS) [Zdobnov et al., 2002] est plus proche d'un système de
recherche basé sur les mots-clés que d'un système intégré. Son approche d'intégration consiste
à analyser des chiers plats ou des banques de données qui contiennent des chiers textes de
structurés avec les noms de champs. Il crée et stocke un index pour chaque champ et utilise ces
index locaux au moment de l'interrogation pour retrouver les entrées pertinentes. SRS possède
son propre analyseur de chiers plats appelé ICARUS (Interpreter of Commands And Recursive
Syntax). L'utilisation de ICARUS permet à SRS de détecter la présence de liens et d'indexer
tous les enregistrements en utilisant une technique d'indexation basée sur les mots-clés. SRS
ore la possibilité de garder les références croisées entre sources. Si une source A fait reférence à
une source B, alors la reférence de B vers A est aussi considérée. De même, des références entre
sources peuvent être générées par transitivité.
2.10.2 TAMBIS
TAMBIS (Transparent Access to Multiple Bioinformatics Information Sources) est un système
de médiation basé sur une ontologie [Stevens et al., 2000]. Les requêtes dans TAMBIS sont
formulées à travers une interface graphique où l'utilisateur navigue à travers les concepts dénis
au niveau du schéma global et choisit ceux qui l'intéressent pour la requête courante. Le système
utilise la logique de description GRAIL [Rector et Bechhofer, 1997], qui est aussi utilisée pour
exprimer des requêtes sur le système. Toute requête exprimée en GRAIL est traduite en QIF
(Query Internal Format), puis dans un plan d'exécution dépendant des sources.
2.10.3 DiscoveryLink
DiscoveryLink, développé chez IBM, est un système d'intégration de sources basé sur les
adaptateurs [Haas et al., 2001]. Il sert d'intermédiaire aux applications qui ont besoin
d'accé-der à plusieur sources biomédicales. DiscoveryLink consiste en fait en une couche d'intégration
contruite sur le projet Garlic. Il sert de middleware entre les applications et un ensemble
d'adap-tateurs. Les applications soumettent des requêtes SQL à DiscoveryLink sans se soucier de la
nature des sources. Garlic est un système fédéré de traitement de requêtes qui communique
avec plusieurs adaptateurs dédiés pour déterminer le plan optimal d'exécution d'une requête et
l'exécuter [Roth et al., 1996]. DiscoveryLink est basé sur un modèle orienté-objet.
2.10.4 Knowledge-based Integration of Neuroscience Data : KIND
KIND [Gupta et al., 2000] est un système d'intégration de sources de données dans le domaine
des neurosciences. Il étend l'approche conventionnelle médiateur/adaptateurs avec l'utilisation
de plusieurs bases de connaissances qui fournissent le lien sémantique entre les sources à travers
des faits et règles sur le domaine d'application. KIND est basé sur le langage F-logic [Kifer et al.,
1995]. Notons que le système n'intègre que des sources structurées.
2.10.5 ONTOFUSION
Ontofusion [P ?rez-Rey et al., 2006] est un système d'intégration de données biomédicales
(structurées) basé sur les ontologies. L'intégration s'eectue au travers de deux processus : un
processus de mapping et un processus d'unication. Dans le processus de mapping, le schéma
physique de chaque base de données est relié à un schéma qualié de "schéma virtuel". Un
schéma virtuel est déni dans ce système comme étant l'ensemble des ontologies qui représentent,
à un niveau conceptuel, la structure des informations contenues dans une source donnée. Durant
le processus d'unication, plusieurs schémas virtuels correspondant aux diérentes bases sont
regroupés au sein d'un schéma virtuel unique. Le système distingue trois types de sources : i) les
bases de données dites publiques (e.g., SwissProt24) ; ii) les bases de données privées qui ont un
schéma physique accessible et connu iii) et enn les bases de données stockant des vocabulaires
biomédicaux. Cette dernière catégorie sert à stocker des ontologies ou vocabulaires biomédicaux
comme UMLS [Bodenreider, 2004], et la Gene Ontology [Consortium, 2001]. Ce stockage local des
vocabulaires peut poser la question de leur mise à jour lorsque leur source primaire est modiée.
2.10.6 Neurobase
Neurobase [Barillot et al., 2003] est un projet commun entre plusieurs laboratoires français
(2003-2005), dédié à la gestion de données et de connaissances réparties en neuroimagerie. Son
objectif initial était de spécier un modèle de reférence pour le partage de données hétérogènes
et distribuées en imagerie cérébrale. Neurobase implémente un système fédéré suivant l'approche
méditaur/adaptateurs utilisant un reférentiel sémantique commun (une ontologie médicale dénie
pour les besoins du projet). Il est basé sur le médiateur Le Select25, qui permet de partager des
données et des programmes hétérogènes et distribuées à travers un langage de requêtes de haut
niveau.
2.11 Conclusion
Dans ce chapitre, nous avons fait une rapide présentation des travaux concernant
l'intégra-tion de données hétérogènes. Après avoir décrit les deux grandes approches utilisées pour la
gestion uniée, nous avons décrit les diérents types de conits à résoudre lors de l'intégration
de systèmes hétérogènes. L'aspect modélisation des données, c'est à dire comment intégrer les
diérents schémas des sources, et leur interrogation, c'est à dire comment répondre ecacement
aux requêtes posées sur le schéma global, ont été abondamment abordés dans la littérature
[Ha-levy, 2001][Goasdoué et al., 2000]. Nous avons décrit les approches utilisées pour établir des
correspondances entre diérents schémas. Les systèmes que nous avons décrits ne s'occupent pas
de l'étape de prétraitement des sources à intégrer.
Pour l'établissement des correspondances entre schémas, la plupart des systèmes sont basés
sur une analyse manuelle du schéma eectuée par un expert, soit du domaine, soit d'intégration,
même si des approches semi-automatiques de mise en correspondance sont parfois proposées,
avec notamment l'utilisation de techniques issues de l'intelligence artielle. Apporter une certaine
automatisation dans le processus de prise en compte des sources peut permettre une économie
de temps et de coût.
24
http ://www.ebi.ac.uk/swissprot/
2.11. Conclusion
2.11.1 Le rôle de l'intelligence articielle (IA)
La communauté IA est une communauté assez active dans le domaine de l'intégration de
données. Son rôle peut se situer à trois niveaux : les logiques de description, les travaux sur la
planication en IA et les travaux sur l'apprentissage (Machine Learning) [Halevy, 2005].
1. Les DLs : Les logiques de description, une branche de la Représentation de la Connaissance,
ont été identiées comme un bon moyen de description des relations entre les diérentes
sources de données [Catarci et Lenzerini, 1993]. L'approche LAV a été inspirée d'une part
par le fait que les sources de données doivent être représentées de manière déclarative (le
schéma de médiation de IM est basé sur la DL CLASSIC [Borgida et al., 1989]) et d'autre
part par les travaux combinant le pouvoir expressif des DLs et les langages d'interrogation
des bases de données [Levy et Rousset, 1995].
2. Les travaux sur la planication en IA : ces travaux ont inuencé la reexion sur la
reformu-lation et le traitement de requêtes dans les systèmes d'intégration [Arens et al., 1994][Barish
et Knoblock, 2003].
3. Les travaux sur l'apprentissage en IA jouent un rôle central pour les systèmes d'intégration,
dans la génération semi-automatique de correspondances sémantiques [Rahm et Bernstein,
2001].
2.11.2 Le rôle des ontologies
En vue de faciliter l'interopérabilité, les ontologies fournissent un vocabulaire partagé qui
peut servir à décrire les diérentes sources. Les systèmes existants utilisent essentiellement les
ontologies dans la dénition du schéma global (schéma de médiation), parfois dans la description
des sources locales.
Nous montrerons dans l'architecture de gestion uniée que nous proposons (voir chapitre 4),
que les ontologies peuvent aussi être utilisées pour décrire le contenu de sources textuelles en vue
de leur prise en compte dans un système d'intégration.
La proposition que nous faisons tient compte des avancées faites dans le domaine de
l'inté-gration, en particulier sur la réécriture de requêtes et la mise en correspondance entre schémas
(ontologies), que nous n'avons pas abordée dans notre travail.
Dans le document
Une Architecture à base d'Ontologies pour la Gestion Unifiées des Données Structurées et non Structurées
(Page 61-66)