Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Enjeux pour l’int´ egration des sources de donn´ ees biom´ edicales . 36

Dans le document Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle (Page 37-40)

2.2 Approches d’int´ egration

2.2.1 Notions et enjeux autour des sources de donn´ ees biom´ edicales

2.2.1.2 Enjeux pour l’int´ egration des sources de donn´ ees biom´ edicales . 36

Parmi les différents enjeuxde l’intégration, nous souhaitons focaliser plus particulièrement

cet ´etat de l’art sur les points suivants :

– l’extraction d’informations à partir des sources de données de manière à obtenir

une description précise de leur contenu, pour en déduire des éléments décrivant les sources,

c’est-à-dire le schéma (entités, attributs et relations éventuellement), les références croisées,

et des méta-données d’ordre général sur la source (son nom, son URL d’interrogation, etc).

Nous verrons par la suite que cette extraction est g´en´eralement faite manuellement, soit

en exploitant le sch´ema d´ecrivant la source quand il est disponible, soit en identifiant,

dans la source directement, les informations permettant de d´efinir le type de donn´ees ainsi

que les éléments représentés dans la source, et ce par une intervention humaine. Ceci

est possible soit en utilisant des descriptions textuelles, comme celles fournies par HGNC

(Figure 2.4 page précédente - partie gauche), soit en analysant directement les données

de différentes pages, ce qui peut être très fastidieux. Pouvoir extraire cette description

des sources de manière automatisée facilite la conception des systèmes d’intégration et

leur maintenance. En effet, le processus d’extraction pourra être exécuté périodiquement

de manière à identifier d’éventuelles modifications des sources intégrées et ainsi mettre le

schéma de ces dernières à jour beaucoup plus facilement que si la veille stratégique devait

ˆ

etre faite manuellement ;

– la définition d’un schéma global dans lequel représenter l’ensemble des éléments des

schémas de sources de données à intégrer. Les schémas des sources sont définis comme

des schémas locaux en opposition à la notion de schéma global qui vise à les unifier.

Nous souhaitons analyser les efforts effectués dans les différents systèmes existants pour

définir un schéma global, et notamment d’éventuelles automatisations des diverses étapes

y menant ;

– l’existence de méthodes situées au niveauinstancespour compléter les informations

présentes au niveauschéma. Pour réaliser une intégration au moyen d’approches avancées

(que nous pr´esentons par la suite - cf 2.2.3 page 39), il faut exploiter le niveausch´emapour

pouvoir identifier les informations indispensables `a une description unifi´ee mais aussi celles

qui sont nécessaires pour pouvoir accéder aux sources. Mais les données peuvent aider à

pr´eciser certaines informations, comme nous l’avons illustr´e ci-dessus (cf 2.2.1.1 page 34),

raison pour laquelle nous souhaitons également considérer les techniques éventuelles d´

eve-lopp´ees au niveau instances;

– lamaintenance du système d’intégration est un enjeu déterminant dans le domaine

biomédical où de nombreuses données apparaissent continuellement et donc où les sources

les fournissant sont en perpétuelle évolution. Dans ce cadre, des outils doivent être mis en

19

Notons au passage que nous choisissons d’utiliser le termesch´emaau singulier puisque les m´ethodes exploitent

les informations se trouvant dans un sch´ema alors que le termeinstancesest au pluriel car cela correspond aux

différentes instances du schéma. Cet aspect sera plus particulièrement détaillé dans la section 2.3 page 71 où

différentes approches des deux types pré-cités sont présentées

œuvre pour faciliter la mise à jour des différents composants du système d’intégration, en

particulier dans le cas des deux premiers points.

Dans les deux parties suivantes, nous présentons les différentes approches d’intégration

exis-tantes et les systèmes les implémentant. Étant donné le nombre de systèmes d’intégration déjà

développés, nous avons détaillons uniquement certains d’entre eux qui nous paraissaient plus

particulièrement intéressants. L’inventaire proposé n’est donc pas exhaustif.

2.2.2 Approches simples

Deux types d’approches d’int´egration offrent des fonctionnalit´es restreintes : les bases de

données intégrées et les portails. Leurs caractéristiques sont les suivantes. Lesbases de données

intégrées sont des systèmes créés spécifiquement pour regrouper des données contenues dans

d’autres sources de données. Leurs caractéristiques sont les mêmes que les bases de données,

c’est-`

a-dire la structuration et l’organisation de grandes quantit´es d’informations afin d’en faciliter

l’exploitation. Leur spécificité est qu’elles contiennent des informations qu’elles ont récupérées

dans d’autres sources de données. Le but est de récolter et de stocker les données considérées

comme pertinentes pour les concepteurs dans un base de données intégrées unique. L’avantage est

qu’ainsi, les utilisateurs ont un accès centralisé aux informations qui sont pourtant distribuées.

Le problème est que le choix des données à récolter dans les sources de données externes est

faite de manière arbitraire par les concepteurs. De plus, la mise à jour d’un tel système peut

nécessiter de changer entièrement le schéma de la base de données intégrées.

Leportail, au sens informatique du terme, est un type de site Web qui propose une

indexa-tion thématique des ressources s’appliquant à un domaine précis, sans proposer nécessairement

d’informations par lui-mˆeme²⁰. Ainsi, c’est une porte d’entr´ee unique sur un large panel de

ressources et de services centrés sur un domaine ou une communauté particulière. Il est alors

possible pour les utilisateurs d’interroger un portail central afin de retrouver en une requˆete

unique toutes les données se trouvant dans les sources gérées par le portail. Le problème est

que celui-ci va indiquer aux utilisateurs quelles informations sont accessibles dans ces diff´erentes

sources, sans le guider vers une source plutˆot que vers une autre. Ce sont les utilisateurs du

por-tail qui doivent choisir quelle(s) source(s) leur semble(nt) pertinente(s) et aller naviguer parmi

elle(s), parfois sans aucune id´ee pr´ealable du type d’informations s’y trouvant. De plus, si une

requête implique plusieurs sources alors il n’est pas possible de récupérer un résultat global

direc-tement ; les utilisateurs doivent se charger de r´ecup´erer certaines informations dans une source

pour aller ensuite r´ecup´erer le reste dans une autre.

GeneCards [Rebhan 98], qui est une encyclop´edie sur les g`enes humains, est un exemple

de base de données intégrées. Elle rassemble sous une forme intuitive des informations sur les

gènes, les protéines, les séquences et les pathologies ainsi que les interactions entre ces différentes

entités. Le principe consiste à entrer un symbole de gène ou des mot-clés pour obtenir la page

Web décrivant le gène correspondant ou une liste de pages descriptives de gènes dans lesquelles

les mot-clés ont été trouvés. Les informations sont issues des bases de données les plus

ment utilisées sur leurs sujets, entre autres Swiss-Prot et GDB. De ces sources sont sélectionnées

uniquement les donn´ees pouvant ˆetre utiles, selon les concepteurs, pour offrir une vue d’ensemble

des connaissances existantes du moment. Depuis 2002, les diverses informations sont stock´ees

sous forme de fichiers plats au format XML [Safran 02]. Bien que plus facilement exploitable

que des fichiers textes, ce format est limité pour faciliter la conception de requêtes. Malgré le

développement d’un module permettant d’étendre les requêtes des utilisateurs (par recherche en

texte libre de chaque terme de la requête si aucun résultat n’est trouvé avec un nom ou symbole

de gène) et quelques fonctionnalités supplémentaires (correcteur orthographique et exploitation

des stratégies d’interrogation effectuées par les utilisateurs), les requêtes possibles restent assez

simples.

MADSENSE [Teusan 03] est une autre base de données intégrées visant à regrouper des

informations biologiques dans un syst`eme unique compr´ehensible et exploitable par l’homme.

MADSENSE contient des donn´ees issues de bases publiques, notamment PubMed [Wheeler 06]

et KEGG. L’interface Web fournie par cette base int´egr´ee a pour but d’aider les utilisateurs

dans leurs travaux d’interpr´etation et de validation des donn´ees obtenues au cours des exp´

e-rimentations sur les puces `a ADN. Il est possible de chercher des informations `a partir d’un

(ou des) symbole(s) de gène(s) ou d’identifiants GenBank. Trois modules ont été développés : le

premier fournit la carte d’identité d’un gène donné permettant de visualiser les gènes liés à

celui-ci en exploitant des donn´ees biologiques et bibliographiques, un module offre la possibilit´e de

regrouper des gènes ayant des profils d’expression proches en fonction de données présentes dans

Gene Ontology. Enfin, un autre module recense les publications les plus pertinentes concernant

les interactions identifiées entre deux gènes. Là encore, malgré des fonctionnalités intéressantes

proposées dans MADSENSE, les capacités de requêtes fournies aux utilisateurs sont limitées.

Entrez²¹ [Schuler 96] est un portail qui fournit une interface d’interrogation des sources

de donn´ees du National Center for Biotechnology Information (NCBI) incluant notamment des

séquences nucléotidiques et protéiques, des structures tri-dimensionnelles de protéines et des

données bibliographiques issues de PubMed. C’est à la fois une base de données et un système

de recherche qui présente une vue intégrée des données biomédicales et de leurs inter-relations.

Entrez permet des recherches en texte libre en utilisant des requˆetes bool´eennes simples dans

en-viron 30 bases de donn´ees. Il est qualifi´e de portail puisqu’il permet uniquement de chercher dans

ces différentes bases de données et d’indiquer le nombre d’enregistrements trouvés dans chacune.

Ce sont finalement les utilisateurs qui se chargent de choisir les bases de donn´ees susceptibles

de les int´eresser et ensuite du travail de navigation et de collecte des informations pertinentes.

Le portail offre des fonctionnalités d’intégration limitées puisqu’il se contente d’indiquer aux

utilisateurs les sources qui fournissent un résultat pour la requête qu’ils ont posée sans les guider

plus en fonction de critères de préférence, par exemple. Il ne permet pas non plus de récupérer

des informations impliquant le parcours de plusieurs sources. Les bases de données intégrées

présentent un inconvénient important : le choix des informations à récupérer dans les sources

est fait par avance par les concepteurs. Ce sont eux qui d´ecident si telle source ou mˆeme si telle

information se trouvant dans une source sont pertinentes pour les utilisateurs et les int`egrent

ou pas au système en faisant parallèlement et manuellement les adaptations nécessaires au sein

du système. Cela pose problème puisque d’un utilisateur à l’autre, les besoins sont différents et

le fait de choisir a priori ce qui va avoir de l’intérêt dans le système est trop rigide. De plus, le

schéma de la base de données intégrées ou du portail, qui est créé manuellement, ne vise pas ici

`

a unifier l’ensemble des schémas des sources utilisées mais à représenter uniquement les éléments

qui sont utiles au système. Il est effectivement défini uniquement pour être capable de stocker

ou répertorier les informations accessibles dans le système. L’évolution de ce type de systèmes

d’int´egration pose probl`eme car ils ne sont pas flexibles. L’ajout d’une source peut

effective-ment impliquer la re-définition entière du schéma représentant les données dans le système. En

conclusion, ces différents systèmes sont développés dans des buts assez précis et de manière non

extensible et offrent des capacités de requêtes limitées. Ils ne sont donc pas, à notre sens, adaptés

pour offrir aux biologistes et m´edecins les fonctionnalit´es suffisantes pour les aider efficacement

dans leur recherche d’informations.

Dans le document Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle (Page 37-40)

Télécharger maintenant "Conception d’un modèle..."

Outline

Documents relatifs