• Aucun résultat trouvé

M´ ethodes exploitant les niveaux sch´ ema et instances

Pour faciliter la conception et g´erer l’´evolution de notre syst`eme, nous avons d´evelopp´e des

m´ethodes situ´ees aux niveauxsch´emaetinstancesafin de mettre correspondance les EDs extraits

des sources dans le sch´ema global. Nous discutons des apports, limites et perspectives de nos

approches.

7.2.1 M´ethodes de mise en correspondance au niveau sch´ema

7.2.1.1 Apports

Tout d’abord, nos m´ethodes permettent de traiter des correspondances de tout

type de cardinalit´es. La plupart des travaux existants se focalisent principalement sur les

correspondances de cardinalit´e 1-1 ([Rahm 01]), ce qui constitue une limite. Avec nos approches,

nous r´esolvons des correspondances de cardinalit´e 1-1, 1-n et 1-0 entre les EDs et les concepts

de l’UMLS en utilisant WordNet comme ressource externe.

Pour mettre en correspondance les EDs dans l’UMLS, nous avons utilis´e des m´ethodes

ter-minologiques bas´ees sur les outils lexicaux fournis par l’UMLS. Des traitements linguistiques,

comme la tokenisation, la lemmatisation et l’utilisation d’une ressource suppl´ementaire (le

Spe-cialist Lexicon) sont appliqu´ees aux EDs [McCray 94]. Des correspondances de cardinalit´es 1-1,

1-n et 1-0 ont ´et´e obtenues. Ces r´esultats ne sont pas satisfaisants dans les deux derniers cas et

l’utilisation d’une ressource externe (WordNet) a permis de r´epondre en partie `a ce probl`eme.

Une fois les EDs associ´es `a des synsets, ces derniers sont mis en correspondance dans l’UMLS.

Pour comparer les diff´erentes paires de (concept, synset) obtenues ainsi, nous avons mis en œuvre

des approches terminologiques et structurelles. La similarit´e de leur d´efinition, le nombre de

synonymes communs et le nombre d’ancˆetres communs sont calcul´es. Grˆace `a ces crit`eres, il est

possible de valider les correspondances de cardinalit´e 1-1 (si au moins un des crit`eres est v´erifi´e)

et de d´esambigu¨ıser les cardinalit´es 1-n si une paire (concept, synset) est d´etermin´ee comme

´

etant meilleure que les autres. Dans ces deux cas, les mises en correspondances sont de plus

valid´ees automatiquement, limitant ainsi le travail des concepteurs. Les correspondances de type

1-0 sont am´elior´ees quand un synset ayant ´et´e mis en correspondance avec un ED, non trouv´e

directement dans l’UMLS, a un synonyme ou un hypernyme direct qui existent dans l’UMLS.

7.2.1.2 Limites et perspectives

Notre syst`eme permet donc de valider des correspondances si au moins un des trois crit`eres

que nous avons d´efinis est v´erifi´e. Cependant, si la similarit´e entre un concept et un synset

est tr`es basse, il peut ˆetre erron´e de consid´erer cette condition comme suffisante pour garantir

qu’une correspondance est correcte. Il serait n´ecessaire de compl´eter notre travail avec des

me-sures de similarit´e robustes en fixant un seuil en dessous duquel les correspondances ne

pourraient ˆetre accept´ees, comme cela est propos´e dans [Kefi 06]. De plus, apr`es avoir appliqu´e

nos m´ethodes, il reste malgr´e tout plus de la moiti´e des correspondances entre EDs et concepts

UMLS `a valider ou `a supprimer par les concepteurs du syst`eme. Cependant, de nombreux EDs

sont communs d’une source `a l’autre et on a pu constater au travers de l’int´egration de la source

Aceview (cf 6.2.1 page 160) que les correspondances existantes sont r´e-utilisables. Cela permet

de limiter le travail manuel impos´e lors de l’´evolution du syst`eme.

Les sch´emas dont nous disposons pour chaque source regroupent l’ensemble des EDs que nous

avons extraits ainsi que leur type. Cela ne permet pas d’utiliser des m´ethodes

structu-relles bas´ees sur les contraintes ni des approches s´emantiquesbas´ees sur l’interpr´etation

de ces EDs. En effet, sans d´efinition, il n’est pas possible de d´ecrire ces EDs de mani`ere

for-melle pour ensuite raisonner sur ces derniers. On verra cependant dans la section 7.4 page 178

comment les concepts repr´esentant ces EDs peuvent en revanche ˆetre exploit´es dans ce but.

Une perspective possible est d’int´egrer d’autres m´ethodes structurelles bas´ees sur les

graphes. En l’occurrence, l’utilisation des descendants ou encore des relations s’inscrit dans la

recherche d’un contexte commun entre deux ´el´ements. Cependant, comparer des ensembles de

descendants issus d’une ressource terminologique sp´ecifique du domaine biom´edical avec ceux

d’une ressource terminologique g´en´erale ne nous paraˆıt pas adapt´e, ´etant donn´e que leur niveau

de granularit´e est tr`es diff´erent (cf le nombre de descendants pr´esents dans l’UMLS - 5.2.1.1

page 134). Par contre, l’utilisation des relations est potentiellement prometteur, comme montr´e

dans [Maedche 02] pour comparer des ontologies. L’UMLS contient diff´erents types de relations

dans le Metathesaurus, certaines d’entre elles sont mˆeme d´efinies de mani`ere formelle (issues

de SNOMED-CT par exemple - [Schulz 05]). WordNet contient ´egalement des relations

pou-vant ˆetre exploit´ees pour ˆetre mises en correspondance avec certaines relations de l’UMLS. Par

exemple, consid´erons la relation de composition dans WordNet (nomm´ee meronym) qui ´

equi-vaut `a la relation de type part_of dans l’UMLS. Nos m´ethodes existantes ´etablissent que le

concept Chromosome (C0008633) et le synset chromosome#n#1 peuvent ˆetre associ´es

(par similarit´e de leur d´efinition). Or il existe une relation issue de SNOMED-CT qui est typ´ee

part_of entreChromosome etCell Nucleus (C0007610) et parall`element une relation de

composition entrechromosome#n#1 etnucleus#n#1. Si une premi`ere correspondance au

niveau du terme (approche terminologique avec les outils lexicaux de l’UMLS) a pu ˆetre ´

eta-blie entreCell Nucleus (C0007610) etnucleus#n#1 (synonyme«cell nucleus»), alors il

serait possible de la valider grˆace `a leur environnement commun (mˆeme composant). Cette

ap-proche pourrait ainsi augmenter le nombre de correspondances valid´ees de mani`ere automatique.

Enfin, il y a deux raisons pour lesquelles nous n’obtenons pas plus de correspondances entre

les concepts et synsets. D’une part,les synsets WordNet ne comportent pas beaucoup de

synonymes et d’autre part,de nombreux concepts UMLS ne disposent pas de d´

efini-tion. Cela limite les correspondances identifiables au travers des deux crit`eres correspondants.

Si ces ressources am´eliorent ces aspects (int´egration de synonymes suppl´ementaires aux

syn-sets dans WordNet et ajout syst´ematique de d´efinitions aux concepts UMLS), nos m´ethodes

donneront de meilleurs r´esultats.

7.2.2 M´ethodes d´evelopp´ees au niveau instances

7.2.2.1 Apports

Les correspondances identifi´ees au niveau sch´ema exploitent le nom des EDs. Le probl`eme

est que cela n’est pas suffisant pour certains EDs qui sont ambigus (par exemple, Name) ou mal

nomm´es (par exemple, Chromosome1). Notre m´ethode visant `a typer les EDs en exploitant

leurs donn´ees permet de r´esoudre en partie ces probl`emes. Pour cela, nous avons mis en

correspondance les valeurs associ´ees `a chaque ED dans l’UMLS. Cela a permis, pour une trentaine

d’EDs, de pr´eciser que leur ensemble de valeurs concernaient un type connu d’informations.

1

Comme nous l’avons d´ej`a soulign´e, l’EDChromosome, extrait de HGNC, indique en fait la localisation

chro-mosomique d’un g`ene donn´e

De plus, cette approche permet de typer des EDs qui n’ont pas forc´ement ´et´e mis

en correspondance avec un ´el´ement du sch´ema global en exploitant uniquement le

ni-veau sch´ema. En effet, l’ED From, extrait de Swiss-Prot, n’est trouv´e ni dans l’UMLS ni dans

WordNet mais ses valeurs permettent de d´eterminer qu’il indique l’organisme pour lequel est

d´efinie une prot´eine donn´ee. Sur 94 valeurs non vides, 100% d’entre elles sont trouv´ees dans

l’UMLS et les concepts correspondants sont tous cat´egoris´es par le type s´emantiqueOrganism.

Cet ED est ainsi rattach´e au sch´ema global au travers de son type.

L’autre approche impl´ement´ee au niveau instances permet de trouver des correspondances

additionnelles entre les EDs et le sch´ema global, ainsi que de valider ou ´eliminer des

corres-pondances identifi´ees au niveau sch´ema. Elle consiste `a comparer les ensembles de valeurs des

EDs deux `a deux. Le coefficient de Jaccard [Van Rijsbergen 79] d´etermine un pourcentage de

similarit´e et lorsqu’il est suffisamment haut, les trois cas de figure suivants se pr´esentent. Si

les concepts associ´es avec ces EDs sont les mˆemes,les correspondances sont valid´ees. Si les

concepts associ´es avec ces EDs sont diff´erents, deux possibilit´es se pr´esentent. Si l’un des EDs est

associ´e `a un ou des concepts suppl´ementaires par rapport `a l’autre ED, il est possible d’ajouter

une nouvelle correspondanceentre ce deuxi`eme ED et le ou les concepts auxquels est associ´e

le premier. Si les concepts sont incompatibles entre les deux EDs alors une incoh´erence existe

pour l’un des EDs et la correspondance mise en jeu est ´elimin´ee.

Nous avons abord´e la notion d’int´egration verticale qui correspond `a l’agr´egation de

donn´ees s´emantiquement similaires[Sujansky 01]. La deuxi`eme approche pr´esent´ee permet

de la g´erer en partie dans notre syst`eme. Cet aspect est tr`es important puisque la plupart

des syst`emes ne g`erent que l’int´egration horizontale qui r´ealise une composition de

donn´ees compl´ementaires. Cela pose probl`eme car ils ne tiennent pas compte du possible

recouvrement des sources. Au travers de correspondances identifi´ees entre des EDs de mˆeme

contenu, notre m´ethode parvient `a identifier des donn´ees identiques dans des sources distinctes.

Ainsi, le m´ediateur peut filtrer ais´ement les donn´ees redondantes avant de les fournir en r´esultat

aux utilisateurs du syst`eme d’int´egration.

7.2.2.2 Limites et perspectives

Une limite de nos approches situ´ees au niveau instances est qu’elles ne fournissent pour

l’instant que peu de r´esultats. En effet, le typage des EDs n’est r´eussi que pour un peu plus de

11% des EDs extraits des sources et seules 22 paires d’EDs ont pu ˆetre mis en correspondance

au travers des valeurs. Cela peut s’expliquer par le fait que les sources biom´edicales fournissent

souvent des donn´ees peu structur´ees ou standardis´ees. Il est n´ecessaire de compl´eter le typage

des EDs dans le cas o`u les valeurs ne sont pas pr´esentes dans l’UMLS. Pour cela, il faudrait

d´efinir des patrons pouvant identifier un type complexe mais connu d’informations,

telles que des dates ou encore des r´ef´erences bibliographiques dont le format est g´en´eralement

le mˆeme. Cela permettrait, par exemple, de typer plus pr´ecis´ement l’EDBibliography, extrait

de Entrez Gene, qui contient des informations bibliographiques comme les EDsPrimary

Cita-tion ou References, dont les valeurs sont du mˆeme style. Un typage commun pour ces EDs

permettraient de les proposer aux utilisateurs comme EDs candidats `a une requˆete telle que

celle pr´esent´ee pr´ec´edemment :Main citations of the hemochomatosis pathology. Sans cela, l’ED

Bibliographyn’apparaˆıt pas parmi les EDs candidats pouvant fournir des r´esultats int´eressants

aux utilisateurs, alors qu’il devrait ˆetre pr´esent (cf 6.1.4.1 page 155). Une autre possibilit´e serait

d’utiliser des techniques d’apprentissage, comme dans [Doan 03].

L’int´egration verticale reste un point important `a approfondir.Notre travail permet

de la r´esoudre pour les cas o`u une correspondance au niveau des valeurs de deux EDs distincts

a ´et´e identifi´ee. Cependant, pour les situations impliquant des EDs pour lesquels nous ne

dispo-sons pas de ce type d’informations, le m´ediateur n’effectue pour l’instant pas de contrˆole quant

`

a la redondance des donn´ees recueillies. Il y a donc probablement des informations identiques

r´ep´et´ees parmi les r´esultats que fournit notre syst`eme. Une perspective importante est ainsi de

d´evelopper des m´ethodes permettant au m´ediateur d’analyser en d´etail les r´esultats collect´es

dans les sources afin de les unifier et donc d’´eliminer des possibles redondances.

En conclusion, nous avons illustr´e l’int´erˆet de pouvoir combiner des approches situ´ees aux

ni-veauxsch´ema etinstances afin d’obtenir de meilleurs r´esultats, moins ambigus et plus coh´erents

pour les mises en correspondance entre les EDs extraits des sources int´egr´ees et les ´el´ements du

sch´ema global. L’articulation de nos m´ethodes de diff´erents types (terminologiques et

structu-relles) ´etant fixe, notre approche globale de mise en correspondance est qualifi´ee d’hybride.