Pour faciliter la conception et g´erer l’´evolution de notre syst`eme, nous avons d´evelopp´e des
m´ethodes situ´ees aux niveauxsch´emaetinstancesafin de mettre correspondance les EDs extraits
des sources dans le sch´ema global. Nous discutons des apports, limites et perspectives de nos
approches.
7.2.1 M´ethodes de mise en correspondance au niveau sch´ema
7.2.1.1 Apports
Tout d’abord, nos m´ethodes permettent de traiter des correspondances de tout
type de cardinalit´es. La plupart des travaux existants se focalisent principalement sur les
correspondances de cardinalit´e 1-1 ([Rahm 01]), ce qui constitue une limite. Avec nos approches,
nous r´esolvons des correspondances de cardinalit´e 1-1, 1-n et 1-0 entre les EDs et les concepts
de l’UMLS en utilisant WordNet comme ressource externe.
Pour mettre en correspondance les EDs dans l’UMLS, nous avons utilis´e des m´ethodes
ter-minologiques bas´ees sur les outils lexicaux fournis par l’UMLS. Des traitements linguistiques,
comme la tokenisation, la lemmatisation et l’utilisation d’une ressource suppl´ementaire (le
Spe-cialist Lexicon) sont appliqu´ees aux EDs [McCray 94]. Des correspondances de cardinalit´es 1-1,
1-n et 1-0 ont ´et´e obtenues. Ces r´esultats ne sont pas satisfaisants dans les deux derniers cas et
l’utilisation d’une ressource externe (WordNet) a permis de r´epondre en partie `a ce probl`eme.
Une fois les EDs associ´es `a des synsets, ces derniers sont mis en correspondance dans l’UMLS.
Pour comparer les diff´erentes paires de (concept, synset) obtenues ainsi, nous avons mis en œuvre
des approches terminologiques et structurelles. La similarit´e de leur d´efinition, le nombre de
synonymes communs et le nombre d’ancˆetres communs sont calcul´es. Grˆace `a ces crit`eres, il est
possible de valider les correspondances de cardinalit´e 1-1 (si au moins un des crit`eres est v´erifi´e)
et de d´esambigu¨ıser les cardinalit´es 1-n si une paire (concept, synset) est d´etermin´ee comme
´
etant meilleure que les autres. Dans ces deux cas, les mises en correspondances sont de plus
valid´ees automatiquement, limitant ainsi le travail des concepteurs. Les correspondances de type
1-0 sont am´elior´ees quand un synset ayant ´et´e mis en correspondance avec un ED, non trouv´e
directement dans l’UMLS, a un synonyme ou un hypernyme direct qui existent dans l’UMLS.
7.2.1.2 Limites et perspectives
Notre syst`eme permet donc de valider des correspondances si au moins un des trois crit`eres
que nous avons d´efinis est v´erifi´e. Cependant, si la similarit´e entre un concept et un synset
est tr`es basse, il peut ˆetre erron´e de consid´erer cette condition comme suffisante pour garantir
qu’une correspondance est correcte. Il serait n´ecessaire de compl´eter notre travail avec des
me-sures de similarit´e robustes en fixant un seuil en dessous duquel les correspondances ne
pourraient ˆetre accept´ees, comme cela est propos´e dans [Kefi 06]. De plus, apr`es avoir appliqu´e
nos m´ethodes, il reste malgr´e tout plus de la moiti´e des correspondances entre EDs et concepts
UMLS `a valider ou `a supprimer par les concepteurs du syst`eme. Cependant, de nombreux EDs
sont communs d’une source `a l’autre et on a pu constater au travers de l’int´egration de la source
Aceview (cf 6.2.1 page 160) que les correspondances existantes sont r´e-utilisables. Cela permet
de limiter le travail manuel impos´e lors de l’´evolution du syst`eme.
Les sch´emas dont nous disposons pour chaque source regroupent l’ensemble des EDs que nous
avons extraits ainsi que leur type. Cela ne permet pas d’utiliser des m´ethodes
structu-relles bas´ees sur les contraintes ni des approches s´emantiquesbas´ees sur l’interpr´etation
de ces EDs. En effet, sans d´efinition, il n’est pas possible de d´ecrire ces EDs de mani`ere
for-melle pour ensuite raisonner sur ces derniers. On verra cependant dans la section 7.4 page 178
comment les concepts repr´esentant ces EDs peuvent en revanche ˆetre exploit´es dans ce but.
Une perspective possible est d’int´egrer d’autres m´ethodes structurelles bas´ees sur les
graphes. En l’occurrence, l’utilisation des descendants ou encore des relations s’inscrit dans la
recherche d’un contexte commun entre deux ´el´ements. Cependant, comparer des ensembles de
descendants issus d’une ressource terminologique sp´ecifique du domaine biom´edical avec ceux
d’une ressource terminologique g´en´erale ne nous paraˆıt pas adapt´e, ´etant donn´e que leur niveau
de granularit´e est tr`es diff´erent (cf le nombre de descendants pr´esents dans l’UMLS - 5.2.1.1
page 134). Par contre, l’utilisation des relations est potentiellement prometteur, comme montr´e
dans [Maedche 02] pour comparer des ontologies. L’UMLS contient diff´erents types de relations
dans le Metathesaurus, certaines d’entre elles sont mˆeme d´efinies de mani`ere formelle (issues
de SNOMED-CT par exemple - [Schulz 05]). WordNet contient ´egalement des relations
pou-vant ˆetre exploit´ees pour ˆetre mises en correspondance avec certaines relations de l’UMLS. Par
exemple, consid´erons la relation de composition dans WordNet (nomm´ee meronym) qui ´
equi-vaut `a la relation de type part_of dans l’UMLS. Nos m´ethodes existantes ´etablissent que le
concept Chromosome (C0008633) et le synset chromosome#n#1 peuvent ˆetre associ´es
(par similarit´e de leur d´efinition). Or il existe une relation issue de SNOMED-CT qui est typ´ee
part_of entreChromosome etCell Nucleus (C0007610) et parall`element une relation de
composition entrechromosome#n#1 etnucleus#n#1. Si une premi`ere correspondance au
niveau du terme (approche terminologique avec les outils lexicaux de l’UMLS) a pu ˆetre ´
eta-blie entreCell Nucleus (C0007610) etnucleus#n#1 (synonyme«cell nucleus»), alors il
serait possible de la valider grˆace `a leur environnement commun (mˆeme composant). Cette
ap-proche pourrait ainsi augmenter le nombre de correspondances valid´ees de mani`ere automatique.
Enfin, il y a deux raisons pour lesquelles nous n’obtenons pas plus de correspondances entre
les concepts et synsets. D’une part,les synsets WordNet ne comportent pas beaucoup de
synonymes et d’autre part,de nombreux concepts UMLS ne disposent pas de d´
efini-tion. Cela limite les correspondances identifiables au travers des deux crit`eres correspondants.
Si ces ressources am´eliorent ces aspects (int´egration de synonymes suppl´ementaires aux
syn-sets dans WordNet et ajout syst´ematique de d´efinitions aux concepts UMLS), nos m´ethodes
donneront de meilleurs r´esultats.
7.2.2 M´ethodes d´evelopp´ees au niveau instances
7.2.2.1 Apports
Les correspondances identifi´ees au niveau sch´ema exploitent le nom des EDs. Le probl`eme
est que cela n’est pas suffisant pour certains EDs qui sont ambigus (par exemple, Name) ou mal
nomm´es (par exemple, Chromosome1). Notre m´ethode visant `a typer les EDs en exploitant
leurs donn´ees permet de r´esoudre en partie ces probl`emes. Pour cela, nous avons mis en
correspondance les valeurs associ´ees `a chaque ED dans l’UMLS. Cela a permis, pour une trentaine
d’EDs, de pr´eciser que leur ensemble de valeurs concernaient un type connu d’informations.
1
Comme nous l’avons d´ej`a soulign´e, l’EDChromosome, extrait de HGNC, indique en fait la localisation
chro-mosomique d’un g`ene donn´e
De plus, cette approche permet de typer des EDs qui n’ont pas forc´ement ´et´e mis
en correspondance avec un ´el´ement du sch´ema global en exploitant uniquement le
ni-veau sch´ema. En effet, l’ED From, extrait de Swiss-Prot, n’est trouv´e ni dans l’UMLS ni dans
WordNet mais ses valeurs permettent de d´eterminer qu’il indique l’organisme pour lequel est
d´efinie une prot´eine donn´ee. Sur 94 valeurs non vides, 100% d’entre elles sont trouv´ees dans
l’UMLS et les concepts correspondants sont tous cat´egoris´es par le type s´emantiqueOrganism.
Cet ED est ainsi rattach´e au sch´ema global au travers de son type.
L’autre approche impl´ement´ee au niveau instances permet de trouver des correspondances
additionnelles entre les EDs et le sch´ema global, ainsi que de valider ou ´eliminer des
corres-pondances identifi´ees au niveau sch´ema. Elle consiste `a comparer les ensembles de valeurs des
EDs deux `a deux. Le coefficient de Jaccard [Van Rijsbergen 79] d´etermine un pourcentage de
similarit´e et lorsqu’il est suffisamment haut, les trois cas de figure suivants se pr´esentent. Si
les concepts associ´es avec ces EDs sont les mˆemes,les correspondances sont valid´ees. Si les
concepts associ´es avec ces EDs sont diff´erents, deux possibilit´es se pr´esentent. Si l’un des EDs est
associ´e `a un ou des concepts suppl´ementaires par rapport `a l’autre ED, il est possible d’ajouter
une nouvelle correspondanceentre ce deuxi`eme ED et le ou les concepts auxquels est associ´e
le premier. Si les concepts sont incompatibles entre les deux EDs alors une incoh´erence existe
pour l’un des EDs et la correspondance mise en jeu est ´elimin´ee.
Nous avons abord´e la notion d’int´egration verticale qui correspond `a l’agr´egation de
donn´ees s´emantiquement similaires[Sujansky 01]. La deuxi`eme approche pr´esent´ee permet
de la g´erer en partie dans notre syst`eme. Cet aspect est tr`es important puisque la plupart
des syst`emes ne g`erent que l’int´egration horizontale qui r´ealise une composition de
donn´ees compl´ementaires. Cela pose probl`eme car ils ne tiennent pas compte du possible
recouvrement des sources. Au travers de correspondances identifi´ees entre des EDs de mˆeme
contenu, notre m´ethode parvient `a identifier des donn´ees identiques dans des sources distinctes.
Ainsi, le m´ediateur peut filtrer ais´ement les donn´ees redondantes avant de les fournir en r´esultat
aux utilisateurs du syst`eme d’int´egration.
7.2.2.2 Limites et perspectives
Une limite de nos approches situ´ees au niveau instances est qu’elles ne fournissent pour
l’instant que peu de r´esultats. En effet, le typage des EDs n’est r´eussi que pour un peu plus de
11% des EDs extraits des sources et seules 22 paires d’EDs ont pu ˆetre mis en correspondance
au travers des valeurs. Cela peut s’expliquer par le fait que les sources biom´edicales fournissent
souvent des donn´ees peu structur´ees ou standardis´ees. Il est n´ecessaire de compl´eter le typage
des EDs dans le cas o`u les valeurs ne sont pas pr´esentes dans l’UMLS. Pour cela, il faudrait
d´efinir des patrons pouvant identifier un type complexe mais connu d’informations,
telles que des dates ou encore des r´ef´erences bibliographiques dont le format est g´en´eralement
le mˆeme. Cela permettrait, par exemple, de typer plus pr´ecis´ement l’EDBibliography, extrait
de Entrez Gene, qui contient des informations bibliographiques comme les EDsPrimary
Cita-tion ou References, dont les valeurs sont du mˆeme style. Un typage commun pour ces EDs
permettraient de les proposer aux utilisateurs comme EDs candidats `a une requˆete telle que
celle pr´esent´ee pr´ec´edemment :Main citations of the hemochomatosis pathology. Sans cela, l’ED
Bibliographyn’apparaˆıt pas parmi les EDs candidats pouvant fournir des r´esultats int´eressants
aux utilisateurs, alors qu’il devrait ˆetre pr´esent (cf 6.1.4.1 page 155). Une autre possibilit´e serait
d’utiliser des techniques d’apprentissage, comme dans [Doan 03].
L’int´egration verticale reste un point important `a approfondir.Notre travail permet
de la r´esoudre pour les cas o`u une correspondance au niveau des valeurs de deux EDs distincts
a ´et´e identifi´ee. Cependant, pour les situations impliquant des EDs pour lesquels nous ne
dispo-sons pas de ce type d’informations, le m´ediateur n’effectue pour l’instant pas de contrˆole quant
`
a la redondance des donn´ees recueillies. Il y a donc probablement des informations identiques
r´ep´et´ees parmi les r´esultats que fournit notre syst`eme. Une perspective importante est ainsi de
d´evelopper des m´ethodes permettant au m´ediateur d’analyser en d´etail les r´esultats collect´es
dans les sources afin de les unifier et donc d’´eliminer des possibles redondances.
En conclusion, nous avons illustr´e l’int´erˆet de pouvoir combiner des approches situ´ees aux
ni-veauxsch´ema etinstances afin d’obtenir de meilleurs r´esultats, moins ambigus et plus coh´erents
pour les mises en correspondance entre les EDs extraits des sources int´egr´ees et les ´el´ements du
sch´ema global. L’articulation de nos m´ethodes de diff´erents types (terminologiques et
structu-relles) ´etant fixe, notre approche globale de mise en correspondance est qualifi´ee d’hybride.
Dans le document
Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle
(Page 172-176)