Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-

4.2 M´ ethodes

Recherche via WordNet Recherche directe dans l’UMLS

Sélection des meilleures corres-pondances + Désambiguïsation

Recherche dans l’UMLS

Critères : définition / synonymes / hypernymes

Comparaison

R´esultats

Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-

4.2 M´ ethodes

4.2.5 Etape 3 : Mise en correspondance des sch´ ´ emas locaux avec le sch´ ema global118

4.2.5.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-

Cette dernière approche vise à compléter les correspondances identifiées au niveau schéma.

Certains EDs ont des noms qui ne sont pas r´eellement informatifs quant `a leur contenu et n´

eces-sitent d’être précisés. Par exemple, dans la figure 4.4 page 107, l’ED Chromosomelaisse penser,

d’après son nom, que les valeurs qui lui sont associées correspondent au numéro du chromosome

sur lequel se situe le gène dont la page Web est affichée. Or les valeurs associées («6p21.3» et

«17q21-q24») sont plus pr´ecises, elles fournissent plus exactement la localisation du g`ene sur

le chromosome. Un nom tel que Chromosomal Location aurait été mieux adapté pour qualifier

cet ED.

Pour pallier ce probl`eme, nous proposons d’exploiter les valeurs associ´ees aux EDs. Des EDs

issus de différentes sources, et ayant les mêmes valeurs, peuvent être mis en correspondance

et permettre parfois de trouver de nouvelles correspondances dans le sch´ema global. Par

exemple, l’ED Chromosome, qui est issu de HGNC, peut ˆetre mis en correspondance avec l’ED

Chromosomal Location, extrait de la source HGMD, car la plupart de leurs valeurs sont les

mˆemes. Ce deuxi`eme ED est mis en correspondance dans l’UMLS avec le concept Location

(C0450429). Il est alors possible de pr´eciser l’ED Chromosomeen lui associant une

correspon-dance suppl´ementaire dans l’UMLS (avec le concept Location).

Ensemble d’éléments de données

Ensemble de concepts UMLS Ensemble de synsets WN

Ensemble de synsets WN

Ensemble de concepts UMLS

associés directement aux EDs

Meilleure paire (concept UMLS, synset WN)

Ensemble de concepts UMLS validés, désambiguïsés et identifiés via WN

Paires (concept UMLS, synset WN)

Ensemble de concepts UMLS

associés via WN aux EDs

Fig.4.13 – Mises en correspondance directes et indirectes via WordNet des ´el´ements

de donn´ees dans l’UMLS.

Cette approche permet aussi de valider des correspondances identifi´ees au niveau

sch´ema. Par exemple, des EDs nomm´es Official Symbol et Approved Symbols seront tous

deux mis en correspondance avec le concept UMLS Symbols (C0679214)grˆace aux m´ethodes

terminologiques. Si en plus, leurs valeurs sont identiques alors on pourra valider la

correspon-dance initialement identifi´ee au niveau sch´ema.

Cette méthode ré-utilise les valeurs de chaque ED que nous avons extraites précédemment

pour typer les EDs (cf 4.2.3.4.1 page 108). Une mesure de similarit´e permettant de comparer

l’ensemble de valeurs pour chaque paire d’EDs issus de sources diff´erentes est calcul´ee. Nous

avons choisi pour cela d’utiliser l’indice de Jaccard qui d´etermine la similarit´e entre deux

en-sembles de valeurs de cardinalit´e respective c1 et c2 [Van Rijsbergen 79]. Elle est d´efinie par :

SimJ accard= c1+c2−c1c2c1c2

où c1c2 correspond à la cardinalité de l’ensemble de valeurs communes aux deux ensembles.

La valeur de similarité varie de 0 (aucune similarité) à 1 (similarité complète).

Dans ce chapitre, nous avons tout d’abord présenté les sources que nous intégrons

virtuelle-ment à notre système d’intégration et les ressources terminologiques utilisées pour sa conception.

Puis nous avons décrit les méthodes mises en œuvre pour acquérir automatiquement le schéma

de ces sources. Nous avons ensuite proposé deux approches afin d’éliminer les cycles présents

dans l’UMLS pour pouvoir l’utiliser comme schéma global. Finalement, nous avons détaillé les

méthodes que nous avons développées pour mettre en correspondance les éléments de données

issus des sources avec les concepts UMLS.

R´esultats

Dans cette partie, nous reprenons les différentes étapes détaillées dans la section Méthodes

(cf 4.2 page 101) et donnons les r´esultats que nous avons obtenus pour chacune.

5.1 Etape 1 : Acquisition des sch´´ emas locaux

5.1.1 Extraction des éléments de données

Au total, 474 EDs distincts (548 tokens) ont été extraits des onze sources de données. Parmi

eux, 47 (9,9%) apparaissent dans plus d’une source (la casse est ignor´ee) et les plus fr´equents

sontNameetSymbolqui sont pr´esents dans six sources diff´erentes. Notons que ces EDs sont tous

les deux ambigus et que sans savoir dans quel contexte ils s’expriment, on ne peut pas les mettre

en correspondance directement avec un unique concept commun.

Nous avons dégagé les catégories suivantes parmi les EDs obtenus à partir des pages Web

r´esultats :

– lesEDs attendusqui correspondent aux EDs recens´es par la source comme ´etant les noms

externes (au sens de la source HGNC - cf 2.2.1.1 page 34) correspondant aux attributs

constituant son schéma et retrouvés par notre méthode ;

– les EDs références croisées qui sont en fait des hyperliens identifiés lors du parcours

des pages Web de la source ;

– lesEDs suppl´ementaires qui sont des EDs que nous avons extraits alors qu’ils ne sont

pas répertoriés par la source comme faisant partie de son schéma mais que nous avons

jug´es comme corrects et compl´ementaires par rapport aux EDs attendus. Ils peuvent donc

s’av´erer utiles pour la recherche d’informations dans la source ;

– lesEDs erronés qui correspondent à des EDs extraits par notre méthode alors qu’ils ne

sont pas répertoriés par la source comme faisant partie de son schéma et que nous avons

jugés comme incorrects, dans le sens où ils n’apportent pas d’informations intéressantes.

Une autre cat´egorie d’EDs existe : les EDs manquants. Ils correspondent aux EDs

recen-s´es par la source comme ´etant les noms externes correspondant aux attributs constituant son

schéma mais que notre méthode n’a pas retrouvés.

Pour illustrer les r´esultats fournis par notre m´ethode, nous reprenons l’exemple de la source

sur lequel se situe le gène dont la page Web est affichée. Or les valeurs associées (_«6p21.3_» et

«17q21-q24_») sont plus pr´ecises, elles fournissent plus exactement la localisation du g`ene sur

Sim_{J accard}= _c1+c2−c1c2^c1c2

5.1 Etape 1 : Acquisition des sch´^´ emas locaux