• Aucun résultat trouvé

Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-

4.2 M´ ethodes

4.2.5 Etape 3 : Mise en correspondance des sch´ ´ emas locaux avec le sch´ ema global118

4.2.5.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-

Cette derni`ere approche vise `a compl´eter les correspondances identifi´ees au niveau sch´ema.

Certains EDs ont des noms qui ne sont pas r´eellement informatifs quant `a leur contenu et n´

eces-sitent d’ˆetre pr´ecis´es. Par exemple, dans la figure 4.4 page 107, l’ED Chromosomelaisse penser,

d’apr`es son nom, que les valeurs qui lui sont associ´ees correspondent au num´ero du chromosome

sur lequel se situe le g`ene dont la page Web est affich´ee. Or les valeurs associ´ees («6p21.3» et

«17q21-q24») sont plus pr´ecises, elles fournissent plus exactement la localisation du g`ene sur

le chromosome. Un nom tel que Chromosomal Location aurait ´et´e mieux adapt´e pour qualifier

cet ED.

Pour pallier ce probl`eme, nous proposons d’exploiter les valeurs associ´ees aux EDs. Des EDs

issus de diff´erentes sources, et ayant les mˆemes valeurs, peuvent ˆetre mis en correspondance

et permettre parfois de trouver de nouvelles correspondances dans le sch´ema global. Par

exemple, l’ED Chromosome, qui est issu de HGNC, peut ˆetre mis en correspondance avec l’ED

Chromosomal Location, extrait de la source HGMD, car la plupart de leurs valeurs sont les

mˆemes. Ce deuxi`eme ED est mis en correspondance dans l’UMLS avec le concept Location

(C0450429). Il est alors possible de pr´eciser l’ED Chromosomeen lui associant une

correspon-dance suppl´ementaire dans l’UMLS (avec le concept Location).

Ensemble d’éléments de données

Ensemble de concepts UMLS Ensemble de synsets WN

Ensemble de synsets WN

Ensemble de concepts UMLS

associés directement aux EDs

Meilleure paire (concept UMLS, synset WN)

Ensemble de concepts UMLS validés, désambiguïsés et identifiés via WN

Recherche via WordNet Recherche directe dans l’UMLS

Sélection des meilleures corres-pondances + Désambiguïsation

Paires (concept UMLS, synset WN)

Recherche dans l’UMLS

Ensemble de concepts UMLS

associés via WN aux EDs

Critères : définition / synonymes / hypernymes

Comparaison

Fig.4.13 – Mises en correspondance directes et indirectes via WordNet des ´el´ements

de donn´ees dans l’UMLS.

Cette approche permet aussi de valider des correspondances identifi´ees au niveau

sch´ema. Par exemple, des EDs nomm´es Official Symbol et Approved Symbols seront tous

deux mis en correspondance avec le concept UMLS Symbols (C0679214)grˆace aux m´ethodes

terminologiques. Si en plus, leurs valeurs sont identiques alors on pourra valider la

correspon-dance initialement identifi´ee au niveau sch´ema.

Cette m´ethode r´e-utilise les valeurs de chaque ED que nous avons extraites pr´ec´edemment

pour typer les EDs (cf 4.2.3.4.1 page 108). Une mesure de similarit´e permettant de comparer

l’ensemble de valeurs pour chaque paire d’EDs issus de sources diff´erentes est calcul´ee. Nous

avons choisi pour cela d’utiliser l’indice de Jaccard qui d´etermine la similarit´e entre deux

en-sembles de valeurs de cardinalit´e respective c1 et c2 [Van Rijsbergen 79]. Elle est d´efinie par :

SimJ accard= c1+c2−c1c2c1c2

o`u c1c2 correspond `a la cardinalit´e de l’ensemble de valeurs communes aux deux ensembles.

La valeur de similarit´e varie de 0 (aucune similarit´e) `a 1 (similarit´e compl`ete).

Dans ce chapitre, nous avons tout d’abord pr´esent´e les sources que nous int´egrons

virtuelle-ment `a notre syst`eme d’int´egration et les ressources terminologiques utilis´ees pour sa conception.

Puis nous avons d´ecrit les m´ethodes mises en œuvre pour acqu´erir automatiquement le sch´ema

de ces sources. Nous avons ensuite propos´e deux approches afin d’´eliminer les cycles pr´esents

dans l’UMLS pour pouvoir l’utiliser comme sch´ema global. Finalement, nous avons d´etaill´e les

m´ethodes que nous avons d´evelopp´ees pour mettre en correspondance les ´el´ements de donn´ees

issus des sources avec les concepts UMLS.

R´esultats

Dans cette partie, nous reprenons les diff´erentes ´etapes d´etaill´ees dans la section M´ethodes

(cf 4.2 page 101) et donnons les r´esultats que nous avons obtenus pour chacune.

5.1 Etape 1 : Acquisition des sch´´ emas locaux

5.1.1 Extraction des ´el´ements de donn´ees

Au total, 474 EDs distincts (548 tokens) ont ´et´e extraits des onze sources de donn´ees. Parmi

eux, 47 (9,9%) apparaissent dans plus d’une source (la casse est ignor´ee) et les plus fr´equents

sontNameetSymbolqui sont pr´esents dans six sources diff´erentes. Notons que ces EDs sont tous

les deux ambigus et que sans savoir dans quel contexte ils s’expriment, on ne peut pas les mettre

en correspondance directement avec un unique concept commun.

Nous avons d´egag´e les cat´egories suivantes parmi les EDs obtenus `a partir des pages Web

r´esultats :

– lesEDs attendusqui correspondent aux EDs recens´es par la source comme ´etant les noms

externes (au sens de la source HGNC - cf 2.2.1.1 page 34) correspondant aux attributs

constituant son sch´ema et retrouv´es par notre m´ethode ;

– les EDs r´ef´erences crois´ees qui sont en fait des hyperliens identifi´es lors du parcours

des pages Web de la source ;

– lesEDs suppl´ementaires qui sont des EDs que nous avons extraits alors qu’ils ne sont

pas r´epertori´es par la source comme faisant partie de son sch´ema mais que nous avons

jug´es comme corrects et compl´ementaires par rapport aux EDs attendus. Ils peuvent donc

s’av´erer utiles pour la recherche d’informations dans la source ;

– lesEDs erron´es qui correspondent `a des EDs extraits par notre m´ethode alors qu’ils ne

sont pas r´epertori´es par la source comme faisant partie de son sch´ema et que nous avons

jug´es comme incorrects, dans le sens o`u ils n’apportent pas d’informations int´eressantes.

Une autre cat´egorie d’EDs existe : les EDs manquants. Ils correspondent aux EDs

recen-s´es par la source comme ´etant les noms externes correspondant aux attributs constituant son

sch´ema mais que notre m´ethode n’a pas retrouv´es.

Pour illustrer les r´esultats fournis par notre m´ethode, nous reprenons l’exemple de la source

HGNC. Les 25 EDs constituant son sch´ema ainsi qu’une page Web r´esultat sont pr´esent´es dans

la figure 2.4 page 35. Nous d´etaillons les EDs que notre m´ethode a permis d’extraire de cette

source (Figure 5.1 page 130) :

– 18 EDs attendus sur les 25 au total. Par exemple, les EDs Approved Symbol ou encore

Chromosome;

– 17 EDs r´ef´erences crois´ees, telles que GENATLAS,OMIM ou PMID;

– 3 EDs suppl´ementaires qui apportent une information utile. Ce sont les EDs Core Data,

Database Links et Gene Symbol Links qui correspondent en fait `a des cat´egories plus

g´en´erales regroupant plusieurs EDs. Il peut donc ˆetre int´eressant d’exploiter ces EDs

aux-quels les utilisateurs pourraient acc´eder afin de disposer d’une information plus globale

(c’est-`a-dire issue de plusieurs EDs leur appartenant). Par exemple, Core Data permet

de fournir les donn´ees associ´ees aux EDs attendus (c’est-`a-dire appartenant au sch´ema

de HGNC) Approved Symbol,Approved Name,HGNC ID,Status,Chromosome,Previous

Symbols,Previous Names etAliases, ;

– 2 EDs erron´es qui correspondent `a des informations pr´esentes (au mˆeme endroit et dans

la mˆeme balise d’une page `a l’autre) sur la plupart des pages Web mais ne sont pourtant

pas informatives. C’est le cas deApprovedetGiving unique and meaningful names to

every human gene.

Sur les 25 EDs recens´es par la source HGNC, sept ne sont pas extraits pas notre m´ethode.

Ces EDs sont de deux types : deux d’entre eux sont des EDs qui n’ont pas ´et´e extraits de HGNC

parce que sur les 100 pages Web de l’´echantillon que nous avons utilis´e, ces EDs n’apparaissaient

pas au moins dans 75% des pages (Misc IDs etGDB ID (mapped data)). Les cinq autres EDs

qui n’ont pas ´et´e extraits sont des EDs qui sont disponibles lorsque l’on r´ecup`ere les donn´ees

de la source HGNC en local mais qui ne sont pas fournis sur les pages Web r´esultats auxquelles

acc`edent les utilisateurs qui interrogent le site Web dynamiquement. Ces EDs incluent Locus

Type etDate Approved;

Nous ne d´etaillons pas l’ensemble des r´esultats pour les dix autres sources. Cependant, nous

avons v´erifi´e nos r´esultats et ils sont coh´erents. Pour les sources dont le sch´ema est accessible ou

dont un descriptif des attributs utilis´es est donn´e sur leur site Web (pr´ecis´e dans le tableau 4.1

page 95), nous avons utilis´e ces informations pour les comparer aux EDs que nous avons extraits.

Dans le cas de GeneLoc, ne disposant pas de ce type d’informations, nous avons v´erifi´e

directe-ment sur des pages Web fournies pour des g`enes donn´es que les EDs extraits ´etaient corrects.

Pour garder le maximum d’automatisation, nous avons d´ecid´e de ne pas imposer de validation

`

a cette ´etape puisque les r´esultats observ´es sont int´eressants tels quels. Pour ce qui concerne

les EDs manquants, nous consid´erons que cela est du, la plupart du temps, au fait que certains

´

el´ements du sch´ema n’apparaissent pas sur les pages Web fournies par la source et dans ce cas,

nous estimons que cela ne constitue pas une information capitale. Ensuite, nous avons regard´e

en d´etail les EDs erron´es et avons opt´e pour appliquer un certain nombre de filtres visant `a

diminuer ce bruit. Par exemple, nous avons ´elimin´e les EDs comprenant plus de 50 caract`eres

(car ils correspondent `a des phrases), ceux de moins de 4 caract`eres (car ils correspondent `a des

abr´eviations) et ceux constitu´es uniquement de chiffres (car ils correspondent `a des identifiants

donn´es).

5.1.2 Traitement des r´ef´erences crois´ees

Parmi les EDs r´ecup´er´es se trouvent des r´ef´erences crois´ees. Ces EDs correspondant `a des

liens hypertextes, ils sont automatiquement ´etiquet´es comme r´ef´erence crois´ee et stock´es dans

une base de donn´ees avec comme nom associ´e celui de la source r´ef´erenc´ee. Si le libell´e de l’ED

est l’identifiant d’une entr´ee donn´ee de la source r´ef´erenc´ee, aucun nom n’est attribu´e. En

re-vanche, si l’URL extraite existe dans la base, le champ contenant les sources faisant r´ef´erence

`

a cette entr´ee est simplement compl´et´e par le nom de la source dans laquelle cette r´ef´erence

crois´ee vient d’ˆetre identifi´ee. Ensuite, l’administrateur du syst`eme doit v´erifier les nouvelles

Fig. 5.1 – Tableaux repr´esentant les ´el´ements de donn´ees r´epertori´es par HGNC,

ceux obtenus par notre m´ethode et qui sont attendus puis ceux qui sont non

at-tendus.Le tableau 1 pr´esente les attributs et leurs noms externes utilis´es par la source HGNC

(http ://www.gene.ucl.ac.uk/cgi-bin/nomenclature/gdlw.pl). Le tableau 2 liste les EDs attendus

que nous avons obtenus en rouge et les tirets de mˆeme couleur indiquent les EDs manquants.

Le tableau 3 pr´esente les EDs non attendus ; les EDs r´ef´erences crois´ees y sont repr´esent´ees en

vert, les EDs suppl´ementaires en bleu et les EDs erron´es en orange.

Fig. 5.2 – R´ef´erences crois´ees de la source HGNC. Ces r´ef´erences sont stock´ees dans

une base de donn´ees relationnelle. Le premier champ donne le nom de la source r´ef´erenc´ee, le

second son URL et le troisi`eme r´epertorie l’ensemble des sources y faisant r´ef´erence. Notons

que parmi ces r´ef´erences ne se trouvent pas uniquement des sources de donn´ees. En effet, le lien

http ://www.hlda8.orgpar exemple correspond `a l’URL d’un laboratoire (HCDM) dont l’une des

activit´es est de r´epertorier des informations concernant des antig`enes.

r´ef´erences crois´ees qui ont ´et´e ajout´ees dans la base et dont le nom n’a pas ´et´e renseign´e. Il peut

compl´eter ce nom au travers d’une interface que nous avons d´evelopp´ee pour faciliter cette tˆache.

Les EDs correspondant `a des r´ef´erences crois´ees sont ajout´es dans le sch´ema des sources mais

ne sont pas mis en correspondance avec le sch´ema global. `A titre d’exemple, la figure 5.2 donne

le d´etail des r´ef´erences crois´ees identifi´ees pour la source HGNC.

La figure 5.3 page suivante donne la liste des EDs extraits de HGNC auxquels ont ´et´e

appliqu´es les diff´erents filtrages. Seuls les EDs qui vont ˆetre mis en correspondance avec le

sch´ema global sont repr´esent´es. On remarque la pr´esence de la r´ef´erence crois´eeEnzyme ID. Le

libell´e de son hyperlien n’a pas permis de faire le lien avec le nom de la r´ef´erence crois´ee dans la

base de donn´ees. Les EDs suppl´ementaires sont les mˆemes qu’avant les filtrages tandis que l’un

des EDs erron´es a ´et´e ´elimin´e car sa chaˆıne de caract`eres est trop longue.

Fig. 5.3 – EDs extraits de la source HGNC `a mettre en correspondance avec le

sch´ema global. Cette liste pr´esente les EDs apr`es filtrage des EDs non conformes aux pr´

e-requis et ´elimination des r´ef´erences crois´ees.