4.2 M´ ethodes
4.2.5 Etape 3 : Mise en correspondance des sch´ ´ emas locaux avec le sch´ ema global118
4.2.5.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau ins-
Cette derni`ere approche vise `a compl´eter les correspondances identifi´ees au niveau sch´ema.
Certains EDs ont des noms qui ne sont pas r´eellement informatifs quant `a leur contenu et n´
eces-sitent d’ˆetre pr´ecis´es. Par exemple, dans la figure 4.4 page 107, l’ED Chromosomelaisse penser,
d’apr`es son nom, que les valeurs qui lui sont associ´ees correspondent au num´ero du chromosome
sur lequel se situe le g`ene dont la page Web est affich´ee. Or les valeurs associ´ees («6p21.3» et
«17q21-q24») sont plus pr´ecises, elles fournissent plus exactement la localisation du g`ene sur
le chromosome. Un nom tel que Chromosomal Location aurait ´et´e mieux adapt´e pour qualifier
cet ED.
Pour pallier ce probl`eme, nous proposons d’exploiter les valeurs associ´ees aux EDs. Des EDs
issus de diff´erentes sources, et ayant les mˆemes valeurs, peuvent ˆetre mis en correspondance
et permettre parfois de trouver de nouvelles correspondances dans le sch´ema global. Par
exemple, l’ED Chromosome, qui est issu de HGNC, peut ˆetre mis en correspondance avec l’ED
Chromosomal Location, extrait de la source HGMD, car la plupart de leurs valeurs sont les
mˆemes. Ce deuxi`eme ED est mis en correspondance dans l’UMLS avec le concept Location
(C0450429). Il est alors possible de pr´eciser l’ED Chromosomeen lui associant une
correspon-dance suppl´ementaire dans l’UMLS (avec le concept Location).
Ensemble d’éléments de données
Ensemble de concepts UMLS Ensemble de synsets WN
Ensemble de synsets WN
Ensemble de concepts UMLS
associés directement aux EDs
Meilleure paire (concept UMLS, synset WN)
Ensemble de concepts UMLS validés, désambiguïsés et identifiés via WN
Recherche via WordNet Recherche directe dans l’UMLS
Sélection des meilleures corres-pondances + Désambiguïsation
Paires (concept UMLS, synset WN)
Recherche dans l’UMLS
Ensemble de concepts UMLS
associés via WN aux EDs
Critères : définition / synonymes / hypernymes
Comparaison
Fig.4.13 – Mises en correspondance directes et indirectes via WordNet des ´el´ements
de donn´ees dans l’UMLS.
Cette approche permet aussi de valider des correspondances identifi´ees au niveau
sch´ema. Par exemple, des EDs nomm´es Official Symbol et Approved Symbols seront tous
deux mis en correspondance avec le concept UMLS Symbols (C0679214)grˆace aux m´ethodes
terminologiques. Si en plus, leurs valeurs sont identiques alors on pourra valider la
correspon-dance initialement identifi´ee au niveau sch´ema.
Cette m´ethode r´e-utilise les valeurs de chaque ED que nous avons extraites pr´ec´edemment
pour typer les EDs (cf 4.2.3.4.1 page 108). Une mesure de similarit´e permettant de comparer
l’ensemble de valeurs pour chaque paire d’EDs issus de sources diff´erentes est calcul´ee. Nous
avons choisi pour cela d’utiliser l’indice de Jaccard qui d´etermine la similarit´e entre deux
en-sembles de valeurs de cardinalit´e respective c1 et c2 [Van Rijsbergen 79]. Elle est d´efinie par :
SimJ accard= c1+c2−c1c2c1c2
o`u c1c2 correspond `a la cardinalit´e de l’ensemble de valeurs communes aux deux ensembles.
La valeur de similarit´e varie de 0 (aucune similarit´e) `a 1 (similarit´e compl`ete).
Dans ce chapitre, nous avons tout d’abord pr´esent´e les sources que nous int´egrons
virtuelle-ment `a notre syst`eme d’int´egration et les ressources terminologiques utilis´ees pour sa conception.
Puis nous avons d´ecrit les m´ethodes mises en œuvre pour acqu´erir automatiquement le sch´ema
de ces sources. Nous avons ensuite propos´e deux approches afin d’´eliminer les cycles pr´esents
dans l’UMLS pour pouvoir l’utiliser comme sch´ema global. Finalement, nous avons d´etaill´e les
m´ethodes que nous avons d´evelopp´ees pour mettre en correspondance les ´el´ements de donn´ees
issus des sources avec les concepts UMLS.
R´esultats
Dans cette partie, nous reprenons les diff´erentes ´etapes d´etaill´ees dans la section M´ethodes
(cf 4.2 page 101) et donnons les r´esultats que nous avons obtenus pour chacune.
5.1 Etape 1 : Acquisition des sch´´ emas locaux
5.1.1 Extraction des ´el´ements de donn´ees
Au total, 474 EDs distincts (548 tokens) ont ´et´e extraits des onze sources de donn´ees. Parmi
eux, 47 (9,9%) apparaissent dans plus d’une source (la casse est ignor´ee) et les plus fr´equents
sontNameetSymbolqui sont pr´esents dans six sources diff´erentes. Notons que ces EDs sont tous
les deux ambigus et que sans savoir dans quel contexte ils s’expriment, on ne peut pas les mettre
en correspondance directement avec un unique concept commun.
Nous avons d´egag´e les cat´egories suivantes parmi les EDs obtenus `a partir des pages Web
r´esultats :
– lesEDs attendusqui correspondent aux EDs recens´es par la source comme ´etant les noms
externes (au sens de la source HGNC - cf 2.2.1.1 page 34) correspondant aux attributs
constituant son sch´ema et retrouv´es par notre m´ethode ;
– les EDs r´ef´erences crois´ees qui sont en fait des hyperliens identifi´es lors du parcours
des pages Web de la source ;
– lesEDs suppl´ementaires qui sont des EDs que nous avons extraits alors qu’ils ne sont
pas r´epertori´es par la source comme faisant partie de son sch´ema mais que nous avons
jug´es comme corrects et compl´ementaires par rapport aux EDs attendus. Ils peuvent donc
s’av´erer utiles pour la recherche d’informations dans la source ;
– lesEDs erron´es qui correspondent `a des EDs extraits par notre m´ethode alors qu’ils ne
sont pas r´epertori´es par la source comme faisant partie de son sch´ema et que nous avons
jug´es comme incorrects, dans le sens o`u ils n’apportent pas d’informations int´eressantes.
Une autre cat´egorie d’EDs existe : les EDs manquants. Ils correspondent aux EDs
recen-s´es par la source comme ´etant les noms externes correspondant aux attributs constituant son
sch´ema mais que notre m´ethode n’a pas retrouv´es.
Pour illustrer les r´esultats fournis par notre m´ethode, nous reprenons l’exemple de la source
HGNC. Les 25 EDs constituant son sch´ema ainsi qu’une page Web r´esultat sont pr´esent´es dans
la figure 2.4 page 35. Nous d´etaillons les EDs que notre m´ethode a permis d’extraire de cette
source (Figure 5.1 page 130) :
– 18 EDs attendus sur les 25 au total. Par exemple, les EDs Approved Symbol ou encore
Chromosome;
– 17 EDs r´ef´erences crois´ees, telles que GENATLAS,OMIM ou PMID;
– 3 EDs suppl´ementaires qui apportent une information utile. Ce sont les EDs Core Data,
Database Links et Gene Symbol Links qui correspondent en fait `a des cat´egories plus
g´en´erales regroupant plusieurs EDs. Il peut donc ˆetre int´eressant d’exploiter ces EDs
aux-quels les utilisateurs pourraient acc´eder afin de disposer d’une information plus globale
(c’est-`a-dire issue de plusieurs EDs leur appartenant). Par exemple, Core Data permet
de fournir les donn´ees associ´ees aux EDs attendus (c’est-`a-dire appartenant au sch´ema
de HGNC) Approved Symbol,Approved Name,HGNC ID,Status,Chromosome,Previous
Symbols,Previous Names etAliases, ;
– 2 EDs erron´es qui correspondent `a des informations pr´esentes (au mˆeme endroit et dans
la mˆeme balise d’une page `a l’autre) sur la plupart des pages Web mais ne sont pourtant
pas informatives. C’est le cas deApprovedetGiving unique and meaningful names to
every human gene.
Sur les 25 EDs recens´es par la source HGNC, sept ne sont pas extraits pas notre m´ethode.
Ces EDs sont de deux types : deux d’entre eux sont des EDs qui n’ont pas ´et´e extraits de HGNC
parce que sur les 100 pages Web de l’´echantillon que nous avons utilis´e, ces EDs n’apparaissaient
pas au moins dans 75% des pages (Misc IDs etGDB ID (mapped data)). Les cinq autres EDs
qui n’ont pas ´et´e extraits sont des EDs qui sont disponibles lorsque l’on r´ecup`ere les donn´ees
de la source HGNC en local mais qui ne sont pas fournis sur les pages Web r´esultats auxquelles
acc`edent les utilisateurs qui interrogent le site Web dynamiquement. Ces EDs incluent Locus
Type etDate Approved;
Nous ne d´etaillons pas l’ensemble des r´esultats pour les dix autres sources. Cependant, nous
avons v´erifi´e nos r´esultats et ils sont coh´erents. Pour les sources dont le sch´ema est accessible ou
dont un descriptif des attributs utilis´es est donn´e sur leur site Web (pr´ecis´e dans le tableau 4.1
page 95), nous avons utilis´e ces informations pour les comparer aux EDs que nous avons extraits.
Dans le cas de GeneLoc, ne disposant pas de ce type d’informations, nous avons v´erifi´e
directe-ment sur des pages Web fournies pour des g`enes donn´es que les EDs extraits ´etaient corrects.
Pour garder le maximum d’automatisation, nous avons d´ecid´e de ne pas imposer de validation
`
a cette ´etape puisque les r´esultats observ´es sont int´eressants tels quels. Pour ce qui concerne
les EDs manquants, nous consid´erons que cela est du, la plupart du temps, au fait que certains
´
el´ements du sch´ema n’apparaissent pas sur les pages Web fournies par la source et dans ce cas,
nous estimons que cela ne constitue pas une information capitale. Ensuite, nous avons regard´e
en d´etail les EDs erron´es et avons opt´e pour appliquer un certain nombre de filtres visant `a
diminuer ce bruit. Par exemple, nous avons ´elimin´e les EDs comprenant plus de 50 caract`eres
(car ils correspondent `a des phrases), ceux de moins de 4 caract`eres (car ils correspondent `a des
abr´eviations) et ceux constitu´es uniquement de chiffres (car ils correspondent `a des identifiants
donn´es).
5.1.2 Traitement des r´ef´erences crois´ees
Parmi les EDs r´ecup´er´es se trouvent des r´ef´erences crois´ees. Ces EDs correspondant `a des
liens hypertextes, ils sont automatiquement ´etiquet´es comme r´ef´erence crois´ee et stock´es dans
une base de donn´ees avec comme nom associ´e celui de la source r´ef´erenc´ee. Si le libell´e de l’ED
est l’identifiant d’une entr´ee donn´ee de la source r´ef´erenc´ee, aucun nom n’est attribu´e. En
re-vanche, si l’URL extraite existe dans la base, le champ contenant les sources faisant r´ef´erence
`
a cette entr´ee est simplement compl´et´e par le nom de la source dans laquelle cette r´ef´erence
crois´ee vient d’ˆetre identifi´ee. Ensuite, l’administrateur du syst`eme doit v´erifier les nouvelles
Fig. 5.1 – Tableaux repr´esentant les ´el´ements de donn´ees r´epertori´es par HGNC,
ceux obtenus par notre m´ethode et qui sont attendus puis ceux qui sont non
at-tendus.Le tableau 1 pr´esente les attributs et leurs noms externes utilis´es par la source HGNC
(http ://www.gene.ucl.ac.uk/cgi-bin/nomenclature/gdlw.pl). Le tableau 2 liste les EDs attendus
que nous avons obtenus en rouge et les tirets de mˆeme couleur indiquent les EDs manquants.
Le tableau 3 pr´esente les EDs non attendus ; les EDs r´ef´erences crois´ees y sont repr´esent´ees en
vert, les EDs suppl´ementaires en bleu et les EDs erron´es en orange.
Fig. 5.2 – R´ef´erences crois´ees de la source HGNC. Ces r´ef´erences sont stock´ees dans
une base de donn´ees relationnelle. Le premier champ donne le nom de la source r´ef´erenc´ee, le
second son URL et le troisi`eme r´epertorie l’ensemble des sources y faisant r´ef´erence. Notons
que parmi ces r´ef´erences ne se trouvent pas uniquement des sources de donn´ees. En effet, le lien
http ://www.hlda8.orgpar exemple correspond `a l’URL d’un laboratoire (HCDM) dont l’une des
activit´es est de r´epertorier des informations concernant des antig`enes.
r´ef´erences crois´ees qui ont ´et´e ajout´ees dans la base et dont le nom n’a pas ´et´e renseign´e. Il peut
compl´eter ce nom au travers d’une interface que nous avons d´evelopp´ee pour faciliter cette tˆache.
Les EDs correspondant `a des r´ef´erences crois´ees sont ajout´es dans le sch´ema des sources mais
ne sont pas mis en correspondance avec le sch´ema global. `A titre d’exemple, la figure 5.2 donne
le d´etail des r´ef´erences crois´ees identifi´ees pour la source HGNC.
La figure 5.3 page suivante donne la liste des EDs extraits de HGNC auxquels ont ´et´e
appliqu´es les diff´erents filtrages. Seuls les EDs qui vont ˆetre mis en correspondance avec le
sch´ema global sont repr´esent´es. On remarque la pr´esence de la r´ef´erence crois´eeEnzyme ID. Le
libell´e de son hyperlien n’a pas permis de faire le lien avec le nom de la r´ef´erence crois´ee dans la
base de donn´ees. Les EDs suppl´ementaires sont les mˆemes qu’avant les filtrages tandis que l’un
des EDs erron´es a ´et´e ´elimin´e car sa chaˆıne de caract`eres est trop longue.
Fig. 5.3 – EDs extraits de la source HGNC `a mettre en correspondance avec le
sch´ema global. Cette liste pr´esente les EDs apr`es filtrage des EDs non conformes aux pr´
e-requis et ´elimination des r´ef´erences crois´ees.
Dans le document
Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle
(Page 124-133)