5.3 Etape 3 : Mise en correspondance des sch´ ´ emas
5.3.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau instances
a«data»(cf 4.2.5.2.2 page 121). `A partir des deux correspondances trouv´ees directement dans
l’UMLS et via WN, il est possible de :
– confirmer que la correspondance avec le concept Transcription, Genetic est correcte
´
etant donn´ee la similarit´e de sa d´efinition avec celle du synsettranscription#n#26;
– proposer une correspondance indirecte du mot«data»avec le concept UMLS
Informa-tion (C0870705), au travers d’un synonyme du synsetdata#n#1 qui avait ´et´e associ´e
`
a l’ED directement.
5.3.4 Mise en correspondance des ´el´ements de donn´ees au niveau instances
Nous avons calcul´e le coefficient de Jaccard pour toutes les paires d’EDs issus de sources
distinctes. La similarit´e au niveau des valeurs des EDs nous permet de compl´eter et valider les
correspondances des EDs dans l’UMLS.
11 paires d’EDs ont un indice de Jaccard de plus de 0,5. Celles-ci ontpermis d’identifier
de nouvelles correspondances dans l’UMLS. Par exemple, les valeurs de l’ED Official
Symbolde la source Entrez Gene sont similaires `a celles de l’EDGene Symbol, extrait de HPRD
6
La d´efinition deTranscription, Geneticest«The biosynthesis of RNA carried out on a template of DNA.
The biosynthesis of DNA from an RNA template is called REVERSE TRANSCRIPTION » et celle de
trans-cription#n#2 est«(genetics) the organic process whereby the DNA sequence in a gene is copied into mRNA ;
(indice de 0,55). Cela indique que l’EDOfficial Symbolcontient des symboles deg`enesofficiels
(et non de prot´eines ou autres). Une nouvelle correspondance est ainsi identifi´ee entre cet ED et
le concept UMLS Genes (C0017337).
Avec cet exemple, on constate ´egalement que l’approche au niveau instances permet de
valider des correspondances existantes. Les correspondances des deux EDs avec le concept
Symbols (C0679214) sont valid´ees car la similarit´e des valeurs confirme qu’il s’agit bien l`a de
symboles.
Par ailleurs, nous avons constat´e que cette approche permet d’´eliminer des
correspon-dances identifi´ees de mani`ere terminologique. En effet, l’ED Gene Name, issu de Entrez Gene,
et l’ED Approved Symbol, extrait de HGNC, ont une similarit´e de 0,927. Le nom du premier
ED indique qu’il concerne des noms de g`enes alors que le second contient des symboles. Il y a
donc une incoh´erence dans le nom d’un des EDs, ce qui peut poser probl`eme aux utilisateurs
qui s’attendent `a acc´eder `a une information mais en obtiennent une autre. Or, l’ED
Appro-ved Symbol est ´egalement mis en correspondance avec les EDs Official Symbol de Entrez
Gene et Gene Symbol de HGMD et HPRD, ce qui signifie que c’est cet ED qui est correct.
C’est donc Gene Name qui porte un nom inadapt´e `a son contenu. Dans ce cas, l’approche bas´ee
instances permet deux choses : ´eliminer la correspondance entre l’ED Gene Name et le concept
Names (C0027365)et ajouter une correspondance entre ce mˆeme ED et le conceptSymbols.
11 correspondances dont l’indice de Jaccard est compris entre 0,2 et 0,5 ont ´et´e identifi´ees.
Ces r´esultats indiquent que la similarit´e des valeurs des EDs concern´es est assez basse mais ils
peuvent malgr´e tout ˆetre utiles. En effet, ils permettent notamment d’identifier une
correspon-dance suppl´ementaire entre l’EDChromosomede HGNC et le concept Location (C0450429).
Les valeurs de cet ED co¨ıncident, avec un indice compris entre 0,23 et 0,30, avec celles de l’ED
Locationextrait de la source Entrez Gene et Chromosomal locationissu de HGMD ainsi que
de l’ED Gene map locus issu de HPRD.
Le d´etail des 21 correspondances ayant un indice de Jaccard sup´erieur `a 0,2 est donn´e dans
le tableau 5.7 page suivante. Pour les 11 cas sup´erieurs `a 0,5, les correspondances sont valid´ees
automatiquement car leur pourcentage de valeurs communes est haut. Pour les 11 autres
corres-pondances, une validation par un expert a ´et´e jug´ee n´ecessaire. Cette approche, bas´eeinstances,
permet donc de d´ecouvrir de nouvelles correspondances dans l’UMLS, de valider des
correspon-dances existantes et mˆeme d’en ´eliminer des incorrectes.
7
Sur les 100 pages obtenues lors de l’interrogation de ces sources, ces EDs contenaient chacun 96 valeurs non
vides et 92 sont communes aux deux EDs. Leur indice de Jaccard est donc de 0,92.
Tab.5.7 – Paires d’´el´ements de donn´ees mis en correspondance au travers de leurs valeurs. Tous
les r´esultats pour lesquels l’indice de Jaccard sup´erieur `a 0,2 sont donn´es.
´
El´ement de
don-n´ees 1
Source 1 El´´ ement de donn´ees 2 Source 2 Indice de
Jaccard
Gene Name Entrez Gene Approved Symbol HGNC 0,92
Approved Symbol HGNC Official Symbol Entrez Gene 0,81
Approved Symbol HGNC Gene Symbol HGMD 0,8
Gene Name Entrez Gene Gene Symbol HGMD 0,75
Gene Symbol HPRD Approved Symbol HGNC 0,64
Gene Symbol HGMD Official Symbol Entrez Gene 0,64
Approved Name HGNC Gene Description Entrez Gene 0,63
Gene Name Entrez Gene Gene Symbol HPRD 0,61
Gene Symbol HPRD Gene Symbol HGMD 0,59
Official Symbol Entrez Gene Gene Symbol HPRD 0,55
Genetic
Associa-tion Database
GeneCards Gene Symbol HGMD 0,52
Gene Name HGMD Approved Symbol HGNC 0,36
Official Symbol Entrez Gene Gene Name HGMD 0,36
Gene Name HGMD Gene Name Entrez Gene 0,35
Gene Symbol HGMD Gene Name HGMD 0,35
Gene Symbol HPRD Gene Name HGMD 0,31
Location Entrez Gene Chromosome HGNC 0,3
Gene map locus HPRD Chromosome HGNC 0,3
Location Entrez Gene Gene map locus HPRD 0,29
Chromosomal
loca-tion
HGMD Chromosome HGNC 0,23
Gene map locus HPRD Chromosomal location HGMD 0,21
Chromosomal
loca-tion
HGMD Location Entrez Gene 0,21
En conclusion, nous avons montr´e que les m´ethodes d´evelopp´ees pour faciliter la conception
de notre syst`eme sont efficaces. Plus pr´ecis´ement, nous acqu´erons automatiquement les sch´emas
locaux et nous avons cr´e´e un sch´ema global coh´erent d´ecrit dans un langage du Web s´emantique
et r´e-utilisant une ressource terminologique existante. Enfin, les mises en correspondance entre
les sch´emas locaux et le sch´ema global peuvent ˆetre r´ealis´ees de mani`ere semi-automatique.
Le syst`eme
Dans ce chapitre, nous pr´esentons le prototype du syst`eme que nous avons con¸cu `a partir
des m´ethodes d´ecrites dans les chapitres pr´ec´edents. Ses composants principaux, son
architec-ture globale et le processus de requˆetes mis en œuvre sont tout d’abord d´ecrits. Puis quelques
exemples illustrent le type de requˆetes qu’il est possible de r´ealiser avec notre syst`eme. Nous
montrons ensuite comment l’´evolution de notre syst`eme est g´er´ee au travers de l’int´egration
d’une nouvelle source mais aussi lors d’´eventuelles modifications des sources d´ej`a int´egr´ees. Le
d´etail des ´etapes est donn´e en pr´ecisant celles qui sont automatiques et celles qui n´ecessitent
l’intervention humaine. Enfin, nous synth´etisons ces diff´erents points en pr´ecisant le
positionne-ment de notre travail par rapport `a l’approche LAV (Local-As-View) introduite dans l’´etat de
l’art (cf 2.2.3.3.1 page 54).
6.1 Description du syst`eme
Dans le document
Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle
(Page 145-149)