• Aucun résultat trouvé

Mise en correspondance des ´ el´ ements de donn´ ees au niveau instances

5.3 Etape 3 : Mise en correspondance des sch´ ´ emas

5.3.4 Mise en correspondance des ´ el´ ements de donn´ ees au niveau instances

a«data»(cf 4.2.5.2.2 page 121). `A partir des deux correspondances trouv´ees directement dans

l’UMLS et via WN, il est possible de :

– confirmer que la correspondance avec le concept Transcription, Genetic est correcte

´

etant donn´ee la similarit´e de sa d´efinition avec celle du synsettranscription#n#26;

– proposer une correspondance indirecte du mot«data»avec le concept UMLS

Informa-tion (C0870705), au travers d’un synonyme du synsetdata#n#1 qui avait ´et´e associ´e

`

a l’ED directement.

5.3.4 Mise en correspondance des ´el´ements de donn´ees au niveau instances

Nous avons calcul´e le coefficient de Jaccard pour toutes les paires d’EDs issus de sources

distinctes. La similarit´e au niveau des valeurs des EDs nous permet de compl´eter et valider les

correspondances des EDs dans l’UMLS.

11 paires d’EDs ont un indice de Jaccard de plus de 0,5. Celles-ci ontpermis d’identifier

de nouvelles correspondances dans l’UMLS. Par exemple, les valeurs de l’ED Official

Symbolde la source Entrez Gene sont similaires `a celles de l’EDGene Symbol, extrait de HPRD

6

La d´efinition deTranscription, Geneticest«The biosynthesis of RNA carried out on a template of DNA.

The biosynthesis of DNA from an RNA template is called REVERSE TRANSCRIPTION » et celle de

trans-cription#n#2 est«(genetics) the organic process whereby the DNA sequence in a gene is copied into mRNA ;

(indice de 0,55). Cela indique que l’EDOfficial Symbolcontient des symboles deg`enesofficiels

(et non de prot´eines ou autres). Une nouvelle correspondance est ainsi identifi´ee entre cet ED et

le concept UMLS Genes (C0017337).

Avec cet exemple, on constate ´egalement que l’approche au niveau instances permet de

valider des correspondances existantes. Les correspondances des deux EDs avec le concept

Symbols (C0679214) sont valid´ees car la similarit´e des valeurs confirme qu’il s’agit bien l`a de

symboles.

Par ailleurs, nous avons constat´e que cette approche permet d’´eliminer des

correspon-dances identifi´ees de mani`ere terminologique. En effet, l’ED Gene Name, issu de Entrez Gene,

et l’ED Approved Symbol, extrait de HGNC, ont une similarit´e de 0,927. Le nom du premier

ED indique qu’il concerne des noms de g`enes alors que le second contient des symboles. Il y a

donc une incoh´erence dans le nom d’un des EDs, ce qui peut poser probl`eme aux utilisateurs

qui s’attendent `a acc´eder `a une information mais en obtiennent une autre. Or, l’ED

Appro-ved Symbol est ´egalement mis en correspondance avec les EDs Official Symbol de Entrez

Gene et Gene Symbol de HGMD et HPRD, ce qui signifie que c’est cet ED qui est correct.

C’est donc Gene Name qui porte un nom inadapt´e `a son contenu. Dans ce cas, l’approche bas´ee

instances permet deux choses : ´eliminer la correspondance entre l’ED Gene Name et le concept

Names (C0027365)et ajouter une correspondance entre ce mˆeme ED et le conceptSymbols.

11 correspondances dont l’indice de Jaccard est compris entre 0,2 et 0,5 ont ´et´e identifi´ees.

Ces r´esultats indiquent que la similarit´e des valeurs des EDs concern´es est assez basse mais ils

peuvent malgr´e tout ˆetre utiles. En effet, ils permettent notamment d’identifier une

correspon-dance suppl´ementaire entre l’EDChromosomede HGNC et le concept Location (C0450429).

Les valeurs de cet ED co¨ıncident, avec un indice compris entre 0,23 et 0,30, avec celles de l’ED

Locationextrait de la source Entrez Gene et Chromosomal locationissu de HGMD ainsi que

de l’ED Gene map locus issu de HPRD.

Le d´etail des 21 correspondances ayant un indice de Jaccard sup´erieur `a 0,2 est donn´e dans

le tableau 5.7 page suivante. Pour les 11 cas sup´erieurs `a 0,5, les correspondances sont valid´ees

automatiquement car leur pourcentage de valeurs communes est haut. Pour les 11 autres

corres-pondances, une validation par un expert a ´et´e jug´ee n´ecessaire. Cette approche, bas´eeinstances,

permet donc de d´ecouvrir de nouvelles correspondances dans l’UMLS, de valider des

correspon-dances existantes et mˆeme d’en ´eliminer des incorrectes.

7

Sur les 100 pages obtenues lors de l’interrogation de ces sources, ces EDs contenaient chacun 96 valeurs non

vides et 92 sont communes aux deux EDs. Leur indice de Jaccard est donc de 0,92.

Tab.5.7 – Paires d’´el´ements de donn´ees mis en correspondance au travers de leurs valeurs. Tous

les r´esultats pour lesquels l’indice de Jaccard sup´erieur `a 0,2 sont donn´es.

´

El´ement de

don-n´ees 1

Source 1 El´´ ement de donn´ees 2 Source 2 Indice de

Jaccard

Gene Name Entrez Gene Approved Symbol HGNC 0,92

Approved Symbol HGNC Official Symbol Entrez Gene 0,81

Approved Symbol HGNC Gene Symbol HGMD 0,8

Gene Name Entrez Gene Gene Symbol HGMD 0,75

Gene Symbol HPRD Approved Symbol HGNC 0,64

Gene Symbol HGMD Official Symbol Entrez Gene 0,64

Approved Name HGNC Gene Description Entrez Gene 0,63

Gene Name Entrez Gene Gene Symbol HPRD 0,61

Gene Symbol HPRD Gene Symbol HGMD 0,59

Official Symbol Entrez Gene Gene Symbol HPRD 0,55

Genetic

Associa-tion Database

GeneCards Gene Symbol HGMD 0,52

Gene Name HGMD Approved Symbol HGNC 0,36

Official Symbol Entrez Gene Gene Name HGMD 0,36

Gene Name HGMD Gene Name Entrez Gene 0,35

Gene Symbol HGMD Gene Name HGMD 0,35

Gene Symbol HPRD Gene Name HGMD 0,31

Location Entrez Gene Chromosome HGNC 0,3

Gene map locus HPRD Chromosome HGNC 0,3

Location Entrez Gene Gene map locus HPRD 0,29

Chromosomal

loca-tion

HGMD Chromosome HGNC 0,23

Gene map locus HPRD Chromosomal location HGMD 0,21

Chromosomal

loca-tion

HGMD Location Entrez Gene 0,21

En conclusion, nous avons montr´e que les m´ethodes d´evelopp´ees pour faciliter la conception

de notre syst`eme sont efficaces. Plus pr´ecis´ement, nous acqu´erons automatiquement les sch´emas

locaux et nous avons cr´e´e un sch´ema global coh´erent d´ecrit dans un langage du Web s´emantique

et r´e-utilisant une ressource terminologique existante. Enfin, les mises en correspondance entre

les sch´emas locaux et le sch´ema global peuvent ˆetre r´ealis´ees de mani`ere semi-automatique.

Le syst`eme

Dans ce chapitre, nous pr´esentons le prototype du syst`eme que nous avons con¸cu `a partir

des m´ethodes d´ecrites dans les chapitres pr´ec´edents. Ses composants principaux, son

architec-ture globale et le processus de requˆetes mis en œuvre sont tout d’abord d´ecrits. Puis quelques

exemples illustrent le type de requˆetes qu’il est possible de r´ealiser avec notre syst`eme. Nous

montrons ensuite comment l’´evolution de notre syst`eme est g´er´ee au travers de l’int´egration

d’une nouvelle source mais aussi lors d’´eventuelles modifications des sources d´ej`a int´egr´ees. Le

d´etail des ´etapes est donn´e en pr´ecisant celles qui sont automatiques et celles qui n´ecessitent

l’intervention humaine. Enfin, nous synth´etisons ces diff´erents points en pr´ecisant le

positionne-ment de notre travail par rapport `a l’approche LAV (Local-As-View) introduite dans l’´etat de

l’art (cf 2.2.3.3.1 page 54).

6.1 Description du syst`eme