2.3 Probl´ ematique de mise en correspondance de sch´ emas
2.3.1 D´ efinitions et caract´ eristiques de l’op´ eration de mise en correspondance
de sch´emas
2.3.1.1 D´efinitions
L’op´eration de mise en correspondance de sch´emas consiste donc `a analyser deux
sch´emas fournis en entr´ee afin d’identifier des correspondances entre des ´el´ements de ces deux
sch´emas [Rahm 01].Un ´el´ement de l’op´eration de mise en correspondance de sch´emas
est d´efini par un«5-uplet»<id,e,e’,n,R> o`u [Shvaiko 05] :
– id est l’identifiant de l’´el´ement de mise en correspondance ;
– e ete’ sont les ´el´ements respectifs de chaque sch´ema que l’on souhaite mettre en
corres-pondance. Cela peut inclure non seulement les attributs des sources mais aussi les relations
existant entre eux, ou bien les propri´et´es les pr´ecisant ;
– n est la mesure de confiance permettant d’´evaluer la correspondance entree ete’;
– R est une relation existant entre les deux ´el´ements (´equivalence, plus - ou moins - g´en´eral,
On dira qu’un alignement est l’ensemble des ´el´ements obtenus lors de l’op´eration de mise en
correspondance.
2.3.1.2 Caract´eristiques
L’op´eration de mise en correspondance de sch´emas est caract´eris´ee par le niveau auquel elle
se situe (sch´ema ouinstances), le type et la granularit´e des ´el´ements qu’elle prend en entr´ee, les
informations exploit´ees pour mettre en œuvre ce processus et enfin, la cardinalit´e et la
gradua-tion de la mise en correspondance. Ces crit`eres sont d´efinis dans la suite de cette section.
Tout d’abord, l’op´eration de mise en correspondance s’effectue soit au niveau sch´ema,
soit au niveau instances. Comme indiqu´e pr´ec´edemment, dans le premier cas, seules les
in-formations existant dans le sch´ema sont utilis´ees pour effectuer l’op´eration. Par contre, pour les
approches situ´ees au niveauinstances, ce sont les donn´ees elles-mˆemes qui sont exploit´ees pour
inf´erer des informations n´ecessaires `a une mise en correspondance des ´el´ements des sch´emas des
sources associ´ees. L’exemple de l’attribut«Approved Symbol»introduit en d´ebut de la section
pr´ec´edente (cf 2.2.1.1 page 34) illustre l’int´erˆet d’utiliser les informations situ´ees au niveau
ins-tances. En effet, cet attribut pr´esent dans la source HGNC manque de pr´ecision et l’analyse des
valeurs associ´ees `a celui-ci peut permettre de le d´esambigu¨ıser en identifiant le contexte dans
lequel cet attribut s’exprime. On esp`ere ainsi pouvoir d´eterminer que cet attribut a pour valeurs
des symboles de g`enes et devrait donc ˆetre mis en correspondance avec un attribut ayant par
exemple comme nom «Gene Symbol» et non pas «Protein Symbol». Les valeurs utilis´ees
correspondent bien aux donn´ees contenues dans la source HGNC mais leur exploitation a pour
but d’apporter des informations au niveau sch´ema afin de d´eterminer quel autre attribut peut
ˆ
etre mis en correspondance avec «Approved Symbol».
Parmi les approches existantes, il faut distinguer celles qui tiennent compte de la
granula-rit´e des entr´ees, des autres. En terme de granularit´e, une diff´erence existe entre des m´ethodes
portant uniquement sur les ´el´ements des sch´emas par rapport `a celles qui exploitent la
struc-ture des sch´emas. Plus pr´ecis´ement, au niveau´el´ement, l’op´eration de mise en correspondance
consiste `a consid´erer les ´el´ements seuls, ignorant leurs relations avec d’autres ´el´ements. Au niveau
structure, on d´etermine les mises en correspondance possibles en analysant la mani`ere dont
les ´el´ements des sch´emas apparaissent ensemble dans une structure. Dans ce deuxi`eme cas, on
pourra obtenir, par exemple, une correspondance entre un ´el´ement d’un sch´ema et deux ´el´ements
plus sp´ecifiques pr´esents dans un autre sch´ema (Figure 2.8 page ci-contre). Ici, la granularit´e
des informations se trouvant dans les deux sch´emas est diff´erente, raison pour laquelle il est
int´eressant de consid´erer plus globalement la structure que les ´el´ements uniquement.
Les approches d´ependent ´egalement dutype d’information trait´ee en entr´eese trouvant
dans les sources plutˆot que de leur impl´ementation (base de donn´ees relationnelle, XML ou base
objet). Les algorithmes impl´ement´es consid`erent les ´el´ements soit d’un point de vue
terminolo-gique et dans ce cas, ce sont des m´ethodes traitant les chaˆınes de caract`eres qui sont propos´ees,
soit structurellement en exploitant la structure interne des entit´es (les types des attributs ainsi
que les relations existant entre eux), soit de mani`ere s´emantique o`u le contexte des ´el´ements
Asthme
Asthme aigu Asthme chroniqueSchéma 1 Schéma 2
Fig.2.8 – Exemple de mise en correspondance au niveaustructureentre des ´el´ements
de sch´emas de granularit´e diff´erente.
du sch´ema est consid´er´e. Ces algorithmes sont plus d´etaill´es dans la section suivante (cf 2.3.2
page 74).
Un autre param`etre d’entr´ee est g´en´eralement pris en compte, c’est le caract`ere exact ou
approximatif de l’op´eration. Dans le premier cas, une solution absolue est calcul´ee pour un
probl`eme tandis que dans l’autre, on cherche soit `a identifier un plus grand nombre de
cor-respondances, soit `a disposer d’une indication pour effectuer des traitements suppl´ementaires
dans un deuxi`eme temps. Plus pr´ecis´ement, il n’est parfois pas possible d’obtenir des
correspon-dances exactes et pour limiter le silence, on choisit de rechercher ´egalement des correspondances
approximatives. Dans ce cas, l’algorithme permet de calculer plus de correspondances
candi-dates au d´etriment de la pr´ecision, mais peut malgr´e tout constituer une bonne base `a laquelle
appliquer ensuite d’autres techniques plus pouss´ees. Si on reprend l’exemple ci-dessus de
l’attri-but«Approved Symbol», c’est grˆace `a des correspondances approximatives qu’il pourrait ˆetre
associ´e `a«Gene Symbol»et«Protein Symbol». Cela est insuffisant car ambigu mais
l’exploi-tation des valeurs respectives de ces attributs permettra de valider ou non les correspondances
approximatives identifi´ees pr´ealablement.
Enfin, les entr´ees de l’op´eration de mise en correspondance sont parfois compl´et´ees par
l’exploitation d’informations auxiliaires. En effet, tandis que certaines approches r´ealisent
l’interpr´etation des entr´ees d’un sch´ema en ne consid´erant que sa propre structure, d’autres
exploitent des informations externes pr´esentes dans des ressources auxiliaires d’un domaine et
d’une connaissance commune. Cela permet par exemple de d´eterminer que l’´el´ement E1 d’un
sch´ema peut ˆetre mis en correspondance avec l’´el´ement E2 d’un autre sch´ema car une ressource
terminologique externe contient un concept dont le terme pr´ef´er´e est E1 et l’un des termes
sy-nonymes est E2.
La derni`ere caract´eristique introduite ici concerne les sorties fournies par l’op´eration de
mise en correspondance. Les r´esultats sont de diff´erentes formes et n’ont notamment pas la
mˆemecardinalit´e. On obtient en effet des correspondances directes o`u un ´el´ement du sch´ema 1
est associ´e `a un ´el´ement du sch´ema 2 et dans ce cas, la cardinalit´e est de type 1-1. Parfois,
on ne parvient pas `a trouver ce type de correspondance et ainsi apparaissent des r´esultats plus
complexes `a exploiter o`u un ´el´ement d’un des sch´emas est associ´e `a plusieurs ´el´ements de l’autre
sch´ema (cardinalit´es 1-n ou m-1) ou encore de cardinalit´e m-n si un ensemble d’´el´ements du
sch´ema 1 est associ´e `a un ensemble d’´el´ements du sch´ema 2, ce qui est encore plus difficile `a
traiter.
Finalement, ces diff´erents types d’approches peuvent ˆetre combin´ees. Une derni`ere distinction
existe donc : les op´erations de mise en correspondance ´el´ementairesqui n’impl´ementent
qu’une unique approche et les op´erations combin´ees. Ces derni`eres peuvent ˆetre divis´ees
en deux : les op´erations dites hybrides qui consistent `a enchaˆıner s´equentiellement plusieurs
approches en suivant un ordre de pr´ef´erence d´efini pr´ealablement et les op´erations dites
compo-siteso`u les approches sont ex´ecut´ees parall`element pour ensuite d´eterminer quelle combinaison
permet de d´eterminer les mises en correspondance les plus pertinentes en fonction de crit`eres
multiples [Rahm 01].
Dans le document
Conception d’un modèle Web sémantique appliqué à la génomique fonctionnelle
(Page 72-75)