• Aucun résultat trouvé

D´ efinitions et caract´ eristiques de l’op´ eration de mise en correspondance

2.3 Probl´ ematique de mise en correspondance de sch´ emas

2.3.1 D´ efinitions et caract´ eristiques de l’op´ eration de mise en correspondance

de sch´emas

2.3.1.1 D´efinitions

L’op´eration de mise en correspondance de sch´emas consiste donc `a analyser deux

sch´emas fournis en entr´ee afin d’identifier des correspondances entre des ´el´ements de ces deux

sch´emas [Rahm 01].Un ´el´ement de l’op´eration de mise en correspondance de sch´emas

est d´efini par un«5-uplet»<id,e,e’,n,R> o`u [Shvaiko 05] :

– id est l’identifiant de l’´el´ement de mise en correspondance ;

– e ete’ sont les ´el´ements respectifs de chaque sch´ema que l’on souhaite mettre en

corres-pondance. Cela peut inclure non seulement les attributs des sources mais aussi les relations

existant entre eux, ou bien les propri´et´es les pr´ecisant ;

– n est la mesure de confiance permettant d’´evaluer la correspondance entree ete’;

– R est une relation existant entre les deux ´el´ements (´equivalence, plus - ou moins - g´en´eral,

On dira qu’un alignement est l’ensemble des ´el´ements obtenus lors de l’op´eration de mise en

correspondance.

2.3.1.2 Caract´eristiques

L’op´eration de mise en correspondance de sch´emas est caract´eris´ee par le niveau auquel elle

se situe (sch´ema ouinstances), le type et la granularit´e des ´el´ements qu’elle prend en entr´ee, les

informations exploit´ees pour mettre en œuvre ce processus et enfin, la cardinalit´e et la

gradua-tion de la mise en correspondance. Ces crit`eres sont d´efinis dans la suite de cette section.

Tout d’abord, l’op´eration de mise en correspondance s’effectue soit au niveau sch´ema,

soit au niveau instances. Comme indiqu´e pr´ec´edemment, dans le premier cas, seules les

in-formations existant dans le sch´ema sont utilis´ees pour effectuer l’op´eration. Par contre, pour les

approches situ´ees au niveauinstances, ce sont les donn´ees elles-mˆemes qui sont exploit´ees pour

inf´erer des informations n´ecessaires `a une mise en correspondance des ´el´ements des sch´emas des

sources associ´ees. L’exemple de l’attribut«Approved Symbol»introduit en d´ebut de la section

pr´ec´edente (cf 2.2.1.1 page 34) illustre l’int´erˆet d’utiliser les informations situ´ees au niveau

ins-tances. En effet, cet attribut pr´esent dans la source HGNC manque de pr´ecision et l’analyse des

valeurs associ´ees `a celui-ci peut permettre de le d´esambigu¨ıser en identifiant le contexte dans

lequel cet attribut s’exprime. On esp`ere ainsi pouvoir d´eterminer que cet attribut a pour valeurs

des symboles de g`enes et devrait donc ˆetre mis en correspondance avec un attribut ayant par

exemple comme nom «Gene Symbol» et non pas «Protein Symbol». Les valeurs utilis´ees

correspondent bien aux donn´ees contenues dans la source HGNC mais leur exploitation a pour

but d’apporter des informations au niveau sch´ema afin de d´eterminer quel autre attribut peut

ˆ

etre mis en correspondance avec «Approved Symbol».

Parmi les approches existantes, il faut distinguer celles qui tiennent compte de la

granula-rit´e des entr´ees, des autres. En terme de granularit´e, une diff´erence existe entre des m´ethodes

portant uniquement sur les ´el´ements des sch´emas par rapport `a celles qui exploitent la

struc-ture des sch´emas. Plus pr´ecis´ement, au niveau´el´ement, l’op´eration de mise en correspondance

consiste `a consid´erer les ´el´ements seuls, ignorant leurs relations avec d’autres ´el´ements. Au niveau

structure, on d´etermine les mises en correspondance possibles en analysant la mani`ere dont

les ´el´ements des sch´emas apparaissent ensemble dans une structure. Dans ce deuxi`eme cas, on

pourra obtenir, par exemple, une correspondance entre un ´el´ement d’un sch´ema et deux ´el´ements

plus sp´ecifiques pr´esents dans un autre sch´ema (Figure 2.8 page ci-contre). Ici, la granularit´e

des informations se trouvant dans les deux sch´emas est diff´erente, raison pour laquelle il est

int´eressant de consid´erer plus globalement la structure que les ´el´ements uniquement.

Les approches d´ependent ´egalement dutype d’information trait´ee en entr´eese trouvant

dans les sources plutˆot que de leur impl´ementation (base de donn´ees relationnelle, XML ou base

objet). Les algorithmes impl´ement´es consid`erent les ´el´ements soit d’un point de vue

terminolo-gique et dans ce cas, ce sont des m´ethodes traitant les chaˆınes de caract`eres qui sont propos´ees,

soit structurellement en exploitant la structure interne des entit´es (les types des attributs ainsi

que les relations existant entre eux), soit de mani`ere s´emantique o`u le contexte des ´el´ements

Asthme

Asthme aigu Asthme chronique

Schéma 1 Schéma 2

Fig.2.8 – Exemple de mise en correspondance au niveaustructureentre des ´el´ements

de sch´emas de granularit´e diff´erente.

du sch´ema est consid´er´e. Ces algorithmes sont plus d´etaill´es dans la section suivante (cf 2.3.2

page 74).

Un autre param`etre d’entr´ee est g´en´eralement pris en compte, c’est le caract`ere exact ou

approximatif de l’op´eration. Dans le premier cas, une solution absolue est calcul´ee pour un

probl`eme tandis que dans l’autre, on cherche soit `a identifier un plus grand nombre de

cor-respondances, soit `a disposer d’une indication pour effectuer des traitements suppl´ementaires

dans un deuxi`eme temps. Plus pr´ecis´ement, il n’est parfois pas possible d’obtenir des

correspon-dances exactes et pour limiter le silence, on choisit de rechercher ´egalement des correspondances

approximatives. Dans ce cas, l’algorithme permet de calculer plus de correspondances

candi-dates au d´etriment de la pr´ecision, mais peut malgr´e tout constituer une bonne base `a laquelle

appliquer ensuite d’autres techniques plus pouss´ees. Si on reprend l’exemple ci-dessus de

l’attri-but«Approved Symbol», c’est grˆace `a des correspondances approximatives qu’il pourrait ˆetre

associ´e `a«Gene Symbol»et«Protein Symbol». Cela est insuffisant car ambigu mais

l’exploi-tation des valeurs respectives de ces attributs permettra de valider ou non les correspondances

approximatives identifi´ees pr´ealablement.

Enfin, les entr´ees de l’op´eration de mise en correspondance sont parfois compl´et´ees par

l’exploitation d’informations auxiliaires. En effet, tandis que certaines approches r´ealisent

l’interpr´etation des entr´ees d’un sch´ema en ne consid´erant que sa propre structure, d’autres

exploitent des informations externes pr´esentes dans des ressources auxiliaires d’un domaine et

d’une connaissance commune. Cela permet par exemple de d´eterminer que l’´el´ement E1 d’un

sch´ema peut ˆetre mis en correspondance avec l’´el´ement E2 d’un autre sch´ema car une ressource

terminologique externe contient un concept dont le terme pr´ef´er´e est E1 et l’un des termes

sy-nonymes est E2.

La derni`ere caract´eristique introduite ici concerne les sorties fournies par l’op´eration de

mise en correspondance. Les r´esultats sont de diff´erentes formes et n’ont notamment pas la

mˆemecardinalit´e. On obtient en effet des correspondances directes o`u un ´el´ement du sch´ema 1

est associ´e `a un ´el´ement du sch´ema 2 et dans ce cas, la cardinalit´e est de type 1-1. Parfois,

on ne parvient pas `a trouver ce type de correspondance et ainsi apparaissent des r´esultats plus

complexes `a exploiter o`u un ´el´ement d’un des sch´emas est associ´e `a plusieurs ´el´ements de l’autre

sch´ema (cardinalit´es 1-n ou m-1) ou encore de cardinalit´e m-n si un ensemble d’´el´ements du

sch´ema 1 est associ´e `a un ensemble d’´el´ements du sch´ema 2, ce qui est encore plus difficile `a

traiter.

Finalement, ces diff´erents types d’approches peuvent ˆetre combin´ees. Une derni`ere distinction

existe donc : les op´erations de mise en correspondance ´el´ementairesqui n’impl´ementent

qu’une unique approche et les op´erations combin´ees. Ces derni`eres peuvent ˆetre divis´ees

en deux : les op´erations dites hybrides qui consistent `a enchaˆıner s´equentiellement plusieurs

approches en suivant un ordre de pr´ef´erence d´efini pr´ealablement et les op´erations dites

compo-siteso`u les approches sont ex´ecut´ees parall`element pour ensuite d´eterminer quelle combinaison

permet de d´eterminer les mises en correspondance les plus pertinentes en fonction de crit`eres

multiples [Rahm 01].