Composition interne des m´ethodes - AROMA : une méthode pour la découverte d'alignements orient

Une méthode d’alignement réalise, la plupart du temps, une combinaison de plusieurs approches d’appariements. En effet, afin d’obtenir des résultats convenables une méthode doit utiliser plusieurs critères, s’appuyer sur diverses techniques et utiliser différents niveaux d’information sur la description des en- tités à apparier.

Du point de vue de [RB01], il existe deux manières de combiner différentes approches au sein de la méthode globale :

– L’hybridation permettant de combiner, en un seul algorithme, plusieurs approches basées sur différents critères et types d’information ;

– La composition permettant de combiner les résultats produits par plusieurs algorithmes exécutés de manière indépendante. Ces algorithmes d’alignement peuvent être basés sur des approches individuelles (utilisant un seul critère et source d’information) ou des approches hybrides. Les méthodes hybrides ont l’avantage d’obtenir de meilleures performances que l’exécution de plusieurs algorithmes individuels séparément. En effet, la prise en compte de plusieurs critères simultanés permet d’écarter directement des relations n’en satisfaisant qu’un seul et ainsi d’éviter de parcourir en totalité et/ou plusieurs fois les structures à aligner. Par exemple, la prise en compte de la relation d’ordre par un parcours préfixé (du haut vers le bas) des hiérarchies permet, lorsqu’une entité est incompatible avec une autre, d’éviter l’évaluation, inutile, d’appariements entre leurs subsumées. L’approche hybride est aussi intéressante pour prendre en compte des relations qui n’auraient pas été considérées en utilisant un seul critère.

Lorsque les critères étudiés sont indépendants, il est alors plus intéressant d’utiliser une approche composite qui permet plus de flexibilité. Par exemple, les critères utilisés pour aligner des ontologies décrites en OWL et des thésaurus SKOS ne seront pas les mêmes. Les méthodes composites ont l’avantage d’être modulaires et ainsi d’être adaptables plus facilement à différentes représentations de structures d’entrée. Même si dans la plupart des cas, la composition est intrinsèquement liée aux méthodes3_{, les auteurs de la méthode}

COMA (et ses dérivées) [DR02], ont exploité le coté modulaire de cette approche afin de permettre le choix à l’utilisateur de combiner différents algorithmes à sa guise.

Cependant, les méthodes composites nécessitent de fusionner les résultats produits par les différents algorithmes. La stratégie de fusion des résultats dépend des types d’algorithmes individuels ou hybrides utilisés et surtout de la manière dont ils sont combinés. Nous distinguons deux approches principales de composition d’algorithmes :

– la composition parallèle où les résultats des algorithmes individuels sont obtenus de manière indépendante, puis agrégés pour former l’alignement final ;

– la composition linéaire ou séquentielle où les résultats produits par

3_{[RB01] ont tendance `}_{a regrouper ce type de m´}_{ethodes (c.-`}_{a-d. les m´}_{ethodes dont la com-} position est réalisée en ✭✭ dur ✮✮) dans la catégorie des méthodes hybrides. Dans notre notre cas, nous dirons qu’une méthode est composite dès lors que les critères sont étudiés de manière indépendante

Fig.3.2 – Combinaison statistique

un algorithme servent d’entrée à un suivant et ainsi de suite. La production de l’alignement final est ainsi successivement raffinée.

Au sein d’une même méthode, les différentes approches de composition peuvent être utilisées.

3.3.1 Composition parall`ele

La composition parallèle permet de combiner les résultats produits par un ensemble d’algorithmes individuels ou hybrides exécutés de manière totalement indépendante [RB01]. En fonction du type d’algorithme utilisé, nous avons re- censé deux approches de combinaison des résultats.

Le premier cas concerne les algorithmes ne permettant pas la sélection d’éléments de correspondance. En effet, certains algorithmes sont seulement des fonctions calculant une valeur de qualité pour chaque appariement possible (c.- `

a.-d. pour chaque couple d’entités et pour chaque relation étudiée). Dans ce cas, la combinaison des résultats consiste à (1) agréger les fonctions de qualité pro- duites par chaque algorithme en une fonction globale, puis à (2) sélectionner un sous-ensemble d’éléments de correspondances pertinentes. Nous appelons cette première approche d’agrégation des résultats, combinaison statistique.

Le deuxième cas concerne les algorithmes d’alignement à proprement parler, qui permettent de sélectionner un ensemble d’éléments de correspondance pertinents et de fournir, éventuellement, une fonction de qualité. Dans ce cas, la combinaison des résultats consiste à (1) réaliser une opération ensembliste (union ou intersection) sur les ensembles de correspondances produits par chaque algorithme et à (2) agréger les fonctions de qualité lorsqu’elles sont définies sur des éléments de correspondances produits par plusieurs algorithmes. Nous appelons cette deuxième approche, combinaison ensembliste des résultats intermédiaires.

Combinaison statistique

Dans une approche par combinaison statistique des résultats (schématisée figure 3.2), chaque algorithme Mi produit un alignement Ai(C1× C2× R, qi) où

R_{⊆ {⇒, ⇐, ⇔}.}

La première étape consiste à agréger les fonctions de qualités qi en une

Composition interne des m´ethodes 51

triplet a = (x, y, r)_{∈ C}1× C2× R par une moyenne des fonctions qi :

q(a) = m v u u t 1 n n X i=1 qi(a)m

où m peut être égale à :

– m→ −∞ : minimum de la série. – m =−1 : moyenne harmonique, – m→ 0 : moyenne géométrique (3.3.1), – m = 1 : moyenne arithmétique, – m = 2 : moyenne quadratique. – m_{→ +∞ : maximum de la série.}

Cette moyenne peut être également pondérée par des confiances piassociées

a chaque algorithme. Dans le cas d’une moyenne arithm´etique (m = 1), elle est d´efinie ainsi : q(a) = Pn i=1pi.qi(a) Pn i=1pi

Si les valeurs de confiance retournées par les algorithmes sont vues comme des probabilités indépendantes les unes des autres alors on a recours à une moyenne géométrique définie ainsi :

q(a) = m v u u t n Y i=1 qi(a)m

De la même manière que pour la moyenne arithmétique, une moyenne géométrique peut être pondérée par des confiances pi associées à chaque al-

gorithme : q(a) = n Y i=1 qi(a)pi ! 1 Pn i=1pi

Une fois que les fonctions de qualités sont fusionnées, la deuxième étape consiste à sélectionner un ensemble d’éléments de correspondance pertinents afin de produire un alignement A = (V, q). Il existe plusieurs stratégies de sélection des éléments de correspondance :

– seuillage sur les valeurs de qualit´e, – maximisation locale de l’appariement, – maximisation globale de l’appariement.

La sélection de l’ensemble V peut être réalisée premièrement par seuillage. Dans ce cas, un élément a sera sélectionné si q(a) est supérieure à un seuil minimum q0. L’ensemble des éléments de correspondance V est alors défini par :

V =_{{a ∈ C}1× C2× R|q(a) ≥ q0}

En suivant cette stratégie, l’alignement produit n’aura aucune contrainte sur sa cardinalité. En effet, une entité d’une des hiérarchies pourra être en correspondance avec plusieurs entités de l’autre hiérarchie, du moment que les éléments de correspondance dans lesquels elle figure ont une valeur de qualité supérieure au seuil choisi.

La seconde stratégie de sélection est basée sur la maximisation locale de l’appariement. La maximisation locale consiste à choisir pour chaque entité de la hiérarchie source, l’élément (ou les éléments) de correspondance maximisant la valeur de qualité.

V =_{{a = (x, y, R) ∈ C}1× C2× R|∀a′= (x, y′,R′)∈ C1× C2× R,

q(a′_{) < q(a)}_{∧ a 6= a}′_{} (3.4)}

Cette stratégie de sélection rend la méthode d’alignement asymétrique. En effet, un élément de correspondance a = (x, y,_{R) ayant la meilleure valeur de} qualité pour x n’est pas forcément celui qui a la meilleure valeur de qualité pour y. L’ordre dans lequel sont considérées les hiérarchies devient ainsi important. De plus, cette stratégie aura tendance à produire des alignements fonctionnels (de cardinalité 0, 1_{− 0, n) dans le sens H}1 versH2s’il existe pour chaque entité

de la hiérarchie source un seul élément de correspondance maximisant la valeur de qualité. Cette stratégie de sélection des correspondances est celle qui est la plus utilisée par les méthodes d’alignement [RB01]. Il existe également des alternatives basées sur la minimisation locale du risque [TLL+_06].

Une autre stratégie s’appuie sur la maximisation globale de l’appariement. Elle consiste à sélectionner parmi un ensemble d’alignements répondant à un certain critère de cardinalité, celui qui maximise la somme des valeurs de qua- lité. Ce principe a été exposé dans [Val99] pour définir une distance d’alignement entre deux ensembles et utilisé par [EBB+_{04] au sein d’une méthode d’aligne-}

ment d’ontologies ne consid´erant que l’´equivalence. Ce principe est plus difficile `

a mettre en place dans le cadre général d’alignement de hiérarchies où chaque ensemble est muni d’une relation d’ordre et où un alignement prend en compte différents types de relations.

Soit M l’ensemble des ensembles de correspondance possibles. Si l’on fait abstraction des différents types de relations R, M sera constitué de triplets (x, y,_{R) où x et y n’apparaissent, respectivement, qu’une seule fois dans M.} Les types de relations peuvent être considérées de manière indépendante. Dans ce cas, M sera constitué de triplets (x, y,_{R) où x et y, n’apparaissent, respecti-} vement, qu’une seule fois dans M pour un type de relationR donné. Finalement, on peut également considérer la sémantique des relations et associer à chaque type de relation un modèle de cardinalité. Par exemple, on peut associer la car- dinalité 0, 1− 0, 1 pour la relation ⇔, 0, 1 − 0, n (respectivement 0, n − 0, 1) pour la relation⇒ (respectivement ⇐).

A partir d’un ensemble M , l’ensemble des éléments de correspondance sélectionnés sera défini par :

V = argmaxm∈M

ai∈mq(ai)

min(_|C1|, |C2|)

[Val99] a utilis´e ce principe pour d´efinir une distance globale entre deux ensembles mais en normalisant par max(|C1|, |C2|).

Composition interne des m´ethodes 53

Fig. 3.3 – Combinaison ensembliste

Combinaison ensembliste

La combinaison ensembliste des résultats est utilisée lorsque chaque algorithme Miproduit un alignement Ai(Vi, qi) où Vi⊆ C1×C2×R. Dans ce cas, la

fusion des résultats intermédiaires consiste à réaliser une opération ensembliste S

ou T sur les ensembles de correspondances Vi. En fonction de l’op´eration

utilisée, l’ensemble final d’éléments de correspondances V sera défini de l’une des deux fa¸cons suivantes :

V = n [ i=1 Vi V = n \ i=1 Vi

La combinaison ensembliste avec union est utilisée lorsque par exemple chaque algorithme est spécialisé dans un type de relation ou sur certaines parties des hiérarchies. La combinaison avec intersection peut être quant à elle perti- nente lorsque l’on désire qu’une relation ne soit validée que si elle respecte tous les critères considérés par les algorithmes. Ce dernier type de combinaison est particulièrement exigeant.

Une combinaison ensembliste peut être également utile lorsque l’on veut symétriser les résultats produits par une méthode M non symétrique. En effet, si l’on désire passer à partir d’une méthode de cardinalité 0, 1_{− 0, n à un} alignement symétrique de cardinalité 0, n−0, m alors on peut réaliser une combinaison ensembliste par union, M (H1,H2)∪ M(H2,H1). Si l’on veut passer à un

alignement symétrique de cardinalité 0, 1− 0, 1 alors on réalisera l’intersection M (H1,H2)∩ M(H2,H1).

Lorsqu’un élément de correspondance sélectionné est présent dans plusieurs ensembles Vi, la fonction de qualité globale q sera déduite à partir des fonctions

qi en utilisant un des moyens d’agrégation des fonctions de qualité présentés

dans la section pr´ec´edente. La fonction q sera alors soit une moyenne, soit le maximum ou soit le minimum des valeurs des fonctions qi.

3.3.2 Composition lin´eaire

Dans une composition linéaire, les algorithmes sont exécutés successivement et le résultat d’un algorithme sert d’entrée à un suivant et ainsi de suite jusqu’à obtenir l’alignement final. La composition linéaire est utilisée par deux types d’algorithmes : les algorithmes de découverte d’alignement, et les algorithmes de filtre d’alignement.

La composition linéaire dans les méthodes d’alignement est utilisée lorsque qu’un algorithme de découverte de relations se base sur un alignement préalable afin de l’étendre et de l’affiner. Ce type de composition est souvent utilisé lorsque l’algorithme suit une stratégie d’alignement structurelle (voir section 3.4.2). Cu- pid [MBR01], Similarity Flooding [MGMR02] ou encore GLUE [DMDH02] sont des exemples de méthode d’alignement utilisant ce type de composition linéaire. L’autre utilisation de la composition linéaire concerne les filtres d’alignement. Un algorithme de filtre d’alignement permet de réduire le nombre d’éléments d’un alignement en fonction de multiples critères. Un filtre d’alignement produit `

a partir d’un alignement A′ _{= (V}′_{, q) donné en entrée, un alignement filtré}

A = (V, q) tel que V _{⊆ V}′_{. Les crit`eres permettant de filtrer un alignement}

peuvent porter sur la cardinalit´e, la consistance, la redondance, etc.

Un filtre peut permettre de réduire la cardinalité d’un alignement. Par exemple, il est possible de passer d’un alignement de cardinalité 0, n_{−0, m (dans} le sens_H1 versH2) à un alignement de cardinalité 0, 1− 0, m en sélectionnant

seulement pour chaque entité x, l’élément (x, y,_{R) de V}′ _{qui maximise la fonc-}

tion de qualité q. Ce principe est l’un des plus utilisé par les méthodes d’alignement [RB01]. L’ensemble des éléments de correspondances V sera ainsi défini par :

V ={a = (x, y, R) ∈ V′_{| ∀a}′_{= (x, y}′_,_R′₎_{∈ V}′_{, q(a}′_{) < q(a)}_}

Les filtres portant sur la consistance vont vérifier pour chaque élément d’un alignement s’il n’existe pas un autre élément avec lequel il est en contradiction. La notion d’éléments de correspondance en contraction est introduite dans la section 2.2.4. Lorsqu’une correspondance est en contradiction avec une autre (ou un ensemble d’autres), plusieurs stratégies peuvent être utilisées pour résoudre le problème. La première stratégie consiste à éliminer une correspondance a en contradiction avec une correspondance a′_{, si la valeur de confiance associée}

a a est plus petite que celle associée à a′_{. Une deuxième stratégie consiste à}

compter pour chaque correspondance a, le nombre de correspondances avec lesquelles elle est en conflit. Les correspondances les plus conflictuelles seront ainsi itérativement supprimées jusqu’à ce que le nombre de conflits soit nul ou au-dessous d’un seuil fixé.

Les filtres de réduction de redondance (ou de couverture minimale) vont permettre de vérifier la minimalité d’un alignement. Plus précisément, ce type d’algorithme vise à éliminer les éléments de correspondance pouvant être déduits `

a partir d’autres. La redondance dans un alignement n’est possible que si la méthode permet de découvrir des implications entre entités. L’ensemble des éléments de correspondance V obtenu par élimination de la redondance à partir de l’ensemble V′ _{est égal à sa couverture minimale V}′O_{(voir section 2.2.3).}

Les techniques d’alignement intentionnelles 55

Dans le document AROMA : une méthode pour la découverte d'alignements orientés entre ontologies à partir de règles d'association (Page 62-68)