Définition de la fonction globale - Mesure de similarité sémantique

Chapitre 6 Mesure de similarité sémantique

6.4 Définition de la fonction globale

La fonction globale de mesure de similarité entre deux entités désigne la valeur finale calculée en fonction de connaissances liées à ces deux entités. Ceci nécessite la prise en compte de l’expressivité du langage OWL DL et de l’ensemble de ses caractéristiques entrant dans la description des entités. Ainsi, la fonction globale de similarité est définie en fonction de méthodes basées sur les structures interne et externe des entités à apparier.

Les méthodes basées sur la structure interne des entités utilisent des descriptions telles que les co-domaines des propriétés (propriété d’objets ou de types de données), les cardinalités, et certaines caractéristiques des propriétés (transitivité, symétrie, etc.) (Euzenat, et al., 2004). Concernant la structure externe, la mesure de similarité entre deux entités repose principalement sur la position des entités dans leur hiérarchie. Autrement dit, si deux entités de deux ontologies sont similaires, leurs voisins peuvent avoir une similarité entre eux.

La définition de notre fonction globale est basée sur celle définie dans la méthode OLA (Euzenat, et al., 2004-b) pour le langage OWL Lite. Par conséquent, nous adaptons cette fonction dans notre méthode pour prendre en considération l’extension de la version DL par rapport à la version Lite du langage OWL. En effet, la mesure de similarité globale dépend de deux facteurs :

a) La catégorie des entités à apparier, telle que définie dans OWL DL : une classe ou concept ( ), une propriété d’objet ( ), une propriété de type de données ( ), un

142

type de données ( ), une instance de classe ( ), une instance de propriété ( ), ou une valeur de données ( ).

b) L’ensemble de caractéristiques associées à chaque catégorie d’entités, par exemple sa description, sa hiérarchie, ses propriétés, etc.

Comme présentées dans OLA, ces catégories peuvent être liées entre elles avec des relations, notées ( ) { ; ; }. Ces liaisons sont classées sous différentes catégories :

1) Spécialisation ( ) : (ou subsomption) entre deux classes ou deux propriétés. Dans une hiérarchie, une sous-entité est une « spécialisation » d’une super-entité, et réciproquement la super-entité est une « généralisation » de la sous-entité.

2) Attribution ( ) : désigne une relation d’attribution entre une classe et une propriété, ou également entre une instance de classe et une instance de propriété. Elle peut être spécifiée en deux attributions : attribution ( ) s’il s’agit d’une propriété d’objet, ou attribution ( ) si la propriété est de type valeur de données.

3) Instanciation ( ) : (ou type) désigne une relation d’appartenance entre une instance de classe et une classe, entre une instance de propriété et une propriété, ou entre une valeur de données et un type de données.

4) Equivalence (E) : peut être définie entre deux classes ou deux propriétés.

5) Exclusion (X) : désigne une relation de disjonction entre deux classes. Autrement dit, elle sert à dénoter que l’intersection des deux classes doit être un ensemble vide. 6) Domaine (Do) : spécifie les relations entre une propriété et les concepts définis

comme domaine de la propriété.

7) Co-domaine (Co) : spécifie les relations entre une propriété et les concepts définis comme co-domaine de la propriété.

8) Propriété Inverse (InvP) : définit une relation de propriété inverse entre deux propriétés de type d’objets. Par exemple, dans une liste définie la propriété « hasPrevious » est l’inverse de la propriété « hasNext » ;

9) Des fonctions sont également définies pour déterminer certaines caractéristiques des propriétés, telles que la transitivité ou la symétrie d’une propriété. Sachant que leur valeur de retour est 0 ou 1, ces fonctions sont définies comme suit :

a. ( ) ( ) : déterminent respectivement si une propriété d’objet ou une propriété de type de données est fonctionnelle ou non.

143

b. ( ) , ( ) ( ) : déterminent respectivement si une propriété d’objets est une propriété transitive, symétrique, ou inverse fonctionnelle.

Comme définie dans (Euzenat, et al., 2004-b), chaque catégorie d’entités est distinguée par une liste de caractéristiques et de relations qui lui sont spécifiques. En se basant sur cette distinction, la définition de la fonction globale de similarité doit être donc relative à chaque catégorie, en fonction de ses caractéristiques et de ses liaisons. Ainsi, la fonction globale de calcul de similarité ( ), associée à une catégorie X entre deux entités C et

D, dépend proportionnellement des valeurs de similarité des paires d’entités ( ) , tel que et sont des entités liées à C et D respectivement via des relations ( ). Par exemple peut être une sous-classe de C définie avec une relation de spécialisation entre C et .

Le couple ( ) à apparier est appelé le couple d’« ancrage » de la similarité, et les couples ( ) liés respectivement au couple ( ) sont des couples contributeurs, puisqu’ils affectent directement la valeur de similarité du couple d’ancrage (Euzenat, et al., 2004-b). Un couple contributeur dans une fonction peut être un couple d’ancrage dans une autre fonction. Cette relation de contribution peut être propagée transitivement à travers les couples d’entités évalués selon des ordres . Un paramètre de profondeur sera défini dans notre algorithme pour déterminer l’ordre de propagation désiré pour le calcul de similarité entre un couple d’entités. Par défaut, les entités directes sont uniquement concernées par le calcul de similarité, c'est-à-dire .

Nous avons utilisé l’équation de la fonction globale de similarité définie dans OLA (Euzenat, et al., 2004-b). Cette fonction globale est obtenue par l’agrégation des valeurs de similarité des couples contributeurs, par une somme pondérée de ces valeurs, permettant de contrôler la contribution de chaque élément. Concrètement, la fonction globale de similarité, [ ] relative à une catégorie X est définie comme suit (Euzenat, et al., 2004-b) :

( ) ∑ ( ( ) ( ) ( )

où ( ) représente l’ensemble de liens définis pour chaque catégorie X. Une attention particulière est affectée à chaque type de liaison des entités, ( ). Pour considérer l’importance de cette attention, un paramètre de pondération, , est défini reflétant le poids attentionnel porté par les sujets à la liaison définie, où , et ∑ .

144

Le tableau 4 présente les caractéristiques de chaque catégorie que nous considérons dans la définition de la fonction globale de similarité. En effet, nous avons défini ces caractéristiques, appropriées au langage OWL DL, pour deux catégories : concepts et propriétés. Dans ce tableau, les concepts sont représentés par la catégorie classe, et les propriétés par les deux catégories propriétés d’objet et propriété de type de données.

Catégorie ( ) Relation ( ) ^Conditions Fonction de Similarité ( ( ) ( )) Classe ( ) Equivalent ( ) ( ) ⁽⁾ SubClassOf ( ) ( ) ⁽⁾ DisjointClass ( ) ( ) ⁽⁾ ObjectProperty ( ) ( ) ⁽ ⁾ DatatypeProperty ( ) ( ) ⁽⁾ Propriété d’objets ( ) EquivalentPoperty ( ) ( ) ⁽ ⁾ SubPropertyOf ( ) ( ) ⁽ ⁾ Domain ( ) ( ) ⁽⁾ Range ( ) ( ) ⁽⁾ InverseProperty ( ) ( ) ⁽ ⁾ Functional ( ) ( ) ^{1 si (} ) ( ) 0 sinon InverseFunctional ( ) ( ) ^{1 si (}) ( ) 0 sinon Symmetry ( ) ( ) ^{1 si (} ) ( ) 0 sinon Transitivity ( ) ( ) ^{1 si (} ) ( ) 0 sinon Propriété de type de données ( ) EquivalentPoperty ( ) ( ) ⁽⁾ SubPropertyOf ( ) ( ) ⁽⁾ Domain ( ) ( ) ⁽⁾ Range ( ) ( ) ⁽⁾ Functional ( ) ( ) ^{1 si (}) ( ) 0 sinon

145

Dans notre méthode, nous nous intéressons à la comparaison des entités au niveau terminologique , plutôt qu’au niveau factuel . En effet, pour transférer les instances d’une ontologie à une autre, il suffit de détecter les types des instances, soit les concepts et les propriétés, correspondants dans l’ontologie cible. Comme présenté dans le tableau 4, la fonction globale de mesure de similarité des concepts C (catégorie Classe) est définie en fonction des caractéristiques liées à cette catégorie comme suit :

- Equivalent : établit une liaison d’équivalence entre C et un ensemble de classes équivalentes à C. Les relations d’équivalence peuvent être définies en termes d’équivalences explicites avec d’autres classes, ou de classes complexes anonymes représentées par des restrictions étant des conditions nécessaires et suffisantes. L’ensemble de ces classes anonymes et explicites sont groupées avec l’opérateur d’intersection pour former la description de la classe équivalente ( ). Par exemple si un concept C est défini tel que : ( ) et ayant la restriction définie comme étant une condition nécessaire et suffisante de , alors la description de son équivalence représentée par est définie par ( )

- SubClassOf : définit une liaison de subsomption entre avec l’ensemble de ses super-classes. Les relations de subsomption peuvent être définies explicitement, ou moyennant des classes complexes anonymes représentées par des restrictions définies sous des conditions nécessaires.

- DisjointClass : définit une liaison de disjonction entre et un ensemble de concepts. - ObjectProperty : définit l’ensemble de propriétés d’objet ayant comme domaine de

propriété. Ainsi, la similarité entre deux propriétés d’objet peut être exploitée pour affecter la similarité des concepts définis comme domaines ou co-domaines des propriétés. Par exemple, si une relation relie une classe à une classe dans une ontologie, et une relation relie une classe à une classe dans une autre ontologie, si est similaire à d’une part, et si et sont similaires, alors on peut inférer qu’une similarité peut exister entre les deux classes et .

- DatatypeProperty : définit l’ensemble de propriétés de type de données ayant comme domaine de propriété.

La combinaison de toutes ces connaissances construit la définition de l’entité. Ainsi, la fonction globale de similarité entre deux concepts est définie par :

146 ( ) ( ( ) ( )) ( ( ) ( )) ( ( ) ( )) ( ( ) ( )) Où ∑

Cette équation indique que la fonction globale de mesure de similarité entre les deux entités et , de la catégorie classe, est calculée en fonction de similarité de leurs entités équivalentes (( ( ) ( )), de leurs entités avoisinantes ( ( ) ( )), de leurs propriétés d’objet ( ( ) ( )), et de leurs propriétés de types de données ( ( ) ( )). Pour les similarités de propriétés, indique que le calcul s’effectue entre deux ensembles d’éléments. Nous avons donc utilisé la fonction de mesure de similarité, « Match-Based

Similarity », définie par (Touzani, 2005) :

( ) ^∑⁽ ^{) (}⁾⁽ ⁾ ( )

où ( ) et ( ) représentent deux ensembles d’éléments de même catégorie. Cette fonction requiert que les similarités entre les paires d’éléments ( ) de ( ) soient calculées. Ensuite, une phase de sélection des paires est effectuée permettant de choisir pour chaque élément de ( ) l’élément de ( ) ayant le maximum de similarité.

Considérons l’exemple de calcul de similarité entre les deux concepts ( ) et ( ) représentant deux features de conception. La fonction globale de mesure de similarité entre les deux concepts est donnée par :

( )

( ( ) ( )) ( ( ) ( )) ( ( ) ( ))

147

Nous visons dans cet exemple à mettre en relief le calcul de similarité entre deux ensembles d’éléments, notamment les ensembles de propriétés des deux concepts. Ainsi, nous supposons que :

- Les valeurs de similarité des concepts équivalents et avoisinants soient nulles, c'est-à-dire ( ( ) ( )) et ( ( ) ( )) .

- Les poids soient équitablement répartis entre les différents composants, c'est-à-dire .

- L’ensemble de propriétés de chaque concept, ( ) et ( ), soit donné respectivement par :

( ) ( ) { } ( ) ( ) { }

Rappelons que désigne la fonction d’attribution d’un concept à une propriété, composée de ( ) pour les propriétés d’objets et ( ) pour les propriétés de type de données.

- Les calculs de similarité entre les paires d’éléments de ( ) et ( ) aient donné les résultats suivants :

( ) ; ( ) ( ) ; ( ) ( ) ; ( )

Alors les entités sélectionnées, représentant les meilleures similarités pour chaque élément, seront les suivantes :

( ) {( ) ( )} Et

( )

148

Notons que les fonctions de similarité des caractéristiques pourraient amener à des récursivités lors des appels des fonctions de similarité. Pour éviter ce problème, nous définissons dans notre algorithme un paramètre permettant de définir la profondeur souhaitée lors du processus de calcul de similarité entre deux entités. Par exemple, les couples contributeurs directs d’un couple d’ancrage sont définis avec une profondeur 0, les contributeurs des contributeurs sont définis au niveau de profondeur 1, et ainsi de suite. De plus, nous définissons un système de blocage de calcul de similarité par la création d’un vecteur d’entités incluses dans le processus de calcul. Ainsi, le traitement des entités déjà existantes dans ce vecteur seront écartées par une affectation de valeur 0 à leur fonction de similarité. Pour calculer les similarités des descriptions d’entités, nous allons définir dans la section suivante un algorithme de calcul de similarité locale entre deux descriptions.

Dans le document Interopérabilité sémantique des connaissances des modèles de produits à base de features (Page 155-162)