• Aucun résultat trouvé

Chapitre 6 Mesure de similarité sémantique

6.2 Méthodes actuelles de similarité

La notion de similarité a été empruntée à la philosophie et a été établie afin de déterminer pourquoi et comment les entités sont regroupées en catégories, et pourquoi certaines catégories sont comparables les unes aux autres, tandis que d'autres ne le sont pas (Medin, et al., 1993). Dans le domaine d’intégration des connaissances, différentes approches d’alignement d’ontologies sont basées sur une mesure de similarité entre les différentes entités. Ainsi, l’alignement de deux ontologies consiste à trouver des correspondances entre les entités qui sont sémantiquement similaires (Ehrig, et al., 2004). D’une manière formelle, l’alignement est défini par la fonction comme suit (Zghal, et al., 2007) :

( ) ( )

où et sont deux ontologies à aligner, désigne un seuil minimal de similarité appartenant à l’intervalle [0,1], c'est-à-dire le niveau minimum accepté pour que deux entités soient considérées similaires, et . et représentent les entités des deux ontologies. La fonction de similarité est une fonction d’une paire d’entités vers une valeur réelle définissant la similarité des deux entités. Cette fonction est caractérisée par :

( ) ( é)

134

Dans la littérature, différents modèles de mesure de similarité ont été définis (Goldstone, et al., 2005) (Thibau, 1997). Parmi les travaux effectués sur la quantification de la similarité, nous avons pu distinguer deux grands modèles : les modèles géométriques (Geometric Models), appelés aussi modèles multidimensionnels (Nosofsky, 1992) et les modèles des attributs (Feature Model) appelés aussi « Contrast Model » (Tversky, 1977). Les modèles dimensionnels permettent de décrire des entités sous forme d’un ensemble limité de dimensions contenues. Une dimension est un axe dans un espace. Ainsi, une entité se définit par ses coordonnées dans l’espace des axes (dimensions) et reçoit une seule valeur sur chacune des dimensions qui le définissent. La proximité entre les objets dans cet espace reflète leur similarité.

D’autre part, (Tversky, 1977) a proposé un modèle de similarité qui repose sur la notion d’attribut (The Contrast Model). Il conteste les approches strictement dimensionnelles qui, selon lui, sont applicables aux seuls domaines que l’on peut décrire à l’aide d’un nombre restreint de dimensions. Dans les modèles des attributs, les concepts sont définis sous forme d’une liste d’attributs. La mesure de similarité utilisée se base sur un calcul impliquant les attributs communs et les attributs distinctifs présents dans les représentations des entités comparées. Dans le modèle de Tversky, la similarité est fondée sur une fonction linéaire des attributs communs et distinctifs définie par :

( ) ( ) ( ) ( )

où est le sujet de la comparaison et est le référent. est une fonction mesurant l’appariement de deux objets décrits sous la forme d’un ensemble d’attributs. est l’ensemble d’attributs du concept et est l’ensemble d’attributs du concept .

- représente les attributs communs, qui sont à la fois dans et dans

- représente les attributs distinctifs de A, c'est-à-dire qui sont en A mais pas en B - représente les attributs distinctifs de B, c'est-à-dire qui sont en B mais pas en A - représentent des coefficients donnés aux attributs communs et

distinctifs. Ils reflètent l’importance de chaque paramètre de la fonction.

La fonction de Tversky est une fonction asymétrique si ( ), autrement dit, ( ) ( ). Selon Tversky, dans une tâche d’estimation de la similarité, on porte attention au sujet de la comparaison, soit l’objet a. Ainsi, on donne plus de poids aux

135

attributs de l’objet comparé ( ) qu’aux attributs du référent ( ) d’où ( ). L’hypothèse de l’attention implique que la fonction de Tversky est une fonction directionnelle asymétrique.

Le calcul de similarité s’est avéré comme un moyen efficace pour améliorer les méthodes d’extraction de connaissance et celles d’intégration des sources de données hétérogènes. La mesure de similarité entre deux entités hétérogènes consiste en particulier à effectuer des comparaisons entre les composants de ces entités. Ces composants reflètent des hétérogénéités à différents niveaux : syntaxique, structurel et sémantique. Par conséquent, les différentes mesures de similarité définies dans la littérature ont été proposées pour pallier ces problèmes d’hétérogénéité. Une classification des différentes mesures de similarité utilisées dans le processus d’alignement est présentée dans (Rahm, et al., 2001) comme suit :

1) La méthode terminologique : Elle consiste à comparer des chaines de caractères appliquées aux noms, labels, et commentaires des entités en question. Elle est décomposée en une approche purement syntaxique et une autre lexicale. L’approche syntaxique effectue la correspondance à travers les mesures de similarité des chaînes de caractères (e.g., EditDistance), tandis que l’approche lexicale effectue la correspondance à travers les relations lexicales (e.g., synonymie, hyponymie, etc.). 2) La méthode de comparaison des structures internes : Elle compare les structures

internes des entités telles que leurs attributs, ou les propriétés de type de données (DatatypeProperty) en parlant du langage OWL, (e.g., cardinalité d’attributs, etc.). 3) La méthode de comparaison des structures externes : Elle compare les entités avec

d’autres entités auxquelles elles sont liées. Si deux entités de deux ontologies sont similaires, leurs voisinages peuvent l’être également. Elle est décomposée en méthodes de comparaison des entités au sein de leurs taxonomies, c’est à dire en se basant sur la position des entités dans leurs hiérarchies (relations de subsomption), et en méthodes de comparaison des structures externes, telles que les propriétés associées, en l’occurrence les propriétés d’objet dans OWL (ObjectProperty). Par exemple, supposons qu’une relation relie une classe à une classe dans une ontologie, et qu’une relation relie une classe à une classe dans une autre ontologie. Si on a une similarité entre les relations et d’une part, et une similarité entre les classes et d’autre part, alors on peut inférer qu’une similarité peut exister entre les deux classes et .

136

4) La méthode de comparaison des instances : compare les extensions des entités, c'est-à-dire l’ensemble des autres entités qui lui sont attachées (généralement les instances des classes).

5) La méthode sémantique : compare les interprétations (ou plus exactement les modèles) des entités.

En se basant sur ces différents critères de comparaison d’entités, plusieurs approches d’alignement par mesure de similarité ont été proposées dans la littérature. Une étude bibliographique détaillée sur certaines approches est effectuée dans (Euzenat, et al., 2004). Nous présentons dans la suite quelques méthodes qui nous semblent intéressantes à étudier dans notre travail, et dont les langages de représentation sont appropriés au langage de nos ontologies, OWL DL.

(Maedche, et al., 2002) définissent une méthode de comparaison des concepts et des propriétés des ontologies à deux niveaux : syntaxique et sémantique. Cette méthode calcule la similarité entre deux taxonomies en effectuant une comparaison structurelle pour chaque classe, c’est à dire les labels de leurs hiérarchies (superclasses et sous-classes). Le calcul de similarité des propriétés est effectué en fonction des similarités des concepts définis dans leur domaine et co-domaine. La description d’un concept n’est pas considérée dans la fonction de calcul de cette méthode. Ceci ne représente pas d’inconvénients si les ontologies concernées sont limitées à la représentation des taxonomies de concepts primitifs. Néanmoins, cette méthode se révèle moins appropriée lorsqu’il s’agit d’une ontologie plus expressive, tel que le langage OWL DL, où des concepts plus complexes peuvent être définis en fonction de concepts primitifs et de restrictions sur des propriétés. Une expressivité plus riche d’un langage de représentation d’ontologie nécessite le développement des processus d’intégration plus complexes.

Les méthodes d’alignement OLA (Euzenat, et al., 2004-b) et EDOLA (Zghal, et al., 2007 - b) visent à aligner des ontologies représentées avec le langage OWL Lite. (Euzenat, et al., 2004-b) ont défini une méthode de calcul de similarité entre les entités d’ontologies OWL Lite en fonction de deux facteurs : la catégorie de l’entité (classe, instance, propriété, etc.) et l’ensemble de caractéristiques liées à cette catégorie (par exemple les superclasses, les propriétés, et les instances). Cette méthode présente l’avantage de la prise en considération des spécifications des ontologies en format OWL Lite, notamment les relations d’héritage entre des classes ou des propriétés, les restrictions des classes, et les caractéristiques des

137

propriétés. Ainsi, elle considère la plupart des caractéristiques du langage OWL Lite dans le processus de calcul de similarité. Elle permet de traiter la structure interne d’une classe définie en termes de propriétés et de contraintes, aussi bien que la structure externe définie en termes de relations sémantiques avec d’autres classes et de relations de subsomption. Cependant, cette méthode ne considère pas tous les constructeurs de OWL Lite, tels que la disjonction des instances ou des classes. En outre, des tests supplémentaires sont nécessaires pour définir les poids des calculs de similarité.

(Zghal, et al., 2007) définissent une méthode d’alignement d’ontologies en OWL DL, appelée SODA (Structural Ontology OWL-DL Alignment), basée sur le calcul de similarité. Cette méthode définit deux modèles de calcul de similarité : locale et globale. Elle combine les mesures de similarité locale (terminologique et structurelle) pour l’évaluation de la similarité globale. Elle permet de générer un alignement exploitant l’aspect structurel du voisinage des entités à apparier.

Sim-DL (Janowicz, et al., 2007) est une méthode de mesure de similarité sémantique des ontologies représentées avec OWL DL. Elle est appliquée à l’extraction de l’information dans le domaine de la géographie. Cette méthode est adaptée à la variante de la logique de description. Elle est implémentée avec l’éditeur des ontologies Protégé. Le scénario de cette approche repose sur les cinq étapes suivantes :

1) Sélection des entités à apparier

2) Transformation des concepts en une forme normale, telle que la forme normale de disjonction (DNF : Disjunctive Normal Form)

3) Définition d’une matrice d’alignement entre les descriptions des concepts. Elle s’applique à tous les composants de descriptions entre deux concepts.

4) Application des fonctions locales de similarité spécifiques aux constructeurs OWL DL pour chaque paire de concepts.

5) Définition d’une fonction globale de similarité. Elle représente une fonction d’agrégation normalisée en fonction des similarités locales, et pondérée avec des poids attribués à chaque fonction.

Ce scénario forme un squelette générique pour différentes méthodes de calcul de similarité (d'Amato, et al., 2006), (Janowicz, 2006). Certaines étapes de ce scénario seront utilisées dans le développement de notre méthode de calcul de similarité, présentée dans la section suivante (cf. section 6.3). L’avantage de cette approche réside dans la généralité du

138

scénario suivi, ainsi que dans la prise en compte des propriétés dans une ontologie pour la définition des fonctions de similarité. Cependant, l’inconvénient de cette approche réside dans le fait que les fonctions de similarité s’appliquent uniquement aux descriptions des entités à apparier, où les similarités des concepts avoisinants (super et sous classes et les concepts liés avec des propriétés d’objets) n’ont pas été considérées.

(Patil, 2005) définit une méthode de calcul de similarité entre les ontologies en OWL DL pour l’échange de la sémantique des données d’un modèle de produit. Cette méthode définit une fonction globale d’agrégation en fonction de similarités locales calculées pour la description d’un concept et pour le contexte dans lequel il a été défini. Cette méthode procède par la conversion des descriptions des concepts en une forme normale, en l’occurrence la forme normale de disjonction DNF. Les fonctions locales de similarité sont basées sur les modèles des attributs de Tversky, où une fonction linéaire et asymétrique de comparaison des attributs de concepts a été utilisée. L’inconvénient de cette approche, de notre point de vue, est que les fonctions de similarité définies ne prennent pas en considération la similarité entre les attributs à comparer. Autrement dit, la classification des attributs des concepts à comparer se base strictement sur des équivalences exactes : les attributs équivalents sont ajoutés à l’ensemble des attributs communs, sinon à l’ensemble des attributs distinctifs. De plus, aucune similarité entre des propriétés n’a été définie dans cette méthode.

Après l’étude des différentes approches de mesure de similarité dans cette section, nous allons définir dans la section suivante une méthode de calcul de similarité sémantique appropriée à notre prototype d’échange des modèles de produit. En effet, le langage de représentation dans un domaine de connaissance joue un rôle primordial dans la définition des fonctions de calcul de similarité. La plupart de ces méthodes d’alignement considèrent seulement des sous-ensembles de définitions dans une ontologie. Notre objectif est de définir une méthode de calcul de similarité sémantique qui prend en considération l’ensemble des connaissances représentées avec les ontologies OWL DL, tel que la description d’une entité et son contexte. De plus, notre méthode s’applique non seulement aux concepts mais aussi aux propriétés définies dans une ontologie. Nous nous intéressons donc dans la suite à définir une méthode correspondant à l’expressivité du langage OWL DL, basé sur la logique descriptive et plus précisément sur sa variante ( ).

139