Classification des techniques de matching d’ontologies

Selon Euzenat [54], les techniques du matching ontologique peuvent être classées selon leur type comme décrit ci-dessous. Une synthèse de ces techniques est également disponible dans [26].

5. Le matching comme solution d’intégration d’ontologies

5.3.1 Techniques terminologiques

Les matchers de type terminologique permettent de calculer la similarité entre les termes contenus dans les noms des concepts, des relations, des instances, des labels ou des commen-taires, et ceci sans considérer la structure des entités ontologiques.

Le calcul de la similarité entre deux termes se fait selon deux approches : une approche comparant les chaînes de caractères et une approche en se basant sur les techniques issues du traitement linguistique.

Les techniques basées sur la comparaison des chaînes de caractères : considèrent les

chaînes de caractères sans prendre en compte leur signification. Plusieurs méthodes ont été développées pour calculer la similarité entre des chaînes de caractères, par exemple, les tests

de préfixe et de suffixe ou les fonctions de distance comme la distance d’édition et la mesure

n-gramme [143].

Les techniques basées sur le traitement linguistique: englobent les techniques permettant

de calculer la similarité entre les termes en les considérant comme des mots du langage naturel et non comme de simples chaînes de caractères. Les termes sont d’abord segmentés en tokens

en utilisant des séparateurs comme les blancs, les points, les chiffres, etc. Ces tokens vont par

la suite être analysés à l’aide d’algorithmes morphologiques issus du traitement automatique du langage naturel. Ces algorithmes opèrent sur la forme de base des tokens, i.e leur singulier au lieu du pluriel et les infinitifs des verbes. Ce mode d’opération est dit intrinsèque car il existe un autre mode extrinsèque qui calcule la similarité entre les tokens en utilisant des ressources externes telles que les dictionnaires ou les thésaurus (par exemple l’ontologie linguistique Word-Net) pour détecter la synonymie ou la hyponymie entre les tokens.

5.3.2 Techniques structurelles

Ces techniques se basent sur la structure des entités et non sur leur terminologie. La structure peut être interne quand la comparaison porte sur les domaines des entités, le co-domaine, les types de données, la cardinalité, le nombre d’attributs, etc. Par exemple, deux entités sont consi-dérées similaires, si leur nombre d’attributs ainsi que leurs types de données et leurs cardinalités sont proches.

À l’inverse, la structure est externe quand la comparaison porte sur les relations entre les entités. Ces techniques sont divisées en les sous-techniques suivantes [54] :

– Les techniques à base de taxonomie : dans ces techniques, l’ontologie est considérée comme un graphe. Ces techniques utilisent des algorithmes de graphe pour le calcul de similarité entre les noeuds (reprsentant les concepts ontologiques) en analysant les

rela-tions de type is-a. Par exemple, si deux concepts C1 et C2 sont considérés comme

simi-laires alors les concepts voisins liés par une relation de type is-a a ces deux concepts sont également considérés similaires [55].

– Les techniques à base de graphe : dans ces techniques la structure de l’ontologie est considéré également comme un graphe. Des algorithmes de graphe sont appliqués afin de calculer la similarité entre les noeuds [54].

– Les techniques à base de référentiel des structures : ces techniques utilisent un référentiel pour le calcul de la similarité entre les entités. L’enregistrement des ontologies ainsi que les entités similaires permet d’obtenir ce référentiel. L’objectif de ces techniques est de permettre : (1) la réutilisation de l’alignement ontologique (l’alignement de référentiel) dans le cas d’existence d’ontologies similaires pour chaque ontologie en entrée, (2) initier une nouvelle tâche d’alignement entre l’ontologie similaire et l’ontologie en entrée [166].

5.3.3 Les techniques extensionnelles

Dans cette catégorie, la comparaison entre les deux ontologies porte sur les instances. Cette

approche s’avère utile lorsque le nombre des instances est suffisamment important pour les deux

ontologies à matcher. Lorsque les ontologies partagent des instances communes, des métriques ensemblistes peuvent être appliquées telles que la métrique de JACCARD qui évalue le chevau-chement entre les concepts. Lorsque les ontologies ne partagent pas d’instances communes, des techniques qui procèdent à l’agrégation des informations des instances, peuvent être utilisées.

5.3.4 Les techniques sémantiques

Les matchers utilisés dans cette catégorie sont basés sur la logique de premier ordre ou les logiques de description. L’interprétation sémantique des ontologies d’entrée peut être exploitée pour déduire les relations entre les entités comme l’équivalence ou la subsomption, etc. Ces techniques appliquent des méthodes comme les techniques propositionnelles de satisfiabilité, par exemple le solveur SAT ou le raisonnement à base des logiques de description.

Un autre type de ces techniques utilise des ontologies externes de haut niveau comme SUMO

(the Suggested Upper Merged Ontology)29ou FMA (the Foundational Model of Anatomy)30.

Ces ontologies aident à déduire la sémantique des entités et permettent de structurer des onto-logies d’entrée si nécessaire.

Il est à noter que le processus de matching d’ontologies peut faire appel à diverses

tech-niques parmi celles citées. Ces techtech-niques peuvent également être utilisées dans le but de ra

ffi-ner l’alignement. La combinaison de ces techniques peut être séquentielle ou parallèle [26]. La combinaison séquentielle des matchers se fait en choisissant un ordre d’exécution. La combi-naisons parallèle (appelée aussi composite) consiste à lancer parallèlement plusieurs matchers, et à combiner ensuite leurs résultats de matching en utilisant une stratégie d’agrégation.

29. http://www.ontologyportal.com/

6. Conclusion

6 Conclusion

Dans ce chapitre, nous avons présenté les définitions et notions relatives aux domaines d’in-térêt de notre étude, qui sont :

1. l’ingénierie des besoins qui est le domaine au coeur de notre problématique. Notre princi-pale contribution consiste à valoriser les besoins fonctionnels dans les systèmes de dépôt afin de mieux les exploiter au niveau décisionnel. Pour ce faire, les notions essentielles relatives aux besoins fonctionnels ont été définies dans ce chapitre.

2. les entrepôts de données qui constitue le moyen que nous proposons afin de valoriser les besoins et qui permet leur exploitation et leur analyse. Nous avons parcouru les défini-tions relatives aux entrepôts de données et leur rôle dans l’intégration, la modélisation et l’analyse des données. Ces mêmes notions seront appliquées et adaptées dans le contexte des sources de besoins.

3. les ontologies conceptuelles et linguistiques que nous utilisons comme support pour la résolution des problèmes d’intégration, d’analyse et de raisonnement sur les besoins. Dans le chapitre suivant, nous présenterons un état de l’art sur les contributions existantes pour

la résolution des différents problèmes liés à l’intégration, la gestion et l’exploitation des besoins

Dans le document Donner une autre vie à vos besoins fonctionnels : une approche dirigée par l'entreposage et l'analyse en ligne (Page 65-70)