Évaluation des résultats - Implémentation et Évaluation du CoSWEM

6 Implémentation et Évaluation du CoSWEM

6.3 Évaluation des résultats

6.3.1 Exigences des fonctionnalités

Nous présentons par la suite certains exigences générales des fonctionnalités qui doivent être satisfaites pour évaluer le fonctionnement du système CoSWEM.

- Fonctionnalités principales : Le système doit fournir des interfaces (ou

des menus) qui permettent à l’utilisateur d’effectuer les opérations générales suivantes :

Charger des versions de l’ontologie évolutive et des annotations sémantiques basées sur cette ontologie.

Charger la trace d’évolution dans le scénario d’évolution où on peut garder cette trace. Il y a aussi l’interface pour représenter cette trace d’évolution avec ses changements effectués capturés.

Changer des paramètres tels que les répertoires contenant l’ontologie, la base d’annotations sémantiques, les règles…

Appliquer des tâches de détection et de correction d’inconsistance. Recharger le système CoSWEM en cas de modification des

paramètres.

- Comparaison des différences entre deux versions de l’ontologie : Pour

cette tâche, le système doit afficher clairement les différences entre deux versions de l’ontologie selon les cas suivants :

S’il n’y pas de trace de changements, CoSWEM doit lister d’une manière simple les concepts et les propriétés qui diffèrent entre deux versions de l’ontologie : par exemple, les concepts qui existent dans la première version mais n’existent pas dans la deuxième version et vice-versa.

Dans le cas où l’on possède l’information sur les changements effectués dans la trace d’évolution, CoSWEM doit fournir plus d’informations décrivant la différence entre deux versions ontologiques à propos de chaque changement effectué. Par exemple, pour la disparition d’un concept c, la raison de cette disparition doit être explicitée et visualisée : une suppression, un

renommage ou une fusion de concept… Cette information a été capturée dans la trace d’évolution.

D’autre part, toutes les informations décrivant les différences entre deux versions de l’ontologie doivent être affichées clairement et d’une manière compréhensible (e.g. les éléments différents portent différentes couleurs…)

- Détection d’inconsistance : La fonction de détection d’inconsistance de

CoSWEM doit permettre de:

Chercher des éléments inconsistants sur chaque type (i.e. concept, propriété, domaine, co-domaine, type des données) et chercher des annotations sémantiques inconsistantes à cause des changements de l’ontologie.

Lister toutes les annotations inconsistantes qui sont causées par un changement, et inversement afficher tous les changements effectués se rapportant à un fichier d’annotation.

- Résolution d’inconsistance : Pour la correction des inconsistances, le

système doit fournir des interfaces permettant de :

Choisir une solution convenable et des éléments à remplacer pour corriger l’annotation inconsistante.

Les annotations corrigées doivent garder le même format que celui d’avant la modification.

6.3.2 Mesures d’évaluation

Nous avons indiqué dans l’état de l’art et dans le chapitre 2 qu’il n’existe pas actuellement de systèmes ou d’outils ayant des fonctions similaires à CoSWEM au niveau de la détection et de la résolution des annotations sémantiques inconsistantes. Il n’est donc pas possible de faire des évaluations comparatives des résultats acquis avec d’autres outils afin de comparer et évaluer la performance des fonctions similaires de notre système.

Cependant, pour la phase de détection d’inconsistance, nous avons besoin d’évaluer plus concrètement son efficacité à travers des résultats détectés. Nous établissons donc des critères concrets (i.e. la précision, le rappel et la F-mesure) dans cette phase. Dans le domaine de l’extraction d’information, nous avons utilisé deux mesures fréquemment utilisées dans l’évaluation des systèmes d’extraction d’informations, à savoir la précision et le rappel :

- La précision (P) est le pourcentage des termes correctement extraits ; cela mesure donc l’absence de bruit dans l’extraction.

- Le rappel (R) est le pourcentage des termes correctement extraits par rapport aux termes qui auraient dû être extraits ; cela mesure l’absence de silence dans l’extraction.

Dans notre évaluation, nous avons besoin de connaître le nombre de triplets (ou d’annotations) inconsistants renvoyés par CoSWEM après la phase de détection d’inconsistance. En plus, nous nous intéressons aussi au ratio de triplets inconsistants détectés qui sont évalués correctement. Par conséquent, nous donnons par la suite notre aperçu sur ces deux critères :

- La précision (P) est le pourcentage des triplets inconsistants correctement détectés sur le nombre total des triplets inconsistants détectés.

- Le rappel (R) est le pourcentage des triplets inconsistants correctement détectés par rapport aux triplets inconsistants existants dans la base d’annotations.

La Figure 67 représente concrètement les mesures utilisées pour évaluer les résultats détectés par CoSWEM. Nous utilisons des termes Vrais Positifs (VP), Vrais Négatifs (VN), Faux Positifs (FP) et Faux Négatifs (FN) afin d’exprimer le pourcentage des triplets inconsistants détectés en utilisant CoSWEM par rapport aux triplets existants dans la base d’annotations. Les taux de Précision et de Rappel peuvent être aussi calculés par ces termes comme suit:

D’autre part, nous utilisons la F-mesure (F) qui est un compromis entre le rappel et la précision (dite aussi moyenne harmonique du rappel et de la précision). Elle permet d’évaluer la performance de la détection des triplets inconsistants par une seule mesure. La F-mesure est définie par :

Nombre de termes correctement extraits Nombre total des termes extraits Précision =

Nombre de termes correctement extraits Nombre des termes qui auraient dû être extraits Rappel =

Nombre de triplets inconsistants correctement détectés Nombre total de triplets inconsistants détectés Précision =

Nombre de triplets inconsistants correctement détectés Nombre total de triplets inconsistants existants Rappel = VP VP + FP Précision = VP VP + FN Rappel = 2*Précision*Rappel Précision + Rappel F-mesure (F) =

Nous notons que :

D : le nombre total des triplets inconsistants détectés renvoyés par CoSWEM.

E : le nombre total des triplets inconsistants existants dans la base d’annotations. Il est déterminé manuellement par l’ingénieur du sysème (dans notre validation, nous connaissons les triplets inconsistants existants par rapport la nouvelle version de l’ontologie).

C : le nombre de triplets inconsistants correctement détectés par CoSWEM (Vrais Positifs - VP)

FP = D - C : le nombre des triplets inconsistants incorrects détectés (Faux Positifs - FP)

FN = E - C : le nombre des triplets vraiment inconsistants mais pas détectés (Faux Négatifs - FN).

Ainsi, Précision = C / D ; Rappel = C / E ; F-mesure = 2*P*R/(P+R).

6.3.3 Évaluation des résultats

Pour la première expérimentation sur le projet E-WOK_HUB, nous faisons des tests avec deux versions de l’ontologie COG. Chaque version possède environ 44 concepts et une dizaine de propriétés. La COG décrit les connaissances et les ressources du domaine de géosciences et particulièrement de la géographie. Elle comporte certains concepts principaux tels que Groupement_de_pays,

Triplets inconsistants existants Triplets consistants existants

Triplets inconsistants détectés par CoSWEM

Vrais Négatifs (VN)

Faux Positifs (FP)

Faux Négatifs (FN) Vrais Positifs (VP)

Base d’annotations

Pays_ou_Territoire, Pays, Commune, Departement… pour désigner les niveaux de régions, les concepts Type_administratif, Type_localite… pour décrire les caractéristiques de région, de localité, etc. Ces concepts sont reliés par certaines propriétés code_canton, code_commune… pour indiquer les codes de chaque niveau de région, les régions qui sont adjacentes (i.e. la propriété

voisin), la population de chaque région (i.e. la propriété population), etc. La

Figure 68 représente partiellement un extrait des hiérarchies de concepts et de propriétés de cette ontologie COG.

Dans la base d’annotations expérimentée, nous avons 11 fichiers d’annotations sémantiques (avec plus de 600 triplets, chaque fichier d’annotation contient plusieurs triplets) qui reposent sur l’ancienne version de l’ontologie COG. Ces fichiers d’annotations sémantiques ont été créés et utilisés par les utilisateurs et les experts du projet E_WOK_HUB. Il y a également une trace d’évolution qui capture les changements effectués entre ces deux versions COG (c.f. Annexe C). Cette trace est représentée sous forme d’une annotation sémantique reposant sur les termes définis de l’ontologie d’évolution ainsi que les concepts et les propriétés modifiés de l’ontologie domaine COG. Elle a capturé quelques

changements effectués (i.e. DeleteConcept,

CreateConceptHierarchyLink, RenameConcept…) qui affectent sur les

concepts de l’ontologie COG tels que Canton, Ville_Commune…

Groupement_de_pays Hiérarchie de concepts Pays_ou_Territoire Pays Territoire_FR Canton Commune Departement Ville_Commune ... ... Secteur_activites Primaire Type_administratif Type_localite Pole ... code_INSEE code_canton code_commune ... code_departement ... code_ISO population role_administratif ... subdivision voisin ... Hiérarchie de propriétés

Dans le document Gestion de l'évolution d'un Web sémantique d'entreprise (Page 196-200)