Résultats détaillés - Résultats d’évaluation sur un banc d’essais orienté utilisateurs

3.2 Évaluation de l’appariement par paire sur des bancs d’essai comparatifs

3.2.2 Résultats d’évaluation sur un banc d’essais orienté utilisateurs

3.2.2.3 Résultats détaillés

Concernant les résultats détaillés, nous allons examiner les mesures de qualité des correspondances par tâche pour la moyenne des utilisateurs puis par utilisateur pour la moyenne des tâches. Nous regardons ensuite de la même façon le détail des mesures de l’effort engagé par les utilisateurs.

(a) La précision

(b) Le rappel

Figure V.22 — Les résultats de précision, rappel et F-Mesure par tâche pour la moyenne

Les figures V.22(a), V.22(b) et V.22(c) montrent respectivement la précision, le rappel et la F-Measure des différentes approches par tâche pour la moyenne des utilisateurs. Globa- lement pour les deux versions de notre approche et BMatch, les valeurs de rappel sont plus importantes que les valeurs de précision. Alors que pour les approches COMA++ et SF, les valeurs de précision sont plus importantes que les valeurs de rappel. Au niveau F-Mesure, nous remarquons que les écarts qui existaient entre rappel et précision se redressent par la moyenne harmonique. Pour la plupart des tâches (à l’exception des tâches 2 et 8) les résul- tats de notre approche sont quasiment les mêmes que l’approche SF. Pour COMA++, les résultats de F-Mesure sont variables et pour BMatch ces résultats sont plus mauvais que les résultats des autres approches.

En général pour une hétérogénéité faible et une structure plate, un seuil de similarité élevé améliore les résultats de la précision mais pas forcément les résultats de rappel. Pre- nons l’exemple de la tâche 1, d’hétérogénéité faible, de structure plate et de faible écart. SF et COMA++ qui utilisent des seuils élevés, atteignent 100% de précision et 73% de rappel alors que LP4HM(Relaxé) atteint 78% de précision et 85% de rappel. Pour cette tâche, un seuil élevé maximise la précision alors que notre solution optimale, sans seuil, maximise le rappel et non pas la précision. Toutefois cette dernière dépasse les 70%, ce qui reste satisfai- sant.

Pour les tâches 2, 3, 4, 5, 6, de structure imbriquée et de faible écart, nous remarquons que les résultats de précision, rappel et F-Mesure sont globalement plus faibles que les résultats de la tâche 1. Nous expliquons ceci par la difficulté que pose la structure aux outils d’appariement. Les résultats de ces tâches peuvent être analysés sur trois temps. D’abord, pour les tâches 2 et 6 les deux versions de notre approche affichent des précisions plus importantes que les précisions des tâches 3, 4 et 5. En fait, LP4HM(Relaxé) trouve les mêmes résultats que LP4HM, cela veut dire que la solution optimale ne contient pas de correspondances complexes. Le nombre réduit de correspondances retournées explique pourquoi les résultats de précision sont importants. Or, cinq utilisateurs ont proposé des correspondances complexes que notre approche n’a pas capturées, abaissant ainsi les résultats de rappel. Nous notons aussi que la tâche 2 nécessite des mesures linguistiques, l’utilisation du dictionnaire géné- rique Wordnet a nettement contribué à obtenir des résultats plus importants que ceux des autres approches.

Les tâches 3 et 5 sont caractérisées par un nombre important de correspondances complexes proposées par tous les utilisateurs ainsi qu’une forte hétérogénéité. Les résultats de rappel, notamment pour la version relaxée, dépassent les 80% donc il y a eu une prise en compte des correspondances complexes. Alors que la précision ne dépasse pas les 50% ce qui est corrélé négativement avec les résultats d’accuracy.

Pour la tâche 4, nous remarquons qu’il y a un écart important entre le rappel et la pré- cision notamment pour la version relaxée de notre approche. En comparant le rappel de SF 47%, de LP4HM 62% et de LP4HM(Relaxé) 80%, nous remarquons qu’avec un seuil égal à 1, SF ne capture que la moitié des correspondances pertinentes alors que LP4HM sans seuil capture 62% de correspondances de cardinalité 1 : 1. LP4HM(Relaxé) capture encore d’avantage de correspondances complexes que LP4HM. L’ordre des résultats de la précision pour ces trois approches est inversé, c’est à dire que le premier en rappel est le dernier en

précision : SF 81%, LP4HM 59% et LP4HM(Relaxé) 30%. Ceci est dû au fait que pour une faible hétérogénéité, il est préférable d’utiliser un seuil de similarité élevé afin de réduire l’espace de recherche des correspondances ; c’est le cas de l’approche SF.

Les tâches 7 et 8 ont une forte hétérogénéité, une structure plate et un écart moyen. Les résultats de SF en précision et en rappel sont meilleurs que les résultats de notre approche. En effet, SF a utilisé les contraintes de clés primaires et de types de données qui existent dans le schéma relationnel.

Pour la tâche 9 de forte hétérogénéité, de structure plate et d’écart important, nous remarquons que les résultats de précision de notre approche et de l’approche SF sont de l’ordre de 90% alors que leurs résultats de rappel ne dépassent pas les 40%. En effet, le nombre de correspondances proposées par le système est minoré par le nombre d’éléments du plus pe- tit schéma (qui est la moitié du nombre d’éléments du plus grand schéma). En outre, il est majoré par le nombre de correspondances complexes que le système peut retourner. En sa- chant que l’hétérogénéité est forte, il est difficile pour les utilisateurs d’identifier facilement les correspondances complexes.

(a) L’accuracy

(b) Le HSR

Figure V.23 — Les résultats d’accuracy et HSR par tâche pour la moyenne des utilisateurs

Nous passons aux résultats des mesures de l’effort épargné par les utilisateurs. Pour la moyenne des utilisateurs par tâche, nous remarquons que les résultats de HSR sont plus importants que les résultats d’accuracy, illustrés respectivement dans les Figures V.23(b) et

correspondances proposées par tâche, il y a un gain important en utilisant notre algorithme d’appariement.

(a) La précision

(b) Le rappel

Figure V.24 — Les résultats de précision, rappel et F-Mesure par utilisateur pour la

moyenne des tâches

En ce qui concerne les résultats de précision, rappel et F-Mesure pour la moyenne des tâches par utilisateur, illustrés respectivement dans les Figures V.24(a), V.24(b), V.24(c), nous constatons que pour tous les utilisateurs notre approche est meilleure que les autres approches en rappel. SF nous dépasse au niveau précision néanmoins avec un écart faible. Pour la F-Mesure notre approche est assez compétitive par rapport à l’approche SF. Concer- nant la mesure accuracy, Figure V.25(a), nous remarquons au niveau accuracy pour chaque utilisateur qu’il y a un gain par l’approche SF plus important que les autres. Pour le HSR,

Figure V.25(b), notre approche est légèrement meilleure que SF pour tous les utilisateurs.

(a) L’accuracy

(b) Le HSR

Figure V.25 — Les résultats d’accuracy et HSR par utilisateur pour la moyenne des tâches

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 161-166)