Résultats globaux - Résultats d’évaluation sur un banc d’essais orienté utilisateurs

3.2 Évaluation de l’appariement par paire sur des bancs d’essai comparatifs

3.2.2 Résultats d’évaluation sur un banc d’essais orienté utilisateurs

3.2.2.2 Résultats globaux

Tableau V.3 — Les résultats des mesures de qualité par approche pour la moyenne des

utilisateurs et des tâches

Précision (%) Rappel (%) F-Measure (%) Accuracy (%) HSR (%) LP4HM 67 58 62 30 81

LP4HM(Relaxé) 58 66 60 23 81

COMA++ 72 50 58 32 76 BMatch 22 47 28 0 69 Similarity Flooding 81 55 65 43 80

Le tableau V.3 montre les résultats des mesures de qualité pour la moyenne des utilisateurs et des tâches pour les différentes approches. Nous avons d’une part les deux versions de notre approche qui n’utilisent pas de seuil de similarité, d’autre part nous

Figure V.21 — Transformation des schémas XML en graphes

avons les approches COMA++, BMatch et SF qui utilisent des seuils de similarités. Ne pas utiliser un seuil de similarité pour notre approche est un choix intentionné. En effet, la configuration d’un seuil de similarité est un problème pour les outils d’appariement [Shvaiko et Euzenat, 2013] qui rend les outils difficilement utilisables par les utilisateurs en particulier non-experts. Nous voulons montrer qu’il est envisageable de se passer du seuil à travers notre approche. Par ailleurs, ce banc d’essai est orienté utilisateurs donc le seuil de similarité peut dépendre aussi de chaque utilisateur. Pouvoir fournir des résultats conve- nables à tous les utilisateurs sans se soucier de la configuration du seuil de similarité nous semble constituer un avantage de notre approche.

Nous montrerons un exemple concret de la difficulté que rencontre les outils d’appariement pour le choix du seuil de similarité à travers les résultats de l’approche SF. D’après le tableau V.3, SF dépasse les autres approches dans les résultats de précision et d’accuracy toutefois ces résultats ont été sélectionnés et recommandés par les auteurs avec un seuil de similarité maximisé égal à 1. En effet, les auteurs affirment dans [Melnik et al., 2002] que s’ils n’utilisent pas de seuil de similarité ils obtiennent un rappel égal à 100%, une précision égale à 4% et une accuracy égale à -2144%. La F-Mesure dans ce cas est égale à 7%. L’écart entre les résultats de cette approche sans et avec un seuil de similarité est très important ce qui illustre la problématique de l’utilisation et du choix d’un seuil. Les résultats de SF, sans seuil de similarité, sont très mauvais par rapport à notre approche. En fait, même si le système renvoi toutes les correspondances que l’utilisateur a estimé pertinentes (100% de rappel), ces résultats ne présentent que 4% des correspondances retournées par le système. Sachant

invalider les résultats non-pertinents et repérer les résultats pertinents (ce qui est reflété par l’énorme valeur négative de l’accuracy). Les deux versions de notre approche s’avèrent meilleures que l’approche de SF sans utilisation de seuil de similarité.

Les résultats de notre approche sont également compétitifs par rapport aux résultats des autres approches utilisant des seuils de similarité. En effet, les résultats de rappel pour les deux versions de notre approche sont meilleurs que les résultats de rappel pour les autres approches. La précision dépasse les 50% pour les deux versions LP4HM et LP4HM(Relaxé). Nous considérons que ce sont des valeurs très correctes par rapport à la précision de COMA++ et SF qui utilisent des seuils de similarité élevés et à la précision de l’approche BMatch qui utilise un seuil de similarité faible. Comme la précision et le rappel sont insuf- fisants pour qualifier la qualité d’une approche, nous examinons les résultats de F-Mesure ; les deux versions de notre approche occupent les 2ème_{et 3}ème_{place en F-Measure juste après}

l’approche SF avec un écart très faible. Ces résultats sont assez significatifs puisqu’ils avoi- sinent les meilleurs résultats de l’approche SF configurée.

Examinons à présent les mesures de qualité de l’effort épargné par les utilisateurs. Pour la mesure d’accuracy notre approche est en troisième position précédée par les approches SF et COMA++ ; pour la mesure HSR notre approche est en première position sui- vie de très près par SF. Nous avons indiqué dans la section précédente que la mesure HSR semble plus significative que la mesure accuracy puisqu’elle ne pénalise pas les faibles mesures de précision et prend en considération le nombre d’éléments des schémas appariés [Duchateau et Bellahsene, 2014]. Les résultats de l’approche BMatch appuient cette intui- tion. En effet, pour BMatch la précision est inférieure à 50% d’où une accuracy inférieure à 0% (nous avons arrondi cette valeur à 0%) alors que la valeur du HSR est de 69%, ce qui est tout de même important, et montre qu’il y a un effort épargné pour les 47% de correspondances pertinentes retournées par l’approche.

Nous concluons cette section par un comparatif des deux versions de notre approche. On observe que LP4HM(Relaxé) est meilleur en rappel et moins bon en précision par rapport à LP4HM. On observe aussi que l’écart que LP4HM(Relaxé) a gagné en rappel a été perdu en précision. En effet, comme le nombre de correspondances proposées par les utilisateurs ne varient pas, la différence entre le rappel de LP4HM(Relaxé) et le rappel de LP4HM corres- pond au nombre de correspondances de cardinalités n : m que l’approche LP4HM(Relaxé) a réussi de capturer par relaxation des variables de décision. Par contre la précision a diminué puisque la relaxation des variables de décision LP4HM(Relaxé) retourne beaucoup plus de correspondances inutiles de LP4HM. Donc le nombre total de correspondances retournées par la version LP4HM(Relaxé) est beaucoup plus important que le nombre de correspondances retournées par la version LP4HM ce qui explique la baisse de la valeur de précision.

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 159-161)