• Aucun résultat trouvé

Test du système de recommandation et résultats

Chapitre 5 Implémentation et validation

5.4 Tests des approches de choix du voisinage dans Papyres

5.4.4 Test du système de recommandation et résultats

Pour tester les approches, nous avons sélectionné aléatoirement un ensemble de test composé de 100 paires chercheur/article. Par la suite, les cinq approches sont utilisées pour prédire les évaluations de l’ensemble de test. Ces dernières sont comparées avec les évaluations originales en utilisant la méthode MAE. Le MAE de chaque critère est enregistré, ainsi que la moyenne des MAE à traves tous les critères. La moyenne MAE à travers les 100 itérations est utilisée pour comparer la performance des différentes approches implémentées. La Figure 5.4 montre le meilleur cas, le pire et le cas moyen respectivement sur les 100 itérations des cinq approches : minimum MAE (MIN MAE), maximum MAE (MAX MAE) et la moyenne MAE (AVG MAE).

En général, l’approche VL est la moins performante, elle souffre principalement lorsque la similarité entre un usager et son voisinage n’est pas suffisamment rapprochée. Ce problème est abordé par l’approche HZ qui considère la similarité globale. Dans ce cas, même si le voisinage d’un usager est un peu loin par rapport à un certain critère, la moyenne des similarités réduit l’erreur moyenne dans la prédiction. D’un côté, les approches HZ-VL et VL-HZ maximisent la similarité du voisinage, et offrent une meilleure performance générale par rapport à HZ et VL utilisés séparément. De l’autre côté, malgré que HZ-N a le plus haut MAX MAE, cette approche reste celle qui offre la meilleure

performance générale. HZ-N prend son avantage de la similarité générale avec la réduction du bruit induit par le voisin dont la similarité générale est grande, mais qui n’est pas très similaire pour un certain critère. Dans le but d’avoir une meilleure interprétation des valeurs MAE, il est important de considérer l’échelle d’évaluation utilisée dans l’évaluation des articles.

Figure 5.4 Comparaison de MAE

En effet, une MAE de 0.5 indique que les prédictions, diffèrent de 0.5 de l’évaluation originale. Afin d’évaluer l’impact de cette différence, il est important de considérer l’échelle d’évaluation utilisée, dans la prédiction. En effet, une différence de 0.5 sur une échelle de 1 à 5 est plus significative qu’une échelle de 1 à 20. En d’autres termes, une différence de MAE de 0.5 sur une échelle de 1 à 5 représente une variation de 10 % alors que cette différence sur une échelle qui s’étale de 1 à 20 ne représente qu’une variation de 2.5 % et, par conséquent, un plus faible impact sur la précision.

La Figure 5.5 (ci-dessous) montre une interprétation de la moyenne MAE pour chacune des cinq approches. Les variations MAE sont représentées en pourcentage pour

0,9507 1,0177 0,9385 0,9383 0,8553 0,4821 0,6025 0,3567 0,3538 0,2663 1,3996 1,4421 1,3675 1,3675 1,5242 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 HZ VL VL-HZ HZ-VL HZ-N

montrer visuellement

résultats soient encourageants et

précision sur les autres approches, une valeur MAE de 0,8 17 %) n’est pas complètement

est dû en grande partie au fait que les données sont générées de façon aléatoire aléatoire).

En effet, nous pensons que la valeur du MAE sera moindre lors de l'essai des approches sur une véritable base de données. En outre, n

l’approche Horizontale HZ

tests ont été exécutés sur le même ensemble de données.

5.4.5 Récapitulatif

Bien que l'utilisation de données générées pour tester les performances des différentes approches ne soit pas la méthodologie la plus souhaitable, néanmoins nous argumentons cette procédure pour

comparant les résultats de plusieurs approches sur un même échantillon de données, même

HZ 19,0%

montrer visuellement son impact par rapport à l’échelle d’évaluation

résultats soient encourageants et que l’approche HZ-N offre une amélioration de la précision sur les autres approches, une valeur MAE de 0,8 (qui représente une variation de pas complètement satisfaisante. Néanmoins, nous pensons que le MAE de 0,8 est dû en grande partie au fait que les données sont générées de façon aléatoire

Figure 5.5 Interprétation des MAE moyenne

effet, nous pensons que la valeur du MAE sera moindre lors de l'essai des approches sur une véritable base de données. En outre, nous pensons également que l’approche Horizontale HZ-N sera plus efficace que les autres approches, puisque tous les

été exécutés sur le même ensemble de données.

Récapitulatif

Bien que l'utilisation de données générées pour tester les performances des différentes approches ne soit pas la méthodologie la plus souhaitable, néanmoins nous argumentons cette procédure pour valider des résultats préliminaires. En effet, en comparant les résultats de plusieurs approches sur un même échantillon de données, même

HZ VL VL-HZ HZ-VL HZ-N 19,0% 20,4% 18,8% 18,8% 17,1%

d’évaluation de 1 à 5. Bien que les N offre une amélioration de la qui représente une variation de Néanmoins, nous pensons que le MAE de 0,8 est dû en grande partie au fait que les données sont générées de façon aléatoire (ou pseudo

Interprétation des MAE moyenne

effet, nous pensons que la valeur du MAE sera moindre lors de l'essai des ous pensons également que N sera plus efficace que les autres approches, puisque tous les

Bien que l'utilisation de données générées pour tester les performances des différentes approches ne soit pas la méthodologie la plus souhaitable, néanmoins nous valider des résultats préliminaires. En effet, en comparant les résultats de plusieurs approches sur un même échantillon de données, même

N 17,1%

si celui-ci est généré d’une façon pseudo-aléatoire, il offre une certaine validité à ces résultats. De plus, le caractère aléatoire donne une neutralité à l’échantillon, puisqu’il n'est pas conçu spécifiquement pour améliorer la performance d'une approche, pendant qu’il détériore la performance d'une autre.

En outre, l'aspect pseudo-aléatoire de l’échantillon assure une bonne répartition des profils et des similitudes sur un large éventail. En particulier, il est fondé sur la corrélation de Pearson (équation (1)) qui varie entre -1 (complètement différent) et 1 (parfaitement similaire), tandis que la similarité entre les utilisateurs pseudo-aléatoires varie entre 0,941 et -0,804, couvrant ainsi la plus grande partie du spectre de valeurs.

Toutefois, nous sommes d'accord avec les auteurs de l’article (Herlocker, Konstan, Terveen, & Riedl, 2004), que les données générées peuvent être utilisées pour des résultats préliminaires et que d'autres essais devront être effectués pour des résultats conclusifs et concluants.