3.3 Conclusion
4.1.1 Les caractéristiques des GSU
4.2 Voisinage d’un GSU dans une approche KNN . . . 81
4.2.1 L’utilisation de la dissimilarité . . . 81 4.2.2 Les utilisateurs pivots . . . 84
4.3 Modélisation des GSU dans une approche par factorisation de matrice 86
4.3.1 Le modèle GSUOnly . . . 88 4.3.2 Le modèle WeightedGSU . . . 89 4.3.3 Le modèle SingleGSU . . . 89 4.3.4 Expérimentations . . . 90 4.3.4.1 Le protocole d’évaluation . . . 90 4.3.4.2 Les performances des modèles de l’état de l’art . . . 91 4.3.4.3 Analyse des modèles proposés . . . 92 4.3.5 Analyse critique des résultats . . . 95
4.4 Conclusion . . . 96
Dans la thèse que je défends, je pense qu’il est non seulement possible d’identifier les GSU
en amont de toute recommandation (ce qui fait l’objet du chapitre précédent), mais qu’il est
également possible de les modéliser, et de leur fournir des recommandations de meilleure qualité
que ne le font les modèles classiques de recommandation sociale (ce qui fait, entre autres, l’objet
de ce chapitre).
Dans ce chapitre, je présente et analyse tout d’abord les caractéristiques des GSU identifiés
grâce aux mesures que j’ai proposées, en les comparant aux caractéristiques des non-GSU pour
comprendre plus en détails les raisons qui entraînent une mauvaise qualité de recommandations
pour les GSU, en outre d’être différent des autres. Ensuite, je propose de nouvelles stratégies pour
sélectionner le voisinage d’un GSU, ainsi que des méthodes à base de factorisation de matrice,
dédiées à l’amélioration de la qualité des recommandations fournies aux GSU.
Nous utiliserons les appellations T rain
GSUet T est
GSUpour faire référence aux jeux de
données composés des préférences d’apprentissage et de test des GSU et T rain
non−GSUet
T est
non−GSUpour les jeux de données composés des préférences des utilisateurs non-GSU.
Dans le chapitre précédent, la mesure d’identification la plus efficace étant la
Vraisemblan-ceID, j’ai donc choisi d’utiliser cette mesure pour identifier les GSU analysés et exploités dans
ce chapitre.
4.1 Analyse des GSU identifiés
Nous sommes convaincus que la raison pour laquelle les GSU ne reçoivent pas des
recom-mandations de qualité, même à l’aide d’une approche à base de FM, n’est pas seulement liée à la
nature spécifique de leurs préférences, mais également au faible nombre d’utilisateurs
représen-tant ces préférences spécifiques. Pour être en mesure d’améliorer la qualité des recommandations
fournies aux GSU, je me suis intéressé dans un premier temps aux caractéristiques des GSU
identifiés. Dans cette section, nous nous intéressons au nombre de votes moyen ou encore au
nombre moyen de voisins des GSU, que nous comparons à ceux des utilisateurs non-GSU.
4.1.1 Les caractéristiques des GSU
Les éléments présentés ici sont tirés des jeux de données MovieLens (MovieLens100K et
Mo-vieLens20M). Pour garantir une précision de 90% à la médiane, nous avons utilisé la mesure
VraisemblanceID pour identifier 6% des utilisateurs dans MovieLens20M comme GSU. Une
pré-cision de 90% à la médiane n’étant jamais atteinte par les mesures sur MovieLens100K (voir
figure 3.9), nous avons garanti une précision de 80% à la médiane en identifiant 10% des
utili-sateurs comme GSU. Comme nous l’avons vu dans le chapitre précédent, l’erreur commise sur
les prédictions des GSU est bien plus élevée que celle commise sur les prédictions des non-GSU
(51% plus élevée en moyenne). Nous analysons dans cette section les caractéristiques des GSU
pouvant être à l’origine de ces recommandations de mauvaise qualité.
Le tableau 4.1 présente les caractéristiques des préférences des GSU, comparées à celles des
utilisateurs non-GSU, sur le jeu de données MovieLens100K.
GSU non-GSU
Nombre d’utilisateurs 82 739
Nombre moyen de notes 76 96
Nombre de notes (1
erquartile) 30 36
Note moyenne 3,19 3,64
Ecart-type moyen des notes 1,34 0,97
Table4.1 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens100K)
Dans les données de MovieLens100K, nous avons identifié 82 GSU parmi les 821 utilisateurs.
Les GSU votent en moyenne moins de ressources que les non-GSU, avec une moyenne de 76
notes pour les GSU contre 96 notes pour les non-GSU, et cela s’explique par la manière dont
nous avons défini la mesureVraisemblanceID, qui permet d’identifier les utilisateurs possédant la
plus forte proportion de préférences spécifiques. Il est alors plus probable de posséder une forte
proportion de préférences spécifiques (rares) lorsque l’on a exprimé moins de préférences. Afin
de nous assurer que nous n’identifions pas uniquement des utilisateurs avec le nombre minimum
de notes (qui est de 20 pour ce jeu de données), nous calculons le premier quartile de cette
distribution des nombre de notes par GSU. En effet, si nos mesures identifient en majorité des
utilisateurs avec très peu de préférences, alors les recommandations de mauvaise qualité fournies
à ces utilisateurs pourraient être dues au problème du démarrage à froid. Nous pouvons voir
qu’avec un premier quartile de 30 pour les GSU, contre 36 pour les non-GSU, plus de 75% des
GSU identifiés ont plus de 30 notes exprimées. La qualité des recommandations fournies aux
GSU n’est donc pas directement liée au nombre de préférences qu’ils ont exprimées.
L’écart de 13% entre la note moyenne des GSU (3,19) et la note moyenne des non-GSU
(3,64) montre que les GSU sont plus sévères dans leur notation que les non-GSU. La moyenne
des notes est prise en compte dans la plupart des approches de recommandation sociale que
nous avons présentées. Avoir une moyenne de notes différente ne devrait donc pas influencer la
qualité des recommandations. Néanmoins, si nous observons l’écart-type moyen des GSU (1,34),
en comparaison avec celui des non-GSU (0,97), alors nous pouvons conclure que non seulement
les GSU sont plus sévères que les non-GSU, mais leurs notes sont également plus écartées de
la moyenne. Avant d’aller plus loin dans nos conclusions sur les GSU identifiés, nous proposons
d’analyser les GSU identifiés sur le jeu de données MovieLens20M au travers du tableau 4.2.
GSU non-GSU
Nombre d’utilisateurs 7 383 115 670
Nombre moyen de notes 92 130
Nombre de notes (1
erquartile) 29 35
Note moyenne 3,23 3,67
Ecart-type moyen des notes 1,37 0,9
Table4.2 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens20M)
Le grand nombre de GSU identifiés (7 383 utilisateurs) dans ce second jeu de données permet
d’obtenir des indicateurs plus fiables concernant les caractéristiques des GSU. Nous pouvons voir
que le nombre moyen de notes par utilisateur est plus élevé dans MovieLens20M. Cependant,
si nous observons les premiers quartiles des distributions du nombre de notes par utilisateur
pour les GSU (29 notes) et pour les non-GSU (35 notes) nous pouvons conclure que les 25%
d’utilisateurs qui ont le moins voté dans ce jeu de données ont noté environ autant de ressources
que les 25% d’utilisateurs qui ont le moins voté dans MovieLens100K. Les GSU identifiés dans
MovieLens20M ne sont donc pas non plus exclusivement des utilisateurs avec peu de notes. Les
notes moyennes des GSU (3,23) et des non-GSU (3,67) sont également très similaires à celles
relevées sur le jeu de données MovieLens100K. Enfin, l’écart-type moyen des notes des GSU
identifiés (1,37) est encore plus élevé dans MovieLens20M que dans MovieLens100K. A l’inverse,
l’écart-type des non-GSU (0,9) est inférieur à celui observé dans MovieLens100K. Cela confirme
que l’écart-type des notes des GSU identifiés est plus élevé que celui des non-GSU.
Parmi les approches de recommandation sociale que nous avons présentées dans ce manuscrit,
l’approcheKN N utilise la moyenne de l’utilisateur actif ainsi que les préférences de ses voisins
pour estimer les préférences non exprimées par l’utilisateur actif. Puisque les préférences des GSU
sont en général très écartées de leur moyenne (écart-type élevé), les préférences de leurs voisins
sont encore plus importantes pour la prédiction des préférences non exprimées par les GSU
que dans le cas des non-GSU. De plus, la littérature a principalement proposé des méthodes
innovantes basées sur une approche KN N pour fournir des recommandations aux GSU (cf.
paragraphe 2.2.5). Pour comprendre l’origine des recommandations de mauvaises qualité fournies
à ces utilisateurs, je propose donc d’étudier leur voisinage.
Dans le document
Les oubliés de la recommandation sociale
(Page 81-84)