Les caractéristiques des GSU

3.3 Conclusion

4.1.1 Les caractéristiques des GSU

4.2 Voisinage d’un GSU dans une approche KNN . . . 81

4.2.1 L’utilisation de la dissimilarité . . . 81 4.2.2 Les utilisateurs pivots . . . 84

4.3 Modélisation des GSU dans une approche par factorisation de matrice 86

4.3.1 Le modèle GSUOnly . . . 88 4.3.2 Le modèle WeightedGSU . . . 89 4.3.3 Le modèle SingleGSU . . . 89 4.3.4 Expérimentations . . . 90 4.3.4.1 Le protocole d’évaluation . . . 90 4.3.4.2 Les performances des modèles de l’état de l’art . . . 91 4.3.4.3 Analyse des modèles proposés . . . 92 4.3.5 Analyse critique des résultats . . . 95

4.4 Conclusion . . . 96

Dans la thèse que je défends, je pense qu’il est non seulement possible d’identifier les GSU

en amont de toute recommandation (ce qui fait l’objet du chapitre précédent), mais qu’il est

également possible de les modéliser, et de leur fournir des recommandations de meilleure qualité

que ne le font les modèles classiques de recommandation sociale (ce qui fait, entre autres, l’objet

de ce chapitre).

Dans ce chapitre, je présente et analyse tout d’abord les caractéristiques des GSU identifiés

grâce aux mesures que j’ai proposées, en les comparant aux caractéristiques des non-GSU pour

comprendre plus en détails les raisons qui entraînent une mauvaise qualité de recommandations

pour les GSU, en outre d’être différent des autres. Ensuite, je propose de nouvelles stratégies pour

sélectionner le voisinage d’un GSU, ainsi que des méthodes à base de factorisation de matrice,

dédiées à l’amélioration de la qualité des recommandations fournies aux GSU.

Nous utiliserons les appellations T rain

GSU

et T est

GSU

pour faire référence aux jeux de

données composés des préférences d’apprentissage et de test des GSU et T rain

non−GSU

et

T est

non−GSU

pour les jeux de données composés des préférences des utilisateurs non-GSU.

Dans le chapitre précédent, la mesure d’identification la plus efficace étant la

Vraisemblan-ceID, j’ai donc choisi d’utiliser cette mesure pour identifier les GSU analysés et exploités dans

ce chapitre.

4.1 Analyse des GSU identifiés

Nous sommes convaincus que la raison pour laquelle les GSU ne reçoivent pas des

recom-mandations de qualité, même à l’aide d’une approche à base de FM, n’est pas seulement liée à la

nature spécifique de leurs préférences, mais également au faible nombre d’utilisateurs

représen-tant ces préférences spécifiques. Pour être en mesure d’améliorer la qualité des recommandations

fournies aux GSU, je me suis intéressé dans un premier temps aux caractéristiques des GSU

identifiés. Dans cette section, nous nous intéressons au nombre de votes moyen ou encore au

nombre moyen de voisins des GSU, que nous comparons à ceux des utilisateurs non-GSU.

4.1.1 Les caractéristiques des GSU

Les éléments présentés ici sont tirés des jeux de données MovieLens (MovieLens100K et

Mo-vieLens20M). Pour garantir une précision de 90% à la médiane, nous avons utilisé la mesure

VraisemblanceID pour identifier 6% des utilisateurs dans MovieLens20M comme GSU. Une

pré-cision de 90% à la médiane n’étant jamais atteinte par les mesures sur MovieLens100K (voir

figure 3.9), nous avons garanti une précision de 80% à la médiane en identifiant 10% des

utili-sateurs comme GSU. Comme nous l’avons vu dans le chapitre précédent, l’erreur commise sur

les prédictions des GSU est bien plus élevée que celle commise sur les prédictions des non-GSU

(51% plus élevée en moyenne). Nous analysons dans cette section les caractéristiques des GSU

pouvant être à l’origine de ces recommandations de mauvaise qualité.

Le tableau 4.1 présente les caractéristiques des préférences des GSU, comparées à celles des

utilisateurs non-GSU, sur le jeu de données MovieLens100K.

GSU non-GSU

Nombre d’utilisateurs 82 739

Nombre moyen de notes 76 96

Nombre de notes (1

^er

quartile) 30 36

Note moyenne 3,19 3,64

Ecart-type moyen des notes 1,34 0,97

Table^{4.1 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens100K)}

Dans les données de MovieLens100K, nous avons identifié 82 GSU parmi les 821 utilisateurs.

Les GSU votent en moyenne moins de ressources que les non-GSU, avec une moyenne de 76

notes pour les GSU contre 96 notes pour les non-GSU, et cela s’explique par la manière dont

nous avons défini la mesureVraisemblanceID, qui permet d’identifier les utilisateurs possédant la

plus forte proportion de préférences spécifiques. Il est alors plus probable de posséder une forte

proportion de préférences spécifiques (rares) lorsque l’on a exprimé moins de préférences. Afin

de nous assurer que nous n’identifions pas uniquement des utilisateurs avec le nombre minimum

de notes (qui est de 20 pour ce jeu de données), nous calculons le premier quartile de cette

distribution des nombre de notes par GSU. En effet, si nos mesures identifient en majorité des

utilisateurs avec très peu de préférences, alors les recommandations de mauvaise qualité fournies

à ces utilisateurs pourraient être dues au problème du démarrage à froid. Nous pouvons voir

qu’avec un premier quartile de 30 pour les GSU, contre 36 pour les non-GSU, plus de 75% des

GSU identifiés ont plus de 30 notes exprimées. La qualité des recommandations fournies aux

GSU n’est donc pas directement liée au nombre de préférences qu’ils ont exprimées.

L’écart de 13% entre la note moyenne des GSU (3,19) et la note moyenne des non-GSU

(3,64) montre que les GSU sont plus sévères dans leur notation que les non-GSU. La moyenne

des notes est prise en compte dans la plupart des approches de recommandation sociale que

nous avons présentées. Avoir une moyenne de notes différente ne devrait donc pas influencer la

qualité des recommandations. Néanmoins, si nous observons l’écart-type moyen des GSU (1,34),

en comparaison avec celui des non-GSU (0,97), alors nous pouvons conclure que non seulement

les GSU sont plus sévères que les non-GSU, mais leurs notes sont également plus écartées de

la moyenne. Avant d’aller plus loin dans nos conclusions sur les GSU identifiés, nous proposons

d’analyser les GSU identifiés sur le jeu de données MovieLens20M au travers du tableau 4.2.

GSU non-GSU

Nombre d’utilisateurs 7 383 115 670

Nombre moyen de notes 92 130

Nombre de notes (1

^er

quartile) 29 35

Note moyenne 3,23 3,67

Ecart-type moyen des notes 1,37 0,9

Table^{4.2 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens20M)}

Le grand nombre de GSU identifiés (7 383 utilisateurs) dans ce second jeu de données permet

d’obtenir des indicateurs plus fiables concernant les caractéristiques des GSU. Nous pouvons voir

que le nombre moyen de notes par utilisateur est plus élevé dans MovieLens20M. Cependant,

si nous observons les premiers quartiles des distributions du nombre de notes par utilisateur

pour les GSU (29 notes) et pour les non-GSU (35 notes) nous pouvons conclure que les 25%

d’utilisateurs qui ont le moins voté dans ce jeu de données ont noté environ autant de ressources

que les 25% d’utilisateurs qui ont le moins voté dans MovieLens100K. Les GSU identifiés dans

MovieLens20M ne sont donc pas non plus exclusivement des utilisateurs avec peu de notes. Les

notes moyennes des GSU (3,23) et des non-GSU (3,67) sont également très similaires à celles

relevées sur le jeu de données MovieLens100K. Enfin, l’écart-type moyen des notes des GSU

identifiés (1,37) est encore plus élevé dans MovieLens20M que dans MovieLens100K. A l’inverse,

l’écart-type des non-GSU (0,9) est inférieur à celui observé dans MovieLens100K. Cela confirme

que l’écart-type des notes des GSU identifiés est plus élevé que celui des non-GSU.

Parmi les approches de recommandation sociale que nous avons présentées dans ce manuscrit,

l’approcheKN N utilise la moyenne de l’utilisateur actif ainsi que les préférences de ses voisins

pour estimer les préférences non exprimées par l’utilisateur actif. Puisque les préférences des GSU

sont en général très écartées de leur moyenne (écart-type élevé), les préférences de leurs voisins

sont encore plus importantes pour la prédiction des préférences non exprimées par les GSU

que dans le cas des non-GSU. De plus, la littérature a principalement proposé des méthodes

innovantes basées sur une approche KN N pour fournir des recommandations aux GSU (cf.

paragraphe 2.2.5). Pour comprendre l’origine des recommandations de mauvaises qualité fournies

à ces utilisateurs, je propose donc d’étudier leur voisinage.

Dans le document Les oubliés de la recommandation sociale (Page 81-84)

3.3 Conclusion

4.1.1 Les caractéristiques des GSU

Dans la thèse que je défends, je pense qu’il est non seulement possible d’identifier les GSU

en amont de toute recommandation (ce qui fait l’objet du chapitre précédent), mais qu’il est

également possible de les modéliser, et de leur fournir des recommandations de meilleure qualité

que ne le font les modèles classiques de recommandation sociale (ce qui fait, entre autres, l’objet

de ce chapitre).

Dans ce chapitre, je présente et analyse tout d’abord les caractéristiques des GSU identifiés

grâce aux mesures que j’ai proposées, en les comparant aux caractéristiques des non-GSU pour

comprendre plus en détails les raisons qui entraînent une mauvaise qualité de recommandations

pour les GSU, en outre d’être différent des autres. Ensuite, je propose de nouvelles stratégies pour

sélectionner le voisinage d’un GSU, ainsi que des méthodes à base de factorisation de matrice,

dédiées à l’amélioration de la qualité des recommandations fournies aux GSU.

Nous utiliserons les appellations T rain

et T est

pour faire référence aux jeux de

données composés des préférences d’apprentissage et de test des GSU et T rain

et

T est

pour les jeux de données composés des préférences des utilisateurs non-GSU.

Dans le chapitre précédent, la mesure d’identification la plus efficace étant la

Vraisemblan-ceID, j’ai donc choisi d’utiliser cette mesure pour identifier les GSU analysés et exploités dans

ce chapitre.

4.1 Analyse des GSU identifiés

Nous sommes convaincus que la raison pour laquelle les GSU ne reçoivent pas des

recom-mandations de qualité, même à l’aide d’une approche à base de FM, n’est pas seulement liée à la

nature spécifique de leurs préférences, mais également au faible nombre d’utilisateurs

représen-tant ces préférences spécifiques. Pour être en mesure d’améliorer la qualité des recommandations

fournies aux GSU, je me suis intéressé dans un premier temps aux caractéristiques des GSU

identifiés. Dans cette section, nous nous intéressons au nombre de votes moyen ou encore au

nombre moyen de voisins des GSU, que nous comparons à ceux des utilisateurs non-GSU.

4.1.1 Les caractéristiques des GSU

Les éléments présentés ici sont tirés des jeux de données MovieLens (MovieLens100K et

Mo-vieLens20M). Pour garantir une précision de 90% à la médiane, nous avons utilisé la mesure

VraisemblanceID pour identifier 6% des utilisateurs dans MovieLens20M comme GSU. Une

pré-cision de 90% à la médiane n’étant jamais atteinte par les mesures sur MovieLens100K (voir

figure 3.9), nous avons garanti une précision de 80% à la médiane en identifiant 10% des

utili-sateurs comme GSU. Comme nous l’avons vu dans le chapitre précédent, l’erreur commise sur

les prédictions des GSU est bien plus élevée que celle commise sur les prédictions des non-GSU

(51% plus élevée en moyenne). Nous analysons dans cette section les caractéristiques des GSU

pouvant être à l’origine de ces recommandations de mauvaise qualité.

Le tableau 4.1 présente les caractéristiques des préférences des GSU, comparées à celles des

utilisateurs non-GSU, sur le jeu de données MovieLens100K.

GSU non-GSU

Nombre d’utilisateurs 82 739

Nombre moyen de notes 76 96

Nombre de notes (1

quartile) 30 36

Note moyenne 3,19 3,64

Ecart-type moyen des notes 1,34 0,97

Table4.1 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens100K)

Dans les données de MovieLens100K, nous avons identifié 82 GSU parmi les 821 utilisateurs.

Les GSU votent en moyenne moins de ressources que les non-GSU, avec une moyenne de 76

notes pour les GSU contre 96 notes pour les non-GSU, et cela s’explique par la manière dont

nous avons défini la mesureVraisemblanceID, qui permet d’identifier les utilisateurs possédant la

plus forte proportion de préférences spécifiques. Il est alors plus probable de posséder une forte

proportion de préférences spécifiques (rares) lorsque l’on a exprimé moins de préférences. Afin

de nous assurer que nous n’identifions pas uniquement des utilisateurs avec le nombre minimum

de notes (qui est de 20 pour ce jeu de données), nous calculons le premier quartile de cette

distribution des nombre de notes par GSU. En effet, si nos mesures identifient en majorité des

utilisateurs avec très peu de préférences, alors les recommandations de mauvaise qualité fournies

à ces utilisateurs pourraient être dues au problème du démarrage à froid. Nous pouvons voir

qu’avec un premier quartile de 30 pour les GSU, contre 36 pour les non-GSU, plus de 75% des

GSU identifiés ont plus de 30 notes exprimées. La qualité des recommandations fournies aux

GSU n’est donc pas directement liée au nombre de préférences qu’ils ont exprimées.

L’écart de 13% entre la note moyenne des GSU (3,19) et la note moyenne des non-GSU

(3,64) montre que les GSU sont plus sévères dans leur notation que les non-GSU. La moyenne

des notes est prise en compte dans la plupart des approches de recommandation sociale que

nous avons présentées. Avoir une moyenne de notes différente ne devrait donc pas influencer la

qualité des recommandations. Néanmoins, si nous observons l’écart-type moyen des GSU (1,34),

en comparaison avec celui des non-GSU (0,97), alors nous pouvons conclure que non seulement

les GSU sont plus sévères que les non-GSU, mais leurs notes sont également plus écartées de

la moyenne. Avant d’aller plus loin dans nos conclusions sur les GSU identifiés, nous proposons

d’analyser les GSU identifiés sur le jeu de données MovieLens20M au travers du tableau 4.2.

GSU non-GSU

Nombre d’utilisateurs 7 383 115 670

Nombre moyen de notes 92 130

Nombre de notes (1

quartile) 29 35

Table^{4.1 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens100K)}

Table^{4.2 – Caractéristiques des préférences des GSU et des non-GSU (MovieLens20M)}