Les cat´ egories d’utilisateurs - Système hybride d'adaptation dans les systèmes de recommandat

Les catégories d’utilisateurs servent à déterminer le processus de recommandation à utiliser (voir chapitre 6) pour chaque utilisateur. Afin de déterminer la catégorie de l’utilisateur, nous

analysons leurs actions au niveau du syst`eme. On trouve beaucoup de diff´erences entre les

utilisateurs dans leur fa¸con d’interagir avec un système de recommandation. Ces différences se caractérisent à plusieurs niveaux :

Implicite Vs. explicite

Certains utilisateurs notent régulièrement les items qu’ils ont consommés, d’autres le font moins ou encore jamais.

Homogénéité des notes

Certains utilisateurs notent uniquement les items qu’ils appr´ecient, d’autres ne notent

que ceux qu’ils d´epr´ecient et d’autres encore notent les deux.

Taux de fr´equentation

Le nombre de visites des utilisateurs varie ´egalement. Plus un utilisateur sera r´egulier, mieux on le connaˆıtra.

Nous avons mis en place un module d’apprentissage qui agit en deux temps : (i) le filtrage des données afin de déterminer quelles données (explicites et/ou implicites) seront utilisées

3.2 Les cat´egories d’utilisateurs 57

pour l’utilisateur ; (ii) l’attribution d’une catégorie à un utilisateur qui analyse les données sélectionnées par la partie filtrage et détermine la catégorie de l’utilisateur. Une catégorie va correspondre aux types de recommandations auxquelles l’utilisateur est le plus sensible.

3.2.1 Filtrage des donn´ees

Les diff´erences de comportement des utilisateurs ne permettent pas d’utiliser un mˆeme

processus de recommandation qui le plus souvent se base sur les notes explicites pour tous les utilisateurs. Il semble nécessaire d’effectuer un préfiltrage afin d’identifier les données les plus expressives et les plus fiables à utiliser pour chaque utilisateur. Nous privilégions l’utilisation de notes explicites mais si celles-ci viennent à manquer, nous complétons par des notes implicites telles que définies dans la partie I, section 2.1.2.

Nous distinguons dans la partie filtrage de donn´ees entre trois types d’utilisateurs : les

utilisateurs explicites, les implicites et les nouveaux.

Utilisateurs explicites

Un utilisateur explicite est un utilisateur qui utilise fréquemment le système et donne des informations explicites concernant ses centres d’intérêt (note des items par exemple). Pour qu’un utilisateur appartienne à cette catégorie, il doit avoir une fréquentation ´

elevée (voir équation 3.1) et un nombre suffisant de notes positives (voir équation 3.2), car ce sont les notes positives qui servent à déterminer les préférences de l’utilisateur. Les notes négatives servent, quant à elles, à filtrer les items recommandés s’ils ont les même caractéristiques que les items dépréciés par l’utilisateur.

Ce taux de fr´equentation f req est calcul´e sur la base du nombre de notes explicites

fournies par l’utilisateur ainsi que le nombre d’items consult´es par celui-ci.

f req(u) = ^{|{i | note}^explicite^{(u, i)}| + |{i | note}^implicite^{(u, i)}|}

|It| ^(3.1)

poseval(u) = |{i | note_explicite(u, i) > α_notes}| (3.2)

avec α_notesseuil de notes positives (par exemple, α_notes = 3 dans une ´echelle de notation de 1 `a 5).

Utilisateurs implicites

Un utilisateur est dit implicite si, malgré une fréquentation élevée, il note peu d’items ou encore peu d’items de fa¸con positive. De ce fait, l’utilisation exclusive de ses données explicites ne suffisent pas à déterminer ses goûts de fa¸con pertinente.

Nouveaux utilisateurs

Un utilisateur est considéré comme nouveau s’il ne fréquente que peu le système. La date d’inscription n’entre pas en compte car si, par exemple, un utilisateur s’est inscrit il y a trois ans et qu’il n’a jamais utilisé le système depuis, il ne peut être considéré

La figure 2.3.1 et l’algorithme 3.1 détaillent le processus de filtrage sus-cité. Dans un premier temps, le taux de fréquentation de l’utilisateur est calculé afin d’évaluer s’il est nouveau dans le système ou pas.

Si l’utilisateur a un taux de fréquentation supérieur à un seuil α₁fixé par l’expert ou déduit de l’expérimentation, il n’est pas considéré comme étant nouveau. Le cas échéant, son nombre de notes explicites positives poseval est pris en compte.

Si poseval est supérieur à un certain α₂ fixé par l’expert ou déduit de l’expérimentation, on dispose de suffisamment de notes explicites, les données utilisées par la suite seront donc les données explicites. Autrement, l’utilisateur est dit implicite. Le cas échéant, ses données explicites et implicites seront utilisées dans la suite du processus.

Figure 2.3.1 – Diagramme du filtrage des donn´ees

Algorithme 3.1 Filtrage des donn´ees pour la classification des utilisateurs

fonction DataFiltering(u, αnotes, α1, α2))

. α, α₁ et α₂ sont respectivement les seuils de notes positives, de fr´equence et de nombre de notes positives ´etablies par l’expert.

f req ← ^{|{i | note}^explicite^{(u, i)}| + |{i | note}^implicite^{(u, i)}|} |It|

si f req > α₁ alors

poseval = |{i | note_explicite(u, i) > α_notes}| si poseval > α2 alors retourner ”explicite” sinon retourner ”implicite” fin si sinon retourner ”nouveau” fin si fin fonction

3.2 Les cat´egories d’utilisateurs 59

Une fois le filtrage des données effectué, les profils des utilisateurs explicites et des utilisa-teurs implicites sont analysés afin de leur attribuer une catégorie finale. Cette classification en catégories ne concerne pas les nouveaux utilisateurs qui sont traités séparément.

3.2.2 Classification en cat´egories

La catégorisation finale des utilisateurs consiste à analyser les données sélectionnées pour chaque utilisateur (implicites et/ou explicites) afin d’établir le type de recommandation à lui appliquer. En effet, tandis que la plupart des utilisateurs sont assez sensibles aux recomman-dations issues d’un filtrage collaboratif, il en demeure une certaine partie qui réagit mieux aux

recommandations bas´ees sur le contenu.

Le principe est donc d’identifier si un utilisateur est collaboratif et/ou bas´e sur le contenu.

Utilisateurs collaboratifs

Un utilisateur collaboratif est un utilisateur pour lequel les syst`emes de recommandation

de type collaboratif procurent une meilleure satisfaction. De ce fait, pour d´eterminer

si un utilisateur est collaboratif, il suffit d’effectuer un apprentissage au niveau des items composant son profil. Cette opération revient à évaluer l’efficacité du filtrage collaboratif sur le profil de l’utilisateur, ce qui peut se calculer en partitionnant le profil de l’utilisateur en N parties égales. Chaque partie servira à tour de rôle d’ensemble de test tandis que les autres constitueront l’ensemble d’apprentissage (validation croisée). Le but ´

etant d’appliquer un processus de recommandation collaboratif, par exemple, des r`egles

d’association, sur un ensemble d’apprentissage et d’´etablir le pourcentage interest_CF

de recommandations issues de ce filtrage collaboratif Rec_CF (voir algorithme 5.3) dans

l’ensemble de test (voir ´equation 3.3). Ce pourcentage servira de mesure pour d´ecider

de l’appartenance de l’utilisateur `a cette cat´egorie.

interest_CF(u) = |{i | note(u, i) > α ∧ i ∈ Rec_CF(u)}| (3.3)

avec Rec_CF(u) l’ensemble des items recommandés à u grâce à l’algorithme de filtrage

collaboratif et α le seuil minimum pour qu’une recommandation soit appr´eci´ee.

Si la valeur interest_CF pour un certain utilisateur est supérieure à un certain seuil β₁ fixé par l’expert, l’utilisateur est considéré comme collaboratif.

Utilisateurs bas´es sur le contenu

Un utilisateur est dit basé sur le contenu s’il existe une certaine similarité et homog´ e-néité entre les items qu’il a appréciés dans son profil. Pour que les items du profil de l’utilisateur soient considérés comme homogènes, il est nécessaire qu’ils aient au moins

une caract´eristique commune. Par exemple, dans le domaine des films, un utilisateur

peut souvent regarder des films avec Tom Hanks.

Pour calculer cette homogénéité, nous calculons le degré d’intérêt interest_CB de

l’utili-sateur u pour les recommandations bas´ees sur le contenu. Le principe est de calculer le

taux d’items ayant au moins une caract´eristique commune avec un autre item du profil

interest_CB(u) =

|{i | ∃r ∈ R, ∃a ∈ I, ∃i⁰ ∈ I, note(u, i) ∧ note(u, i⁰) ∧ r(i, a) ∧ r(i⁰, a)}| |{i | note(u, i)}|

(3.4)

avec note(u, i) une note implicite ou explicite de l’utilisateur u pour l’item i.

Le taux interestCB permet donc d’établir l’appartenance de l’utilisateur à la catégorie des utilisateurs basés sur le contenu s’il est supérieur à un seuil β2 fixé par l’expert.

Utilisateurs hybrides

Un utilisateur hybride est un utilisateur qui est `a la fois collaboratif et bas´e sur le contenu. En effet, si interest_CF(u) ≥ β₁ et interest_CB(u) ≥ β₂, l’utilisateur est sensible

aux deux types de recommandations et fait donc partie de la cat´egorie des utilisateurs

hybrides.

Utilisateurs impr´evisibles

Les utilisateurs impr´evisibles sont ceux qui ne sont ni sensibles aux recommandations

bas´ees sur le contenu ni aux recommandations collaboratives. Soit, interest_CF(u) < β₁ et interestCB(u) < β2.

La figure ?? et l’algorithme 3.2 d´etaillent le processus de classification des utilisateurs en cat´egories.

Dans le document Système hybride d'adaptation dans les systèmes de recommandation (Page 67-72)