• Aucun résultat trouvé

Les approches bas´ ees sur le contenu

3.1.1 Le principe

Les approches bas´ees sur le contenu, appel´ees ´egalement filtrage par le contenu, sont les premi`eres approches de recommandation `a avoir vu le jour. Elles consistent `a recommander `a l’utilisateur des items similaires, du point de vue de leur contenu, aux items qu’il aura appr´eci´es auparavant. Le filtrage bas´e sur le contenu n´ecessite de disposer d’une description des items `a recommander et d’une connaissance des pr´ef´erences de l’utilisateur.

Les approches bas´ees sur le contenu d´erivent du monde de la recherche d’informations.

C’est pourquoi les premiers syst`emes `a avoir ´et´e mis en place ´etaient le plus souvent appliqu´es dans des syst`emes d’information `a contenu textuel. Ceci afin de pouvoir utiliser les techniques existantes dans le domaine de la recherche d’information. Ces recommandations se basent donc sur des mots-clefs d´ecrivant les items. Ces mots-clefs peuvent ˆetre pond´er´es afin d’avoir une repr´esentation plus pr´ecise de chaque item. L’une des mesures les plus utilis´ees pour effectuer cette pond´eration est le TF–IDF (voir equation 2.4).

de vecteurs de poids ~d(pm1..pmk) o`u chaque composante pmi repr´esente le poids du mot-cl´e mi, calcul´e gˆace `a TF–IDF par exemple. La mesure la plus utilis´ee pour le calcul de similarit´es dans cette configuration est la similarit´e cosinus.

sim( ~d1, ~d2) = cos( ~d1, ~d2) = ~ d1· ~d2

k ~d1k · k ~d2k (3.1)

Un grand nombre de m´ethodes a ´et´e explor´e dans le domaine du filtrage bas´e sur le contenu : les mod`eles bay´esiens [CLM99], le clustering [SKKR02], les arbres de d´ecision [GKL11], le

rai-sonnement s´emantique [MASR02, BFAGS+08], etc.

Les approches bas´ees sur la s´emantique

Le raisonnement s´emantique fait ´egalement partie des m´ethodes connues de filtrage bas´e

sur le contenu. Contrairement aux autres m´ethodes, le raisonnement s´emantique requiert que

les items soient d´ecrits dans une ontologie (voir chapitre 2, d´efinition 3) plutˆot qu’`a l’aide de mots-cl´es.

Les approches les plus connues dans le domaine de la recommandation s´emantique sont celles

de [MASR02, BFAGS+08]. [MASR02] a mis en place un syst`eme de recommandation nomm´e

Quickstep. Ce dernier permet de recommander aux utilisateurs des articles de recherche. Pour ce faire, l’utilisateur est repr´esent´e sous forme d’une ontologie qui contient une taxonomie de sujets. Les int´erˆets des sujets sont calcul´es en fonction des sujets des articles d´ej`a consult´es par l’utilisateur. Apr`es quoi, la hi´erarchie de sujets est utilis´ee afin de raisonner et d’extraire les sujets proches de ceux int´eressant l’utilisateur. De ce fait, les articles correspondant `a ces sujets extraits lui sont recommand´es.

D’autre part, [BFAGS+08] a propos´e AVATAR, un syst`eme de recommandation de

pro-grammes TV. Dans cette approche, il s’agit de d´ecouvrir ce que les auteurs appellent des

asso-ciations s´emantiques qui consistent soit en un chemin (en suivant des relations) d’un programme TV (dont l’appr´eciation de l’utilisateur est connue) `a un autre (candidat `a la recommandation),

soit en deux programmes TV (dont l’appr´eciation de l’utilisateur est connue) ayant tous deux

un chemin aboutissant vers un autre programme (candidat `a la recommandation). Apr`es avoir

calcul´e le degr´e de pertinence de ces candidats, AVATAR est en mesure d’effectuer des

recom-mandations int´eressantes pour l’utilisateur.

On trouve ´egalement des mesures de similarit´e s´emantique utilis´ees dans des approches bas´ees sur le contenu (plus pr´ecis´ement, bas´ees sur la s´emantique) afin de calculer la similarit´e

entre deux items [MMN02, JM03]. La similarit´e s´emantique est utilis´ee dans une approche en

deux ´etapes propos´ee par [MMN02]. La premi`ere ´etape consiste `a effectuer un pr´ecalcul qui rend la matrice de notes moins creuse. Elle utilise un syst`eme bas´e sur le contenu qui, ´etant donn´e

un utilisateur ayant not´e un certain nombre d’items, d´ecouvre des items similaires aux items

not´es par cet utilisateur grˆace `a une mesure de similarit´e s´emantique. De cette fa¸con, le profil dudit utilisateur est enrichi en ajoutant de nouveaux items `a son historique. La seconde ´etape consiste `a effectuer un filtrage collaboratif en se basant sur l’historique nouvellement obtenu.

3.1 Les approches bas´ees sur le contenu 25

Cette technique permet donc d’exploiter les items similaires aux items not´es par l’utilisateur, afin d’am´eliorer les recommandations issues du filtrage collaboratif.

L’approche propos´ee par [JM03] est en plusieurs ´etapes ´egalement. ´Etant donn´e un item cible, la similarit´e entre cet item et un item d´ej`a not´e par l’utilisateur cible est calcul´ee en combinant la similarit´e cosinus des notes de ceux-ci et leur similarit´e s´emantique qui d´epend du domaine. De ce fait, une note de l’item cible est pr´edite et utilis´ee dans la seconde ´etape pour remplir la matrice de notes. La derni`ere ´etape ressemble `a la premi`ere, `a l’exception du fait que les items cibles sont candidats `a la recommandation plutˆot que de servir `a remplir la matrice de notes.

3.1.2 Les limitations des approches bas´ees sur le contenu

Les syst`emes de recommandation bas´es sur le contenu souffrent de limitations, notamment

le d´emarrage `a froid et la sur-sp´ecialisation [AT05].

On parle de d´emarrage `a froid (cold-start) lorsque le syst`eme de recommandation peine `a recommander des items `a un utilisateur ayant consult´e et not´e peu d’items (nouvel utilisateur par exemple). Le plus souvent, ce probl`eme est contourn´e en s’aidant des informations d´ emo-graphiques des utilisateurs. En effet, des utilisateurs appartenant `a la mˆeme tranche d’ˆage et ayant rempli un profil plus ou moins similaire peuvent avoir les mˆemes int´erˆets. Par cons´equent, il est pertinent d’utiliser cette information. D’autres syst`emes pr´ef`erent attendre que les

utili-sateurs aient not´e assez d’items avant de leur proposer des recommandations [GRGP01] (voir

figure 1.3.1). Des syst`emes de recommandation conversationnels reposant sur des approches

ba-s´ees sur la connaissance ou l’utilit´e sont ´egalement utilis´es dans ces cas de figure [Bur00, ZJ09]. Ils consistent `a poser des questions `a l’utilisateur sur ce qu’il cherche, et adapter les questions

suivantes en fonction des r´eponses fournies et du moteur de connaissances mis en place (voir

section 3.5).

Figure 1.3.1 – Impossibilit´e de recommandation avant d’avoir not´e assez d’items sur

SensCri-tique.com

La sur-sp´ecialisation signifie que la recommandation tend `a toujours s’orienter vers des

items tr`es similaires du point de vue de leurs caract´eristiques. Un syst`eme de recommandation

probl`eme, une touche de hasard est souvent introduite dans les algorithmes en utilisant par exemple des algorithmes g´en´etiques [SM93]. Autrement, les objets tr`es diff´erents des habitudes (ou simplement de l’historique) de l’utilisateur ne pourront jamais lui ˆetre recommand´es.