Système hybride d'adaptation dans les systèmes de recommandation

(1)

HAL Id: tel-01371650

https://tel.archives-ouvertes.fr/tel-01371650

Submitted on 26 Sep 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

recommandation

Roza Lemdani

To cite this version:

Roza Lemdani. Système hybride d’adaptation dans les systèmes de recommandation. Autre. Univer-sité Paris Saclay (COmUE), 2016. Français. �NNT : 2016SACLC050�. �tel-01371650�

(2)

NNT: 2016SACLC050

Th`

ese de Doctorat

de

l’Universit´

e Paris-Saclay

pr´

epar´

ee `

a

CentraleSup´

elec

´

Ecole doctorale n

◦

580 Sciences et technologies de l’information et de la communication

Sp´

ecialit´

e de doctorat: Informatique

Par

Roza L´

emdani

Syst`

eme Hybride d’Adaptation dans les Syst`

emes de Recommandation

Thèse présentée et soutenue à Orsay, le 11 juillet 2016:

Composition du Jury :

Mme Anne Vilnat, Professeure, Universit´e Paris-Sud, Pr´esidente du jury

Mme Anne Boyer, Professeure, Universit´e de Lorraine, Rapporteur

Mme Nathalie Guin, Maˆıtre de conf´erences HDR, Universit´e Lyon 1, Rapporteur

Mme Bénédicte Le Grand, Professeure, Université Paris 1 Panthéon-Sorbonne, Examinatrice Mme Yolaine Bourda, Professeure, CentraleSupélec, Directrice de thèse

(3)

(4)

Remerciements

Je remercie tout d’abord Yolaine Bourda, ma directrice de thèse ainsi que Nacéra Bennacer et Géraldine Polaillon, mes co-encadrantes, pour m’avoir donné l’opportunité d’effectuer cette thèse dans le domaine des systèmes de recommandation, pour leurs conseils, disponibilité et pour m’avoir permis d’en arriver là.

Je remercie Anne Boyer et Nathalie Guin, pour avoir accept´e de rapporter mon manuscrit

de thèse, d’avoir pris le temps de l’étudier et d’avoir fait des commentaires enrichissants. Je remercie également Anne Vilnat et Bénédicte Le Grand, membres du jury, pour leur intérêt pour mes travaux.

Je remercie les permanents de l’´equipe MODHEL et les doctorants que j’y ai rencontr´es

ainsi qu’au LRI, notamment Ahmed, M´elanie, David, Georges, Ian et Marie.

Je remercie ma famille et Caprica pour leur soutien et leur pr´esence.

Je remercie chaleureusement tous mes amis qui ont bien voulu répondre à mes enquêtes,

tester mon application et la faire relayer, et surtout pour avoir été là tout simplement : Abraham, Adrien, Alex, Brieuc, Claire, Damien, Daphné, David D., David P., Élise, Florian R., Florian S., Fran¸cois, Guillaume, Ian, Julien L., Julien V., Laurent-Xavier, Léonie, Marie, Mark, Mathieu,

Max, Meryem, Morgan, Nora, Oph´elie, Pierre, Richard, Sabine, Sandrine, Sovan1, St´ephanie

B., St´ephanie W.B., Sylvain, Tim et Vincent.

Enfin, j’envoie mille mercis à toutes les personnes extérieures au laboratoire dont le soutien, sous la forme de gestes ou de paroles, a été grandement apprécié.

(5)

(6)

Table des mati`

eres

Introduction g´en´erale 1

1.1 Objectifs . . . 2

1.2 Contributions . . . 3

1.3 Organisation du manuscrit . . . 4

I Etat de l’art´ 7 1 Introduction 9 2 La mod´elisation de l’utilisateur 13 2.1 Collecte des donn´ees . . . 14

2.1.1 Collecte explicite des donn´ees . . . 14

2.1.2 Collecte implicite des donn´ees . . . 15

2.2 Caract´eristiques du mod`ele utilisateur . . . 16

2.3 Repr´esentation du mod`ele utilisateur . . . 17

2.3.1 Repr´esentations par mots-clefs . . . 17

2.3.2 Repr´esentations s´emantiques . . . 18

2.3.3 Repr´esentations multidimensionnelles . . . 20

(7)

3.1 Les approches bas´ees sur le contenu . . . 23

3.1.1 Le principe . . . 23

3.1.2 Les limitations des approches bas´ees sur le contenu . . . 25

3.2 Les approches collaboratives . . . 26

3.2.1 Le filtrage collaboratif bas´e sur les utilisateurs (U2U) . . . 26

3.2.2 Le filtrage collaboratif bas´e sur les items (I2I) . . . 27

3.2.3 Les limitations du filtrage collaboratif . . . 28

3.3 Les approches d´emographiques . . . 28

3.4 Les approches sociales . . . 28

3.5 Les approches basées sur la connaissance et les approches basées sur l’utilité . . . 29

3.6 Les approches hybrides . . . 29

3.6.1 Hybridation pond´er´ee . . . 29

3.6.2 Hybridation `a bascule . . . 30

3.6.3 Hybridation mix´ee . . . 31

3.6.4 Hybridation par combinaison de caract´eristiques . . . 31

3.6.5 Hybridation en cascade . . . 31

3.6.6 Hybridation par ajout de caract´eristiques . . . 33

3.6.7 Hybridation m´eta-niveau . . . 33

4 L’´evaluation de la recommandation 35 4.1 Techniques d’´evaluation . . . 35

4.1.1 Test en ligne . . . 35

4.1.2 Etudes utilisateurs . . . .´ 36

4.1.3 Simulations (´evaluations hors-ligne) . . . 36

4.2 Dimensions `a ´evaluer . . . 37

(8)

TABLE DES MATI `ERES vii

4.2.2 Pr´ecision de la pr´ediction de notes . . . 37

4.2.3 Pr´ecision de la recommandation . . . 38

4.2.4 Couverture . . . 38

4.2.5 Confiance du syst`eme . . . 39

4.2.6 Confiance de l’utilisateur . . . 39 4.2.7 Nouveauté . . . 39 4.2.8 Sérendipité . . . 40 4.2.9 Diversité . . . 40 4.2.10 Utilité . . . 40 4.2.11 Robustesse . . . 41 4.2.12 Adaptation . . . 41 4.2.13 Passage à l’échelle . . . 41 5 Conclusion 43 II DOMINOS : DOMain INdependent recOmmender System 45 1 Introduction 47 2 L’architecture du système 49 2.1 Description des données . . . 50

2.2 Le moteur de recommandation . . . 50

3 L’apprentissage des cat´egories d’utilisateurs 53 3.1 Le mod`ele utilisateur . . . 53

3.2 Les cat´egories d’utilisateurs . . . 54

(9)

3.2.2 Classification en cat´egories . . . 57

3.3 Mise `a jour de la cat´egorie de l’utilisateur . . . 59

4 Les mesures sémantiques 61 4.1 La mesure de similarité sémantique . . . 61

4.1.1 Principes . . . 61

4.1.2 Algorithme . . . 63

4.1.3 Complexité du calcul de la similarité sémantique . . . 67

4.2 La mesure de filtrage s´emantique . . . 68

4.2.1 Principes . . . 68

4.2.2 Calcul de l’int´erˆet de l’utilisateur pour les instances . . . 69

4.2.3 Calcul de l’intérêt de l’utilisateur pour les items relativement à des propriétés 70 5 Les modules de recommandation 73 5.1 Le module collaboratif . . . 73

5.1.1 R`egles d’association . . . 73

5.1.2 Algorithme Apriori . . . 74

5.1.3 R`egles d’association dans le contexte de la recommandation . . . 75

5.1.4 Extension des r`egles d’association . . . 76

5.1.5 Sélection des règles d’association étendues pour l’utilisateur cible et re-commandation . . . 77

5.1.6 Complexité du calcul des règles étendues . . . 79

5.2 Le module s´emantique . . . 79

6 L’hybridation et l’explication de la recommandation 81 6.1 Cat´egorie des utilisateurs collaboratifs . . . 81

(10)

TABLE DES MATI `ERES ix

6.1.2 Explication de la recommandation . . . 81

6.2 Cat´egorie des utilisateurs bas´es sur le contenu . . . 82

6.2.1 Processus de recommandation . . . 82

6.3 Cat´egorie des utilisateurs hybrides . . . 83

6.4 Cat´egorie des utilisateurs impr´evisibles . . . 84

6.5 Cat´egorie des nouveaux utilisateurs . . . 85

7 Conclusion 87 III Expérimentation et évaluation 89 1 Introduction 91 2 Expérimentation dans le domaine des publications scientifiques 93 2.1 Données utilisées . . . 93

2.2 Calcul de la similarit´e s´emantique . . . 93

3 Expérimentation dans le domaines des films 97 3.1 Données utilisées . . . 97

3.2 Calcul hors-ligne des similarit´es s´emantiques . . . 100

3.3 Génération hors-ligne des règles d’association étendues . . . 101

(11)

3.4.1 Apprentissage de la cat´egorie des utilisateurs . . . 103 3.4.2 Module s´emantique . . . 105 3.4.3 Module collaboratif . . . 109

3.4.4 Adaptation du processus de recommandation aux cat´egories d’utilisateurs 113

3.5 Evaluation en ligne : ´´ Etude utilisateur . . . 116 3.5.1 Evaluation de la mesure de similarit´´ e s´emantique . . . 116

3.5.2 Evaluation du syst`´ eme de recommandation DOMINOS . . . 117

4 Conclusion 121

IV Conclusion et perspectives 123

(12)

Introduction g´

en´

erale

Avec le volume croissant de données présent dans les systèmes d’information, l’utilisateur peut rapidement être submergé par cette masse informative. De plus, ces données sont fortement hétérogènes. De ce fait, parvenir à cibler une information pertinente pour l’utilisateur reste au cœur d’un nombre important de recherches. La personnalisation représente une solution adaptée `

a ce probl`eme. Parmi les outils de personnalisation et les services d’adaptation existants, on

trouve les syst`emes de recommandation.

Les systèmes de recommandation sont en pleine expansion depuis le début des années

1990. Ils offrent aux utilisateurs la possibilité de mieux choisir parmi les différents contenus disponibles dans les systèmes d’information. L’exemple le plus représentatif est celui du site Amazon.comTM 2. Il propose des produits aux utilisateurs avec la phrase célèbre : « Les clients ayant acheté cet article ont également acheté. . . ».

De part leur utilité, les systèmes de recommandation ont gagné plusieurs domaines : des sites de e-commerce aux publications scientifiques en passant par la presse et les plateformes de locations de films. Leurs enjeux sont donc devenus considérables, non seulement du point de vue ´

economique pour les systèmes commerciaux, mais également, de fa¸con plus générale, du point de vue de la satisfaction de l’utilisateur. En effet, l’utilisateur représente le cœur de tels systèmes. La compréhension et l’anticipation de ses attentes et besoins sont essentiels à l’obtention de son contentement.

Depuis leur apparition, les systèmes de recommandation ont beaucoup évolué : de la d´

efi-nition d’approches de recommandation simples `a la mise en place d’approches hybrides qui

combinent plusieurs approches de recommandation afin de gagner en performance

et de pallier les limitations des approches simples [Bur02]. Cependant, les syst`emes de

recommandation ont encore besoin d’être améliorés afin d’augmenter la satisfaction des utilisa-teurs. À titre d’exemple, une étude sur la perception de la personnalisation conduite sur 504

utilisateurs et publi´ee en 2008 par ChoiceStream [Cho08] a rapport´e que 45% des utilisateurs

avaient déclaré encore recevoir des recommandations non pertinentes, par rapport à leurs goûts ou besoins, sur les divers sites qu’ils visitaient.

L’une des causes identifiée est que les systèmes de recommandation ne sont pas entièrement personnalisés. En effet, bien que ceux-ci analysent les données recueillies sur l’utilisateur, ils appliquent une unique approche de recommandation, simple ou hybride, et présentent le résultat

(13)

`

a l’utilisateur. Or, les utilisateurs sont diff´erents et chacun d’entre eux est sensible `a un type de

recommandation spécifique à une certaine approche. De ce fait, appliquer la même approche

de recommandation pour tous les utilisateurs ne peut ˆetre satisfaisant [DPH+09].

Une autre solution possible consiste à maintenir une certaine transparence du système afin d’augmenter la satisfaction des utilisateurs. Autrement dit, il s’agit d’expliquer à l’utilisateur

pourquoi une recommandation lui a été présentée. Une bonne explication des

recommanda-tions à l’utilisateur permet, entre autres, d’augmenter sa confiance vis-à-vis du système en lui

prouvant que ses recommandations lui sont personnellement destin´ees. De plus, permettre `a

l’utilisateur de corriger une explication am´eliore la connaissance de l’utilisateur par

le système et aide à écarter les futures recommandations non pertinentes [TM07].

Cependant, peu de syst`emes de recommandation actuels proposent des explications car les

approches statistiques utilisées sont dépourvues de sémantique et ne permettent donc pas d’ex-pliquer les recommandations.

Par ailleurs, les syst`emes de recommandation existants proposent des solutions ciblant des

domaines précis, et aucune approche générique et indépendante du domaine n’a été

proposée à notre connaissance. Or, la définition d’un système de recommandation

ind´ependant du domaine serait utile aux concepteurs et permettrait de disposer d’une

base fonctionnelle à laquelle il serait possible d’intégrer d’autres caractéristiques et fonctionna-lités.

1.1 Objectifs

Cette thèse a pour but de présenter un nouveau système de recommandation qui considère les points soulignés ci-dessus afin de les traiter au mieux. Quatre objectifs principaux ont donc ´

eté définis pour l’élaboration de notre système de recommandation.

L’indépendance du domaine : mise en place d’un système pouvant être utilisé sur plusieurs domaines différents.

L’adaptation : capacité du système de recommandation à s’adapter aux utilisateurs en

fonc-tion de leur comportement.

L’hybridation : combinaison de plusieurs approches de recommandation afin d’am´eliorer les

performances du syst`eme.

L’explication de la recommandation : justification des recommandations présentées à

l’uti-lisateur et ´evaluation des explications afin d’´ecarter les futures recommandations non pertinentes.

(14)

1.2 Contributions 3

1.2 Contributions

Ind´ependance du domaine

De nos jours, les systèmes de recommandation sont intégrés dans les sites de commerce

´

electronique, les plateformes de chansons et de vidéos, la presse, les publications scientifiques, etc. Ces domaines sont larges et variés, si bien que les approches de recommandation utilisées sont nombreuses et différentes. Les techniques existantes sont dédiées à des domaines spécifiques et précis. De ce fait, elles ne peuvent pas être appliquées à des domaines différents sans y apporter

des modifications majeures. Nous avons donc voulu mettre en avant l’ind´ependance du domaine

dans le système de recommandation défini. L’indépendance du domaine permet d’avoir une base opérationnelle pour la recommandation et sa mise en place a été assurée par la description de la

connaissance du domaine dans une ontologie de domaine donnée en entrée au système. Cela a

permis de proposer une approche générique reposant uniquement sur les concepts et propriétés de l’ontologie qui définissent la sémantique des données. De ce fait, changer de domaine nécessite uniquement de changer d’ontologie.

Adaptation

Le comportement de l’utilisateur dans un syst`eme de recommandation peut avoir plusieurs

caractéristiques : il peut être plus sensible à certaines techniques de recommandation plutôt qu’à d’autres, son retour peut être plus ou moins important, etc. De telles différences montrent que

chaque type d’utilisateur doit avoir un processus de recommandation qui lui soit adapt´e. Nous

avons mis en place cette adaptation du processus de recommandation grâce à l’apprentissage des catégories des utilisateurs. Cet apprentissage permet d’attribuer à un utilisateur une catégorie en corrélation avec son comportement. Cette catégorie est ensuite utilisée pour sélectionner les modules de recommandation les plus pertinents et les combiner de la fa¸con la plus adaptée.

Hybridation

Il existe, à ce jour, plusieurs approches de la recommandation, chacune ayant ses avantages et ses limitations. C’est pourquoi, l’idée de combiner différentes approches, afin de bénéficier de leurs avantages respectifs et de pallier leurs limitations, a vite été envisagée. Plusieurs techniques d’hybridation ont été définies afin de répondre à différentes attentes. La première étape dans la définition d’un tel système hybride, consiste à définir les modules de recommandation utilisés

lors de l’hybridation. Nous avons propos´e deux modules de recommandation ind´ependants et

pouvant être combinés différemment :

— Un module collaboratif utilisant des règles d’association que nous avons étendues grâce `

a la sémantique des données qui sont décrites dans l’ontologie de domaine donnée en entrée du système ;

— Un module s´emantique qui effectue un raisonnement bas´e sur le contenu et qui exploite

(15)

De plus, nous avons défini deux mesures sémantiques, l’une filtre les recommandations qui lui sont présentées et l’autre, qui fait partie intégrante du module sémantique, calcule les similarités entre instances. Ces deux mesures peuvent être utilisées dans le processus de recommandation. Selon la catégorie identifiée pour l’utilisateur durant l’étape d’apprentissage, une certaine hybridation est sélectionnée. Les modules sont utilisés seuls ou leurs résultats peuvent êtres combinés. Les mesures sémantiques sont quant à elles utilisées dans le filtrage du résultat final

des modules ou directement int´egr´ees dans le calcul des recommandations.

Explication des recommandations

Les syst`emes de recommandation existants se basent sur des techniques statistiques et des

hybridations fixes qui ne permettent pas la réelle justification de la recommandation. L’expli-cation de la recommandation peut avoir une influence sur l’utilisateur car elle peut convaincre l’utilisateur de la pertinence de la recommandation qui lui est présentée. Elle peut également permettre de valider la justification de la recommandation. Cette validation est essentielle pour ˆ

etre prise en compte dans les futures recommandations. Le système que nous avons défini offre la possibilité d’expliquer et de justifier les recommandations. En effet, les modules de recomman-dation ainsi que les mesures sémantiques définies sont indépendants et leur application permet de conserver la trace du raisonnement utilisé et de justifier les résultats obtenus.

1.3 Organisation du manuscrit

Partie I - ´Etat de l’art

L’utilisateur se trouve au cœur des outils de personnalisation et donc des syst`emes de

recommandation. Une bonne modélisation de son profil est, de ce fait, nécessaire à l’obtention de résultats satisfaisants.

Nous étudions dans cette partie les différents types de modèles utilisateurs élaborés au cours des dernières années, des représentations les plus simplistes aux modélisations les plus précises et les plus complètes. Nous analysons également les techniques de mise à jour et les différents types de données exploitables et nécessaires à une modélisation pertinente et précise.

Nous décrivons également les travaux significatifs conduits dans le domaine des systèmes de

recommandation. Les diff´erentes techniques et approches de recommandation existantes, ainsi

que leurs limitations, sont détaillées. Nous abordons également le sujet des différents enjeux de la recommandation et les techniques d’évaluation et de validation des performances du système vis-à-vis des objectifs définis.

(16)

1.3 Organisation du manuscrit 5

Partie II - DOMINOS : DOMain INdependent recOmmender System

Cette partie est consacrée à la définition du système que nous proposons. Celui-ci répond aux objectifs fixés dans cette thèse.

Nous décrivons dans un premier temps l’architecture globale du système qui se décompose en deux parties principales, l’apprentissage des catégories d’utilisateurs et le calcul de la

re-commandation. La partie apprentissage est d’abord détaillée. Puis des mesures sémantiques

intervenant dans le processus de recommandation sont d´efinies. Les modules de

recommanda-tion, collaboratif et sémantique, ainsi que leur hybridation pour chaque catégorie d’utilisateurs, sont ensuite abordés en détail.

Partie III - Exp´erimentation et ´evaluation

L’expérimentation d’un système de recommandation nécessite de détenir un ensemble de

données permettant d’évaluer ses performances. Cependant, de tels ensembles de données ne

sont pas disponibles pour tous les domaines.

Nous avons expérimenté le système de recommandation défini dans le domaine des films. Nous détaillons dans cette partie les différentes étapes de l’expérimentation et analysons les résultats obtenus. De plus, nous avons validé notre approche grâce à deux évaluations : (i) une ´

evaluation hors-ligne qui consiste `a simuler le comportement du syst`eme sur le dataset 100K

de MovieLens3, le syst`eme de recommandation de GroupLens4, et `a comparer plusieurs

para-mètres, (ii) une évaluation en ligne où des volontaires ont testé le système de recommandation défini et ont évalué les recommandations et explications présentées.

Nous avons également expérimenté l’une des mesures sémantiques dans le domaine des

publications scientifiques et analysons les résultats obtenus. Cependant, l’absence des données nécessaires à la conduite d’une évaluation complète ne nous a pas permis d’expérimenter le système entier dans ce domaine.

Les résultats obtenus à l’issue de cette expérimentation sont très concluants.

Partie IV - Conclusion et perspectives

Dans cette partie, nous résumons l’approche abordée ainsi que les résultats obtenus lors de l’expérimentation et l’évaluation. De plus, nous proposons des perspectives de travail qu’il serait intéressant d’aborder dans de futurs travaux.

3. http://www.movielens.org/

(17)

(18)

Premi`

ere partie

´

(19)

(20)

Chapitre 1

Introduction

« We are leaving the age of information and entering the age of recommendation », dixit

Chris Anderson dans son livre « The Long Tail ». Les systèmes de recommandation ont émergé

dans les années 90. Pour les définir simplement, il s’agit d’outils de personnalisation qui suggèrent

aux utilisateurs des items qui pourraient les int´eresser [RV97, Bur07], autrement dit, qu’ils

seraient susceptibles de consommer. Les syst`emes de recommandation sont utilis´es aujourd’hui

dans divers domaines et les items recommand´es varient selon les domaines. Un item peut donc

ˆ

etre un livre, une vid´eo, un article ou encore un morceau de musique.

(21)

Figure 1.1.2 – Sch´ema du processus de recommandation

Les recommandations sont le plus souvent pr´esent´ees sous forme de listes d’items. Sur

Amazon.comTM1_{, elles sont par exemple pr´}_ec´_ed´_{ees de la mention « Les clients ayant achet´}_{e (ou}

regardé) cet article ont également acheté » (voir figure 1.1.1). Un exemple trivial de recomman-dation serait de proposer à l’utilisateur la liste des N items les plus populaires (Top N), mais cette liste ne sera ni personnalisée, ni adaptée à l’utilisateur. Une liste d’items personnalisée s’obtient grâce aux données recueillies sur l’utilisateur qui sont exploitées par le moteur de

re-commandation. En effet, les syst`emes de recommandation ´etant des outils de personnalisation,

l’utilisateur se trouve au cœur de tels systèmes. Le moteur de recommandation génère au final un ensemble d’items afin de les proposer à l’utilisateur (voir figure 1.1.2).

Recommander des items peut être effectué via deux tâches différentes : la tâche de prédiction

et la tˆache de recommandation [JZFF10, AT05].

Définition 1. La tâche de prédiction consiste à prédire les notes2 qu’attribuerait l’utilisateur cible à un item donné. L’item lui sera recommandé si la note prédite est élevée.

Formellement, étant donné U l’ensemble des utilisateurs et It l’ensemble des items, la tâche de prédiction se ramène à une fonction p, telle que :

u ∈ U , i ∈ It p(u, i) ∈ [bmin, bmax] (1.1)

où bmin et bmax sont respectivement les bornes inférieure et supérieure de l’échelle de notation.

Définition 2. La tâche de recommandation sélectionne les items pouvant intéresser l’utilisateur cible et les lui suggère sans prédire les notes de l’utilisateur pour ces items.

Formellement, la tâche de recommandation se ramène à une fonction rec, telle que :

u ∈ U rec(u, It) = {i ∈ It} (1.2)

La recommandation peut avoir plusieurs objectifs parmi lesquels :

1. http ://www.amazon.com/

(22)

11

— réduire l’effort de l’utilisateur dans la recherche d’items qui l’intéresseraient et lui pro-poser des items auxquels il n’aurait pas pensé ;

— augmenter le temps pass´e par l’utilisateur sur le syst`eme ;

— augmenter la satisfaction et la loyaut´e de l’utilisateur envers le syst`eme ; — augmenter les ventes ;

— augmenter le chiffre d’affaires ; — promouvoir les items impopulaires ; — assister l’utilisateur dans le choix d’items ;

— recommander des items en temps r´eel.

Certains objectifs peuvent ˆetre incompatibles avec d’autres. Par exemple, la promotion

des items impopulaires peut mettre un frein à la réduction de l’effort de l’utilisateur dans la recherche d’items intéressants ou à l’augmentation du chiffre d’affaire. Il appartient donc au propriétaire du système de définir les objectifs à remplir en attribuant une priorité à chaque objectif, de sorte que le système mis en place réponde au mieux au cahier des charges instauré. Dans cette partie, nous réalisons un état de l’art sur les systèmes de recommandation afin de disposer des outils nécessaires à l’élaboration de notre système en accord avec les objectifs fixés. Dans un premier temps, la modélisation de l’utilisateur est présentée (chapitre 2). En effet, l’utilisateur est l’acteur principal des systèmes de recommandation, il est donc nécessaire de bien le représenter. Dans le chapitre 3, nous parcourons les différentes approches de recommandation existantes et présentons leurs limitations et les solutions proposées pour y pallier. Puis, le chapitre 4 répertorie les différentes techniques d’évaluation des systèmes de recommandation et les paramètres à prendre en compte dans le processus d’évaluation. Enfin, dans le chapitre 5, nous abordons nos travaux et leur place par rapport à ceux cités dans l’état de l’art.

(23)

(24)

Chapitre 2

La mod´

elisation de l’utilisateur

L’utilisateur est l’acteur principal d’un système de recommandation car celui-ci a pour ob-jectif de proposer aux utilisateurs des items qu’ils pourraient consommer. Afin qu’un utilisateur consomme un item, il est nécessaire que celui-ci l’intéresse. Les systèmes de recommandations doivent donc identifier ce qui intéresse l’utilisateur. Pour ce faire, ils doivent collecter les données et informations qui leur seront utiles à propos de l’utilisateur. Les informations et données à collecter vont être préalablement définies dans ce qu’on appelle un modèle utilisateur [All90].

[H¨96] définit le modèle utilisateur comme étant « un ensemble de connaissances à propos de l’utilisateur explicitement ou implicitement représenté, utilisé afin d’améliorer son interac-tion avec la machine ». Le modèle utilisateur est ainsi exploité afin de présenter un contenu personnalisé à l’utilisateur. Il est donc une représentation des informations à propos d’un uti-lisateur qui est essentielle pour la production de l’effet de personnalisation et sans lequel les

pages seraient homog`enes pour tout individu [BM07].

Un modèle utilisateur définit un schéma de données à collecter pour construire des profils d’utilisateurs. Un profil utilisateur va être une instanciation de ce modèle utilisateur. Le profil va contenir les informations relatives à l’utilisateur structurées par le modèle défini. Dans un premier temps, des informations à propos de l’utilisateur sont collectées. Puis, les données collectées sont traitées et interprétées afin d’établir le profil utilisateur. Le profil, une fois créé,

peut être exploité par le système de recommandation. Les tables 1.2.1 et 1.2.2 donnent un

exemple de mod`ele utilisateur et son instanciation en profil.

Mod`ele utilisateur

Nom Pr´enom

Centres d’int´erˆet

Table 1.2.1 – Exemple de mod`ele utilisateur simple

Il n’existe pas de modélisation unique. De ce fait, plusieurs aspects doivent être pris en compte lors de la modélisation de l’utilisateur. Dans un premier temps, il est nécessaire de se

(25)

Profil utilisateur

Pr´enom : Arya

Nom : Stark

Centres d’intérêt : Aventures, tir à l’arc, escrime

Table 1.2.2 – Exemple de profil utilisateur

fixer le type de données que l’on veut collecter et la fa¸con de les collecter (voir section 2.1). La définition de certains paramètres tels que la durée de vie du profil (profil ponctuel ou à

long terme) ou bien sa dynamique, est ´egalement un point important de la mod´elisation que

nous allons traiter dans la section 2.2. Enfin, la représentation du modèle est le dernier point à prendre en compte (section 2.3).

2.1 Collecte des donn´

ees

Les utilisateurs interagissent avec le système en effectuant un certain nombre d’actions qui peuvent être des clics, l’attribution de notes à des items, des téléchargements, des achats, l’envoi de commentaires, etc. Ces actions déterminent ce qui a attiré l’attention de l’utilisateur et ce qui l’intéresse. La collecte des données consiste à observer ces actions afin de déterminer les centres d’intérêt de l’utilisateur. Nous qualifions de centre d’intérêt toute caractéristique récurrente dans les items avec lesquels l’utilisateur interagit. Il peut s’agir de genre littéraire dans le domaine des livres, de sujets de recherche dans le domaine scientifique, de catégories de produits dans le commerce électronique, etc.

Il existe deux fa¸cons de collecter des données : la méthode explicite et la méthode implicite. Ces deux méthodes ont leurs avantages et leurs inconvénients.

2.1.1 Collecte explicite des donn´ees

La collecte explicite des données consiste à impliquer l’utilisateur dans la récolte de données `

a son sujet. Il peut donc être demandé à l’utilisateur de noter des items (voir figure 1.2.1), remplir des formulaires ou encore sélectionner ses centres d’intérêts directement. Cette méthode a l’avantage de directement connaˆıtre les notes des utilisateurs pour les items et leurs centres d’intérêt sans avoir à les estimer. Néanmoins, ces données sont à utiliser avec précaution. En effet, les données entrées par les utilisateurs peuvent ne pas refléter leurs préférences [HH98, MPS76].

Un utilisateur peut par exemple indiquer qu’il porte un grand int´erˆet aux documentaires et

finalement en regarder tr`es peu.

L’inconvénient principal de la collecte explicite des données est que l’utilisateur se montre souvent réticent à fournir des informations le concernant, soit parce qu’il trouve la démarche fastidieuse, soit parce qu’il la per¸coit comme une atteinte à sa vie privée [TK04, Kob01, Kob07].

(26)

2.1 Collecte des donn´ees 15

Figure 1.2.1 – Exemple de r´ecolte d’informations sur Fnac.com

2.1.2 Collecte implicite des donn´ees

La collecte implicite des données consiste à capturer les actions de l’utilisateur dans le système et à les interpréter afin de déduire ses centres d’intérêt. La récolte des données se fait en analysant les logs de l’utilisateur que l’on trouve sur le serveur, ses sites favoris, ses historiques de navigation et de recherche, ses impressions et sauvegardes de pages, ses téléchargements, etc.

[KKP01, MCS00, MDLN01, MDLN02]. L’utilisation de ce genre de donn´ees est quelque peu

délicate. En effet, il est nécessaire de n’utiliser que celles qui ne portent pas atteinte au respect de la vie privée. Le respect de la vie privée représente un enjeu de taille dans les systèmes de

recommandation [TK04, Kob01, Kob07]. Des études ont démontré que bien que les utilisateurs

soient en faveur des contenus personnalisés [Gro97, Com00, Cho08] (78% en 2008 selon l’enquête de ChoiceStream [Cho08]), ils restent inquiets quant à la sécurité de leurs données personnelles (59% en 2008 selon ChoiceStream). De plus, l’utilisation des données personnelles est régie par des lois gouvernementales, telles que la loi fran¸caise « Informatique et Libertés » du 6 janvier 1978 qui définit les principes à respecter lors de la collecte, du traitement et de la conservation des données personnelles.

L’avantage des donn´ees implicites est qu’on les obtient en analysant le comportement (les

actions) de l’utilisateur dans le système sans lui demander explicitement de noter des items ou de renseigner ses centres d’intérêt. L’inconvénient est qu’il est difficile de déterminer ce qui ne plaˆıt pas à l’utilisateur ou encore de différencier les items qu’il consulte pour sa propre consommation des items qu’il consulte pour la consommation d’une personne tierce.

(27)

L’interprétation de l’intérêt porté à un item i se calcule en se basant sur le temps passé à consulter l’item, le nombre de fois où l’utilisateur l’a consulté, etc. [KKP01, ZSS07]. [CB06] a proposé une formule permettant d’évaluer cet intérêt :

noteimplicite(i) = 1+ 2 × estF avoris(i)

+ recence(i)

+ 2 × f requence(i) × duree(i) + pourcentageLiensV isites(i)

(2.1)

tel que :

estF avoris(i) est un critère indiquant que l’utilisateur a ajouté l’item i à ses marque-pages ou qu’il l’a explicitement noté. La valeur de estF avoris(i) peut être de 0 ou de 1.

recence(i) détermine si l’item i a été récemment consulté.

recence(i) = date(derni`ere visite) − date(d´ebut log)

date(pr´esent) − date(d´ebut log) (2.2)

f requence(i) indique la fr´equence de consultation de l’item i

duree(i) représente la durée normalisée du temps de consultation de l’item i. duree(i) = maxconsultations

temps de lecture de i taille de i

(2.3)

pourcentageLiensV isites(i) correspond au nombre de liens visit´es divis´e par le nombre de liens se trouvant sur la page de l’item.

2.2 Caract´

eristiques du mod`

ele utilisateur

Un certain nombre de caractéristiques doivent être analysées lors de la définition d’un modèle utilisateur et aident à déterminer sa conception. Selon [Koc01], les modèles utilisateurs peuvent être classés selon plusieurs facteurs :

Adaptatif Vs. Adaptable : Un mod`ele est dit adaptatif lorsque celui-ci est mis `a jour

auto-matiquement par le syst`eme. `A l’inverse, il est dit adaptable si l’utilisateur intervient

directement dans la construction du mod`ele.

Mod´elisation implicite Vs. explicite : Dans une collecte explicite d’informations,

l’utilisa-teur est interrogé sur des caractéristiques statiques (âge, localisation, centres d’intérêt,

etc.). Certaines applications demandent ´egalement de noter les items (plateformes de

films, e-commerce etc.). Les utilisateurs étant souvent réticents à la communication ex-plicite d’information, une découverte implicite de leurs centres d’intérêt s’avère souvent nécessaire.

Une collecte implicite consiste `a analyser le comportement de l’utilisateur. Elle repose

(28)

2.3 Repr´esentation du mod`ele utilisateur 17

de l’utilisateur sont analysées et ses préférences sont déduites en fonction de ses re-cherches, des items consultés, de la durée des consultations d’items etc.

Le plus souvent, les deux m´ethodes sont combin´ees pour obtenir une meilleure mod´ eli-sation de l’utilisateur.

Modélisation dynamique Vs. statique : La modélisation dynamique consiste à modifier

continuellement le profil de l’utilisateur selon les informations acquises au fil du temps. La modélisation statique, quant à elle, interdit les modifications du profil après qu’il ait ´

et´e ´etabli.

Individu Vs. groupe d’individus : Les modèles de groupes représentent des caractéristiques

basées sur des stéréotypes, tandis que les modèles individuels représentent les caract´ e-ristiques de chaque utilisateur. La classification d’un individu dans un groupe s’effectue le plus souvent à l’aide d’algorithmes de fouille de données, de classification ou de clus-tering.

Modélisation interne Vs. externe : Cette modélisation concerne le niveau d’intégration du

modèle dans l’application. En effet, le modèle est interne lorsqu’il fait partie intégrante de l’application. Inversement, si le modèle est une entité dissociée de l’application, le modèle est dit externe.

Mod´elisation opaque Vs. lisible : Un mod`ele est opaque si l’utilisateur n’a pas le droit de

le consulter. Autrement, il est dit lisible.

Modèle à court terme Vs. à long terme : Les modèles à court terme sont construits et

utilisés sur une courte période (une session). Quant aux modèles à long terme, ils sont construits au fur et à mesure des sessions et évoluent selon l’évolution de l’utilisateur. Granularité : Il concerne le niveau de détail utilisé pour la représentation du modèle.

Tous ces facteurs doivent être pris en considération avant la mise en place du modèle afin d’être exploités au mieux.

2.3 Repr´

esentation du mod`

ele utilisateur

Une fois les données à propos de l’utilisateur collectées et les caractéristiques du modèle utilisateur établies, la question de la représentation de ces données et de ce modèle, se pose. La représentation du modèle utilisateur caractérise le schéma des données collectées sur l’utilisateur. On trouve dans la littérature plusieurs types de représentations du modèle utilisateur, parmi celles-ci, les représentations simples par mot-clefs ou vectorielles, les représentations sémantiques plus complexes et les représentations multidimensionnelles complètes, que nous allons introduire.

2.3.1 Repr´esentations par mots-clefs

Beaucoup de mod`eles utilisateur se basent sur des repr´esentations par mots-clefs. Celles-ci

souffrent, entre autres, de probl`emes de synonymie ou d’homonymie (par exemple, le centre

(29)

ont été mises en place sur cette base. On retrouve des représentations qui consistent en de simples vecteurs de mots-clefs exprimant si un mot-clef est présent ou non, d’autres où un poids plus précis est associé à chaque mot-clef dans le vecteur [BH00, DCC+03].

Pour les items de type textuel, les poids peuvent être déterminés par la mesure TF/IDF

(Term Frequency/Inverse Document Frequency) [Sal88]. TF/IDF permet de d´eterminer

l’impor-tance d’un mot-clef dans un document textuel tel que TF repr´esente le nombre d’occurrences,

normalisé par rapport à la taille du document, d’un terme (un terme est considéré comme étant important s’il apparaˆıt plusieurs fois dans le document), tandis que IDF a pour but de réduire

le poids des termes apparaissant dans tous les documents. Étant donné m un terme (mot-clé)

et d un document dans lequel il apparaˆıt, le calcul du poids TF–IDF de m dans d s’effectue de la fa¸con suivante :

T F (m, d) = Pn(m, d) m0 n(m0_{, d)} IDF (m) = log N n(m) T F IDF (m, d) = T F (m, d) × IDF (m) (2.4)

où n(m, d) est le nombre d’occurrences du terme m dans d (le mot fréquence est utilisé par abus de langage)

P

m0

n(m0, d) est le nombre de mots-cl´es de d N est le nombre de documents recommandables

n(m) est le nombre de documents contenant le terme m.

D’autres techniques existent pour d´eterminer les pond´erations des mot-clefs lorsque les

items ne sont pas textuels. Dans [SNM07], l’utilisateur est également représenté à l’aide de ca-ractéristiques (mots-clefs) pondérées. Les items de l’application sont décrits par un ensemble de caractéristiques. Les caractéristiques des items bien notés par l’utilisateur sont ensuite utilisées afin de déduire les pondérations de chaque caractéristique pour l’utilisateur en fonction de leur fréquence.

2.3.2 Repr´esentations s´emantiques

Les représentations sémantiques sont plus élaborées et complexes que les représentations par

mots-clefs. Elles permettent entre autres de lever les probl`emes d’homonymie et de synonymie

rencontrés dans les représentations par mots-clefs car la sémantique (le sens) des mots est renforcée grâce à une structure de classes (concepts) et de relations (propriétés). Les ontologies sont l’une des représentations sémantiques les plus connues.

Définition 3. Une ontologie est une spécification formelle et explicite d’une conceptualisation partagée [Gru93].

Une ontologie peut être considérée comme étant le composant noyau d’un système de

connaissances sémantique [YAC07]. Nous allons étudier quelques modèles utilisateurs s´ eman-tiques que l’on retrouve dans la littérature et qui utilisent des formalismes différents : logiques de

(30)

description, OWL (Web Ontology Language) ou encore des graphes conceptuels pour mod´eliser

les utilisateurs.

Graphes conceptuels

Un graphe conceptuel est un graphe ayant des nœuds de type concept et d’autres de type relation. Des arcs orientés lient les concepts aux relations. Ce formalisme de représentation des connaissances a été initialement introduit afin de décrire les données se trouvant dans une base de données de fa¸con accessible et compréhensible par les utilisateurs [Sow76]. Depuis, ce formalisme a été élargi à beaucoup de domaines et est notamment utilisé dans la modélisation des utilisateurs.

Dans [ZSS07], le modèle utilisateur est structuré via un graphe conceptuel de fa¸con auto-matique. La construction de ce modèle consiste à intégrer l’ontologie du site WEB1 avec les données d’utilisation de l’utilisateur. Le profil de l’utilisateur est donc représenté par un graphe conceptuel qui vise à représenter sémantiquement son activité. En d’autres termes, le graphe de l’utilisateur sera un sous-ensemble de l’ontologie du site où chaque lien sera étiqueté d’un certain nombre d’informations (nombre et durée de visite d’un concept, la fa¸con de naviguer sur le site, etc.).

Logiques de description

Les logiques de description sont une famille de formalismes logiques pour la repr´esentation

des connaissances. `A l’instar des graphes conceptuels, elles mettent en œuvre des concepts. De

plus, elles permettent entre autres de d´efinir des rˆoles (relations) et des individus (instances de concepts).

Les logiques de description ont été utilisées dans la modélisation d’utilisateurs [CCC+04, YAC07]. [CCC+04] vise à effectuer des correspondances (matching) entre des profils utilisateurs dans le cadre d’un portail de rencontres. La logique de description utilisée est une ALC(D) qui permet de représenter les propriétés et caractéristiques physiques d’une personne, ainsi que ses intérêts dans certains domaines de fa¸con précise en intégrant un degré d’intérêt pour chacun d’entre-eux. La correspondance s’effectue grâce à un algorithme appliqué à chaque concept des profils de demande et d’offre. À l’issue de quoi, un score est attribué au profil de l’utilisateur en fonction de son adéquation avec le profil recherché. Concrètement, étant donnés un profil de demande et un profil d’offre, on calcule le score (de pénalité) du profil de demande tel que s’il contient des concepts en contradiction avec les concepts présents dans le profil d’offre, une pénalité est ajoutée. De même, si un concept est requis dans le profil d’offre et que celui-ci n’est pas présent dans le profil de demande, une pénalité est également ajoutée. Plus le score obtenu sera élevé, moins le profil de demande conviendra à l’offre. Dans cette approche, la mise-`

a-jour d’un profil se fait de manière explicite ce qui n’est pas très approprié pour un système de personnalisation adaptatif.

1. L’ontologie du site WEB est construite automatiquement en s’aidant des mots-clefs extraits du site, com-binés à une ontologie du domaine. Il en résulte un contenu représenté sous forme d’ontologie.

(31)

[YAC07] propose une modélisation plus générique de l’utilisateur. Cette modélisation com-bine une modélisation explicite et une modélisation implicite. La première est issue d’informa-tions saisies directement par l’utilisateur (lors de son inscription par exemple). Tandis que la

seconde n´ecessite un apprentissage du mod`ele utilisateur en fonction de son comportement au

travers de l’application. L’approche adoptée tend également à utiliser les stéréotypes. Il s’agit

donc, en fonction des donn´ees existantes sur l’utilisateur, de lui attribuer un groupe auquel

il s’apparente. Cette méthode permet de déjouer le problème du manque d’information qui

concerne les nouveaux utilisateurs car ils ne sont pas considérés comme individus mais en tant que groupe d’individus (cf. section 2.2). De ce fait, même si les informations concernant l’utilisa-teur sont insuffisantes, il est possible d’utiliser les informations du groupe qui lui a été attribué.

La logique de description utilis´ee est une SHIQ(DR). Celle-ci permet notamment l’utilisation

de domaines concrets, qui à l’instar de l’approche de [CCC+04], permet de qualifier certaines informations sur l’utilisateur (par exemple : age ≥ 20), mais aussi des relations n-aires qui peuvent mettre en œuvre pour un acteur donné un ensemble de données décrivant son intérêt (le domaine d’intérêt, le degré d’intérêt et la période qui s’y rapporte). Ainsi, au fur et à mesure de l’élargissement du profil de l’utilisateur, un groupe plus précis lui est attribué.

OWL

Le langage d’ontologie Web OWL est un langage de balisage s´emantique pour publier et

partager des ontologies sur le Web2. On retrouve des mod`eles utilisateurs bas´es sur OWL,

comme par exemple le mod`ele d’AVATAR [BFAGS+08].

L’utilisateur est modélisé dans AVATAR par un extrait de l’ontologie décrivant l’application

de fa¸con quasi analogue `a [ZSS07]. [BFAGS+08] propose un syst`eme de recommandation pour

la vidéo à la demande3. De ce fait, le modèle utilisateur capture les programmes intéressants et non intéressants pour l’utilisateur ainsi que leur description sémantique (caractéristiques et hiérarchie de genres). Ces informations sémantiques étant déjà représentées dans l’ontologie, le profil utilisateur contient plus concrètement les identifiants des programmes sus-cités et le degré d’intérêt (le degré de pertinence ou note) correspondant. De cette fa¸con, il devient facile pour AVATAR de récupérer ces informations sémantiques.

2.3.3 Repr´esentations multidimensionnelles

Les modèles utilisateurs se caractérisent par leur simplicité et surtout par leur hétérogénéité. En effet, selon les besoins applicatifs des systèmes auxquels ils se rattachent, les propriétés repr´ e-sentées diffèrent. De ce fait, des représentations multidimensionnelles qui se veulent génériques ont été proposées [BK05, Kos03, BM07, ZTB05].

[Kos03] a présenté un modèle générique en s’inspirant du modèle de [AS99] basé essentiel-lement sur :

2. http://www.w3.org/TR/owl-ref/

(32)

Domaines d’intérêt : expriment les centres d’intérêt de l’utilisateur et sont représentés par des mots-clefs ou des requêtes qui contiennent la sélection simple d’attributs des tables et des agrégats fait sur ces attributs. Ceci peut être vu comme une présélection qui réduit la masse d’informations et épargne à l’utilisateur la spécification des prédicats

communs `a toutes ses demandes.

Ontologies : permettent de réduire l’espace de recherche de l’utilisateur à des domaines ciblés.

Données personnelles : définissent la partie statique (ou évoluant peu dans le temps) du

profil (identité, données démographiques, contacts).

Customisation : décrit les préférences de l’utilisateur (de livraison, de codage, de mise en page, etc.)

Sécurité : définit les protocoles d’échange des données, des requêtes et de l’identité de l’utili-sateur.

Retour du client : g`ere le retour avec l’utilisateur et la mise `a jour automatique du contenu du profil en fonction de ses retours implicites ou explicites.

De plus, [BM07] identifie les propriétés suivantes à collecter :

Connaissances de l’utilisateur : son niveau de connaissance dans un domaine donn´e. Le

plus souvent, un modèle scalaire est utilisé, tel que le niveau de connaissances de l’utili-sateur dans un domaine donné est estimé sur une certaine échelle. Cette dimension est d’autant plus utile dans les systèmes adaptatifs éducationnels.

Objectifs : peut ˆetre un objectif de travail `a long terme ou une recherche ponctuelle.

Contexte de travail : il comprend la plateforme de l’utilisateur ou l’application qu’il utilise (par exemple la distinction entre les ordinateurs de bureau et les appareils mobiles) ainsi que sa localisation g´eographique.

Ces diverses repr´esentations ont leurs avantages et leurs inconv´enients. Par exemple, les

repr´esentations par mots-clefs ne conviennent pas pour les syst`emes de recommandation

colla-boratifs (section 3.2), tandis que les représentations multidimensionnelles peuvent définir des dimensions inutiles. Par exemple, le niveau de connaissances de l’utilisateur est spécifique aux systèmes adaptatifs éducationnels.

Nous avons vu, dans ce chapitre, les diff´erentes donn´ees que l’ont peut collecter et qui

peuvent définir les centres d’intérêt de l’utilisateur. Ces données peuvent être explicitement fournies par l’utilisateur, auquel cas elles sont utilisées brutes. Autrement, il reste possible d’analyser les parcours et actions de l’utilisateur dans le système et d’estimer les centres d’intérêt grâce à des mesures définies. Mais ces données, dites implicites, ne sont pas aussi précises que celles fournies par l’utilisateur.

[Koc01] a appuyé ce point en proposant plusieurs classifications des modèles utilisateurs. L’un d’eux distinguait le caractère explicite de l’implicite dans une modélisation. Dans notre

approche, nous mettons en place un mod`ele `a la fois implicite et explicite, mais nous nous

inspirons de ce point afin de distinguer entre les utilisateurs explicites (qui donnent réguli` ere-ment des données explicites à leur sujet) et les utilisateurs implicites (qui utilisent le système régulièrement sans donner d’informations explicites à leur propos et à propos des items qu’ils consultent) afin de déterminer quelles données sont plus pertinentes pour un certain utilisateur.

(33)

(34)

Chapitre 3

Les approches de recommandation

Une fois le modèle utilisateur établi, on peut procéder à la définition du système de re-commandation. Il existe plusieurs approches de rere-commandation. Les plus connues sont les

ap-proches bas´ees sur le contenu [Lan95, PB07] et les approches collaboratives [RIS+94, SKKR00,

SKKR01]. Le choix d’une approche de recommandation d´epend des objectifs fix´es et du type de

donn´ees dont on dispose. Par exemple, si le but de l’application est d’assister l’utilisateur dans

le choix d’items, un syst`eme de recommandation conversationnel sera plus ad´equat.

Dans la suite, nous allons pr´esenter quelques approches existantes, discuter de leurs avan-tages, de leurs limitations et des diff´erentes solutions pour pallier ces limitations [Bur07].

3.1 Les approches bas´

ees sur le contenu

3.1.1 Le principe

Les approches basées sur le contenu, appelées également filtrage par le contenu, sont les premières approches de recommandation à avoir vu le jour. Elles consistent à recommander à l’utilisateur des items similaires, du point de vue de leur contenu, aux items qu’il aura appréciés auparavant. Le filtrage basé sur le contenu nécessite de disposer d’une description des items à recommander et d’une connaissance des préférences de l’utilisateur.

Les approches bas´ees sur le contenu d´erivent du monde de la recherche d’informations.

C’est pourquoi les premiers systèmes à avoir été mis en place étaient le plus souvent appliqués dans des systèmes d’information à contenu textuel. Ceci afin de pouvoir utiliser les techniques existantes dans le domaine de la recherche d’information. Ces recommandations se basent donc sur des mots-clefs décrivant les items. Ces mots-clefs peuvent être pondérés afin d’avoir une représentation plus précise de chaque item. L’une des mesures les plus utilisées pour effectuer cette pondération est le TF–IDF (voir equation 2.4).

(35)

de vecteurs de poids ~d(pm1..pmk) où chaque composante pmi représente le poids du mot-clé mi,

calculé gâce à TF–IDF par exemple. La mesure la plus utilisée pour le calcul de similarités dans cette configuration est la similarité cosinus.

sim( ~d1, ~d2) = cos( ~d1, ~d2) =

~ d1· ~d2

k ~d1k · k ~d2k

(3.1)

Un grand nombre de méthodes a été exploré dans le domaine du filtrage basé sur le contenu : les modèles bayésiens [CLM99], le clustering [SKKR02], les arbres de décision [GKL11], le

rai-sonnement s´emantique [MASR02, BFAGS+08], etc.

Les approches bas´ees sur la s´emantique

Le raisonnement sémantique fait également partie des méthodes connues de filtrage basé

sur le contenu. Contrairement aux autres m´ethodes, le raisonnement s´emantique requiert que

les items soient décrits dans une ontologie (voir chapitre 2, définition 3) plutôt qu’à l’aide de mots-clés.

Les approches les plus connues dans le domaine de la recommandation s´emantique sont celles

de [MASR02, BFAGS+08]. [MASR02] a mis en place un syst`eme de recommandation nomm´e

Quickstep. Ce dernier permet de recommander aux utilisateurs des articles de recherche. Pour ce faire, l’utilisateur est représenté sous forme d’une ontologie qui contient une taxonomie de sujets. Les intérêts des sujets sont calculés en fonction des sujets des articles déjà consultés par l’utilisateur. Après quoi, la hiérarchie de sujets est utilisée afin de raisonner et d’extraire les sujets proches de ceux intéressant l’utilisateur. De ce fait, les articles correspondant à ces sujets extraits lui sont recommandés.

D’autre part, [BFAGS+08] a propos´e AVATAR, un syst`eme de recommandation de

pro-grammes TV. Dans cette approche, il s’agit de d´ecouvrir ce que les auteurs appellent des

asso-ciations sémantiques qui consistent soit en un chemin (en suivant des relations) d’un programme TV (dont l’appréciation de l’utilisateur est connue) à un autre (candidat à la recommandation),

soit en deux programmes TV (dont l’appr´eciation de l’utilisateur est connue) ayant tous deux

un chemin aboutissant vers un autre programme (candidat `a la recommandation). Apr`es avoir

calcul´e le degr´e de pertinence de ces candidats, AVATAR est en mesure d’effectuer des

recom-mandations int´eressantes pour l’utilisateur.

On trouve également des mesures de similarité sémantique utilisées dans des approches basées sur le contenu (plus précisément, basées sur la sémantique) afin de calculer la similarité

entre deux items [MMN02, JM03]. La similarité sémantique est utilisée dans une approche en

deux étapes proposée par [MMN02]. La première étape consiste à effectuer un précalcul qui rend la matrice de notes moins creuse. Elle utilise un système basé sur le contenu qui, étant donné

un utilisateur ayant not´e un certain nombre d’items, d´ecouvre des items similaires aux items

notés par cet utilisateur grâce à une mesure de similarité sémantique. De cette fa¸con, le profil dudit utilisateur est enrichi en ajoutant de nouveaux items à son historique. La seconde étape consiste à effectuer un filtrage collaboratif en se basant sur l’historique nouvellement obtenu.

(36)

3.1 Les approches bas´ees sur le contenu 25

Cette technique permet donc d’exploiter les items similaires aux items not´es par l’utilisateur, afin d’am´eliorer les recommandations issues du filtrage collaboratif.

L’approche proposée par [JM03] est en plusieurs étapes également. Étant donné un item cible, la similarité entre cet item et un item déjà noté par l’utilisateur cible est calculée en combinant la similarité cosinus des notes de ceux-ci et leur similarité sémantique qui dépend du domaine. De ce fait, une note de l’item cible est prédite et utilisée dans la seconde étape pour remplir la matrice de notes. La dernière étape ressemble à la première, à l’exception du fait que les items cibles sont candidats à la recommandation plutôt que de servir à remplir la matrice de notes.

3.1.2 Les limitations des approches bas´ees sur le contenu

Les syst`emes de recommandation bas´es sur le contenu souffrent de limitations, notamment

le démarrage à froid et la sur-spécialisation [AT05].

On parle de démarrage à froid (cold-start) lorsque le système de recommandation peine à recommander des items à un utilisateur ayant consulté et noté peu d’items (nouvel utilisateur par exemple). Le plus souvent, ce problème est contourné en s’aidant des informations d´ emo-graphiques des utilisateurs. En effet, des utilisateurs appartenant à la même tranche d’âge et ayant rempli un profil plus ou moins similaire peuvent avoir les mêmes intérêts. Par conséquent, il est pertinent d’utiliser cette information. D’autres systèmes préfèrent attendre que les

utili-sateurs aient not´e assez d’items avant de leur proposer des recommandations [GRGP01] (voir

figure 1.3.1). Des syst`emes de recommandation conversationnels reposant sur des approches

ba-sées sur la connaissance ou l’utilité sont également utilisés dans ces cas de figure [Bur00, ZJ09]. Ils consistent à poser des questions à l’utilisateur sur ce qu’il cherche, et adapter les questions

suivantes en fonction des r´eponses fournies et du moteur de connaissances mis en place (voir

section 3.5).

Figure 1.3.1 – Impossibilit´e de recommandation avant d’avoir not´e assez d’items sur

SensCri-tique.com

La sur-sp´ecialisation signifie que la recommandation tend `a toujours s’orienter vers des

items très similaires du point de vue de leurs caractéristiques. Un système de recommandation

(37)

problème, une touche de hasard est souvent introduite dans les algorithmes en utilisant par exemple des algorithmes génétiques [SM93]. Autrement, les objets très différents des habitudes (ou simplement de l’historique) de l’utilisateur ne pourront jamais lui être recommandés.

3.2 Les approches collaboratives

Les approches basées sur le contenu présentant des inconvénients, la recherche a concen-tré ses efforts sur l’élaboration d’une nouvelle approche dite collaborative. Il existe deux types de systèmes de recommandation collaboratif : le filtrage collaboratif basé sur les utilisateurs U2U (User to User) qui exploite les relations entre utilisateurs et le filtrage collaboratif basé sur les items I2I (Item to Item) qui se base sur les relations entre items. Ces deux types d’ap-proches utilisent les notes (implicites ou explicites) des utilisateurs pour les items comme seule connaissance.

3.2.1 Le filtrage collaboratif bas´e sur les utilisateurs (U2U)

Cette approche tend à assimiler un utilisateur à un ensemble d’utilisateurs ayant les mêmes intérêts et à s’inspirer des objets appréciés par ceux-ci afin d’établir les recommandations

[RIS+94, SM95, BHK98, AWWY99, SKKR01]. Le principe est que les utilisateurs ayant partag´e

les mêmes préférences dans le passé sont susceptibles de partager leurs préférences dans le futur. Le coefficient de corrélation de Pearson [SM95] est souvent utilisé afin de calculer la simi-larité entre deux utilisateurs u1 et u2.

pearson(u1, u2) =

P

i∈I

(note(u1, i) − note(u1)) (note(u2, i) − note(u2))

r P i∈I (note(u1, i) − note(u1))2 r P i∈I (note(u2, i) − note(u2))2 (3.2)

o`u note(u, i) est la note de l’utilisateur u pour l’item i note(u) est la note moyenne de l’utilisateur u.

Une fois la similarité entre l’utilisateur cible et les autres utilisateurs calculée, les notes des items non consultés par l’utilisateur cible sont déduites à partir des notes des utilisateurs les plus similaires à cet utilisateur, en effectuant leur moyenne par exemple.

Prenons l’exemple de matrice de notes figurant sur la table 1.3.1. Les quatre premiers utilisateurs ont évalué les items 1 à 5. Donna n’a évalué que les 4 premiers items. L’idée du filtrage collaboratif est de déterminer qui de Rose, Martha, River ou Jack, a les goûts les plus proches de Donna afin de pouvoir estimer la note qu’elle attribuerait à l’item 5.

Le calcul du coefficient de Pearson entre Donna et les autres utilisateurs aboutit aux r´ esul-tats suivants :

(38)

3.2 Les approches collaboratives 27

Item1 Item2 Item3 Item4 Item5

Rose 1 5 4 3 1

Martha 2 4 2 5 2

River 4 4 1 2 4

Jack 3 5 5 1 3

Donna 5 4 2 2 ?

Table 1.3.1 – Exemple de matrice de notes

pearson(Donna, Rose) = −0.40

pearson(Donna, M artha) = −0.33

pearson(Donna, River) = 0.91

pearson(Donna, J ack) = 0.17

On peut voir que les notes de River sont les plus corr´el´ees avec celles de Donna. De ce

fait, étant donné que River a apprécié l’Item5, il est probable qu’il soit apprécié par Donna

´

egalement. Par conséquent, l’Item5 peut être recommandé à Donna.

3.2.2 Le filtrage collaboratif bas´e sur les items (I2I)

Lorsque le nombre d’utilisateurs d´epasse le nombre d’items de fa¸con importante, des

pro-blèmes de passage à l’échelle se posent. C’est pourquoi, le filtrage collaboratif basé sur les items a ´

eté proposé [SKKR01, CBB08, JM03, LSY03, DDGR07]. Le principe est d’exploiter la similarité entre les items (et non plus entre les utilisateurs) afin de générer des recommandations.

Contrairement au filtrage collaboratif U2U où les similarités sont calculées entre utilisateurs, dans ce cas de figure les similarités sont calculées entre items. À l’inverse du filtrage basé sur le contenu, les similarités entre items sont calculées grâce au contenu collaboratif, c’est-à-dire aux notes de ces items, plutôt qu’à leur description.

Les similarités entre items peuvent être calculée grâce à une mesure de similarité cosinus adaptée :

sim(i1, i2) =

P

u∈U

(note(u, i1) − note(u)) (note(u, i2) − note(u))

r P u∈U (note(u, i1) − note(u))2 r P u∈U (note(u, i2) − note(u))2 (3.3)

o`u note(u, i) est la note de l’utilisateur u pour l’item i note(u) est la note moyenne de l’utilisateur u.

Reprenons l’exemple de matrice de notes figurant sur la table 1.3.1. Afin de d´eterminer la

(39)

items :

sim(i5, i1) = 1

sim(i5, i2) = −0.64

sim(i5, i3) = −0.54

sim(i5, i4) = −0.31

Il est clair que les notes des items i1 et i5 sont tr`es similaires (identiques dans cet exemple),

la note de Donna pour l’item i1 sera donc utilis´ee pour d´eterminer sa note pour l’item i5. L’item

lui sera donc recommand´e.

3.2.3 Les limitations du filtrage collaboratif

Le filtrage collaboratif a également des limitations [SKKR00]. Les utilisateurs étant g´ e-néralement réticents à l’idée de noter les items, la matrice de notes, associant les notes des utilisateurs aux items, est très éparse. Le phénomène est appelé la matrice creuse. On peut donc se retrouver dans une situation où un item est très peu évalué. Ou encore, qu’il ne soit ´

evalué que par des personnes aux centres d’intérêt différents. En conséquence, il sera difficile de recommander un tel item, car il ne fera pas partie des éléments appréciés par un certain groupe d’utilisateurs.

De plus, le filtrage collaboratif souffre du d´emarrage `a froid du point de vue utilisateur,

mais ´egalement du point de vue item. Lorsqu’un nouvel item est introduit dans la base, aucune

information n’existe quant à l’appréciation des utilisateurs à son égard. Par conséquent, un tel article ne pourra être recommandé. Pour pallier ce problème, les méthodes hybrides, que nous ´

evoquerons plus tard, ont été proposées.

3.3 Les approches d´

emographiques

Dans une approche démographique [Paz99], le système de recommandation demande à

l’uti-lisateur de renseigner un certain nombre de paramètres (âge, sexe, ville, emploi, intérêts, etc.). Ces paramètres permettent de définir des classes démographiques dans lesquelles les utilisateurs sont catégorisés. Par la suite, les recommandations de chaque utilisateur proviennent de la classe qui lui a été attribuée.

3.4 Les approches sociales

Les réseaux sociaux fournissent à la tâche de recommandation un nouveau paramètre qui est le cercle social de l’utilisateur. De ce fait, un système de recommandation social peut proposer `

a l’utilisateur des items qui sont populaires dans son cercle social.

L’approche peut donc être considérée comme un filtrage collaboratif U2U où le calcul du voisinage de l’utilisateur est remplacé par l’utilisation du cercle social de l’utilisateur, réduisant

(40)

3.5 Les approches basées sur la connaissance et les approches basées sur l’utilité 29

ainsi le problème de passage à l’échelle évoqué précédemment. Le but étant de calculer le degré de confiance de l’utilisateur envers ses pairs, afin d’identifier ceux qui sont plus proches du profil l’utilisateur [ZL05]. Les items les plus populaires au sein du groupe identifié sont ensuite recommandés à l’utilisateur cible.

3.5 Les approches bas´

ees sur la connaissance et les approches

bas´

ees sur l’utilit´

e

Les approches basées sur la connaissance s’appuient sur un ensemble de règles définissant le

domaine [Bur99, Bur00, CM00, FB08, ZJ09]. Le mode op´eratoire dans ce genre de syst`eme est

conversationnel et l’utilisateur est amené à définir à chaque fois un certain nombre de critères pouvant mieux répondre à ses attentes. Il ne s’agit donc pas de construire un profil utilisateur `

a long-terme mais de demander systématiquement à l’utilisateur de déterminer ses besoins

explicitement. Le système cherche donc les items remplissant au mieux les conditions définies par l’utilisateur pour les lui présenter. Ceci peut être effectué grâce à un ensemble de règles définies par l’expert qui filtrent les items selon les critères définis par l’utilisateur.

Les approches basées sur l’utilité peuvent être considérées comme un cas particulier des ap-proches basées sur la connaissance. En effet, les approches basées sur l’utilité se basent également sur un ensemble de règles et, en plus de définir ses critères, l’utilisateur est amené à définir sa propre fonction d’utilité selon certaines propriétés du domaine. Cette fonction est donc utilisée afin de générer des recommandations, tandis que dans une approche basée sur la connaissance, seules les règles définies par l’expert sont utilisée pour la recommandation [Bur02, ZJ09].

3.6 Les approches hybrides

Les approches hybrides sont des approches qui combinent deux ou plusieurs approches de

recommandation. Ces combinaisons permettent de b´en´eficier des avantages des approches

uti-lisées, de pallier leurs inconvénients et de proposer des recommandation plus pertinentes. Par exemple, le démarrage à froid au niveau des items des approches collaboratives, peut bénéficier

des avantages des approches bas´ees sur le contenu. En effet, dans une approche bas´ee sur le

contenu, seule la description de l’item est utilisée dans la recommandation, il n’y a donc pas be-soin que l’item soit noté par un certain nombre d’utilisateurs avant de pouvoir être recommandé, comme c’est le cas dans les approches collaboratives.

[Bur07] a recensé les différentes manières d’hybrider des approches de recommandation,

(41)

Figure 1.3.2 – Hybridation pond´er´ee

3.6.1 Hybridation pond´er´ee

L’hybridation pondérée [MJZ03] consiste à calculer le score d’un item candidat à la

recom-mandation (un item potentiellement pertinent pour l’utilisateur et donc recommandable) grˆace

`

a une fonction définie effectuant la somme pondérée du score de l’item dans chaque approche de recommandation présente dans le système. Une fois les scores de tous les items candidats à la recommandation calculés, ceux-ci sont classés par ordre décroissant avant d’être présentés à l’utilisateur (voir figure 1.3.2). Ce type d’hybridation nécessite que les systèmes de recomman-dations utilisés effectuent une tâche de prédiction de note (voir définition 1).

3.6.2 Hybridation `a bascule

Dans ce type d’hybridation, le système sélectionne une approche de recommandation plutôt qu’une autre en fonction d’un certain critère. Par exemple, si la confiance du système pour les résultats obtenus est insuffisante, une autre approche sera sélectionnée [BP00]. Cette hybridation est décrite dans la figure 1.3.3.

3.6.3 Hybridation mix´ee

L’hybridation mixée [SC00] consiste à présenter à l’utilisateur des recommandations issues