Des textes communautaires à la recommandation

(1)

HAL Id: tel-00597422

https://tel.archives-ouvertes.fr/tel-00597422v2

Submitted on 8 Nov 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Des textes communautaires à la recommandation

Damien Poirier

To cite this version:

Damien Poirier. Des textes communautaires à la recommandation. Autre [cs.OH]. Université

d’Orléans, 2011. Français. �NNT : 2011ORLE2005�. �tel-00597422v2�

(2)

UNIVERSITÉ D’ORLÉANS

ÉCOLE DOCTORALE SCIENCES ET TECHNOLOGIE

LABORATOIRE D'INFORMATIQUE FONDAMENTALE D'ORLEANS

THÈSE présentée par :

Damien POIRIER

soutenue le : 11 février 2011

pour obtenir le grade de : Docteur de l’université d’Orléans Discipline/ Spécialité : Informatique

Des textes communautaires à la recommandation

THÈSE dirigée par :

Isabelle TELLIER Professeur, Université d'Orléans

Patrick GALLINARI Professeur, Université Pierre et Marie Curie RAPPORTEURS :

Mohand BOUGHANEM Professeur, Université Paul Sabatier

Patrice BELLOT Maître de conférence, Université d'Avignon

____________________________________________________________________

JURY :

Brigitte GRAU Professeur, ENSIIE, Présidente du jury Françoise FESSANT Ingénieur R&D, Orange Labs

Isabelle TELLIER Professeur, Université d'Orléans

Patrick GALLINARI Professeur, Université Pierre et Marie Curie Patrice BELLOT Maître de conférence, Université d'Avignon Mohand BOUGHANEM Professeur, Université Paul Sabatier

Cécile BOTHOREL Ingénieur R&D, Telecom Bretagne

(3)

(4)

Remerciements

Je tiens tout d’abord à remercier tous les membres de mon jury. Je remercie Mohand Boughanem et Patrice Bellot pour m’avoir fait l’honneur d’être rapporteurs de cette thèse.

Un gand merci également à Brigitte Grau pour avoir accepté de présider ce jury ainsi qu’à Nathalie Denos pour avoir été une des examinatrices. ` A vous quatre, merci également pour l’intérêt que vous avez porté à mes travaux et pour les retours souvent positifs (et agréables à entendre) concernant ce manuscrit.

Je remercie plus particulièrement les autres membres du jury qui ont tous participé ` a l’encadrement de cette thèse. Merci donc à Cécile Bothorel qui m’a proposé un sujet (qui a légèrement bifurqué en cours de route comme on peut s’en douter) et qui m’a permis de me lancer dans l’aventure ! Cécile n’ayant pas pu encadrer cette thèse jusqu’au bout pour cause de départ de chez Orange, je remercie également Fran¸coise Fessant pour la prise de relais ainsi que pour sa forte implication dans cet encadrement, notamment lorsque les conseils et encouragements ont été nécessaires dans la dernière ligne droite. Je tiens

également ` a remercier fortement Isabelle Tellier et Patrick Gallinari pour avoir accepté de diriger cette thèse et pour leur disponibilité et leurs conseils avisés.

Je tiens également ` a remercier tous les gens que j’ai pu croiser durant ces trois années, que ce soit ` a Orange Labs, au LIFO ou au LIP6. Je remercie tout particulièrement Bruno Guerraz, Romain Trinquart et Marc Boullé qui m’ont suivi du début ` a la fin et qui m’ont appris énormément. Merci également aux doctorants et post-doctorants d’Orange Labs Lannion que j’ai pu croiser et avec qui j’ai pu échanger lors des pauses café, ` a la Sodexo ou dans les différentes soirées lannionnaises.

Je tiens également ` a remercier de tout cœur tous mes amis, sans qui je n’aurais jamais réussi, en commen¸cant par les Gerboisiens Buendon, Bobo, Boyan, Jérem (Docteur :D), Carole, Hélène, Hélène, July, Titi, Vianney, ´ Emilie et Kiki, la team de l’impasse Berthelot Romain, Aurélie, Ben, Tom, Guigui, Vivi et Dom, ainsi que tous les autres Ana¨ıs, ´ Elé, Artem, David, Dédé, Chrousse, Aurel, Philippe, Stephan, Camille, Meriem, Lizzy, Tacha, Nico, Alex, Arianna, etc.

Pour finir, je remercie bien entendu toute ma famille, mes fr`eres et sœur, et plus

sp´ecialement mes parents qui m’ont toujours fait confiance et soutenu au maximum. Ce

diplˆ ome, c’est ` a vous que je le dois.

(5)

(6)

Table des mati` eres

1 Introduction 1

1.1 Contexte : les enjeux du Web 2.0 . . . . 2

1.1.1 L’utilisateur au centre des communications . . . . 2

1.1.2 Un Internet par utilisateur . . . . 3

1.2 Probl´ ematique d´ efendue et contributions . . . . 4

1.3 Organisation du document . . . . 6

2 Les syst` emes de recommandation 11 2.1 Typologie de la recommandation . . . 13

2.1.1 La recommandation ´ editoriale . . . 13

2.1.2 La recommandation sociale . . . 14

2.1.3 La recommandation contextuelle . . . 15

2.1.4 La recommandation personnalis´ ee . . . 15

2.2 Etat de l’art sur la recommandation personnalis´ ´ ee . . . 17

2.2.1 Le ﬁltrage collaboratif . . . 19

2.2.2 Le ﬁltrage th´ ematique . . . 23

2.2.3 Les probl` emes r´ ecurrents . . . 26

2.2.4 Les diﬀ´ erentes ´ evaluations utilis´ ees dans le domaine . . . 27

2.3 Conclusion . . . 30

3 Pr´ esentation du moteur 33 3.1 Fonctionnement . . . 35

3.1.1 Principe . . . 35

3.1.2 Premi` ere ´ etape : construction des matrices de similarit´ es . . . 35

3.1.3 Deuxi` eme ´ etape : pr´ ediction des notes . . . 37

3.1.4 Evalutation . . . 38 ´

3.2 Etalonnage avec des donn´ ´ ees connues . . . 38

3.2.1 Evaluation du mode collaboratif ´ . . . 38

3.2.2 Evaluation du mode th´ ´ ematique . . . 40

3.3 Conclusion . . . 41

(7)

4 Donn´ ees exp´ erimentales 43

4.1 Sp´ eciﬁcit´ es des textes communautaires . . . 45

4.1.1 Les didascalies ´ electroniques . . . 46

4.1.2 Les erreurs . . . 46

4.1.3 La n´ eographie . . . 46

4.1.4 Cons´ equences . . . 48

4.2 Corpus de textes (Flixster ) . . . 48

4.2.1 Pr´ esentation . . . 48

4.2.2 Processus de crawl . . . 49

4.2.3 Description statistique . . . 50

4.2.4 Extraits et particularit´ es . . . 52

4.3 Analyse exploratoire du corpus . . . 55

4.3.1 Technique utilis´ ee . . . 56

4.3.2 Analyse des r´ esultats . . . 57

4.4 Conclusion . . . 59

5 Exp´ erimentations : Approche th´ ematique classique 61 5.1 Choix eﬀectu´ es . . . 63

5.1.1 S´ election des variables et repr´ esentation . . . 63

5.1.2 M´ etriques . . . 65

5.2 R´ esultats des exp´ erimentations . . . 67

5.3 Conclusion . . . 69

6 Etat de l’art sur la fouille d’opinion ´ 71 6.1 Classiﬁcation de textes et polarit´ e . . . 73

6.1.1 Objectifs de la classiﬁcation d’opinion . . . 74

6.1.2 Raisons d’ˆ etre et exemples d’applications . . . 74

6.1.3 Complexit´ e et caract´ eristiques de la tˆ ache . . . 75

6.2 Les approches bas´ ees sur les lexiques . . . 76

6.2.1 Construction des lexiques d’opinion . . . 76

6.2.2 Classiﬁcation des textes grˆ ace aux lexiques . . . 79

6.3 Les approches bas´ ees sur l’apprentissage automatique . . . 79

6.3.1 Le corpus d’apprentissage . . . 80

6.3.2 Les classes de pr´ ediction . . . 80

6.3.3 La repr´ esentation . . . 80

6.3.4 Le classiﬁeur . . . 82

6.4 Les approches hybrides . . . 84

6.4.1 La linguistique au service de l’apprentissage automatique . . . 84

6.4.2 L’apprentissage automatique au service de la linguistique . . . 84

6.4.3 Une fusion a posteriori des r´ esultats des deux approches . . . 85

6.5 Les diﬀ´ erentes ´ evaluations utilis´ ees dans le domaine . . . 85

6.5.1 Le taux d’erreurs . . . 85

6.5.2 F _score . . . 86

6.6 Conclusion . . . 87

(8)

7 Exp´ erimentations : Classiﬁcation d’opinion et approche collaborative 89

7.1 Construction du corpus de test et choix des classes de pr´ ediction . . . 91

7.2 Approches bas´ ees sur les lexiques d’opinion . . . 92

7.2.1 Pr´ e-traitements appliqu´ es aux textes . . . 92

7.2.2 M´ ethode de classiﬁcation . . . 94

7.2.3 R´ esultats . . . 96

7.2.4 Discussion . . . 104

7.3 Approches bas´ ees sur l’apprentissage supervis´ e . . . 106

7.3.1 Solutions choisies . . . 106

7.3.2 Protocole et r´ esultats . . . 109

7.3.3 Discussion . . . 113

7.4 Evaluation de la classiﬁcation par la recommandation ´ . . . 114

7.4.1 R´ esultats . . . 114

7.4.2 Discussion . . . 116

7.5 Conclusion . . . 117

8 Conclusion g´ en´ erale et perspectives 119 8.1 Bilan . . . 120

8.2 Perspectives . . . 122

Annexes 125 C Captures d’´ ecran du site Flixster . . . 126

D Leaderboard du challenge Netﬂix . . . 128

E Lexique d’opinion Maison . . . 129

F Liste des variables informatives . . . 130

Liste des ﬁgures 137

R´ esum´ e / Abstract 152

(9)

(10)

Chapitre 1

Introduction

Sommaire

1.1 Contexte : les enjeux du Web 2.0 . . . . 2

1.1.1 L’utilisateur au centre des communications . . . . 2

1.1.2 Un Internet par utilisateur . . . . 3

1.2 Probl´ ematique d´ efendue et contributions . . . . 4

1.3 Organisation du document . . . . 6

(11)

CHAPITRE 1. INTRODUCTION

1.1 Contexte : les enjeux du Web 2.0

Durant les ann´ ees 2000, l’Internet a subi une ´ enorme transformation. Apr` es l’explosion de la bulle Internet en 2000, et la prise de conscience du potentiel de cette technologie, les services se sont d´ evelopp´ es, devenant de plus en plus nombreux, mais surtout de plus en plus interactifs. L’Internaute d’aujourd’hui n’est plus simplement spectateur, il peut s’il le souhaite devenir acteur. Et tout est mis en œuvre pour que le simple spectateur devienne acteur du Web aﬁn, entre autres choses, de le ﬁd´ eliser. Cette r´ evolution a donn´ e naissance

`

a ce que l’on nomme aujourd’hui le Web 2.0 [O’R05] appel´ e encore Web Social ou Web Participatif.

Bien que la d´ eﬁnition du Web 2.0 ne soit pas encore parfaitement ´ etablie, deux grands aspects caract´ erisant ce Web nouvelle g´ en´ eration peuvent ˆ etre mis en avant : le rˆ ole central de l’utilisateur et la personnalisation.

1.1.1 L’utilisateur au centre des communications

En premier lieu, une caract´ eristique principale du Web 2.0 qui le distingue grandement du Web 1.0 est la prise de contrˆ ole de l’information par les utilisateurs. N’importe quel internaute peut aujourd’hui apporter sa pierre ` a l’´ edifice. Il peut se faire une place sur la toile, collaborer, partager des informations, des outils, des fichiers multim´ edias, donner ses opinions, commenter, r´ eagir, etc. et tout ceci sans connaissances sp´ ecifiques. En effet, quand auparavant il fallait un minimum de savoir faire en informatique et en programma- tion pour cr´ eer son espace sur le Net, aujourd’hui il suffit de savoir cliquer car de plus en plus d’outils sont mis ` a disposition de tout un chacun afin de faciliter toutes ces interac- tions. Parmi ces outils, nous pouvons bien entendu citer les r´ eseaux sociaux, les blogs, les wikis, les boˆıtes ` a r´ eactions, les sites de partage de vid´ eos, de photos, de musiques, etc.

La grande majorit´ e des sites pr´ esents sur le Net aujourd’hui oﬀrent la possibilit´ e ` a tous leurs visiteurs de laisser, au minimum, une trace textuelle et ainsi s’exprimer publiquement.

Tout ce contenu, qu’il soit textuel ou autre, est appel´ e Contenu G´ en´ er´ e par les Utilisateurs ou UGC (pour User Generated Content). Il repr´ esente une quantit´ e de donn´ ees de plus en plus importante sur la toile et est compos´ e, en tr` es grande partie, de donn´ ees textuelles.

Une anecdote qui peut d´ emontrer l’importance de la prise de contrˆ ole du Web par les utilisateurs est que les internautes ont ´ et´ e nomm´ es personnalit´ e de l’ann´ ee en 2006 par le Time Magazine ¹ [Gro06]. Ce nouvel espace d’expression repr´ esente une grosse quantit´ e d’informations, notamment en termes d’avis et d’opinions, susceptibles d’ˆ etre exploit´ ees ` a des fins diverses. Les donn´ ees textuelles, notamment, peuvent ˆ etre analys´ ees dans diff´ erents buts. Par exemple, dans le domaine de la fouille d’opinion (Opinion Mining), les textes sont utilis´ es afin de permettre ` a des entreprises de connaˆıtre automatiquement l’image que les consommateurs ont d’eux (comme le propose Nielson BuzzMetrics ² ), de mˆ eme pour les projets et les personnalit´ es politiques, ou encore pour faire de la comparaison d’articles

1. Magazine d’information hebdomadaire am´ ericain

2. en-us.nielsen.com/tab/product families/nielsen buzzmetrics

2

(12)

1.1. CONTEXTE : LES ENJEUX DU WEB 2.0

de vente (comme sur le site Vozavi ³ ), r´ ealiser des sondages, d´ etecter des rumeurs, etc.

En eﬀet, les textes r´ edig´ es par les internautes sont en g´ en´ eral beaucoup plus subjectifs que les articles r´ edig´ es par des professionnels et donc beaucoup plus porteurs d’opinion.

De plus, ils contiennent un ´ eventail d’avis et de jugements souvent plus repr´ esentatifs du

consommateur lambda , ´ etant r´ edig´ es par un panel d’individus vari´ e parmi lesquels on retrouve tout autant de profanes que de connaisseurs du sujet abord´ e. Pour ce qui est du cas des ﬁlms par exemple, il est possible de trouver des avis de spectateurs de tous ˆ ages et de tous horizons, ce que n’oﬀrent pas les critiques journalistiques qui sont g´ en´ eralement r´ edig´ es par des personnes du mˆ eme milieu , soit dans le cas pr´ esent des journalistes cin´ ephiles appartenant ` a la population active et ayant fait un certain nombre d’ann´ ees d’´ etudes.

1.1.2 Un Internet par utilisateur

Cet effet d’appropriation du Web par les internautes a ´ evidemment des cons´ equences, notamment en terme de quantit´ es de donn´ ees disponibles en ligne. En offrant la possibilit´ e de participer au d´ eveloppement du Web, et surtout en encourageant tout un chacun ` a le faire, la quantit´ e de donn´ ees pr´ esentes sur la toile s’en est trouv´ ee multipli´ ee et continue de l’ˆ etre jour apr` es jour. L’un des grands d´ efis d’aujourd’hui concernant les technologies du Web est donc de proposer des solutions permettant de parcourir cette masse toujours gran- dissante de donn´ ees et de contenus afin de trouver ce que l’on cherche le plus ais´ ement et rapidement possible. Les domaines de recherche d´ edi´ es ` a ces probl´ ematiques sont la Recherche d’Information et le Filtrage d’Information. L’une des voies existantes, qui est apparue bien avant l’arriv´ ee du Web 2.0, est le moteur de recherche tel que Google ⁴ qui en est l’exemple le plus c´ el` ebre. Une autre voie, qui elle s’est consid´ erablement d´ evelopp´ ee avec l’arriv´ ee du Web 2.0, est la personnalisation. Par personnalisation, on entend ici l’adaptation des pages Web pour un utilisateur en particulier. Le but de la personnalisa- tion est de moduler le Web afin d’aider les internautes ` a acc´ eder, le plus simplement et rapidement possible, aux ressources qu’ils d´ esirent. Cette adaptation peut ˆ etre faite ma- nuellement par l’utilisateur, comme sur le site Netvibes ⁵ par exemple. Ce site est un portail Web individuel et personnalisable permettant d’agr´ eger une partie du contenu en prove- nance d’autres sites Web (flux RSS). Chaque utilisateur peut ainsi organiser sa page, en d´ epla¸cant, ajoutant, supprimant ces contenus et ainsi se simplifier l’acc` es vers les donn´ ees qui l’int´ eressent le plus. La personnalisation peut ´ egalement ˆ etre automatis´ ee. Les cookies (t´ emoins) par exemple peuvent ˆ etre utilis´ es en tant qu’outils pour la personnalisation afin de guider l’utilisateur suivant ses actions ant´ erieures. Les syst` emes de recommandation sont ´ egalement une des solutions ` a cette personnalisation automatis´ ee. Ils sont devenus,

`

a l’instar des moteurs de recherche, un outil incontournable pour tout site Web focalis´ e sur un certain type d’articles disponibles dans un catalogue riche, que ces articles soient des objets, des produits culturels (livres, ﬁlms, morceaux de musique, etc.), des ´ el´ ements d’information (news) ou encore simplement des pages (liens hypertextes). L’objectif de

3. www.vozavi.com/

4. www.google.com

5. www.netvibes.com

(13)

CHAPITRE 1. INTRODUCTION ces syst` emes est de s´ electionner, dans un catalogue, les articles (ou items) les plus suscep- tibles d’int´ eresser un utilisateur particulier. Tandis que les moteurs de recherche ont un rˆ ole g´ en´ erique et r´ epondent ` a des requˆ etes, les moteurs de recommandation ont un rˆ ole plus sp´ ecifique et personnalisent leurs r´ eponses en fonction de l’utilisateur. Nageswara et Talwar [NRT08] ont r´ epertori´ e un vaste ensemble de syst` emes de recommandation pour diff´ erents domaines applicatifs, dans des contextes acad´ emiques et industriels. Diff´ erentes approches peuvent ˆ etre mises en œuvre afin de faire de la recommandation personnalis´ ee, mais toutes ont la particularit´ e de requ´ erir un minimum de donn´ ees de d´ epart sur les- quelles les algorithmes vont pouvoir s’appuyer.

Les enjeux de la personnalisation peuvent ´ egalement s’´ etendre au del` a du Web. On peut par exemple citer les services de VOD (Vid´ eo ` a la Demande) qui se d´ eveloppent via la t´ el´ evision num´ erique et qui proposent une grande quantit´ e de ﬁlms, s´ eries, documentaires, etc., les applications pour smartphones qui sont de plus en plus nombreuses, les documents disponibles pour les livres num´ eriques, etc.

1.2 Probl´ ematique d´ efendue et contributions

Nous avons donc d’un cˆ ot´ e des textes riches d’informations en termes d’avis et d’opi- nions non encore exploit´ ees et d’un autre cˆ ot´ e, nous avons des outils n´ ecessaires ` a l’orga- nisation du Web et dont l’efficacit´ e d´ epend d’une grande quantit´ e d’informations. C’est dans ce contexte que se placent les travaux de cette th` ese. La probl´ ematique r´ eside dans l’exploitation des textes subjectifs produits par les internautes sur les sites communau- taires dans le but de proposer de nouvelles perspectives ` a la recommandation personna- lis´ ee. L’id´ ee dominante est de mettre ` a profit les textes en question afin de limiter les probl` emes li´ es au manque d’informations. La grande majorit´ e des syst` emes de recomman- dation existants fonctionne uniquement sur des donn´ ees internes au syst` eme. Le site Amazon ⁶ par exemple, qui est un site de vente par correspondance, construit ses recom- mandations uniquement ` a l’aide des informations apprises sur ses propres clients. Si l’on souhaite, dans le cas d’un service d´ ebutant qui poss` ede tr` es peu de clients et qui a des connaissances r´ eduites sur ceux-ci, mettre ` a profit les mˆ emes outils que sur Amazon, il est alors n´ ecessaire d’acqu´ erir des informations compl´ ementaires sur le contenu du catalogue.

L’Internet ´ etant devenu plus que jamais une source de connaissances, l’exploitation de la richesse de l’Internet ouvert au service d’un site web ferm´ e apparaˆıt naturellement comme une voie de recherche nouvelle et incontournable.

L’objectif principal de cette th` ese est d’exploiter les donn´ ees textuelles produites par les utilisateurs sur le Web pour alimenter un syst` eme de recommandation d´ ebutant et en manque d’informations. L’exploitation des textes provenant du contenu g´ en´ er´ e par les utilisateurs a d´ ej` a ´ et´ e ´ etudi´ ee dans la litt´ erature. Shani et al. [SCM08] ont ´ etabli des re- commandations bas´ ees sur les listes de ﬁlms favoris r´ edig´ ees par les internautes sur leur

6. www.amazon.com

4

(14)

1.2. PROBL ´ EMATIQUE D´ EFENDUE ET CONTRIBUTIONS

blog Myspace ⁷ . En appliquant des m´ ethodes de clustering bas´ ees sur les co-occurences des films dans les listes, ils sont alors capables d’´ etablir des recommandations. La grande majorit´ e des autres travaux r´ epertori´ es sur le sujet exploitent un moteur de recomman- dation th´ ematique, dans lequel les articles ` a recommander sont d´ ecrits par un ensemble d’attributs. Prendre comme attributs les mots de textes qui parlent de ces articles est alors effectivement une solution possible. Mais les moteurs de recommandation les plus efficaces proc` edent plutˆ ot par filtrage collaboratif, une m´ ethode qui se fonde non pas sur des attributs mais sur des notes attribu´ ees par des utilisateurs ` a des articles.

La fouille d’opinion est un sous-domaine de la fouille de textes qui consiste ` a analyser des textes afin d’en extraire des informations li´ ees aux opinions et sentiments. L’une des tˆ aches de la fouille d’opinion, appel´ ee classification d’opinion, a pour objectif de classer les textes suivant l’opinion qu’ils expriment. Cette classification peut se faire sur deux classes (positif ou n´ egatif), sur trois classes (positif, n´ egatif ou neutre) ou sur plus de classes encore. Ces classes sont ordonn´ ees et peuvent donc ˆ etre assimil´ ees ` a des notes, donn´ ees n´ ecessaires ` a la recommandation par filtrage collaboratif. Enchaˆıner un syst` eme d’affectation de notes par fouille d’opinion et un syst` eme de recommandation par filtrage collaboratif sur des donn´ ees textuelles r´ eelles est une des principales contributions de cette th` ese. En effet, l’id´ ee de faire de la recommandation en combinant la classification d’opinion et une m´ ethode de filtrage collaboratif a d´ ej` a ´ et´ e propos´ ee dans la litt´ erature [CSC06, DWW07] mais, ` a notre connaissance, cela est rest´ e ` a l’´ etat d’intuition.

Dans cette th` ese, une chaˆıne compl` ete de traitements est mise en œuvre en allant de l’acquisition des textes sur un site communautaire, ` a leur mise en forme pour les deux grands types de moteurs de recommandation (filtrage th´ ematique et collaboratif) et jus- qu’` a l’´ evaluation de ces donn´ ees dans un syst` eme de recommandation. Chacun des ´ el´ ements strat´ egiques de la chaˆıne est choisi parmi les techniques existantes et argument´ e afin de le positionner et de l’´ evaluer dans le contexte applicatif de la recommandation. Le domaine d’´ etude est celui du cin´ ema et des films en g´ en´ eral, ces travaux entrant dans le cadre d’un service de recommandation prochainement disponible sur la plateforme de VOD de l’entreprise Orange.

Une autre contribution de cette th` ese porte sur la nature des donn´ ees textuelles

´

etudi´ ees. Les textes r´ ecup´ er´ es sont en eﬀet tr` es sp´ eciﬁques. Ils sont en g´ en´ eral tr` es courts (une dizaine de mots) et le style dans lequel ils sont r´ edig´ es se rapproche de celui utilis´ e dans les SMS (Short Message Service) ou dans les syst` emes de messagerie instantan´ ee. Ils sont porteurs de caract´ eristiques s´ emantiques et syntaxiques tr` es particuli` eres comme des abr´ eviations de mots, des fautes d’orthographes volontaires et involontaires, des onoma- top´ ees, des ´ etirements de mots (multiplications volontaires de certaines lettres ` a l’int´ erieur d’un mot), des smileys, etc. Les linguistes commencent fortement ` a s’int´ eresser ` a cette forme d’´ ecriture qu’ils consid` erent comme un dialecte ` a part enti` ere, avec ses propres r` egles, et qui poss` ede sa propre communaut´ e linguistique qui fait vivre et ´ evoluer cette

7. www.myspace.com

(15)

CHAPITRE 1. INTRODUCTION

´

ecriture au fil du temps. Ce type de textes est toutefois tr` es peu ´ etudi´ e dans le domaine de la fouille d’opinion. Dans cette th` ese, diff´ erentes approches, traitements et outils couram- ment utilis´ es dans la litt´ erature sont test´ es et ´ evalu´ es sur ces donn´ ees particuli` eres. Nos exp´ eriences visent ` a identifier quels sont les traitements pertinents pour ce type de textes et quelle m´ ethode de classification est ` a privil´ egier.

1.3 Organisation du document

La figure 1.1 r´ ecapitule l’enchaˆınement des diff´ erentes tˆ aches pr´ esent´ ees dans cette th` ese. Le manuscrit est ordonn´ e suivant ces diff´ erentes tˆ aches. Nous pr´ esentons tout d’abord l’objectif final des travaux, ainsi que de la chaˆıne de traitements, qui est la recom- mandation personnalis´ ee. Apr` es un ´ etat de l’art de la recommandation (Chapitre 2), nous d´ ecrivons le moteur de recommandation utilis´ e (Chapitre 3) puis les donn´ ees textuelles employ´ ees pour les diff´ erentes exp´ erimentations (Chapitre 4). Nous ´ etudions ensuite cha- cun des chemins possibles permettant de rendre les donn´ ees textuelles non structur´ ees interpr´ etables par le moteur de recommandation (Chapitres 5 ` a 7).

La suite de cette th` ese est ainsi d´ ecompos´ ee en six chapitres dont voici le plan d´ etaill´ e : – Le Chapitre 2 fait l’´ etat de l’art du domaine de la recommandation automatique.

– La premi` ere section de ce chapitre pr´ esente les diﬀ´ erentes formes de recom- mandation existantes. Elles peuvent ˆ etre de deux formes. Il existe tout d’abord les recommandations contextuelles qui consistent ` a ´ etablir des recommandations bas´ ees sur la page Web courante visionn´ ee par l’utilisateur. Il existe ensuite la recommandation personnalis´ ee qui consiste ` a ´ etablir des recommandations bas´ ees sur le proﬁl de l’utilisateur.

– La deuxi` eme section pr´ esente plus en d´ etail les m´ ethodes de recommandation personnalis´ ee qui est la recommandation qui nous int´ eresse le plus. Les approches de la recommandation personnalis´ ee sont de deux types appel´ es filtrages . Il existe tout d’abord le filtrage th´ ematique qui consiste ` a trouver les items suscep- tibles d’int´ eresser l’utilisateur par le biais de descripteurs d´ ecrivant les articles du catalogue. Il y a ensuite le filtrage collaboratif qui consiste ` a comparer les goˆ uts et pr´ ef´ erences d’un grand nombre d’utilisateurs afin de retrouver les utilisateurs aux goˆ uts similaires ou les items appr´ eci´ es par les mˆ emes personnes.

– Le Chapitre 3 pr´ esente le moteur de recommandation utilis´ e pour les diﬀ´ erentes exp´ eriences. Ce moteur poss` ede la particularit´ e de pouvoir fonctionner soit en mode th´ ematique soit en mode collaboratif.

– La premi` ere section d´ ecrit le fonctionnement du moteur.

– La deuxi` eme section pr´ esente les r´ esultats de diﬀ´ erents ´ etalonnages du moteur eﬀectu´ es ` a partir d’un corpus de notes en mode collaboratif, et d’un corpus de descripteurs en mode th´ ematique.

6

(16)

1.3. ORGANISATION DU DOCUMENT

– Le Chapitre 4 pr´ esente les donn´ ees textuelles utilis´ ees pour les exp´ erimentations.

Il s’agit de commentaires d’internautes issus du site Flixster, un site communautaire r´ eserv´ e aux amateurs de cin´ ema.

– La premi` ere section d´ ecrit tout d’abord les particularit´ es g´ en´ erales que peuvent poss´ eder les textes issus de sites communautaires.

– La deuxi` eme section pr´ esente le corpus construit dans le cadre de la th` ese. Le processus d’extraction des textes est d´ ecrit et des informations statistiques ainsi que des exemples de commentaires sont ´ enum´ er´ es.

– Dans la troisi` eme section, les r´ esultats d’une analyse approfondie de la nature des commentaires, mettant en œuvre une m´ ethode de co-clustering, sont pr´ esent´ es.

– Le Chapitre 5 pr´ esente les premi` eres exp´ erimentations effectu´ ees sur le corpus de textes. Dans cette partie, les textes sont employ´ es afin d’extraire des descripteurs de films. Ces descripteurs permettent alors de faire de la recommandation personnalis´ ee

`

a l’aide du ﬁltrage th´ ematique.

– La premi` ere section pr´ esente les diﬀ´ erents choix eﬀectu´ es au niveau de la s´ election des variables descriptives ainsi qu’au niveau des m´ etriques employ´ ees pour mesurer les distances entre les documents.

– La deuxi` eme section pr´ esente les r´ esultats en sortie de chaˆıne des ´ evaluations et positionne ces r´ esultats avec ceux obtenus lors de l’´ etalonnage.

– Le Chapitre 6 fait l’´ etat de l’art de la fouille d’opinion et se concentre plus sp´ ecifiquement sur la classification d’opinion. Trois approches dominantes existent pour la classification. Les approches bas´ ees sur les lexiques, les approches bas´ ees sur l’apprentissage automatique et les approches hybrides.

– La premi` ere section aborde les objectifs, raison d’ˆ etre et diﬃcult´ es de la classi- ﬁcation d’opinion.

– La deuxi` eme section fait l’´ etat de l’art des approches bas´ ees sur les lexiques. Ce type d’approche consiste ` a r´ epertorier les mots s´ emantiquement porteurs d’opinion et ` a classer les documents suivant qu’ils contiennent ou non ces mots.

– La troisi` eme section fait l’´ etat de l’art des approches bas´ ees sur l’apprentissage automatique. Ces approches consistent ` a utiliser des m´ ethodes issues du domaine de la classiﬁcation supervis´ ee aﬁn de classer les documents.

– La quatri` eme section fait l’´ etat de l’art des approches hybrides qui consistent

`

a assembler ou enchaˆıner les deux types d’approches pr´ ec´ edents.

– La cinqui` eme section pr´ esente les diﬀ´ erentes mesures d’´ evaluation utilis´ ees dans le domaine. Ces mesures sont communes avec la fouille de textes.

– Le Chapitre 7 pr´ esente toutes les exp´ eriences men´ ees aﬁn d’´ evaluer la chaˆıne de traitements en mode collaboratif, c’est-` a-dire en passant par l’inf´ erence de notes sur les commentaires ` a l’aide de la classiﬁcation d’opinion.

– La premi` ere section pr´ esente les r´ esultats obtenus avec une approche bas´ ee sur

les lexiques. Plusieurs lexiques sont compar´ es ainsi que diﬀ´ erents essais de prise

en compte de la n´ egation qui est une des probl´ ematiques de la fouille d’opinion.

(17)

CHAPITRE 1. INTRODUCTION – La deuxi` eme section d´ ecrit les exp´ eriences men´ ees avec des m´ ethodes issues de l’apprentissage automatique. Les traitements et m´ ethodes couramment employ´ es dans le domaine sont compar´ es sur nos donn´ ees particuli` eres.

– Pour ﬁnir, la troisi` eme section pr´ esente l’´ evaluation des donn´ ees d’usage obte- nues ` a la suite de la classiﬁcation d’opinion et les r´ esultats sont discut´ es.

– Enﬁn, la derni` ere partie (Chapitre 8) propose un bilan des travaux men´ es au cours de cette th` ese et ouvre sur des perspectives de travaux futurs.

8

(18)

1.3. ORGANISATION DU DOCUMENT

(19)

(20)

Chapitre 2

Les syst` emes de recommandation

Sommaire

2.1 Typologie de la recommandation . . . . 13

2.1.1 La recommandation ´ editoriale . . . . 13

2.1.2 La recommandation sociale . . . . 14

2.1.3 La recommandation contextuelle . . . . 15

2.1.4 La recommandation personnalis´ ee . . . . 15

2.2 Etat de l’art sur la recommandation personnalis´ ´ ee . . . . 17

2.2.1 Le ﬁltrage collaboratif . . . . 19

2.2.2 Le ﬁltrage th´ ematique . . . . 23

2.2.3 Les probl` emes r´ ecurrents . . . . 26

2.2.4 Les diﬀ´ erentes ´ evaluations utilis´ ees dans le domaine . . . . 27

2.3 Conclusion . . . . 30

(21)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION Ce chapitre pr´ esente les diﬀ´ erents principes de recommandation et d´ ecrit les techniques existantes les plus r´ epandues dans le domaine. L’objectif principal de la recommandation est de g´ erer la surcharge d’information en la ﬁltrant. Elle permet notamment de guider un utilisateur dans un catalogue de contenus, nomm´ es plus couramment items par la communaut´ e. Ces items peuvent ˆ etre extrˆ emement vari´ es allant des produits de consom- mation tels que les livres, CD ou DVD jusqu’aux pages Web, news, restaurants, vid´ eos, images, etc. Les moteurs de recommandation sont aujourd’hui de plus en plus pr´ esents sur la toile et vont certainement devenir indispensables dans le futur avec l’augmentation permanente des donn´ ees disponibles en ligne (journaux, vid´ eos, jeux, musique, etc.) ainsi qu’avec l’avanc´ ee des technologies permettant d’acc´ eder ` a tous ces contenus de n’importe o` u comme les nouvelles g´ en´ erations de t´ el´ ephone mobiles, la VOD (Vid´ eo ` a la Demande) sur la t´ el´ evision ou sur les baladeurs num´ eriques, les livres ´ electroniques, etc.

En plus de l’aide ` a la navigation, la recommandation a ´ egalement pour objectif de promouvoir un catalogue de contenus. Un utilisateur est plus ` a mˆ eme de parcourir un ca- talogue et d’aller plus loin dans ses recherches si les produits les plus susceptibles de l’int´ eresser sont mis en avant. C’est ´ egalement un moyen d’attirer ou de ﬁd´ eliser les clients ou les utilisateurs. La recommandation personnalis´ ee par exemple, qui est une forme sp´ eciﬁque de recommandation, a pour objectif de d´ ecouvrir des items qui plairont ` a un utilisateur en particulier. Un syst` eme de recommandation personnalis´ ee joue donc, en quelque sorte, le rˆ ole du vendeur de boutique de quartier. Il connaˆıt ses clients, leurs goˆ uts, leurs habitudes, et peut ainsi les conseiller et les guider dans leurs choix. Si le vendeur est agr´ eable et donne de bons conseils, le client est plus susceptible de revenir.

Dans ce chapitre nous pr´ esentons tout d’abord les diff´ erentes formes de recommanda- tion existantes, puis nous nous concentrons sur celle qui nous int´ eresse le plus, ` a savoir la recommandation personnalis´ ee. Nous pr´ esentons notamment les deux m´ ethodes les plus couramment utilis´ ees en recommandation personnalis´ ee, ` a savoir le filtrage collaboratif et le filtrage th´ ematique ou filtrage bas´ e sur le contenu. Pour finir, nous pr´ esentons les m´ etriques d’´ evaluation couramment utilis´ ees dans l’´ etat de l’art.

12

(22)

2.1. TYPOLOGIE DE LA RECOMMANDATION

2.1 Typologie de la recommandation

Il existe diﬀ´ erentes formes de recommandation, suivant les donn´ ees ` a recomman- der, suivant les informations disponibles et bien ´ evidemment suivant l’objectif vis´ e. Nous pr´ esentons ici les formes de recommandation les plus r´ epandues et nous citons quelques exemples connus employant ces technologies.

2.1.1 La recommandation ´ editoriale

La recommandation ´ editoriale est g´ en´ eralement utilis´ ee lorsqu’aucun autre syst` eme de recommandation n’est pr´ esent ou encore lorsque le syst` eme n’a aucune connaissance sur le visiteur du site. Cette forme de recommandation a pour principal objectif d’attirer rapidement l’œil de l’utilisateur novice aﬁn de lui procurer l’envie de parcourir une partie du catalogue, comme le ferait la une d’un journal. Pour cela, on peut mettre en avant les produits les plus populaires, les nouveaut´ es, les articles les mieux not´ es, les promotions, etc.

Figure 2.1 – Exemple de recommandation ´ editoriale pr´ esente sur le site Alapage C’est ce que proposent tous les sites de vente par correspondance tels qu’Alapage ¹

1. http ://www.alapage.com

(23)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION par exemple (voir ﬁgure 2.1), mais ´ egalement tous les sites proposant du contenu en ligne comme les sites d’h´ ebergement de vid´ eos ou de musiques.

2.1.2 La recommandation sociale

Avec cette m´ ethode, les recommandations sont faites par des internautes, pour d’autres internautes. Il peut s’agir de simples utilisateurs, comme sur Youtube ² ou Flixster ³ , ou de consommateurs comme sur Amazon, Priceminister ⁴ ou encore le site de la Fnac ⁵ . Ce type de recommandations peut ˆ etre bas´ e sur le principe du bouche ` a oreille. Sur Flixster par exemple, les utilisateurs ont la possibilit´ e de faire des recommandations ` a l’int´ erieur de leur r´ eseau social en transmettant leurs commentaires et leurs appr´ eciations ` a leurs amis.

Une autre solution utilis´ ee par certains sites est de permettre aux utilisateurs de cr´ eer des listes de coups de cœur . Ces listes accompagnent ensuite les profils des produits, comme sur Amazon, ou accompagnent les profils des utilisateurs, comme sur Youtube. La figure 2.2 pr´ esente ces deux exemples.

Figure 2.2 – Exemple de recommandations sociales propos´ ees par Amazon et Youtube Sur Myspace ⁶ , le principe est l´ eg` erement diﬀ´ erent. Ce sont les artistes, soit les pro- ducteurs de contenu, qui recommandent d’autres artistes. Un artiste conseille d’autres artistes dont il appr´ ecie les œuvres et r´ eciproquement, ce qui oﬀre ` a chacun d’entre eux l’opportunit´ e d’ˆ etre vu par plus de personnes. Les auditeurs qui le d´ esirent peuvent ainsi d´ ecouvrir des nouveaut´ es en se promenant de liens en liens.

2. http ://www.youtube.com 3. http ://www.ﬂixster.com 4. http ://www.priceminister.com 5. http ://www.fnac.com

6. www.myspace.com

14

(24)

2.1. TYPOLOGIE DE LA RECOMMANDATION 2.1.3 La recommandation contextuelle

Le principe de la recommandation contextuelle est de proposer des items proches de l’item consult´ e. Les techniques de rapprochement des items peuvent ˆ etre simples. On peut par exemple s´ electionner des items du mˆ eme univers, du mˆ eme auteur, du mˆ eme r´ ealisateur, du mˆ eme compositeur, de mˆ eme couleur, etc. Elles peuvent ´ egalement ˆ etre plus complexes, comme avec les m´ ethodes bas´ ees sur les usages. Youtube ou Amazon sont des exemples parfaits de cette technique. Lorsqu’un item est consult´ e par un internaute, par exemple un disque de Georges Brassens, le syst` eme recommande une liste d’items qui ont ´ et´ e appr´ eci´ es par les utilisateurs ayant ´ egalement appr´ eci´ e ce disque de Brassens. La ﬁgure 2.3 montre un exemple de recommandation contextuelle bas´ ee sur les usages.

Figure 2.3 – Exemple de recommandations contextuelles sur le site de la Fnac On trouve ´ egalement des m´ ethodes bas´ ees sur le contenu, c’est-` a-dire que les recom- mandations sont ´ etablies en fonction de la description des items. Ces descripteurs, fond´ es sur une analyse humaine ou automatis´ ee, peuvent ˆ etre tr` es vari´ es. Flickr ⁷ ou IMDb ⁸ par exemple utilisent les tags (ou ´ etiquettes en fran¸cais) pour rapprocher les items entre eux.

Pandora ⁹ compare les morceaux musicaux de son catalogue en analysant plus de 400 caract´ eristiques sonores.

2.1.4 La recommandation personnalis´ ee

La recommandation personnalis´ ee a pour objectif de d´ eterminer, pour un utilisateur particulier, les contenus ou services les plus susceptibles de l’int´ eresser. Les recommanda- tions faites par ces syst` emes sont dites personnalis´ ees dans le sens o` u elles sont ´ etablies en fonction de l’utilisateur qui en est b´ en´ eﬁciaire et non pour l’ensemble des utilisateurs comme c’est le cas avec les moteurs de recherche par exemple ou encore avec les autres types de recommandation pr´ esent´ es auparavant. Les enjeux de la recommandation per- sonnalis´ ee sont divers et b´ en´ eﬁcient aussi bien ` a l’utilisateur qu’au fournisseur du service.

7. http ://www.ﬂickr.com

8. http ://www.imdb.com

9. http ://www.pandora.fm

(25)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION Tout d’abord le syst` eme de recommandation peut ˆ etre consid´ er´ e comme un rempla¸cant du commer¸cant en chair et en os qui ´ ecoute les d´ esirs de ses clients, au cas par cas, afin de les guider dans leurs choix d’achats ou de locations. Le client y gagne en temps car il n’a pas besoin de fouiller tout le catalogue et le syst` eme peut ´ egalement lui permettre de d´ ecouvrir de nouvelles choses. Quant au fournisseur, lorsque la recommandation est bien r´ ealis´ ee, cela peut entraˆıner un gain de confiance du client et ainsi favoriser la fid´ elit´ e, ce ` a quoi aspire toute strat´ egie marketing. La recommandation permet ´ egalement au fournisseur de valoriser son catalogue en guidant l’utilisateur vers des contenus autres que les plus popu- laires. La figure 2.4 pr´ esente l’exemple type de recommandations personnalis´ ees que le site Allocin´ e ¹⁰ propose ` a ses utilisateurs : le syst` eme pr´ edit des notes pour des films ou s´ eries que l’utilisateur enregistr´ e n’a pas encore not´ es. Cette liste organis´ ee d’items permet alors

`

a l’utilisateur de faire ses choix sur une partie du catalogue et non sur le catalogue tout entier. Ce syst` eme en l’occurrence est un service oﬀert ` a l’utilisateur ayant pour unique objectif de ﬁd´ eliser l’utilisateur, le site Allocin´ e ne distribuant pas directement les items pr´ esents dans le catalogue.

Figure 2.4 – Exemple de recommandations personnalis´ ees propos´ ees par Allocin´ e Parmi l’ensemble des types de recommandation, la recommandation personnalis´ ee est certainement le domaine le plus actif du moment. Il int´ eresse autant les laboratoires de recherche pour toutes les probl´ ematiques qu’il entraˆıne que le monde industriel pour les possibilit´ es marketing qu’oﬀre ce type de syst` emes.

10. http ://www.allocine.fr

16

(26)

2.2. ´ ETAT DE L’ART SUR LA RECOMMANDATION PERSONNALIS ´ EE

2.2 Etat de l’art sur la recommandation personnalis´ ´ ee

Le premier moteur de recommandation personnalis´ ee, nomm´ e Tapestry, est apparu en 1992 [GNOT92]. Depuis lors, ces syst` emes sont devenus le nerf de la guerre pour beaucoup d’entreprises. Les sites Web marchands ont tous adopt´ e les recommandations, Amazon en tˆ ete, afin d’inciter les clients ` a acheter des produits auxquels ils n’auraient pas pens´ e. Les sites de vid´ eos ou de musique en ligne ont opt´ e pour l’utilisation de ces outils afin de fid´ eliser leur client` ele en leur proposant les contenus les plus adapt´ es ` a leurs goˆ uts sans qu’ils aient besoin de chercher par eux-mˆ emes. Les utilisateurs peuvent ´ egalement trou- ver un int´ erˆ et ` a la recommandation personnalis´ ee. La quantit´ e de contenus disponibles aujourd’hui par le biais d’Internet est tellement consid´ erable qu’il est impossible de tout voir ou tout connaˆıtre. Mettre ` a profit les machines afin de r´ ealiser un premier filtrage sur ces nombreux contenus peut donc ˆ etre tr` es utile, voire n´ ecessaire, afin de permettre aux utilisateurs de faire de nouvelles d´ ecouvertes. Les moteurs de recommandation peuvent

´

egalement guider l’utilisateur dans ses choix. Avant de voir un film au cin´ ema, de lire un livre ou mˆ eme d’acheter un appareil ´ electrom´ enager, beaucoup de personnes ont l’habitude de se renseigner aupr` es de leur entourage afin de r´ ecolter des avis. Les int´ eress´ es analysent ensuite ces critiques afin de se faire une id´ ee de ce qu’ils risquent de penser de l’objet en question. L’opinion pr´ edite par les moteurs de recommandation peut alors servir d’infor- mation compl´ ementaire et aider dans la prise de d´ ecision.

Plus concr` etement, la recommandation personnalis´ ee a pour objectif de ﬁltrer des contenus ou items aﬁn de ne conserver que les plus pertinents pour un utilisateur donn´ e.

Les items peuvent ˆ etre des ﬁlms, musiques, news, pages Web, livres, vid´ eos, images, etc.

L’id´ ee sous-jacente est de pr´ edire l’opinion qu’un utilisateur portera sur les items qu’il ne connaˆıt pas encore aﬁn de ne lui proposer que ceux qu’il sera susceptible d’appr´ ecier, ou tout du moins, qui auront une grande chance de l’int´ eresser. Une d´ eﬁnition plus formelle de la recommandation est donn´ ee par Adomavicius et Tuzhilin [AT05].

D´ eﬁnition 2.2.1. Soit U l’ensemble de tous les utilisateurs, soit I l’ensemble de tous les items qui peuvent ˆ etre recommand´ es, soit R un ensemble ordonn´ e et soit f : U × I → R une fonction qui pr´ edit l’int´ erˆ et que portera l’utilisateur u ∈ U ` a l’item i ∈ I . Alors pour chaque utilisateur u ∈ U , le syst` eme de recommandation s´ electionne l’item i ∈ I qui maximise l’int´ erˆ et de u :

∀ u ∈ U, i _u = argmax i ∈ I f (u, i)

L’int´ erˆ et d’un utilisateur pour un item (la fonction f (u, i)) est g´ en´ eralement repr´ esent´ e par une note indiquant l’appr´ eciation que l’utilisateur porterait sur l’item. Aﬁn de devi- ner cet int´ erˆ et, des connaissances sur l’utilisateur en question sont n´ ecessaires. Les goˆ uts connus des utilisateurs sont g´ en´ eralement caract´ eris´ es par leurs appr´ eciations port´ ees sur les contenus d´ ej` a consult´ es. Ces informations sont regroup´ ees dans une matrice appel´ ee

matrice d’usages

. Le tableau 2.1 pr´ esente un exemple ﬁctif de matrice binaire conte-

nant des informations de type l’utilisateur u a appr´ eci´ e/n’a pas appr´ eci´ e l’item i . Ces

(27)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION informations peuvent ´ egalement ˆ etre a achet´ e/n’a pas achet´ e , a consult´ e/n’a pas consult´ e , etc. Elles peuvent ´ egalement se mesurer sur un nombre plus ´ elev´ e de classes :

a mis 1/2/3/4/5 ´ etoiles , etc. Une fois la matrice d’usages construite, l’objectif du moteur de recommandation est de deviner les connexions utilisateur-item manquantes.

En d’autres termes, on demande ` a l’outil de remplir les cases vides C _ui de la matrice en

´

evaluant si l’item i int´ eressera l’utilisateur u ou non. Pour cela, trois types d’approches sont principalement utilis´ es [NRT08] : le filtrage bas´ e sur le contenu, le filtrage collaboratif et le filtrage hybride.

Item 1 Item 2 Item 3 Item 4 Item 5 ...

User 1 ...

User 2 ...

User 3 ...

User 4 ...

... ... ... ... ... ... ...

Table 2.1 – Exemple de matrice d’usages

Le filtrage bas´ e sur le contenu ou filtrage th´ ematique, s’appuie sur le contenu des items (par le biais de descripteurs) afin de les comparer ` a d’autres profils eux-mˆ emes constitu´ es de descripteurs [PB07]. Chaque utilisateur du syst` eme poss` ede un profil qui d´ ecrit ses propres centres d’int´ erˆ et. Lors de l’arriv´ ee d’un nouvel item, le syst` eme compare la repr´ esentation de l’item avec le profil utilisateur afin de pr´ edire l’opinion que pourrait porter l’utilisateur sur cet item s’il le connaissait. Les items sont alors recommand´ es en fonction de leur proximit´ e avec le profil de l’utilisateur.

Le filtrage collaboratif se base sur les appr´ eciations donn´ ees par un ensemble d’utili- sateurs sur les items. Ces appr´ eciations peuvent ˆ etre des notes, des achats effectu´ es, des pages consult´ ees, etc. On distingue deux grandes approches de filtrage collaboratif. L’ap- proche bas´ ee sur les utilisateurs [RIS ⁺ 94a] consiste ` a comparer les utilisateurs entre eux et ` a retrouver ceux ayant des goˆ uts en communs, les notes d’un utilisateur ´ etant ensuite pr´ edites selon son voisinage. L’approche bas´ ee sur les items [SKKR01] consiste ` a rappro- cher les items appr´ eci´ es par des personnes communes et ` a pr´ edire les notes des utilisateurs en fonction des items les plus proches de ceux qu’ils ont d´ ej` a not´ es.

Le ﬁltrage hybride consiste, comme son nom l’indique, ` a exploiter aussi bien les in- formations de type collaboratives que les descripteurs de contenus. Les syst` emes hybrides peuvent ´ egalement faire appel ` a des sources d’informations compl´ ementaires telles que des donn´ ees d´ emographiques ou sociales [Paz99]. Diﬀ´ erentes m´ ethodes d’hybridation peuvent ˆ

etre envisag´ ees aﬁn de combiner les sources ou les mod` eles. On peut par exemple appliquer

s´ epar´ ement le ﬁltrage collaboratif et d’autres techniques de ﬁltrage pour g´ en´ erer des recom-

mandations candidates, et combiner ces ensembles de recommandations par pond´ eration,

cascade, bascule, etc. aﬁn de produire les recommandations ﬁnales pour les utilisateurs

18

(28)

2.2. ´ ETAT DE L’ART SUR LA RECOMMANDATION PERSONNALIS ´ EE [Bur07].

Dans ce chapitre nous d´ ecrirons plus formellement les deux premi` eres approches qui sont les approches qui nous int´ eressent le plus. Nous ´ enoncerons ensuite les probl` emes r´ ecurrents des syst` emes de recommandation, notamment le cas du d´ emarrage ` a froid qui est le plus connu d’entres eux. Pour ﬁnir, nous listerons les m´ ethodes d’´ evaluations utilis´ ees dans le domaine de la recommandation automatique.

2.2.1 Le ﬁltrage collaboratif

Le terme ﬁltrage collaboratif [SKKR01] d´ esigne les syst` emes de recommandation qui se basent sur les opinions et ´ evaluations d’un groupe de personnes aﬁn d’aider un individu particulier. Ce type de moteur utilise uniquement les informations contenues dans la matrice d’usages comme donn´ ees d’entr´ ee. La matrice peut ˆ etre construite en surveillant les comportements des utilisateurs ou encore en proposant aux utilisateurs de d´ eclarer eux-mˆ emes leurs avis sur les items qu’ils connaissent :

– On appelle ﬁltrage collaboratif

passif

les syst` emes de recommandation qui re- posent sur l’analyse des comportements des utilisateurs (par exemple les achats eﬀectu´ es ou les pages visit´ ees sur le site Amazon) ;

– On nomme ﬁltrage collaboratif

actif

les syst` emes de recommandations bas´ es sur des donn´ ees d´ eclar´ ees par les utilisateurs (comme des notes sur le site Allocin´ e).

Aﬁn de remplir les cases vides de la matrice, plusieurs options sont possibles. Deux grands axes se distinguent dans la litt´ erature. Les approch´ es bas´ ees sur les plus proches voisins, appel´ ees aussi approches bas´ ees sur la m´ emoire, et les approches bas´ ees sur les mod` eles. Des hybridations de ces approches existent ´ egalement.

Les approches bas´ ees sur les mod` eles mettent en œuvre des m´ ethodes issues de l’appren- tissage automatique (Machine Learning) comme des mod` eles bay´ esiens ou des m´ ethodes de clustering. Ces m´ ethodes sont g´ en´ eralement performantes mais ont un coˆ ut de construction et de fonctionnement plus important que les m´ ethodes bas´ ees sur les plus proches voisins [CMB07, SK09]. De plus, ces m´ ethodes semblent plus eﬃcaces que les approches bas´ ees sur les plus proches voisins uniquement dans le cas de donn´ ees d’usages clairsem´ ees. Dans cette th` ese, nous nous pla¸cons dans un contexte industriel, par cons´ equent nous ne nous int´ eressons pas ` a ces m´ ethodes coˆ uteuses. De plus, l’objectif de ces travaux est de compa- rer l’information pr´ esente dans les diﬀ´ erentes sources de donn´ ees et non pas d’obtenir le meilleur syst` eme de recommandation qui soit. Les approches bas´ ees sur les plus proches voisins sont donc les m´ ethodes qui nous int´ eressent le plus, de par leur simplicit´ e mais

´

egalement leurs r´ esultats qui concurrencent les m´ ethodes plus lourdes. Toutefois, pour le lecteur int´ eress´ e, une description pr´ ecise des approches bas´ ees sur les mod` eles est propos´ ee par Su et Khoshgoftaar [SK09].

Les approches bas´ ees sur les plus proches voisins consistent ` a estimer les similarit´ es

entre les lignes ou entre les colonnes de la matrice d’usages [AT05, SFHS07]. Dans le cas

(29)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION des lignes, cela consiste plus pr´ ecis´ ement ` a retrouver les personnes ayant les mˆ emes com- portements que la personne ` a qui l’on souhaite faire des recommandations. Dans le cas des colonnes, on recherche les items qui ont ´ et´ e appr´ eci´ es par le mˆ eme public. Ce type de recommandations se fait donc en deux ´ etapes : une premi` ere ´ etape o` u l’on calcule les similarit´ es entre les lignes ou les colonnes de la matrice, et une deuxi` eme ´ etape o` u l’on remplit les cases vides de la matrice ` a l’aide d’une fonction de pr´ ediction de notes.

Afin de pr´ esenter les diff´ erentes approches possibles pour chacune des deux ´ etapes du filtrage collaboratif, notons :

– U un ensemble de N utilisateurs ; – I un ensemble de M items ;

– R un ensemble de notes n ui attribu´ ees par l’utilisateur u ∈ U sur l’item i ∈ I ; – S _u ⊆ I l’ensemble des items not´ es par l’utilisateur u ;

– S _i ⊆ U l’ensemble des utilisateurs ayant not´ e l’item i.

2.2.1.1 Le calcul des similarit´ es

Une matrice peut ˆ etre vue comme un ensemble de vecteurs. La d´ ecomposition de la matrice en vecteurs peut se faire selon les lignes ou selon les colonnes (voir ﬁgure 2.5).

Le calcul d’une similarit´ e consiste ` a mesurer la similitude entre deux de ces vecteurs. Le choix de la mesure de similarit´ e utilis´ ee d´ epend g´ en´ eralement de la nature des vecteurs.

Si les vecteurs contiennent uniquement des donn´ ees binaires par exemple, du type a achet´ e/n’a pas achet´ e

, la distance de Jaccard peut ˆ etre utilis´ ee (2.1). Cette distance mesure le recouvrement entre les attributs des deux vecteurs mais ne tient pas compte des diﬀ´ erences de notes entre les deux vecteurs.

Figure 2.5 – Exemples de d´ ecompositions d’une matrice

20

(30)

2.2. ´ ETAT DE L’ART SUR LA RECOMMANDATION PERSONNALIS ´ EE

Sim _jaccard (a, b) = | S a ∩ S _b |

| S _a ∪ S _b | (2.1)

Dans le cas o` u les donn´ ees contenues dans les vecteurs sont des notes n et que l’on souhaite tenir compte de la valeur de ces notes, les deux mesures les plus utilis´ ees sont la similarit´ e Cosinus (2.2) et la similarit´ e de Pearson (2.3).

Sim _cosinus (a, b) =

{ x ∈ S

_a

∩ S

_b

} n _ax × n _bx

{ x ∈ S

_a

∩ S

_b

} n ² _ax

{ x ∈ S

_a

∩ S

_b

} n ² _bx

(2.2)

Sim pearson (a, b) =

{ x ∈ S

_a

∩ S

_b

} (n _ax − n _a ) × (n _bx − n _b )

{ x ∈ S

_a

∩ S

_b

} (n _ax − n _a ) ²

{ x ∈ S

_a

∩ S

_b

} (n _bx − n _b ) ²

(2.3)

O` u n _a (respectivement n _b ) repr´ esente la moyenne des notes contenues dans le vecteur a (respectivement b).

Ces diﬀ´ erentes mesures permettent de construire soit une matrice de similarit´ es Items- Items (tableau 2.2), soit une matrice de similarit´ es Utilisateurs-Utilisateurs (tableau 2.3) selon qu’on travaille sur les lignes ou les colonnes. Cette matrice de similarit´ es est ensuite utilis´ ee aﬁn de pr´ edire des notes.

Item 1 Item 2 Item 3 Item 4 Item 5 ...

Item 1 X Sim(1, 2) Sim(1, 3) Sim(1, 4) Sim(1, 5) ...

Item 2 Sim(2, 1) X Sim(2, 3) Sim(2, 4) Sim(2, 5) ...

Item 3 Sim(3, 1) Sim(3, 2) X Sim(3, 4) Sim(3, 5) ...

Item 4 Sim(4, 1) Sim(4, 2) Sim(4, 3) X Sim(4, 5) ...

... ... ... ... ... ... ...

Table 2.2 – Exemple de matrice de similarit´ es Items-Items

2.2.1.2 La pr´ ediction des notes

La pr´ ediction des notes consiste ` a deviner l’int´ erˆ et qu’un utilisateur pourrait porter

`

a des items qu’il ne connaˆıt pas, ou plus pr´ ecis´ ement des items sur lesquels il n’a port´ e

aucune opinion connue par le syst` eme. Concr` etement, l’objectif de la pr´ ediction de notes

consiste ` a remplir les cases vides de la matrice d’usages. Cette tˆ ache n´ ecessite l’utilisa-

tion d’une matrice de similarit´ es. Le fait de pouvoir construire diﬀ´ erentes matrices de

(31)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION

User 1 User 2 User 3 User 4 User 5 ...

User 1 X Sim(1, 2) Sim(1, 3) Sim(1, 4) Sim(1, 5) ...

User 2 Sim(2, 1) X Sim(2, 3) Sim(2, 4) Sim(2, 5) ...

User 3 Sim(3, 1) Sim(3, 2) X Sim(3, 4) Sim(3, 5) ...

User 4 Sim(4, 1) Sim(4, 2) Sim(4, 3) X Sim(4, 5) ...

... ... ... ... ... ... ...

Table 2.3 – Exemple de matrice de similarit´ es Utilisateurs-Utilisateurs

similarit´ es, Items-Items ou Utilisateurs-Utilisateurs, entraˆıne diﬀ´ erentes approches pour la pr´ ediction des notes.

Pour les approches bas´ ees sur les utilisateurs [RIS ⁺ 94b], le principe consiste ` a chercher des personnes ayant les mˆ emes comportements que la personne ` a qui l’on souhaite faire des recommandations. On ´ etablit alors les recommandations en fonction des notes d’utili- sateurs similaires. On utilise ici une matrice de similarit´ es construite selon les utilisateurs.

Soit sim(u, v) la fonction de similarit´ e entre les utilisateurs u ∈ U et v ∈ U et soit U u

l’ensemble des utilisateurs au comportement proche de l’utilisateur u.

Une des fa¸cons possibles de calculer la pr´ ediction de la note de l’utilisateur u sur l’item i consiste ` a utiliser la somme des notes des utilisateurs au comportement proche ayant d´ ej` a not´ e l’item i (2.4).

n _ui =

{ v ∈ U | i ∈ S

_v

} sim(u, v) × n _vi

{ v ∈ U | i ∈ S

_v

} | sim(u, v) | (2.4) L’un des principaux probl` emes du filtrage collaboratif actif est la diff´ erence d’utilisa- tion des syst` emes de notes en fonction des utilisateurs. En effet un utilisateur peut, par exemple s’il consid` ere que la perfection n’existe pas, ne jamais affecter la note maximale

`

a un contenu et donc r´ epartir ses notes de 1 ` a 4 (si les notes possibles vont de 1 ` a 5). ` A l’inverse, un utilisateur diﬀ´ erent peut, s’il n’aime pas noter trop s´ ev` erement ce qu’il n’a pas appr´ eci´ e, r´ epartir les notes qu’il attribue de 2 ` a 5. La solution la plus utilis´ ee pour pallier cet inconv´ enient est l’utilisation de la moyenne des notes de l’utilisateur (2.5).

n _ui = n _u +

{ v ∈ U | i ∈ S

_v

} sim(u, v) × (n _vi − n _v )

{ v ∈ U | i ∈ S

_v

} | sim(u, v) | (2.5) o` u n _u (respectivement n _v ) repr´ esente la moyenne des notes de l’utilisateur u (respec- tivement v) :

n u =

{ i ∈ S

_u

} n _ui

| S _u |

22

(32)

2.2. ´ ETAT DE L’ART SUR LA RECOMMANDATION PERSONNALIS ´ EE

L’int´ erˆ et port´ e aux approches bas´ ees sur les items est plus r´ ecente que celles bas´ ees sur les utilisateurs [SKKR01, Kar01, LSY03, DK04]. Cette approche a ´ et´ e popularis´ ee par le site Amazon avec un syst` eme qui consiste ` a construire une matrice de relations entre les items en se basant sur les achats des clients du site. Comme pour les approches bas´ ees sur les utilisateurs, les performances varient en fonction de la mesure de similarit´ e utilis´ ee et en fonction du nombre d’items proches consid´ er´ es. La matrice de similarit´ es utilis´ ee est construite suivant les items. Comme pour l’approche bas´ ee sur les utilisateurs, une premi` ere fa¸con de calculer la pr´ ediction de la note d’un utilisateur u sur un item i ne prend pas en compte les moyennes de notes (2.6).

n _ui =

{ j ∈ S

_u

∩ I

_i

} sim(i, j) × n uj

{ j ∈ S

_u

∩ I

_i

} | sim(i, j) | (2.6) Pour palier les diﬀ´ erences d’utilisations des notes de la part des utilisateurs, une autre version utilise la moyenne des notes de chaque utilisateur (2.7).

n _ui = n _i +

{ j ∈ S

_u

∩ I

_i

} sim(i, j) × (n _uj − n _j )

{ j ∈ S

_u

∩ I

_i

} | sim(i, j) | (2.7) o` u n _i (respectivement n _j ) repr´ esente la moyenne des notes re¸cues par l’item i (respec- tivement j) :

n i =

{ u ∈ U | i ∈ S

_u

} n _ui

|{ u ∈ U | i ∈ S _u }|

Le filtrage collaboratif semble ˆ etre la m´ ethode de recommandation personnalis´ ee qui garantit les meilleurs r´ esultats. C’est par ailleurs la plus utilis´ ee. Cependant, le bon fonc- tionnement de cette m´ ethode n´ ecessite une grosse quantit´ e de donn´ ees et donc d’utilisa- teurs. Elle n´ ecessite ´ egalement des items durables , c’est-` a-dire des items qui ont une actualit´ e assez longue pour que les utilisateurs aient le temps de les noter et que l’algo- rithme ait le temps d’´ etablir les recommandations. Concr` etement, le filtrage collaboratif ne sera pas forc´ ement tr` es adapt´ e pour un site de news. Une autre approche, non bas´ ee sur les utilisateurs, peut alors ˆ etre utilis´ ee afin de pallier le manque de donn´ ees. Il s’agit du filtrage th´ ematique.

2.2.2 Le ﬁltrage th´ ematique

Le ﬁltrage th´ ematique, ou ﬁltrage bas´ e sur les contenus [VMVS00, PB07], consiste

`

a ´ etablir des recommandations ` a l’aide d’

attributs

. Ces attributs, parfois appel´ es

descripteurs , caract´ eristiques , propri´ et´ es

ou encore

variables dans la

(33)

CHAPITRE 2. LES SYST` EMES DE RECOMMANDATION litt´ erature, repr´ esentent les items. Plus formellement, les items sont repr´ esent´ es sur un vecteur X = (x ₁ , x ₂ , ..., x _n ) de n composantes. Chaque composante repr´ esente un attribut et peut contenir des valeurs binaires, num´ eriques ou encore nominales. Dans le cas de la recommandation de films par exemple, les attributs peuvent ˆ etre le genre, le r´ ealisateur, l’ann´ ee de production, le nombre de r´ ecompenses, etc. Ce type de vecteurs fait alors office de profil. Une fois les profils construits, l’objectif du moteur est d’´ evaluer leurs similarit´ es.

Ce type de syst` emes est g´ en´ eralement utilis´ e dans deux situations. Ils peuvent tout d’abord remplacer le ﬁltrage collaboratif lorsque la quantit´ e de donn´ ees d’usages dispo- nible est insuﬃsante pour obtenir de bons r´ esultats. Ils sont ´ egalement utilis´ es pour la recommandation d’items ` a courte dur´ ee de vie comme les news.

2.2.2.1 Construction des proﬁls

Le filtrage th´ ematique se base donc sur la description des items et l’enrichissement de profils utilisateurs afin de croiser les deux types d’informations connues. Comme pour le filtrage collaboratif, les profils utilisateurs peuvent ˆ etre construits ` a partir d’informations collect´ ees de deux mani` eres :

– Ils peuvent tout d’abord ˆ etre construits de mani` ere passive. Dans ce cas, on consid` ere les items s´ electionn´ es par l’utilisateur ou en se basant sur son passif : les pages consult´ ees, les produits achet´ es, etc.

– Ils peuvent ´ egalement ˆ etre construits de mani` ere active en proposant aux utilisateurs de remplir des questionnaires par exemple, ou encore en permettant aux utilisateurs d’attribuer des notes aux items reﬂ´ etant leur int´ erˆ et.

Selon la mani` ere dont les informations ont ´ et´ e collect´ ees, les proﬁls utilisateurs peuvent contenir soit les items qu’ils ont appr´ eci´ es ou non, soit des descripteurs. Ces descripteurs peuvent correspondre ` a ceux des items qu’ils ont not´ es ou consult´ es ou ˆ etre d´ eduits des r´ eponses au questionnaire. Dans le premier cas, l’objectif du moteur de recommandation sera de retrouver les items du catalogue les plus proches des items appr´ eci´ es par l’utilisa- teur, ainsi que de ﬁltrer les items proches de ceux qu’il a d´ etest´ es. Dans les deux autres cas, le moteur de recommandation cherchera des items ayant le plus grand nombre de descrip- teurs en commun avec l’utilisateur. Ce choix ` a faire a un impact direct sur les r´ esultats, le deuxi` eme cas permettant une recherche plus large. Consid´ erons par exemple un utili- sateur ayant achet´ e un pull rouge et un pantalon bleu et consid´ erons deux descripteurs type de vˆ etement et couleur. Dans le premier cas, le moteur de recommandation pourra s´ electionner dans le catalogue de nouveaux pulls rouges et de nouveaux pantalons bleus.

Dans le deuxi` eme cas, il s´ electionnera ces mˆ emes produits mais ´ egalement les pulls bleus et les pantalons rouges. Le choix de la solution d´ epend alors de l’objectif vis´ e.

Les proﬁls des items peuvent ´ egalement ˆ etre construits de plusieurs fa¸cons. Tout

d’abord, on peut se baser sur des donn´ ees concr` etes comme le genre d’un ﬁlm ou les

plats servis dans un restaurant. Lorsque ces donn´ ees ne sont pas disponibles ou peu infor-

matives, on peut alors analyser l’item et en extraire des m´ eta-donn´ ees. C’est la m´ ethode

24