Stratégies de bandit et problématiques spécifiques

2.3 Stratégies de bandit et problématiques spécifiques

Le cadre stochastique tel qu’il est décrit dans la section 2.1 de ce chapitre peut paraître simpliste, et nécessite souvent d’être adapté lorsque ces stratégies sont appli- quées sur des problèmes réels. Plusieurs problématiques peuvent être citées, les deux dernières sont développées plus en détail dans la suite de ce document, car elles repré- sentent la base de certains de nos travaux.

— Nombre de bras infini. Il est possible de faire face à un problème où tous les bras ne peuvent pas être testés, mais où des informations sur les relations entre ces bras sont disponibles [Berry 1997, Carpentier 2015]. Dans ce cas, il convient de se focaliser sur certains bras, répartis dans la population, pour identifier dans la population un bras qui obtient des performances satisfaisantes. C’est le cas notamment pour le jeu de Go, où le nombre de possibilités après un coup est très grand. Pour aborder ce grand nombre de bras disponibles, des straté- gies permettant d’explorer des arbres de décision sont notamment développées [Gelly 2006, Coquelin 2007].

— Aspect contextuel. En recommandation, lorsque des informations contextuelles sont disponibles sur les objets et/ou les utilisateurs, il est important de les prendre en compte (Filtrage collaboratif, filtrage basé sur le contenu, etc.). Des straté- gies ont été développées afin de gérer ces informations. Cette problématique est connue sous plusieurs noms dans la littérature statistique : bandits avec contexte [Li 2010], bandits associatifs [Strehl 2006], bandits avec conseil d’ex- pert [Auer 2002a], ou encore bandits avec covariables [Sarkar 1991, Perchet 2013]. L’approche la plus connue est de type UCB :LinUCB [Li 2010]. Elle consiste à maintenir un vecteur de contexte, contenant plusieurs paramètres, afin d’ajuster la borne supérieure de confiance calculée.

— Non-stationnarité du gain moyen associé à un bras. Il est peu réaliste, sur- tout en recommandation, qu’un bras permette d’obtenir toujours la même ré- compense en moyenne. Par exemple, les actualités anciennes recommandées par des sites commeLe Monde2_{ou encore}_{Le Figaro}3_{doivent être mises de côté pour} privilégier des actualités plus récentes. Cette problématique est plus détaillée dans le chapitre 4, dans lequel nous réalisons un état de l’art des approches existantes. Les approches issues de nos travaux associées à cette problématique

2. http ://www.lemonde.fr 3. http ://www.lefigaro.fr

sont présentées dans le chapitre 5.

— Tirages multiples. De nombreux systèmes de recommandation doivent recommander plusieurs documents à chaque instant. Dans ce cas des stratégies ca- pables de jouer plusieurs bras à chaque instant sont nécessaires. Dans ce cas le problème est de construire une liste de bras à jouer permettant à l’agent d’obtenir un gain maximal. Nous décrivons dans le chapitre 6 cette probléma- tique, nous décrivons les approches existantes en recommandation qui l’aborde et faisons notamment le lien avec la recherche d’information. Dans le chapitre suivant (chapitre 7), nous montrons comment les stratégies de bandit à tirages simples, comme ceux présentés dans la section précédente, sont utilisés en recommandation pour recommander plusieurs documents à chaque instant. Dans le chapitre 8, des stratégies de bandit récentes de la littérature statistique, ca- pables de recommander plusieurs items, sont présentées. Nous décrivons égale- ment comment une de ces approches a été adaptée pour pouvoir être appliquée en recommandation. Enfin dans le chapitre 9, nous abordons la problématique de la diversité des éléments au sein de la liste recommandée. Nous proposons une approche qui expérimentalement obtient de très bons résultats.

Conclusion

Dans ce chapitre nous avons présenté les «problèmes de bandit». Nous avons mon- tré que plusieurs familles de stratégies peuvent être utilisées. Dans la littérature statistique, de nombreux travaux s’intéressent à la quantification des performances mini- males et maximales de ces stratégies en étudiant les bornes inférieures et supérieures de regret. Afin d’illustrer comment ces bornes peuvent être obtenues, nous avons repris une preuve permettant d’obtenir une borne supérieure de regret logarithmique pour la stratégie UCB1. Nous avons également listé un certain nombre de problématiques spécifiques complexifiant le modèle initial.

Un lien entre ces problématiques et la recommandation peut facilement être fait. Par exemple des problématiques communes sont la prise en compte de la non station- narité du gain moyen associé à un bras ou encore le tirage de plusieurs bras à chaque itération. Dans le chapitre suivant nous mettons en évidence pourquoi l’utilisation de ces stratégies en recommandation se révèle être une alternative intéressante aux approches mises en œuvre habituellement.

Chapitre 3

Stratégies de bandit et

recommandation : problématiques et

contributions

Sommaire

3.1 Dilemme exploration/exploitation : problématique commune . 42 3.2 Contributions . . . 43

3.2.1 Contribution 1 : proposition de deux approches permettant de prendre en compte l’obsolescence progressive de la popularité des objets . . . 43 3.2.2 Contribution 2 : proposition d’une approche utilisant des

stratégies de bandit à tirages simples pour recommander plusieurs objets simultanément . . . 43 3.2.3 Contribution 3 : adaptation et application d’une stratégie

de bandit à tirages multiples pour la recommandation à tirages multiples . . . 44 3.2.4 Contribution 4 : proposition de deux approches permet-

tant d’apporter de la diversité dans les listes de résultats 44 3.3 Publications . . . 45 3.3.1 Publications acceptées . . . 45 3.3.2 Communications dans des conférences et séminaires sans

actes . . . 46 3.3.3 Publications en préparation . . . 46

En recommandation, des utilisateurs interagissent de manière séquentielle avec le système. Le choix des objets recommandés à chaque instant permet d’obtenir de nouvelles informations concernant leurs pertinences. Mais il est également important de recommander des objets connus pour être pertinents. Nous sommes en présence du dilemme exploration/exploitation et les straté- gies présentées dans le chapitre précédent sont connues pour proposer des solutions à ce dilemme.

Résumé.

Dans le premier chapitre, nous avons décrit les SR ainsi que les techniques habituellement utilisés dans ce cadre. Dans le second chapitre, nous avons introduit les pro- blèmes de bandit, et montré plusieurs approches conçues pour aborder ces problèmes. Nous présentons maintenant notre problématique de recherche : comment adapter les stratégies de bandit pour les appliquer à la recommandation ?

3.1 Dilemme exploration/exploitation : problématique

commune

Afin d’améliorer la pertinence des recommandations pour un utilisateur, un SR peut considérer l’historique des interactions passées avec les utilisateurs. Lorsque toutes les données sont connues, il est possible d’estimer la pertinence des objets, il s’agit alors du cadre de l’apprentissage supervisé [Hastie 2009]. Ce n’est pas un cadre réaliste pour un SR : de nouveaux utilisateurs et de nouveaux objets apparaissent continuellement. Par ailleurs il est souhaitable de pouvoir apprendre continuellement tout en recom- mandant des objets. Un tel environnement s’inscrit dans le cadre de ce que l’on appelle l’apprentissage par renforcement [Sutton 1999]. Il s’agit d’implémenter une stratégie pour explorer de nouvelles données d’apprentissage (les interactions des utilisateurs), tout en assurant que les résultats puissent être directement exploités. Ce problème est connu sous le nom de « dilemme exploration/exploitation ». Les stratégies de bandit sont connues pour offrir des solutions à ce dilemme [Bubeck 2012]. Elles sont généra- lement conçues pour recommander un seul objet à chaque instant : ce sont des straté- gies à tirages simples. Plusieurs familles de stratégies de bandit se distinguent de par la stratégie choisie pour appréhender le « dilemme exploration/exploitation ».

Nos travaux se placent dans le cadre de l’application des stratégies de bandit à la recommandation. Plus précisément, ils se focalisent sur deux problématiques de la

3.2. Contributions 43

Dans le document Stratégies de bandit pour les systèmes de recommandation (Page 47-51)