Bandits-Manchots Contextuels : Précision Globale Versus Individuelle

(1)

HAL Id: hal-01830873

https://hal.archives-ouvertes.fr/hal-01830873v2

Submitted on 17 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Bandits-Manchots Contextuels : Précision Globale Versus Individuelle

Nicolas Gutowski, Tassadit Amghar, Olivier Camp, Fabien Chhel

To cite this version:

Nicolas Gutowski, Tassadit Amghar, Olivier Camp, Fabien Chhel. Bandits-Manchots Contextuels :

Précision Globale Versus Individuelle. 4ème conférence sur les Applications Pratiques de l’Intelligence

Artificielle APIA2018, Jul 2018, Nancy, France. �hal-01830873v2�

(2)

Bandits-Manchots Contextuels : Précision Globale Versus Individuelle

Nicolas Gutowski

^1,2

Tassadit Amghar

²

Olivier Camp

¹

Fabien Chhel

¹

1

ESEO-TECH

10 boulevard Jean Jeanneteau, 49100 Angers, France

2

LERIA, Université d’Angers (UBL) 2 boulevard Lavoisier, 49000 Angers, France

nicolas.gutowski@eseo.fr

Résumé

Dans la littérature, la plupart des travaux sur les bandits manchots sont évalués à l’aide d’une mesure de la préci- sion globale. Concernant les bandit-manchots contextuels, les approches existantes ont pour objectif d’atteindre une personnalisation individuelle. Ainsi, leur précision globale devrait refléter la précision individuelle pour chacun des utilisateurs. Afin de mesurer le niveau de personnalisation atteint par ces approches, nous avons défini une nouvelle évaluation comparant les précisions individuelles des re- commandations faites à chaque utilisateur avec la préci- sion globale. Sur la base de cette comparaison, démontrant des disparités entre la précision individuelle et la moyenne de précision globale, nous proposons Sliding Window Li- nUCB (SW-LinUCB). SW-LinUCB est une combinaison de LinUCB (CMAB) et d’un mécanisme de diversification pénalisant les bras sélectionnés trop fréquemment. Notre approche, inspirée d’applications réelles, comme les sys- tèmes de recommandation, ne nécessite pas uniquement d’atteindre une bonne précision globale mais doit aussi te- nir compte de la précision individuelle. Nous expérimen- tons et discutons nos résultats sur plusieurs jeux de données réelles.

Mots Clefs

Apprentissage par renforcement, LinUCB, Bandits- manchots contextuels, Système de recommandation

Abstract

Most works on Multi-Armed Bandits (MAB) focus the evaluations of their methods on a global accuracy perfor- mance metric. In the case of Contextual Multi-Armed Ban- dit (CMAB), the existing algorithms claim to eventually provide full personalization, which might suggest that their global accuracy metric should reflect each user’s individ- ual accuracy. In order to verify this, we consider a novel approach of CMAB assessment focused on the evaluation of individual accuracy and compare it to global accuracy.

Based on the results of this comparison highlighting some

users far from the average global accuracy, we propose Sliding Window LinUCB (SW-LinUCB), a combination of the original LinUCB (CMAB) and a diversification mecha- nism penalizing arms which are pulled too frequently. It is motivated by the requirements of different real-world ap- plications such as clinical trials or recommender systems, which must converge to a good global accuracy and should equally distribute it among individuals. We experiment and discuss the benefits and losses of the proposed method on several real-world datasets.

Keywords

Recommendation System, Reinforcement learning, Lin- UCB, Contextual Multi-armed Bandits

1 Introduction

De nos jours, les bandits-manchots contextuels (Contex-

tual Multi-Armed Bandit : CMAB) sont très largement

considérés par de nombreuses applications se heurtant à

des problèmes de décision séquentielle e.g., les systèmes

de recommandation [1], ou encore les essais cliniques

[2]. À chaque itération, les algorithmes d’apprentissage de

CMAB ont pour objectif de choisir une action optimale (ti-

rer le bras optimal) parmi un ensemble de possibilités, en

tenant compte du contexte donné et des récompenses pas-

sées obtenues en regard de ces actions. Dans la majorité

des cas, les récompenses retournées sont égales à 1 si l’al-

gorithme réalise une bonne classification du contexte par

rapport à l’action choisie, et à 0 sinon [1]. Ainsi, la plu-

part des études évaluent la performance de leurs méthodes,

jusqu’à un horizon final, à travers une mesure de préci-

sion globale e.g., récompense moyenne, cumul des récom-

penses, ou nombre de regrets total [1, 3, 4]. Néanmoins, de

telles métriques semblent inadéquates pour déterminer la

précision à associer à chaque contexte [5]. Ainsi, si nous

prenons l’exemple des systèmes de recommandation pour

lesquels les utilisateurs peuvent être des visiteurs réguliers,

ou des abonnés (exemple : applications mobiles), il semble

(3)

essentiel de tenir compte de leurs retours individuels en re- gard des recommandations qui leur sont faites.

De telles considérations nous ont amené à définir une mé- thode permettant de mesurer la précision individuelle, et à évaluer différents algorithmes existants au regard de notre nouvelle métrique. Le problème se pose alors comme étant double objectif puisqu’il convient de maximiser la préci- sion individuelle tout en maintenant une bonne précision globale.

Ainsi, nous introduisons une mesure complémentaire de la performance qui est fondée sur l’observation de la fonc- tion de distribution cumulative (Cumulative Distribution Function : CDF) de la précision individuelle. De plus, nous proposons l’adaptation d’une méthode de CMAB que nous nommons SW-LinUCB. Cette méthode est bâtie à partir de l’algorithme classique LinUCB combiné avec une fenêtre glissante. De ce fait, SW-LinUCB a pour objectif d’amélio- rer la précision individuelle en incorporant un mécanisme de diversification, tout en conservant une précision globale satisfaisante.

En nous appuyant sur des jeux de données d’applications réelles, nous étudions les performances de différentes mé- thodes existantes (MAB et CMAB) à travers notre mesure de CDF sur l’ensemble des contextes observés. Nous mon- trons que pour les deux méthodes — pour les CMAB, spé- cifiquement selon le niveau de parcimonie du vecteur de contexte — un fossé se creuse entre les utilisateurs pour lesquels nous obtenons un haut niveau de précision et ceux défavorisés par un très faible niveau de précision, mal- gré une précision globale satisfaisante. Nos expériences montrent que SW-LinUCB réussit à combler ce fossé tout en maintenant une précision globale qui ne décroit pas plus de 10% par rapport à celle d’origine. En outre, on constate que notre algorithme parvient à atténuer les effets négatifs d’un contexte insuffisamment renseigné.

La contribution de notre article est double : 1) nous propo- sons une nouvelle mesure de l’évaluation basée sur la pré- cision individuelle ; 2) nous présentons SW-LinUCB qui est une adaptation de LinUCB dont l’objectif est de maximiser la précision individuelle tout en conservant une précision globale satisfaisante.

Cet article est organisé comme suit : la section 2 présente un état de l’art sur les problèmes de MAB et les diffé- rentes métriques utilisées. La section 3 introduit les tra- vaux connexes sur les problématiques de CMAB, l’algo- rithme LinUCB et l’usage de fenêtres glissantes. La sec- tion 4 dresse notre problématique et la méthode que nous mettons en place. Dans la section 5 nous exprimons et dis- cutons les résultats de nos expérimentations. Enfin, nous concluons et présentons les perspectives de notre travail dans la section 6.

2 Contexte

Le problème du Bandit-Manchot (Multi-Armed Bandit : MAB) est un sujet qui a suscité de nombreuses recherches depuis sa première formalisation en 1952 [6]. De nom-

breuses formulations ont pu être proposées : stochastiques [7, 8, 4], ou encore Bayésiennes [9]. Plus précisément, le défi pour tout problème de MAB consiste à construire une stratégie visant à tirer le bras optimal sans connais- sance préalable de la rentabilité de chacun des bras dis- ponibles. La résolution de ce problème consiste à trouver un compromis entre l’exploration de l’ensemble des bras pour en déduire leurs rentabilités et l’exploitation de ce qui a été inféré pour favoriser la sélection des bras optimaux.

Une version étendue de ce problème prend en compte le contexte. Il s’agit du problème de Bandit-Manchot Contex- tuel (Contextual Multi-Armed Bandit : CMAB) [10, 3].

Ainsi, dans une approche CMAB, le défi visant à détermi- ner le bras optimal reste le même que pour un problème de MAB mais doit tenir compte du contexte des utilisateurs.

Dans la littérature, le critère le plus fréquemment observé pour mesurer la performance d’un algorithme de bandit reste la précision globale — i.e. le nombre de fois qu’une récompense positive a été obtenue en tirant les différents bras [7, 8, 1, 3, 4]. Néanmoins, en fonction du domaine dans lequel les bandits sont appliqués, l’évaluation de leur performance peut nécessiter de s’ouvrir à d’autres critères.

En effet, comme c’est tout particulièrement le cas pour les systèmes de recommandations, il a été observé dans cer- taines études que les mesures de précision ne sont pas suffi- samment adaptées et pourraient être préjudiciables et nuire à la satisfaction des utilisateurs [5]. De ce fait, même si des algorithmes de CMAB tels que LinUCB [1] ou encore Contextual Thompson Sampling [3] permettent à terme une personnalisation complète auprès de chaque utilisateur, une autre étude soutient en revanche que ceux-ci nécessitent un si grand nombre d’itérations pour atteindre cette personna- lisation qu’ils risquent de causer la frustration des utilisa- teurs avant d’y parvenir [11].

De telles constats ont conduit des recherches sur les CMAB et les systèmes de recommandations vers deux directions : 1) Tenter de réduire le nombre d’itérations nécessaires pour atteindre la personnalisation pour chaque utilisateur [11, 12], 2) Prendre en considération d’autres critères d’évaluation de la performance comme : la qualité [13], la diversité et la nouveauté [14], la couverture et la séren- dipité [15], ou encore la satisfaction utilisateur [16].

La majorité des travaux tendent à montrer que la diversifi- cation serait l’un des points-clé pour améliorer la satisfac- tion utilisateur. Par exemple cela permettrait de mieux ré- pondre aux besoins éphémères des utilisateurs [17], de les aider à découvrir de nouveaux éléments [13], ou d’éviter les recommandations redondantes [18].

À notre connaissance, aucune approche n’aborde spéci- fiquement le problème de la recherche d’un compromis entre précision individuelle et précision globale pour les CMAB à travers l’usage de techniques de diversification.

Ceci constitue l’objectif principal de notre travail.

(4)

3 Travaux Antérieurs

Cette section présente les concepts clés sous-jacents à notre approche : le problème de CMAB, l’algorithme LinUCB qui le résout, et un principe de diversification s’appuyant sur une fenêtre glissante.

3.1 Bandits-Manchots Contextuels

Les approches contextuelles du problème de bandits- manchots (CMAB) [10] ont été très largement étudiées via des méthodes telles que LinUCB [1], Contextual Thomp- son Sampling CTS [3] ou encore Neural Bandit [19].

Ces méthodes résolvent le problème de CMAB en sup- posant une dépendance linéaire entre la récompense at- tendue d’une action et son contexte. Selon les travaux de Langford [10], le problème de CMAB peut être défini comme suit : Soit A = {a

1

, ..., a

k

} un ensemble donné de k bras indépendants. Soit X ⊆ R

^d

l’ensemble de vec- teurs de contexte de dimension d caractérisant un utili- sateur et son environnement e.g., x ∈ X est un vecteur binaire codant les caractéristiques telles que : l’âge, le sexe, le métier, les préférences, les spécialités, la locali- sation ou encore les caractéristiques des bras eux-mêmes.

Soit l’horizon T ∈ N

^∗

, à chaque itération t ∈ [1, T ], le contexte x

_t

incluant l’utilisateur, est pris en considéra- tion afin de permettre la sélection du bras optimal compte tenu des récompenses obtenues lors des itérations précé- dentes. Pour chaque itération t, soit r

_t

= (r

_t,a₁

, ..., r

_t,a_k

) le vecteur de récompense où r

_t,a_i

correspond à la récom- pense obtenue après avoir sélectionné le bras a

i

et r

t,a_i

∈ {0, 1} dans notre cas où les récompenses sont tirées de- puis des distributions de Bernoulli. Soit D

x,r

la distribu- tion conjointe entre les contextes x et les récompenses r, et soit θ

t,a

le vecteur de coefficients inconnu (restant à dé- terminer) associé au bras a à l’itération t. Nous suppo- sons que les récompenses attendues d’un bras a à l’ité- ration t est une fonction linéaire du vecteur de contexte x

t

de dimension d tel que E [r

t,a

|x

t

] = b θ

^>_a

x

t

où b θ

a

re- présente le vecteur de coefficients estimé associé au bras a. Ainsi, soit Π : X → A l’ensemble des politiques possibles où la politique optimale devant être déterminée est π

^∗

= arg max

_π∈Π

E

r,x

[r

_t,π(x)

]. Alors, soit π

_t

∈ Π la politique empruntée par un algorithme de CMAB A à l’itération t. Par conséquent, dans le cadre d’un envi- ronnement stationnaire où D

x,r

ne varie pas, le pseudo- regret instantané à l’itération t peut alors être défini tel que ρ

t

(A) = E

r,x

[r

_t,π^∗_(x_t₎

− r

_t,π(x_t₎

] et le pseudo-regret cu- mulé tel que ρ(A) = P

T

t=1

ρ

_t

(A).

Les algorithmes tels que LinUCB [1] ou Contextual Thompson Sampling (CTS) [3] ont été modélisés et lar- gement étudiés afin de résoudre ce problème de CMAB.

Aussi, à la section suivante nous rappelons l’un des plus populaires d’entres eux : LinUCB.

3.2 LinUCB

Nous avons d’abord décidé de bâtir et d’expérimenter notre approche à partir de LinUCB [1] qui reste l’un des algo-

rithmes de CMAB les plus célèbres présentés dans la litté- rature.

LinUCB [1] est un algorithme contextuel à bornes su- périeures de confiance qui renforce rapidement la sélec- tion des bras optimaux en ajoutant un bonus (l’écart de la récompense) au gain total calculé. À chaque itération t, LinUCB sélectionne le bras a ∈ A avec le gain cal- culé p

t,a

maximum parmi l’ensemble des bras disponibles.

p

t,a

est construit à partir d’une combinaison linéaire du coefficient θ

t,a

et du vecteur de caractéristiques x

t

aux- quels vient s’ajouter l’écart de récompense qui représente la valeur d’action optimiste du gain obtenu. Le vecteur de coefficient θ b

a

est construit à partir de la matrice D

a

de dimension n × d (n recommandations en correspon- dance de d caractéristiques), et b

a

∈ R

^d

représente le vecteur de réponse correspondant, dont les poids pour chaque dimension sont fonction des récompenses obte- nues. Plus précisément, θ b

a

= (D

_a^>

D

a

+ I

d

)

⁻¹

b

a

où I

d

re- présente la matrice identité de dimension d × d. Par consé- quent, à chaque itération t, LinUCB sélectionne le bras a

t

tel que a

t

= arg max

_a∈A

p

t,a

où p

t,a

= θ b

a

>

x

t

+

α p

x

^>_t

(D

_a^>

D

_a

+ I

_d

)

⁻¹

x

_t

. Ainsi, θ b

_a^>

x

_t

représente l’es- pérance de récompense et α p

x

^>_t

(D

_a^>

D

_a

+ I

_d

)

⁻¹

x

_t

l’écart de récompense où α est un paramètre pouvant être considéré comme un critère de robustesse face au bruit. De plus, selon [20], il y a une probabilité d’au moins 1 − δ que

| θ b

^>_a

x

t

− E [r

t,a

|x

t

] | ≤ α p

x

^>_t

(D

^>_a

D

a

+ I

d

)

⁻¹

x

t

avec α = 1 + p

ln(2/δ)/2. Si un ensemble de bras contient k bras, alors la borne supérieure du regret sera en O ˜ √

kdT . Néanmoins, même si le regret total est ici bien identifié et que sa borne supérieure a été démontrée, il est encore nécessaire de surmonter les problématiques de faible pré- cision individuelle possiblement induite par des environne- ments non stationnaires ou par des contextes trop pauvres en informations.

Dans la section suivante, nous rappelons plusieurs méca- nismes de diversification reposant sur l’utilisation de fe- nêtres glissantes.

3.3 Mécanismes de diversification

Dans les systèmes de recommandation, la diversité est per- tinente pour la satisfaction individuelle. La diversification peut aussi trouver son intérêt dans le cadre d’environne- ments non-stationnaires afin de permettre à l’algorithme de rester à jour et favoriser les observations les plus récentes.

À l’aide d’une fenêtre glissante, des algorithmes tels que

SW-UCB [21], ou encore Windows Thompson Sampling

with Restricted Context (Windows TSRC) [12] permettent

d’atténuer les effets résultant de la non-stationnarité. De

plus, pour résoudre ces mêmes problèmes induits par la

non-stationnarité et plus particulièrement dans le cadre

d’une problématique de bandits de type restless [22], il

existe une approche utilisant également une fenêtre glis-

sante et dont l’objectif est de pénaliser les bras qui ont été

(5)

tirés trop souvent [23]. Cette approche intéressante a ins- piré notre proposition.

4 Problématique et Méthodes

Dans cette section, nous posons notre problème, puis nous définissons notre nouvelle approche SW-LinUCB. Notre méthode est basée sur la combinaison de l’algorithme ori- ginal LinUCB [1] et l’utilisation d’une fenêtre glissante ins- pirée de [23].

4.1 Énoncé du problème

Soit U = {u

1

, ..., u

n

} l’ensemble des n agents disponibles dans un problème de bandits, et pouvant par exemple cor- respondre dans le cadre d’applications réelles, à des utilisa- teurs ou encore des patients. Inspiré par [24], nous suppo- sons pour chaque bras a ∈ A et étant donné x ∈ X ⊆ R

^d

, que U peut être partitionné en un nombre m

_a

(x) de clus- ters U

1,a

(x), U

2,a

(x), ..., U

_m_a_(x),a

(x) d’utilisateurs parta- geant les mêmes comportements vis à vis des récompenses qu’ils octroient à chaque bras a. Faisant maintenant l’hy- pothèse de l’existence d’un vecteur de contexte optimal x

^∗

∈ X

^∗

qui posséderait toutes les caractéristiques perti- nentes associées, avec une confiance de 100%, au bras opti- mal correspondant et cela pour chaque contexte disponible.

Comme LinUCB suppose une dépendance linéaire entre la récompense attendue d’une action et son contexte tel que E [r

t,a

|x

t

] = θ b

^>_a

x

t

, alors lorsque x

^∗

est fourni, LinUCB converge vers une précision de 100% et offre une personna- lisation pour chaque individu. Cela signifie que toute préci- sion individuelle convergera également vers 100%. Cepen- dant, dans les situations réelles, x peut manquer d’infor- mations et rester incomplet pour différentes raisons telles que : un manque d’information sur les caractéristiques des bras, une mauvaise modélisation du contexte c’est-à-dire un contexte spécifié de manière incomplète, des restric- tions dues à des problématiques de confidentialité et de protection de la vie privée, un profil mal renseigné, des informations manquantes sur l’environnement de l’utili- sateur (par exemple, une localisation temporairement in- disponible). Dans les cas où x 6= x

^∗

, les algorithmes de CMAB doivent faire face à des contraintes de parcimonies dans les données ou d’incomplétude sur les caractéristiques disponibles puisque les caractéristiques de x

^∗

manquantes dans x ne peuvent pas être prises en compte. En effet, avec un vecteur de contexte insuffisamment décrit, les clusters associés à x

^∗

ne seront pas pris en compte par LinUCB, qui peut finalement être incapable de tirer le bras optimal pour différentes situations. Les utilisateurs affectés par cette par- cimonie vectorielle pourraient donc se retrouver insatisfaits de la sélection des bras qui leur est proposée par LinUCB.

Cela entraîne une diminution de la précision globale mais également de la précision individuelle ciblant ces utilisa- teurs. Ces problématiques nous ont conduits à construire une nouvelle approche visant, à la fois, à garder une bonne précision globale et à atténuer la diminution de la précision individuelle. La sous-section suivante présente notre mé-

thode qui utilise un mécanisme de diversification afin de contrer le manque d’information contextuelle et favoriser la sérendipité.

4.2 Sliding Window LinUCB : SW-LinUCB

Notre Fenêtre Glissante : Notre nouvelle approche com- bine LinUCB et l’utilisation d’une fenêtre glissante per- mettant de pénaliser la sélection des bras optimaux (ti- rés plus fréquemment), afin de favoriser l’exploration des bras moins optimaux que nous appellerons ici l’ensemble des bras sous-optimaux. Les méthodes utilisant des fe- nêtres glissantes appliquent généralement un coefficient dit de discount pondérant les récompenses obtenues par leurs bras afin de favoriser les observations les plus ré- centes. Ainsi, il est possible de définir un coefficient de discount qui pondère les récompenses cumulées obtenues pour chaque bras tel que P

T

t=1

γ

_t

r

_t,a

[23]. Avec γ

_t

= 1 −

^Occ^w_w^(a,t)

où w correspond à la taille de la fenêtre glissante et Occ

_w

(a, t) représente le nombre de fois qu’un bras a a été sélectionné durant les t dernières itérations.

Occ

_w

(a, t) = #

₁

(E

_t,a

) où E

_t,a

= {0..(2

^(w+1)

− 1)} re- présente les w dernières sélections d’un bras a donné e.g., pour une taille de fenêtre w = 6, E

_t,a

= 101001 signifie que a a été sélectionné aux itérations t − 6, t − 4 et t − 1.

Néanmoins, même si il pourrait être intéressant de combi- ner une telle méthode à LinUCB, celle-ci reste un proces- sus mettant en œuvre une mémoire à court-terme qui, dans notre cas, ne permettra pas de diversifier suffisamment.

Dans notre cas, nous devons conserver un processus d’éli- mination des mauvaises solutions sur le long terme tout en diversifiant suffisamment parmi l’ensemble des bras sous- optimaux. Ainsi, nous proposons une nouvelle méthode de calcul du gain basée sur le p

t,a

originel tel que

p

^w_t,a

= γ

t

θ b

a

>

x

t

+ α q

x

^>_t

M

a⁻¹

x

t

(1) où M

a

= (D

^>_a

D

a

+ I

d

). Ce calcul permet à la fois de garder la confiance (élimination à long terme) grâce au bo- nus, et de diversifier suffisamment parmi l’ensemble des bras sous-optimaux en pénalisant temporairement l’espé- rance calculée des récompenses pour les bras sélectionnés trop fréquemment.

L’algorithme SW-LinUCB : l’objectif de SW-LinUCB est de déterminer la politique π qui maximise les récompenses cumulées à l’horizon T tandis qu’une fenêtre glissante force la diversification parmi l’ensemble des bras sous- optimaux. Notre hypothèse est la suivante : en fonction du niveau de parcimonie du vecteur de contexte (x 6= x

^∗

), diversifier parmi l’ensemble des bras sous-optimaux atté- nuera la perte de précision individuelle pour les utilisateurs pour lesquels la méthode d’origine obtient une très faible précision. Notre méthode est décrite dans l’algorithme 1.

5 Expérimentations et Résultats

Jeux de données : L’évaluation de notre proposition se

base sur quatre jeux de données. Tout d’abord un jeu de

(6)

Algorithme 1 Sliding Window LinUCB (SW-LinUCB) Require: L’ensemble des k bras a ∈ A disponibles, α ∈

R

⁺

, l’horizon T , et l’ensemble des n contextes fixes disponibles X

1:

w ← k

2:

for t = 1 to T do

3:

Considérer x

t

∈ X : un utilisateur et son contexte

4:

for all a ∈ A do

5:

if a n’a pas encore été sélectionné then

6:

Occ

w

(a, t) ← 0 ; M

a

← I

d

; b

a

← 0

_d×1

7:

end if

8:

b θ

a

← M

_a⁻¹

b

a 9:

if t > w then

10:

Calculer Occ

w

(a, t) = #

1

(E

t,a

)

11:

end if

12:

p

^w_t,a

←

1 −

^Occ^w_w^(a,t)

θ b

a

>

x

t

+ α q

x

^>_t

M

a⁻¹

x

t 13:

end for

14:

Sélectionner le bras a

t

= arg max

_a

t∈A

(p

t,a

) et ob- server la récompense r

t

retournée par l’utilisateur

15:

M

a_t

← M

a_t

+ x

t

x

^>_t

; b

a_t

← b

a_t

+ r

t

x

t

16:

∀a 6= a

t

, mettre à jour toutes les sous-séquences E

t,a

en ajoutant un bit 0

17:

Mettre à jour la sous-séquence E

t,a_t

en ajoutant un bit 1

18:

if t > w then

19:

Réaliser un décalage logique vers la gauche (Left Shift) de E

_t,a

et E

_t,a_t

20:

end if

21:

end for

données a été artificiellement généré afin d’obtenir un x

^∗

garantissant une équiprobabilité entre chacun des bras. Il servira de jeu de contrôle dans nos expérimentations. Enfin, nous avons utilisé trois autres jeux de données d’applica- tions réelles : Recommendation System for Angers Smart City (RS-ASM)

¹

, Covertype et Poker Hand

²

. Chacun des jeux de données considéré est constitué d’un nombre d’ins- tances, s’appuie sur un contexte d’une dimension donnée et propose un nombre défini de bras (voir Tableau 1).

Jeu Instances Dim Bras Source

Contrôle 1000 4 4 Generated

RS-ASM 2152 56 18 Kaggle

Covertype 581 012 95 7 UCI

Poker Hand 1 025 010 11 9 UCI

Tableau 1 – Jeux de données

Mesure de Précision Globale : La précision globale est un critère de performance basé sur le total des récom- penses positives cumulées à l’horizon T . De ce fait, pour obtenir la précision globale, nous calculons le gain c’est à dire le nombre total de récompenses positives g(T ) puis

1https://www.kaggle.com/

2http://archive.ics.uci.edu/ml/

nous calculons enfin la précision (Accuracy : Acc, voir Ta- bleau 2) tel que : Acc(T ) =

^g(T_T⁾

où g(T ) = P

T

t=1

r

t

et r

t

= {0, 1}.

Mesure de Diversité : La diversité de sélection parmi un ensemble fini et fixe de k bras peut être définie comme un critère de dispersion découlant du coefficient de variation (C

v

) des bras sélectionnés. Il est par conséquent possible de calculer la diversité (Div, voir Tableau 2) comme suit : Div(N ) = 1 −

^c^v^√^(N⁾

k

où N = {n

a₁

, ..., n

a_k

}, et n

a_i

cor- respond au nombre de fois qu’un bras a

_i

∈ A a été sé- lectionné. Ainsi, la dispersion de la sélection tend à son maximum quand c

_v

(N) → 0 alors qu’elle tend vers son minimum quand c

_v

(N ) → √

k [25].

Mesure de Précision Individuelle : La précision indivi- duelle par utilisateur Acc

_u

(T ) peut être définie comme étant ∀u ∈ U, Acc

_u

(T ) =

PT t=1r_t,u

Tu

où T

_u

représente le nombre de fois qu’un utilisateur avec son contexte a été sé- lectionné à l’horizon T , et r

_t,u

correspond à la récompense retournée par u à l’itération t. Les mesures de précision individuelle de chaque utilisateur peuvent être représen- tées par une fonction de distribution cumulative (CDF). La CDF nous permet ainsi d’observer la distribution de la pré- cision individuelle sur l’ensemble des utilisateurs U avec leur contexte à l’horizon T (voir Figure 1).

Comparaison des Algorithmes

³

: Nous comparons notre algorithme SW-LinUCB avec les méthodes suivantes : UCB standard (MAB) [8], et LinUCB classique (CMAB) [1].

Notons que LinUCB et SW-LinUCB auront la même valeur du paramètre α calculé avec δ = 0.1.

Protocole Expérimental : Pour chaque algorithme et pour chaque jeu de données, nous simulons 2 cas différents : 1) Avec le vecteur de contexte complet (vc), 2) Avec une par- tie tronquée à 25% du vecteur de contexte d’origine (vt).

Ici, le terme tronqué représente la proportion (en pourcen- tage) des caractéristiques, sélectionnées aléatoirement, que nous décidons de perdre au début de l’expérience. Ainsi, pour chacun des différents cas et pour chaque algorithme, nous simulons 20 expériences de 10, 000, 000 d’itérations pour Poker Hand et Covertype, et 100, 000 concernant RS- ASM et le jeu de données de contrôle. Comme le nombre d’instances de chaque jeu de données est plus ou moins important, nous devons mettre à l’échelle l’horizon T pour chacun d’entre aux afin d’obtenir une mesure suffisante de la précision individuelle.

De plus, pour simuler un flux de données d’utilisateurs se présentant pour recevoir une recommandation (voir ligne 3 de l’algorithme 1), nous sélectionnons séquentiellement et aléatoirement les contextes disponibles dans l’ensemble du jeu de données. Ensuite, nous déterminons les moyennes et écart-types de précision globale et de diversité de sélec- tion des bras sur l’ensemble des 20 simulations. De plus, nous calculons la précision individuelle et déduisons sa CDF dont les données et la représentation sont représen- tées Figure 1 et Tableau 2. Enfin, nous réalisons un test

3Voir notre étude préliminairehttps://git.io/vxCcv

(7)

Mesures globales Distribution de la Précision Individuelle

Acc Div 10% Q

₁

M ed Q

₃

90%

Contrôle 0.25

±ε

10

⁻³±ε

0.00

±ε

0.00

±ε

0.00

±ε

0.25

±ε

1.00

±ε

UCB RS-ASM 0.52

±0.08

10

⁻³±ε

0.00

±ε

0.00

±ε

0.80

±0.40

1.00

±ε

1.00

±ε

Poker Hand 0.47

±0.04

10

⁻³±ε

0.00

±ε

0.00

±ε

0.60

±0.49

1.00

±ε

1.00

±ε

Covertype 0.41

^±0.05

10

⁻³^±ε

0.00

^±ε

0.00

^±ε

0.00

^±ε

0.90

^±0.30

0.90

^±0.30

Contrôle 1.0

±ε

0.997

±ε

1.00

±ε

1.00

±ε

1.00

±ε

1.00

±ε

1.00

±ε

LinUCB RS-ASM 0.78

±ε

0.86

±ε

0.04

±0.02

0.77

±0.02

0.95

±ε

0.99

±ε

1.00

±ε

(vc) Poker Hand 0.53

±ε

0.06

±ε

0.00

±ε

0.00

±ε

0.90

±0.01

1.00

±ε

1.00

±ε

Covertype 0.72

±ε

0.44

±ε

0.00

±ε

0.00

±ε

1.00

±ε

1.00

±ε

1.00

±ε

Contrôle 0.991

^±ε

0.997

^±ε

0.98

^±ε

0.99

^±ε

0.99

^±ε

1.00

^±ε

1.00

^±ε

SW-LinUCB RS-ASM 0.76

±ε

0.88

±ε

0.06

±0.02

0.68

±0.01

0.92

±0.01

0.98

±ε

1.00

±ε

(vc) Poker Hand 0.48

±ε

0.34

±ε

0.00

±ε

0.22

±0.02

0.50

±ε

0.72

±0.02

0.87

±0.02

Covertype 0.69

±ε

0.47

±ε

0.00

±ε

0.40

±ε

0.89

±ε

1.00

±ε

1.00

±ε

Contrôle 0.749

±ε

0.88

±0.07

0.35

±0.09

0.52

±0.04

0.88

±0.04

1.00

±ε

1.00

±ε

LinUCB RS-ASM 0.629

±ε

0.33

±0.01

0.01

±ε

0.06

±0.01

0.92

±0.01

0.97

±ε

0.99

±ε

(vt) Poker Hand 0.50

±ε

0.01

±ε

0.00

±ε

0.00

±ε

0.84

±0.04

1.00

±ε

1.00

±ε

Covertype 0.60

^±ε

0.35

^±ε

0.00

^±ε

0.00

^±ε

1.00

^±ε

1.00

^±ε

1.00

^±ε

Contrôle 0.746

±ε

0.96

±0.02

0.43

±0.02

0.50

±ε

0.82

±0.01

0.99

±ε

1.00

±ε

SW-LinUCB RS-ASM 0.567

±ε

0.69

±ε

0.08

±0.01

0.33

±0.01

0.61

±0.01

0.85

±0.01

0.95

±0.01

(vt) Poker Hand 0.48

±ε

0.33

±ε

0.00

±ε

0.26

±0.01

0.50

±ε

0.67

±ε

0.85

±ε

Covertype 0.56

±ε

0.41

±ε

0.00

±ε

0.25

±ε

0.62

±ε

0.88

±ε

1.00

±ε

Tableau 2 – Résultats sur plusieurs jeux de données avec vecteur complet (vc) et vecteur tronqué (vt) (ε = 0.0009)

de Kruskal-Wallis pour vérifier l’inégalité des moyennes obtenues sur les critères observés sur l’ensemble des algo- rithmes, puis nous complétons ces tests par des comparai- son deux à deux en réalisant des tests de rang de Wilcoxon pour mettre en évidence la significativité statistique de ces inégalités.

5.1 Analyse Globale

Les analyses ci-dessous s’appuient sur les résultats présen- tés dans la Tableau 2 dont les CDFs sont illustrées Figure 1.

Tests Statistiques : Un test de Kruskal-Wallis pour chaque expérience nous indique qu’il y a une différence signifi- cative entre les mesures de précision de chacun des 3 al- gorithmes (p < 0.01). De plus, le test des rangs signés de Wilcoxon met en évidence une différence significative entre chaque paire d’algorithmes (p < 0.01).

Diversité : En ce qui concerne les expériences sur le jeu de données de contrôle nous observons comme attendu que lorsque nous fournissons un vecteur optimal x

^∗

les deux algorithmes de CMAB diversifient à 100%. Néanmoins, pour chaque jeu de données, lorsque nous perdons 25%

de l’information du vecteur d’origine, alors la diversité dé- croit pour les deux algorithmes de CMAB. En effet, ils ne réussissent pas à trouver la bonne politique en regard de la règle de correspondance cachée entre récompenses et di- mensions du contexte puisqu’une partie pertinente de ce contexte a été tronquée. En revanche, même si LinUCB ne diversifie pas autant que dans le cas où nous lui four- nissons un vecteur plus complet, SW-LinUCB quant à lui offre dans ces mêmes conditions une meilleure diversifica-

tion que l’algorithme original. Enfin, comme prévu, UCB agit comme un algorithme glouton à bornes supérieures de confiance : il trouve le bras optimal et continue de le tirer tout au long des itérations ce qui résulte en une valeur de diversité proche de 0.

Précision Globale VS Individuelle : Comme attendu, Li-

nUCB obtient la meilleure performance globale dans tous

les cas et pour tout jeu de données. Sans surprise, la pré-

cision globale diminue lorsque nous tronquons le vecteur

de contexte, mais il est important de noter que même avec

le niveau d’éparsité choisi dans notre expérience, les al-

gorithmes de CMABs restent encore meilleurs que l’al-

gorithme de MAB représenté par UCB. Cependant, nous

observons dans tous les cas (sauf quand x = x

^∗

), que Li-

nUCB crée un écart de précision individuelle très important

entre les utilisateurs. D’autre part, sur l’ensemble des jeux

de données et dans tous les cas (sauf quand x = x

^∗

), SW-

LinUCB perd en précision globale par rapport à LinUCB

mais en revanche trouve, grâce à son mécanisme de di-

versification, un meilleur compromis en ce qui concerne

la distribution de la précision individuelle. Enfin, pour tous

les jeux de données, nous observons que plus l’incomplé-

tude du vecteur de contexte est importante, plus un fossé

se crée entre les différentes précisions individuelles d’où

résultent distinctement une classe de précisions que l’on

peut catégoriser de hautes et une classe de précisions dites

basses. De la même manière, on remarque que plus x tend

vers x

^∗

, plus la distribution de la précision individuelle est

uniformément répartie parmi les utilisateurs.

(8)

F

IGURE

1 – Distribution de la précision individuelle pour chaque algorithme

5.2 Analyse Spécifique sur Covertype

Diversité : On observe que SW-LinUCB diversifie plus (vc : Div = 0.47, vt : Div = 0.41) que LinUCB (vc : Div = 0.44, vt : Div = 0.35) alors que l’algorithme UCB continue de tirer le même bras tout au long des itéra- tions (Div = 10

⁻³

). De plus, nous remarquons que lorsque x tend vers x

^∗

, les caractéristiques fournies en tant que di- mension du vecteur de contexte permettent à LinUCB et SW-LinUCB de diversifier d’avantage.

Précision Globale VS Individuelle : On observe que LinUCB conserve une meilleure précision globale (vc : Acc = 0.72, vt : Acc = 0.60) que SW-LinUCB (vc : Acc = 0.69, vt : Acc = 0.56). De plus, il est im- portant d’observer que le niveau d’incomplétude du vec- teur de contexte n’est pas encore assez important pour per- mettre à notre algorithme de MAB UCB d’être plus pré- cis (0.41). En outre, on observe Figure 1 et Tableau 2, que SW-LinUCB reste le meilleur en termes de distribution de la précision individuelle (vc : Q

1

= 0.40, vt : Q

1

= 0.25) que LinUCB (vc : Q

1

= 0.00, vt : Q

1

= 0.00). Ces derniers résultats montrent que notre mécanisme de diversification permet d’augmenter la précision individuelle de la classe dite basse avec la méthode d’origine. Enfin, la comparaison entre les résultats vc et vt montre que, pour les deux mé- thodes de CMAB, les précisions globales et individuelles sont toutes deux proportionnelles au niveau d’information et de complétude du vecteur contexte.

6 Conclusion et Perspectives

Dans cet article, nous proposons une nouvelle mesure pour les algorithmes de décision séquentielle visant à évaluer la distribution de la précision individuelle. Nous soute- nons que dans certains cas pratiques, la mesure de pré- cision globale n’est pas suffisante pour évaluer les algo- rithmes de CMAB et que la mesure de précision indivi- duelle doit également être prise en compte. De plus, nous proposons une nouvelle approche adaptée de l’algorithme original LinUCB visant à la fois à améliorer la précision in- dividuelle et à maintenir une bonne précision globale. Nous montrons qu’en privilégiant la diversité, notre algorithme SW-LinUCB offre un compromis entre précision globale et individuelle que nous pensons mieux adapté à un certain nombre d’applications du monde réel comme les systèmes de recommandations ou les essais cliniques.

Ainsi en perspectives, il semble pertinent de considérer les

deux opportunités suivantes : 1) Mettre en place des tech-

niques permettant la construction d’un vecteur plus précis

notamment par l’observation approfondie du contexte de

l’application concrète qui en découle afin de déterminer

les dimensions manquantes et pertinentes ; 2) Concevoir

un algorithme pour résoudre le problème multi-objectifs

de la maximisation des trois critères de précision globale,

de précision individuelle et de diversité. Nous pensons

qu’une approche portfolio c’est à dire tirant parti des avan-

tages de plusieurs algorithmes (notamment LinUCB et SW-

LinUCB) pourrait être envisagée.

(9)

Références

[1] L. Li, W. Chu, J. Langford, and R. E. Schapire, “A contextual-bandit approach to personalized news ar- ticle recommendation,” in Proceedings of the 19th in- ternational conference on World wide web. ACM, 2010, pp. 661–670.

[2] S. S. Villar, J. Bowden, and J. Wason, “Multi-armed bandit models for the optimal design of clinical trials : benefits and challenges,” Statistical science : a re- view journal of the Institute of Mathematical Statis- tics, vol. 30, no. 2, p. 199, 2015.

[3] S. Agrawal and N. Goyal, “Thompson sampling for contextual bandits with linear payoffs,” in Internatio- nal Conference on Machine Learning, 2013, pp. 127–

135. [4] D. Bouneffouf and R. Feraud, “Multi-armed bandit problem with known trend,” Neurocomputing, vol.

205, pp. 16–21, 2016.

[5] S. M. McNee, J. Riedl, and J. A. Konstan, “Being accurate is not enough : how accuracy metrics have hurt recommender systems,” in CHI’06 extended abstracts on Human factors in computing systems.

ACM, 2006, pp. 1097–1101.

[6] H. Robbins, “Some aspects of the sequential design of experiments,” Bulletin of the American Mathematical Society, pp. 527–535, 1952.

[7] T. L. Lai and H. Robbins, “Asymptotically efficient adaptive allocation rules,” Advances in applied ma- thematics, vol. 6, no. 1, pp. 4–22, 1985.

[8] P. Auer, “Using confidence bounds for exploitation- exploration trade-offs,” Journal of Machine Learning Research, vol. 3, no. Nov, pp. 397–422, 2002.

[9] S. Agrawal and N. Goyal, “Analysis of Thompson sampling for the multi-armed bandit problem,” in Conference on Learning Theory, 2012, pp. 39–1.

[10] J. Langford and T. Zhang, “The epoch-greedy algo- rithm for multi-armed bandits with side information,”

in Advances in neural information processing sys- tems, 2008, pp. 817–824.

[11] L. Zhou and E. Brunskill, “Latent contextual ban- dits and their application to personalized recommen- dations for new users,” In International Joint Confe- rences on Artificial Intelligence (IJCAI), 2016.

[12] D. Bouneffouf, I. Rish, G. A. Cecchi, and R. Feraud,

“Context attentive bandits : Contextual bandit with restricted context,” International Joint Conferences on Artificial Intelligence (IJCAI), 2017.

[13] S. Craw, B. Horsburgh, and S. Massie, “Music re- commenders : user evaluation without real users ?” In International Joint Conferences on Artificial Intelli- gence (IJCAI), 2015.

[14] A. Lacerda, “Contextual bandits for multi-objective recommender systems,” in Intelligent Systems (BRA- CIS), 2015 Brazilian Conference on. IEEE, 2015, pp. 68–73.

[15] M. Ge, C. Delgado-Battenfeld, and D. Jannach,

“Beyond accuracy : evaluating recommender systems by coverage and serendipity,” in Proceedings of the fourth ACM conference on Recommender systems.

ACM, 2010, pp. 257–260.

[16] X. Wang, Y. Guo, and C. Xu, “Recommendation al- gorithms for optimizing hit rate, user satisfaction and website revenue.” in In International Joint Confe- rences on Artificial Intelligence (IJCAI), 2015, pp.

1820–1826.

[17] A. Ashkan, B. Kveton, S. Berkovsky, and Z. Wen,

“Optimal greedy diversity for recommendation.” In International Joint Conferences on Artificial Intelli- gence (IJCAI), pp. 1742–1748, 2015.

[18] L. Hu, L. Cao, S. Wang, G. Xu, J. Cao, and Z. Gu, “Diversifying personalized recommendation with user-session context,” In International Joint Conferences on Artificial Intelligence (IJCAI), 2017.

[19] R. Allesiardo, R. Féraud, and D. Bouneffouf, “A neu- ral networks committee for the contextual bandit pro- blem,” in International Conference on Neural Infor- mation Processing. Springer, 2014, pp. 374–381.

[20] T. J. Walsh, I. Szita, C. Diuk, and M. L. Littman, “Ex- ploring compact reinforcement-learning representa- tions with linear regression,” in Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence. AUAI Press, 2009, pp. 591–598.

[21] A. Garivier and E. Moulines, “On upper-confidence bound policies for switching bandit problems,” in International Conference on Algorithmic Learning Theory. Springer, 2011, pp. 174–188.

[22] P. Whittle, “Restless bandits : Activity allocation in a changing world,” Journal of applied probability, vol. 25, no. A, pp. 287–298, 1988.

[23] A. Goëffon, F. Lardeux, and F. Saubion, “Simulating non-stationary operators in search algorithms,” Ap- plied Soft Computing, vol. 38, pp. 257–268, 2016.

[24] S. Li, A. Karatzoglou, and C. Gentile, “Collabora- tive filtering bandits,” in The 39th International ACM SIGIR Conference on Information Retrieval (SIGIR), 2016.