bandits-manchots . . . . 92
2.6 Synthèse . . . . 97
2.7 Bilan . . . 100
2.1 Introduction
Le problème du bandit-manchot (Multi-Armed Bandit - MAB)est un sujet qui a suscité de
nombreuses recherches depuis sa première formalisation en 1952 [Rob52]. De nombreuses
formulations ont pu être proposées : stochastiques [Aue02 ; BF16 ; LR85], ou encore
bayé-siennes [AG12]. Plus précisément, le défi pour tout problème de MAB consiste à construire
une stratégie visant à tirer le bras1 optimal sans connaissance préalable de la rentabilité de
chacun des bras disponibles. La résolution de ce problème consiste à trouver un compromis
entre l’exploration de l’ensemble des bras pour en déduire leurs rentabilités et l’exploitation de
ce qui a été inféré pour favoriser la sélection des bras optimaux. Une version étendue de ce
problème prend en compte le contexte. Il s’agit du problème de bandits-manchots contextuels
(Contextual Multi-Armed Bandit - CMAB) [AG13 ; LZ08]. Ainsi, dans une approche CMAB, le
défi visant à déterminer le bras optimal reste le même que pour un problème deMAB mais le
choix du bras doit tenir compte du contexte des utilisateurs.
Dans ce chapitre nous rappellerons le problème du bandit-manchot contextuel et
non-contextuel, et certains algorithmes permettant de le résoudre. Nous étendrons également la
définition du problème de bandits à celui de la recommandation et ce pour chaque cas
(contex-tuel et contex(contex-tuel). De plus, nous évoquerons les contraintes associées en termes de
non-stationnarité en fonction de l’algorithme employé pour résoudre le problème. Enfin, nous
dres-serons une synthèse sur l’ensemble des algorithmes que nous avons rappelés dans ce chapitre
afin de justifier les choix effectués pour notre sujet de recommandation à des utilisateurs
mo-biles.
2.2 Le problème du bandit-manchot
Avant de décrire le problème du bandit-manchot contextuel dans le cadre de la
recomman-dation, il convient de rappeler en amont le problème classique de bandits-manchots
stochas-tiques et des algorithmes pour les résoudre. De plus, tout au long de nos expérimentations,
nous confrontons les algorithmes deMABetCMABface à notre problématique concrète qu’est
la recommandation à des utilisateurs mobiles.
Notons, que dans le cadre de cette thèse, nous nous intéresserons plus particulièrement
au problème de bandits-manchots de type Bernoulli où les récompenses retournées par
l’uti-lisateur seront : 0 si l’util’uti-lisateur ne valide pas la recommandation qui lui a été faite (c.-à-d.,
recommandation non pertinente) ; 1 si l’utilisateur valide la recommandation qui lui a été faite
(c.-à-d., recommandation pertinente).
2.2.1 Définitions générales du problème des bandits-manchots
Selon [Rob52], nous pouvons définir formellement le problème de bandits-manchots
contex-tuels (voir Définition 1), les algorithmes pour le résoudre (Définition 2) et le regret (Définition 3).
Définition 1 . Problème du bandit-manchot (MAB). Dans un problème de MAB, il existe
une distribution de récompenses Dr de moyenne µa ∈ [0,1], et de support r ∈ [0,1]
(c.-à-d., r correspondant aux récompenses retournées), telle queDr = (µa
1, ..., µa
k) ∈ [0,1]k, où
A = {a1, ..., ak} un ensemble donné de k bras indépendants à tirer et µa
ila probabilité de
récompense d’un bras ai, i ∈ [1, k] ⊆ N. Le problème est séquentiel : à chaque itération, un
échantillon(ra
1, ..., ra
k), ra
i∈ {0,1}est tiré deDr, puis un brasai∈Aest choisi par l’agent, et
sa récompensera
iest alors révélée.
Définition 2 . Algorithme de bandits-manchots (MAB). Un algorithme A de MAB
sélec-tionne un brasai ∈A, A={a1, ..., ak}à chaque itérationt, en se basant sur la séquence des
précédentes observations(ai,1, ra
i,1), ...,(ai,t−1, ra
i,t−1)et on conserver~tle vecteur de
2.2. Le problème du bandit-manchot
L’objectif est de maximiser la récompense totale attenduePT
t=1 Er~
t∼D[r
a,t]. Une politique
optimale a la connaissance des récompenses moyennes de chaque bras et joue a∗ le bras
ayant la plus haute récompense moyenne, c.-à-d., a∗ = arg max
a∈A
(µa). Ainsi, afin de mesurer
la performance d’un algorithme A de MAB, on peut mesurer le regret cumulé obtenuρT(A)
(T l’horizon) par rapport à celui d’une politique optimale. On peut donc donner la définition
suivante du regret (Définition 3).
Définition 3 . Le Regret. Le gain d’une politique optimale à l’horizon T est g∗T = PT
t=1ra
∗,t.
De ce fait, l’espérance du gain de la politique optimale est E[gT∗] = T µ∗. ConsidéronsAtout
algorithme de bandit-manchot. Le regret cumulé de l’algorithme ayant joué la séquence de bras
ai,1, ..., ai,T est doncρT =gT∗ −PT
t=1ra
i,t.
2.2.2 Énoncé du problème de bandits-manchots pour la recommandation
Un problème de bandits-manchots stochastiques est composé d’un ensemble de k bras
indépendants A={a1, ..., ak}. Lorsqu’on pose le problème du bandit-manchot pour la
recom-mandation à des utilisateurs u ∈ U, alors à chaque bras a ∈ A est associé un élément à
recommander, c’est à dire dans notre cas un service.
Chaque bras deA (c.-à-d., élément à recommander) possède une probabilité cachée de
récompense qu’on assumera constante dans un premier temps µa ∈ [0,1] traduit par une
distribution de récompense probable dans l’espace des bras Dr = (µa
1, ..., µa
k) ∈ [0,1]k. À
chaque itération t ∈ [1, T],T étant l’horizon, un utilisateur u ∈ U se présente pour recevoir
une recommandation. Alors, un agent actionne un bras at ∈ At et observe la récompense
obtenuert,atirée depuisDµ
a. Dans le cadre de la recommandation, cette récompense obtenue
correspond au retour de l’utilisateur (p. ex., évaluation, retour positif ou négatif). Un brasaest
ditoptimal si celui-ci permet de gagner, en moyenne, la récompense la plus élevée :
a∗ = arg max
a∈A
(µa)
La récompense moyenne dea∗ est de ce fait :
arg max
a∈A
(µa) =µ∗a
L’objectif revient donc à trouver une stratégie garantissant de minimiser le regretρT à
l’ho-rizonT tel que :
ρT =T µ∗−
T
X
t=1
b
rt
ou en d’autres termes permettant de tirer le bras optimal à chaque itérationttel que :
a∗t = arg max
a∈A
Notons que les bandits-manchots stochastiques reposent sur l’hypothèse de stationnarité
des distributions [All16] où la distributionDrreste inchangée tout au long des itérations. Dans
ce cas, on peut considérer le problème de bandits-manchots comme un processus deMarkov
à état-unique.
2.2.3 Algorithmes de bandits-manchots pour la recommandation
À chaque itérationt, un algorithme résolvant le problème de bandits-manchots pour la
re-commandation doit donc sélectionner le meilleur élément à recommander (c.-à-d., le bras
op-timal) pour un utilisateur, en tenant compte de ses précédents retours (c.-à-d., récompenses).
De nombreux algorithmes ont été proposés pour résoudre le problème de bandits-manchots,
parmi lesquelsThompson Sampling (TS) défini par [AG12 ; Tho33],ε-Greedy [SB98 ; Wat89],
ε-first analysé par [EMM02 ; MT04],Upper Confidence Bounds (UCB)proposés par [Aue02],
ou encore des algorithmes de typeSoftmax [Luc12] commeEXP3[Aue+95].
Aussi, à la sous-section suivante nous rappelons ces algorithmes, parmi les plus populaires
de la littérature.
2.2.4 Les algorithmes de bandits-manchots
Dans cette sous-section, nous rappellerons différents algorithmes de bandits-manchots
(MAB)pouvant être employés pour la recommandation.
Il s’agira notamment d’algorithmes :
— de typegloutonavec un mécanisme d’exploration aléatoire :ε-Greedy [Wat89] etε-First
[EMM02] ;
— de typegloutonà bornes de confiance supérieureUCB1[Aue02] etUCB2[ACF02] ;
— de typegloutonà bornes de confiance supérieure avec un mécanisme de diversification
de type fenêtre glissanteSW-UCB[GM11] ;
— de type probabilisteThompson Sampling[AG12] ;
— avec adversaireSoftmax [Luc12] etEXP3[Aue+02].
Par soucis de clarté, pour chaque algorithme de bandits-manchots pour la
tion, le flux de données séquentiel d’utilisateurs se présentant pour recevoir une
recommanda-tion est simulé par une sélecrecommanda-tion aléatoire parmi les instances de l’ensemble du jeu de données
jusqu’à un horizonT défini dès le début. Le protocole de simulation sera précisé au Chapitre 4.
2.2.4.1 ε-Greedy
En premier lieu, à l’instar des algorithmes dits degloutons, le mécanisme d’ε-Greedy[Wat89]
suit une stratégie de sélection systématique du bras ayant la meilleure valeur d’action estimée.
Cette stratégie de sélection gloutonne se traduit par la sélection du bras considéré comme
optimal c’est à dire possédant la meilleure espérance de récompense mesurée :
arg max
a∈A
2.2. Le problème du bandit-manchot
où µba,t est la moyenne représentant la valeur d’action moyenne estimée. ε-Greedy se base
certes sur le fonctionnement d’une stratégie gloutonne mais il incorpore en plus une
propor-tion constante ou décroissanteεd’exploration aléatoire [SB98 ; Wat89]. De ce fait, le principe
de l’algorithme ε -Greedy sera de choisir, à chaque itération, un bras (c.-à-d., élément à
re-commander) au hasard avec une probabilitéε∈[0,1]et le bras possédant la meilleure valeur
d’action estimée avec une probabilité de1−ε.
Il existe deux principales implémentations de l’algorithmeε-Greedy :
1. Avecε∈[0,1]fixe où si un ensemble de bras contientkbras, alors la borne supérieure
du regret [SB98] sera en :
O ε
k
X
a∈A
∆a
!
où∆a=µ∗−µa;
2. Avecεdécroissant où si un ensemble de bras contientkbras, alors la borne supérieure
du regret [SB98] sera en :
O klnT
∆2
min
!
où∆min= mina∈A\{a
∗}(µ∗−µa).
Ainsi, un algorithme de recommandation utilisantε-Greedy sélectionne les éléments à
re-commander selon l’algorithme 5 (voir Annexe A.1).
Bien que la vitesse de convergence soit inversement proportionnelle à ε, l’intérêt d’une
telle stratégie est qu’elle permet une meilleure exploration des solutions possibles. Néanmoins,
dans un cas de flux stationnaire seule une stratégie gloutonne peut garantir la convergence des
valeurs d’action estimées vers celles réelles. C’est pourquoi dans ce cadre, il peut devenir
in-téressant de faire diminuer la valeur d’ε au fur et à mesure des itérations afin de ré-adopter
une stratégie purement gloutonne [SB98 ; TP11]. En revanche, dans le cas de flux non
station-naires, la stratégie ε-Greedy classique (sans diminution d’ε) restera intéressante puisqu’elle
permettra l’exploration continue nécessaire à la recherche de la nouvelle meilleure valeur
d’ac-tion estimée.
2.2.4.2 ε-First
L’une des variantes les plus simples d’ε-Greedy est ε-first [EMM02]. La stratégie ε-first
consiste à effectuer la phase d’exploration en un seul tenant au début durant une période
prédéfinie sur l’ensemble des itérations T ∈ N. Ainsi, durant les εT premiers tours, les bras
sont sélectionnés au hasard. Puis, une fois cette phase d’exploration pure terminée, suit la
phase d’exploitation pure durant(1−ε)T itérations pendant lesquelles l’algorithme sélectionne
le bras ayant obtenu la moyenne estimée la plus élevée. À noter que comme pourε-Greedy,
Les analyses de [EMM02 ; MT04] ont démontré que si un ensemble de bras contientkbras,
alors la borne supérieure du regret de l’algorithmeε-first sera en :
O 1 +kln(2kT)
∆2min
!
Un algorithme de recommandation utilisantε-firstsélectionne les éléments à recommander
selon l’algorithme 6 (voir Annexe A.2).
2.2.4.3 UCB1etUCB2
UCB1 pour – Upper Confidence Bounds – [Aue02] se fonde sur les travaux de [Agr95 ;
Rob52]. UCB1 est un algorithme basé sur la notion d’optimisme face à l’incertitude et de
ce fait fonctionne sur le principe des stratégies à bornes de confiance. Il utilise la borne de
Chernoff-Hoeffding [Che+52 ; Hoe63] afin de calculer un intervalle de confiance sur la
récom-pense moyenneµade chaque brasa. Le mécanisme de base d’UCB1est de suivre une
straté-gie de sélection systématique du bras ayant la meilleure valeur d’action estimée. En revanche,
en plus de considérer ces valeurs d’action estimées, UCB1prendra également en compte la
confiance que l’on a en chacune de ces valeurs. De ce fait la stratégie d’UCB1dans notre cas
d’étude consistera en la sélection d’un élément à recommander (c.-à-d., un bras) comme suit :
arg max
a∈A b
µa,t+
s
αlnt
ta
!
oùtreprésente l’itération courante (t∈[1, T]),ta le nombre de fois que le brasaa été
recom-mandé à l’itérationt, etα∈R+est un facteur multiplicateur où généralementα= 2. Lebonus
q
αlnt
t
areprésente quant à lui la valeur de l’intervalle de confiance cité précédemment.
Ainsi, il a été démontré par [Aue02] en utilisant l’inégalité deChernoff-Hoeffdingque :
P
"
c
µa+
s
αlnT
ta ≤µa
#
≤exp
−2ta
αln(T)
ta
= 1
T2α
L’analyse de l’espérance du regret d’UCB1[Aue02] a démontré que :
E[ρT]≤8 X
a:∆
a>0
lnT
∆a + 1 +
π2
3
!
X
∆a
où∆a=µ∗−µa. Ainsi pour un ensemble dekbras, alors la borne supérieure du regret [Aue02]
sera en :
O
klnT
∆min
2.2. Le problème du bandit-manchot
Un algorithme de recommandation utilisantUCB1sélectionne les éléments à recommander
selon l’algorithme 7 (voir Annexe A.3).
L’un des inconvénients majeurs d’UCB1est qu’il dépend fortement des conditions initiales.
Ainsi, l’une des améliorations intéressantes d’UCB1estUCB2. Il permet de réduire la fraction
de temps pendant laquelle un bras sous-optimal est sélectionné, réduisant ainsi le regret global,
au prix d’un algorithme légèrement plus compliqué.
UCB2 [ACF02], est une amélioration dite itérative d’UCB1 basée sur des époques dont la
longueur augmente de façon exponentielle au cours du temps [BLL15].
La stratégie d’UCB2 consiste en la sélection d’un brasa(c.-à-d., élément à recommander)
comme suit :
arg max
a∈A b
µa+
s
(1 +α)(lne ta/(1 +α)j
a)
2 + (1 +α)j
a!
durant[(1 +α)j
a+1−(1 +α)j
a]fois avant de terminer l’époque et de choisir un nouveau bras.
Notons que jaest un compteur indiquant combien d’époques le brasa ∈A a été sélectionné
et0< α <1est un paramètre qui influence le taux d’apprentissage.
Selon l’analyse de [ACF02], si un ensemble de bras contient kbras, alors la borne
supé-rieure du regret d’UCB2pourt≥maxa:µ
a<µ
∗1
2∆
2 asera en :
O
X
a:µ
a<µ
∗(1 +α)(1 + 4α) ln(2e∆2at)
2∆a +
cα
∆a
oùeest la constante d’Euler et comme prouvé par [ACF02] :
cα = 1 +(1 +α e)
α2 +(1 +α)
α(1+α)(1 + 11(1 +α)
5α2ln(1 +α))
2.2.4.4 Thompson Sampling (TS)
Poursuivons par la plus ancienne des politiques datant de 1933 : l’échantillonnage de
Thompson (ouThompson Sampling - TS) [Tho33].
TSoffre des performances équivalentes à celles d’autres algorithmes tels queε-Greedyou
de typeUCB, et donne même de meilleurs résultats dans plusieurs cas d’utilisation tels que la
recommandation d’articles d’actualités ou de publicités [CL11].
À l’instar d’ε-Greedy, il s’agit d’une politique randomisée [Lou+15], à la différence près que
Thompson Sampling utilise l’aléatoire d’une autre manière, c.-à-d., d’inspiration bayésienne.
Ainsi, Thompson Sampling (TS) [AG12 ; Tho33] est l’une des approches classiques du
pro-blème de bandits-manchots, connue comme une méthode bayésienne d’échantillonnage a
posteriori.
Concrètement,TSconsiste à tirer à chaque itérationtun échantillonγa,tde la loi a posteriori
couranteP r(˜µt,a), oùµt,aest la moyenne de récompense (ou la probabilité de succès) du brasa
à l’itérationt, et à sélectionner le bras ayant conduit à l’échantillon correspondant à la moyenne
la plus élevée, c.-à-d., a∗t = arg maxγa,t. Ainsi, avecTS, on suppose que la récompense rt,a
obtenue après la sélection d’un brasaà l’itérationtsuit la distributionP r(rt,a|µt,a˜ ).
La plupart des travaux, dont ceux menés dans cette thèse, considère le problème de
bandit-manchot sous sa forme deBernoulli avec des récompenses binaires, c.-à-d.,rt,a ∈ {0,1}. Par
conséquent, on considère St,a le nombre de succès observés (rt,a = 1), et Ft,a le nombre
d’échecs observés (rt,a= 0). DansTS, comme la distribution a prioriP r(˜µt,a) est donnée par
Beta(St,a + 1, Ft,a + 1), alors la distribution a posteriori P r(˜µt,a|rt,a) ∝ P r(rt,a|µt,a˜ )P r(˜µt,a)
à l’itération t+ 1 est calculée en utilisant le théorème de Bayes comme suit : Beta(St+1,a +
1, Ft+1,a+ 1).
Plus précisément, TS procède comme suit : à l’initialisation, TS suppose que chaque bras
a ∈ A possède une distribution bêta antérieure Beta(1,1) sur µa. Puis, à chaque itération
t, l’algorithme de TS génère des échantillons indépendants γt,a à partir de la distribution a
posteriori µt,a˜ , et sélectionne le bras obtenant la plus grande valeur obtenue de l’échantillon
généré (c.-à-d., at = arg maxa∈Aγt,a). Finalement l’algorithme incrémente St,a et Ft,a selon
la récompense obtenue suite à la recommandation du bras a (c.-à-d., recommandation de
l’élément à l’utilisateur).
Selon l’analyse de [AG12], si un ensemble de bras contientkbras, alors la borne supérieure
du regret deTSsera en :
O
( X
a:∆
a>0
1
∆a)
2lnT
Ainsi, un algorithme de recommandation utilisantTS [AG12] sélectionne les éléments
(c.-à-d., bras) à recommander selon l’algorithme 8 (voir Annexe A.4).
2.2.4.5 Softmax
Originellement, la stratégieSoftmax [Luc12] consiste en un choix aléatoire selon une
distri-bution deGibbs[Luc05 ; Luc]. Ainsi, dans le cadre de l’utilisation deSoftmax pour un problème
de bandits-manchots, le bras a(c.-à-d., l’élément à recommander) est choisi avec une
proba-bilitépadéfinie comme suit :
pa = e
µab
τ
Pk
i=1e
µab
τ