• Aucun résultat trouvé

Critères d’évaluation de la performance des algorithmes de bandits-manchots . 91

bandits-manchots . . . . 92

2.6 Synthèse . . . . 97

2.7 Bilan . . . 100

2.1 Introduction

Le problème du bandit-manchot (Multi-Armed Bandit - MAB)est un sujet qui a suscité de

nombreuses recherches depuis sa première formalisation en 1952 [Rob52]. De nombreuses

formulations ont pu être proposées : stochastiques [Aue02 ; BF16 ; LR85], ou encore

bayé-siennes [AG12]. Plus précisément, le défi pour tout problème de MAB consiste à construire

une stratégie visant à tirer le bras1 optimal sans connaissance préalable de la rentabilité de

chacun des bras disponibles. La résolution de ce problème consiste à trouver un compromis

entre l’exploration de l’ensemble des bras pour en déduire leurs rentabilités et l’exploitation de

ce qui a été inféré pour favoriser la sélection des bras optimaux. Une version étendue de ce

problème prend en compte le contexte. Il s’agit du problème de bandits-manchots contextuels

(Contextual Multi-Armed Bandit - CMAB) [AG13 ; LZ08]. Ainsi, dans une approche CMAB, le

défi visant à déterminer le bras optimal reste le même que pour un problème deMAB mais le

choix du bras doit tenir compte du contexte des utilisateurs.

Dans ce chapitre nous rappellerons le problème du bandit-manchot contextuel et

non-contextuel, et certains algorithmes permettant de le résoudre. Nous étendrons également la

définition du problème de bandits à celui de la recommandation et ce pour chaque cas

(contex-tuel et contex(contex-tuel). De plus, nous évoquerons les contraintes associées en termes de

non-stationnarité en fonction de l’algorithme employé pour résoudre le problème. Enfin, nous

dres-serons une synthèse sur l’ensemble des algorithmes que nous avons rappelés dans ce chapitre

afin de justifier les choix effectués pour notre sujet de recommandation à des utilisateurs

mo-biles.

2.2 Le problème du bandit-manchot

Avant de décrire le problème du bandit-manchot contextuel dans le cadre de la

recomman-dation, il convient de rappeler en amont le problème classique de bandits-manchots

stochas-tiques et des algorithmes pour les résoudre. De plus, tout au long de nos expérimentations,

nous confrontons les algorithmes deMABetCMABface à notre problématique concrète qu’est

la recommandation à des utilisateurs mobiles.

Notons, que dans le cadre de cette thèse, nous nous intéresserons plus particulièrement

au problème de bandits-manchots de type Bernoulli où les récompenses retournées par

l’uti-lisateur seront : 0 si l’util’uti-lisateur ne valide pas la recommandation qui lui a été faite (c.-à-d.,

recommandation non pertinente) ; 1 si l’utilisateur valide la recommandation qui lui a été faite

(c.-à-d., recommandation pertinente).

2.2.1 Définitions générales du problème des bandits-manchots

Selon [Rob52], nous pouvons définir formellement le problème de bandits-manchots

contex-tuels (voir Définition 1), les algorithmes pour le résoudre (Définition 2) et le regret (Définition 3).

Définition 1 . Problème du bandit-manchot (MAB). Dans un problème de MAB, il existe

une distribution de récompenses Dr de moyenne µa ∈ [0,1], et de support r ∈ [0,1]

(c.-à-d., r correspondant aux récompenses retournées), telle queDr = (µa

1

, ..., µa

k

) ∈ [0,1]k, où

A = {a1, ..., ak} un ensemble donné de k bras indépendants à tirer et µa

i

la probabilité de

récompense d’un bras ai, i ∈ [1, k] ⊆ N. Le problème est séquentiel : à chaque itération, un

échantillon(ra

1

, ..., ra

k

), ra

i

∈ {0,1}est tiré deDr, puis un brasaiAest choisi par l’agent, et

sa récompensera

i

est alors révélée.

Définition 2 . Algorithme de bandits-manchots (MAB). Un algorithme A de MAB

sélec-tionne un brasaiA, A={a1, ..., ak}à chaque itérationt, en se basant sur la séquence des

précédentes observations(ai,1, ra

i

,1), ...,(ai,t−1, ra

i

,t−1)et on conserver~tle vecteur de

2.2. Le problème du bandit-manchot

L’objectif est de maximiser la récompense totale attenduePT

t=1 Er~

t

D[r

a,t

]. Une politique

optimale a la connaissance des récompenses moyennes de chaque bras et joue a le bras

ayant la plus haute récompense moyenne, c.-à-d., a = arg max

aA

(µa). Ainsi, afin de mesurer

la performance d’un algorithme A de MAB, on peut mesurer le regret cumulé obtenuρT(A)

(T l’horizon) par rapport à celui d’une politique optimale. On peut donc donner la définition

suivante du regret (Définition 3).

Définition 3 . Le Regret. Le gain d’une politique optimale à l’horizon T est gT = PT

t=1ra

,t.

De ce fait, l’espérance du gain de la politique optimale est E[gT] = T µ. ConsidéronsAtout

algorithme de bandit-manchot. Le regret cumulé de l’algorithme ayant joué la séquence de bras

ai,1, ..., ai,T est doncρT =gT −PT

t=1ra

i

,t.

2.2.2 Énoncé du problème de bandits-manchots pour la recommandation

Un problème de bandits-manchots stochastiques est composé d’un ensemble de k bras

indépendants A={a1, ..., ak}. Lorsqu’on pose le problème du bandit-manchot pour la

recom-mandation à des utilisateurs uU, alors à chaque bras aA est associé un élément à

recommander, c’est à dire dans notre cas un service.

Chaque bras deA (c.-à-d., élément à recommander) possède une probabilité cachée de

récompense qu’on assumera constante dans un premier temps µa ∈ [0,1] traduit par une

distribution de récompense probable dans l’espace des bras Dr = (µa

1

, ..., µa

k

) ∈ [0,1]k. À

chaque itération t ∈ [1, T],T étant l’horizon, un utilisateur uU se présente pour recevoir

une recommandation. Alors, un agent actionne un bras atAt et observe la récompense

obtenuert,atirée depuisDµ

a

. Dans le cadre de la recommandation, cette récompense obtenue

correspond au retour de l’utilisateur (p. ex., évaluation, retour positif ou négatif). Un brasaest

ditoptimal si celui-ci permet de gagner, en moyenne, la récompense la plus élevée :

a = arg max

aA

(µa)

La récompense moyenne dea est de ce fait :

arg max

aA

(µa) =µa

L’objectif revient donc à trouver une stratégie garantissant de minimiser le regretρT à

l’ho-rizonT tel que :

ρT =T µ

T

X

t=1

b

rt

ou en d’autres termes permettant de tirer le bras optimal à chaque itérationttel que :

at = arg max

aA

Notons que les bandits-manchots stochastiques reposent sur l’hypothèse de stationnarité

des distributions [All16] où la distributionDrreste inchangée tout au long des itérations. Dans

ce cas, on peut considérer le problème de bandits-manchots comme un processus deMarkov

à état-unique.

2.2.3 Algorithmes de bandits-manchots pour la recommandation

À chaque itérationt, un algorithme résolvant le problème de bandits-manchots pour la

re-commandation doit donc sélectionner le meilleur élément à recommander (c.-à-d., le bras

op-timal) pour un utilisateur, en tenant compte de ses précédents retours (c.-à-d., récompenses).

De nombreux algorithmes ont été proposés pour résoudre le problème de bandits-manchots,

parmi lesquelsThompson Sampling (TS) défini par [AG12 ; Tho33],ε-Greedy [SB98 ; Wat89],

ε-first analysé par [EMM02 ; MT04],Upper Confidence Bounds (UCB)proposés par [Aue02],

ou encore des algorithmes de typeSoftmax [Luc12] commeEXP3[Aue+95].

Aussi, à la sous-section suivante nous rappelons ces algorithmes, parmi les plus populaires

de la littérature.

2.2.4 Les algorithmes de bandits-manchots

Dans cette sous-section, nous rappellerons différents algorithmes de bandits-manchots

(MAB)pouvant être employés pour la recommandation.

Il s’agira notamment d’algorithmes :

— de typegloutonavec un mécanisme d’exploration aléatoire :ε-Greedy [Wat89] etε-First

[EMM02] ;

— de typegloutonà bornes de confiance supérieureUCB1[Aue02] etUCB2[ACF02] ;

— de typegloutonà bornes de confiance supérieure avec un mécanisme de diversification

de type fenêtre glissanteSW-UCB[GM11] ;

— de type probabilisteThompson Sampling[AG12] ;

— avec adversaireSoftmax [Luc12] etEXP3[Aue+02].

Par soucis de clarté, pour chaque algorithme de bandits-manchots pour la

tion, le flux de données séquentiel d’utilisateurs se présentant pour recevoir une

recommanda-tion est simulé par une sélecrecommanda-tion aléatoire parmi les instances de l’ensemble du jeu de données

jusqu’à un horizonT défini dès le début. Le protocole de simulation sera précisé au Chapitre 4.

2.2.4.1 ε-Greedy

En premier lieu, à l’instar des algorithmes dits degloutons, le mécanisme d’ε-Greedy[Wat89]

suit une stratégie de sélection systématique du bras ayant la meilleure valeur d’action estimée.

Cette stratégie de sélection gloutonne se traduit par la sélection du bras considéré comme

optimal c’est à dire possédant la meilleure espérance de récompense mesurée :

arg max

aA

2.2. Le problème du bandit-manchot

µba,t est la moyenne représentant la valeur d’action moyenne estimée. ε-Greedy se base

certes sur le fonctionnement d’une stratégie gloutonne mais il incorpore en plus une

propor-tion constante ou décroissanteεd’exploration aléatoire [SB98 ; Wat89]. De ce fait, le principe

de l’algorithme ε -Greedy sera de choisir, à chaque itération, un bras (c.-à-d., élément à

re-commander) au hasard avec une probabilitéε∈[0,1]et le bras possédant la meilleure valeur

d’action estimée avec une probabilité de1−ε.

Il existe deux principales implémentations de l’algorithmeε-Greedy :

1. Avecε∈[0,1]fixe où si un ensemble de bras contientkbras, alors la borne supérieure

du regret [SB98] sera en :

O ε

k

X

aA

a

!

où∆a=µµa;

2. Avecεdécroissant où si un ensemble de bras contientkbras, alors la borne supérieure

du regret [SB98] sera en :

O klnT

∆2

min

!

où∆min= minaA\{a

}(µµa).

Ainsi, un algorithme de recommandation utilisantε-Greedy sélectionne les éléments à

re-commander selon l’algorithme 5 (voir Annexe A.1).

Bien que la vitesse de convergence soit inversement proportionnelle à ε, l’intérêt d’une

telle stratégie est qu’elle permet une meilleure exploration des solutions possibles. Néanmoins,

dans un cas de flux stationnaire seule une stratégie gloutonne peut garantir la convergence des

valeurs d’action estimées vers celles réelles. C’est pourquoi dans ce cadre, il peut devenir

in-téressant de faire diminuer la valeur d’ε au fur et à mesure des itérations afin de ré-adopter

une stratégie purement gloutonne [SB98 ; TP11]. En revanche, dans le cas de flux non

station-naires, la stratégie ε-Greedy classique (sans diminution d’ε) restera intéressante puisqu’elle

permettra l’exploration continue nécessaire à la recherche de la nouvelle meilleure valeur

d’ac-tion estimée.

2.2.4.2 ε-First

L’une des variantes les plus simples d’ε-Greedy est ε-first [EMM02]. La stratégie ε-first

consiste à effectuer la phase d’exploration en un seul tenant au début durant une période

prédéfinie sur l’ensemble des itérations TN. Ainsi, durant les εT premiers tours, les bras

sont sélectionnés au hasard. Puis, une fois cette phase d’exploration pure terminée, suit la

phase d’exploitation pure durant(1−ε)T itérations pendant lesquelles l’algorithme sélectionne

le bras ayant obtenu la moyenne estimée la plus élevée. À noter que comme pourε-Greedy,

Les analyses de [EMM02 ; MT04] ont démontré que si un ensemble de bras contientkbras,

alors la borne supérieure du regret de l’algorithmeε-first sera en :

O 1 +kln(2kT)

2min

!

Un algorithme de recommandation utilisantε-firstsélectionne les éléments à recommander

selon l’algorithme 6 (voir Annexe A.2).

2.2.4.3 UCB1etUCB2

UCB1 pour – Upper Confidence Bounds – [Aue02] se fonde sur les travaux de [Agr95 ;

Rob52]. UCB1 est un algorithme basé sur la notion d’optimisme face à l’incertitude et de

ce fait fonctionne sur le principe des stratégies à bornes de confiance. Il utilise la borne de

Chernoff-Hoeffding [Che+52 ; Hoe63] afin de calculer un intervalle de confiance sur la

récom-pense moyenneµade chaque brasa. Le mécanisme de base d’UCB1est de suivre une

straté-gie de sélection systématique du bras ayant la meilleure valeur d’action estimée. En revanche,

en plus de considérer ces valeurs d’action estimées, UCB1prendra également en compte la

confiance que l’on a en chacune de ces valeurs. De ce fait la stratégie d’UCB1dans notre cas

d’étude consistera en la sélection d’un élément à recommander (c.-à-d., un bras) comme suit :

arg max

aA b

µa,t+

s

αlnt

ta

!

treprésente l’itération courante (t∈[1, T]),ta le nombre de fois que le brasaa été

recom-mandé à l’itérationt, etαR+est un facteur multiplicateur où généralementα= 2. Lebonus

q

αlnt

t

a

représente quant à lui la valeur de l’intervalle de confiance cité précédemment.

Ainsi, il a été démontré par [Aue02] en utilisant l’inégalité deChernoff-Hoeffdingque :

P

"

c

µa+

s

αlnT

ta µa

#

≤exp

−2ta

αln(T)

ta

= 1

T2α

L’analyse de l’espérance du regret d’UCB1[Aue02] a démontré que :

E[ρT]≤8 X

a:∆

a

>0

lnT

a + 1 +

π2

3

!

X

a

où∆a=µµa. Ainsi pour un ensemble dekbras, alors la borne supérieure du regret [Aue02]

sera en :

O

klnT

min

2.2. Le problème du bandit-manchot

Un algorithme de recommandation utilisantUCB1sélectionne les éléments à recommander

selon l’algorithme 7 (voir Annexe A.3).

L’un des inconvénients majeurs d’UCB1est qu’il dépend fortement des conditions initiales.

Ainsi, l’une des améliorations intéressantes d’UCB1estUCB2. Il permet de réduire la fraction

de temps pendant laquelle un bras sous-optimal est sélectionné, réduisant ainsi le regret global,

au prix d’un algorithme légèrement plus compliqué.

UCB2 [ACF02], est une amélioration dite itérative d’UCB1 basée sur des époques dont la

longueur augmente de façon exponentielle au cours du temps [BLL15].

La stratégie d’UCB2 consiste en la sélection d’un brasa(c.-à-d., élément à recommander)

comme suit :

arg max

aA b

µa+

s

(1 +α)(lne ta/(1 +α)j

a

)

2 + (1 +α)j

a

!

durant[(1 +α)j

a

+1−(1 +α)j

a

]fois avant de terminer l’époque et de choisir un nouveau bras.

Notons que jaest un compteur indiquant combien d’époques le brasaA a été sélectionné

et0< α <1est un paramètre qui influence le taux d’apprentissage.

Selon l’analyse de [ACF02], si un ensemble de bras contient kbras, alors la borne

supé-rieure du regret d’UCB2pourt≥maxa:µ

a

1

2∆

2 a

sera en :

O

X

a:µ

a

(1 +α)(1 + 4α) ln(2e2at)

2∆a +

a

eest la constante d’Euler et comme prouvé par [ACF02] :

cα = 1 +(1 +α e)

α2 +(1 +α)

α(1+α)(1 + 11(1 +α)

5α2ln(1 +α))

2.2.4.4 Thompson Sampling (TS)

Poursuivons par la plus ancienne des politiques datant de 1933 : l’échantillonnage de

Thompson (ouThompson Sampling - TS) [Tho33].

TSoffre des performances équivalentes à celles d’autres algorithmes tels queε-Greedyou

de typeUCB, et donne même de meilleurs résultats dans plusieurs cas d’utilisation tels que la

recommandation d’articles d’actualités ou de publicités [CL11].

À l’instar d’ε-Greedy, il s’agit d’une politique randomisée [Lou+15], à la différence près que

Thompson Sampling utilise l’aléatoire d’une autre manière, c.-à-d., d’inspiration bayésienne.

Ainsi, Thompson Sampling (TS) [AG12 ; Tho33] est l’une des approches classiques du

pro-blème de bandits-manchots, connue comme une méthode bayésienne d’échantillonnage a

posteriori.

Concrètement,TSconsiste à tirer à chaque itérationtun échantillonγa,tde la loi a posteriori

couranteP rµt,a), oùµt,aest la moyenne de récompense (ou la probabilité de succès) du brasa

à l’itérationt, et à sélectionner le bras ayant conduit à l’échantillon correspondant à la moyenne

la plus élevée, c.-à-d., at = arg maxγa,t. Ainsi, avecTS, on suppose que la récompense rt,a

obtenue après la sélection d’un brasaà l’itérationtsuit la distributionP r(rt,a|µt,a˜ ).

La plupart des travaux, dont ceux menés dans cette thèse, considère le problème de

bandit-manchot sous sa forme deBernoulli avec des récompenses binaires, c.-à-d.,rt,a ∈ {0,1}. Par

conséquent, on considère St,a le nombre de succès observés (rt,a = 1), et Ft,a le nombre

d’échecs observés (rt,a= 0). DansTS, comme la distribution a prioriP rµt,a) est donnée par

Beta(St,a + 1, Ft,a + 1), alors la distribution a posteriori P rµt,a|rt,a) ∝ P r(rt,a|µt,a˜ )P rµt,a)

à l’itération t+ 1 est calculée en utilisant le théorème de Bayes comme suit : Beta(St+1,a +

1, Ft+1,a+ 1).

Plus précisément, TS procède comme suit : à l’initialisation, TS suppose que chaque bras

aA possède une distribution bêta antérieure Beta(1,1) sur µa. Puis, à chaque itération

t, l’algorithme de TS génère des échantillons indépendants γt,a à partir de la distribution a

posteriori µt,a˜ , et sélectionne le bras obtenant la plus grande valeur obtenue de l’échantillon

généré (c.-à-d., at = arg maxaAγt,a). Finalement l’algorithme incrémente St,a et Ft,a selon

la récompense obtenue suite à la recommandation du bras a (c.-à-d., recommandation de

l’élément à l’utilisateur).

Selon l’analyse de [AG12], si un ensemble de bras contientkbras, alors la borne supérieure

du regret deTSsera en :

O

( X

a:∆

a

>0

1

a)

2lnT

Ainsi, un algorithme de recommandation utilisantTS [AG12] sélectionne les éléments

(c.-à-d., bras) à recommander selon l’algorithme 8 (voir Annexe A.4).

2.2.4.5 Softmax

Originellement, la stratégieSoftmax [Luc12] consiste en un choix aléatoire selon une

distri-bution deGibbs[Luc05 ; Luc]. Ainsi, dans le cadre de l’utilisation deSoftmax pour un problème

de bandits-manchots, le bras a(c.-à-d., l’élément à recommander) est choisi avec une

proba-bilitépadéfinie comme suit :

pa = e

µa

b

τ

Pk

i=1e

µa

b

τ

τR+ est un paramètre appelétempérature tel que plusτ → ∞alors plus on explore, et

plusτ →0plus on exploite. Il est alors possible de paramétrer les valeurs deτ pour favoriser

soit l’exploration soit l’exploitation.

Dans le cadre de l’utilisation deSoftmax selon une distribution deGibbs, alorsτ est choisi

dès de le départ et reste constant [VM05]. A contrario, une autre version de la stratégie de

Softmax consiste à travailler sur une distribution de Boltzmann [CF98] où la valeur de τ est

décroissante au fur et à mesure des itérations [CF98]. À l’origine, ces distributions furent

2.2. Le problème du bandit-manchot

semblait plus adaptée puisqu’elle tient compte de l’entropie d’un système avec une valeur de

τ décroissante, au contraire de la distribution deGibbs[Jay65]. En paramétrant unτ

décrois-sant au fur et à mesure des itérations, une approche selon la distribution deBoltzmannsemble

donc plus adaptée dans le cas d’une distribution stationnaire, puisqu’elle permet de favoriser

une phase exploratoire en premier lieu, puis de passer au fur et à mesure sur une phase

d’ex-ploitation de la meilleure solution identifiée.

C’est le cas de l’algorithme deMetropolis-Hastingsqui est une méthode deMonte-Carlopar

chaînes deMarkov. Il a été développé pour décrire l’évolution d’un système thermodynamique.

Cet algorithme permet de calculer une distribution de probabilité en construisant la chaîne de

Markov correspondant à la distributionDr.

Softmax Annealing est l’un des algorithmes adapté de Metropolis-Hastings utilisé dans

le cadre de résolution du problème de bandit-manchot et qui utilise une décroissance de la

températureτ telle queτ = ln1t.

Ainsi, pour nos expérimentations nous avons implémenté l’algorithmeSoftmax Annealing

afin qu’il sélectionne un bras a(c.-à-d., l’élément à recommander), à chaque itérationt, avec

une probabilitéPs(t)définie comme suit :

Pa,t= eµb

a

ln (t)

Pk

i=1eµb

a

ln (t)

Selon l’analyse de [Aue+95], si un ensemble de bras contientkbras, alors la borne

supé-rieure du regret deSoftmax Annealingsera en :

O2Tlnk

Ainsi, un algorithme de recommandation utilisant Softmax Annealing sélectionne les

élé-ments à recommander selon l’algorithme 9 (voir Annexe A.5).

2.2.5 Non-stationnarité dans les bandits-manchots

Dans certains cadres applicatifs, comme c’est le cas pour les systèmes de

recommanda-tion, la distribution des probabilités Dr peut évoluer au cours du temps. Dans le cadre des

bandits-manchots, on peut modéliser la non-stationnarité existante soit en la définissant par

parties, soit de manièrecontinue.

Afin de simuler une stationnarité par partie, un adversaire défini à l’avancem−1points de

ruptures permettant de définir des périodesTx de stationnarité oùx est l’indice de la période.

La simulation est de ce fait décomposée ennmpériodes stationnaires égales. Par exemple,

si on considère qu’une période de recommandation correspond à 5000itérations, alors nous

avons des périodes Tx de 5000 itérations correspondant à[Tx, Tx+1[. Une période Tx débute

quandarg max

aA

µa,T

x

6= arg max

aA

Txcomme étant :

ax= arg max

aA

µa,T

x

Il devient alors possible de considérer le problème en le modélisant via une chaîne de

Markov dont la probabilité d’apparition d’un événement dépend uniquement de l’état courant

[All16]. Cette modélisation peut être approfondie avec le modèle desrestless bandits[GLS16].

Dans celui-ci, les probabilités de transition peuvent être différentes suivant si un bras a été joué

ou non. La politique optimale des algorithmes de restless bandits maximise la récompense

obtenue en tirant parti des probabilités de transition. Ainsi, selon [GLS16], dans un problème

de bandit-manchot,∀aA, nous avons :

— un ensemble d’étatsEa;

— un ensemble de probabilités{Pa=εajn|j, nEa}tel queεajnest la probabilité d’être

à l’étatnsi le brasaest sélectionné à l’étatj;

— un ensemble de gainsGa = {gja|jEa} où gaj est le gain obtenu quand le bras aest

sélectionné à l’étatj.

2.2.5.1 Résoudre les problèmes de non-stationnarité

La littérature, présente un certain nombre d’exemples de problèmes non-stationnaires et

des techniques permettant de les résoudre [All16].

Parmi ces techniques, nous pouvons relever celles mettant en œuvre une forme de

péna-lisation des solutions les plus utilisées. Cette pénapéna-lisation prend forme au fur et à mesure des

itérations via l’utilisation :

— d’un facteur γ décroissant au cours du temps pondérant le calcul de la moyenne des

récompenses [KS06]. Plus γ est proche de 1 plus l’algorithme fonctionne comme son

modèle d’origine, a contrario plusγ tend vers 0 plus on force l’exploration de nouvelles

solutions en donnant moins d’importance aux solutions déjà sélectionnées ;

— d’une fenêtre glissante permettant de prendre en compte un historique plus ou moins

important [GM11 ; GLS16]. Une fenêtre glissante de taillewsizea pour principal objectif

de pénaliser les solutions qui ont été le plus sollicitées en se basant sur l’historique des

récompenses obtenues pour chaque solution au cours deswsizedernières itérations.

De façon générale, ces techniques permettent de forcer l’exploration d’autres possibilités jusque

là considérées comme sous optimales. C’est le cas pour des algorithmes de bandits-manchots

(MAB) commeDiscount-UCB (D-UCB) [KS06] etSliding Window-UCB (SW-UCB) [GM11], ou

encore des algorithmes de recherche d’opérateurs en environnement non stationnaire [GLS16].

D-UCBpar exemple permet d’estimer l’espérance des récompenses d’un bras à un instant

donné en utilisant un facteurγdiminuant au cours du temps. Ce facteur biaise ainsi la moyenne

des récompenses des bras trop sélectionnés en faveur d’observations plus récentes, ce qui

revient à donner plus d’importance aux exemples récents plutôt qu’aux exemples anciens.

SW-UCB quant à lui utilise une fenêtre d’historique de taille H permettant d’obtenir, au