• Aucun résultat trouvé

Réduction en problèmes de bandits stationnaires

R(T ) = T X t=0m− µmt) + T X t=0mt − µmt(t)) .

6.3 Réduction en problèmes de bandits

station-naires

Une première solution au problème de sélection d'experts apprenant est de sup-primer la non-stationnarité au travers d'une approche Apprendre puis Explorer et Exploiter (LTEE) :

 M problèmes de bandits contextuels sont initialisés et résolus durant la phase d'apprentissage,

 un algorithme de bandits stationnaires est ensuite utilisé pour sélectionner le meilleur expert.

Les algorithmes de bandits contextuels apprennent les dépendances entre contextes, bras et récompenses et optimisent l'erreur due à la variance. La tâche de sélection d'experts apprenants réduit ensuite l'erreur due au biais des politiques.

6.3.1 Apprendre puis Explorer et Exploiter

Phase d'apprentissage

Lors de la phase d'apprentissage, les bras sont joués de manière séquentielle an d'obtenir un apprentissage non biaisé des experts. La taille de cette période d'ap-prentissage est contrôlée par la complexité d'échantillonnage des experts. Dans le cas où ceux-ci sont capables d'apprendre en parallèle, l'apprentissage est stoppé

6.3.1 - Apprendre puis Explorer et Exploiter 107

lorsque le nombre d'observations correspond à la complexité d'échantillonnage maximale parmi les experts. Lorsque les experts nécessitent un apprentissage sé-quentiel, la somme des complexités d'échantillonnage est utilisée à la place. Les algorithmes Forêts de bandits ou les bandits linéaires [69] possèdent des com-plexités d'échantillonnage connues.

Dénition. La complexité d'échantillonnage nm de l'expert m est le nombre d'observations tirées depuis Dx,y nécessaires pour trouver π

m avec une probabi-lité d'au moins 1 − δ.

Proposition 2. Soit m experts pouvant apprendre à partir d'un tirage uniforme des actions et ayant des complexité d'échantillonnage nm. Après avoir obtenu n ob-servations depuis Dx,y en tirant les actions uniformément, la récompense moyenne de chaque expert m est µm avec une probabilité 1 − Mδ, où n = maxmnm.

Démonstration. La preuve est une application directe de la dénition de la com-plexité d'échantillonnage et de l'inégalité de Boole.

Proposition 2 est utilisée pour dénir la taille de la phase d'apprentissage. À la n de celle-ci, le compromis entre l'exploration et l'exploitation des experts peut être contrôlé par tout algorithme de bandit tel que UCB [17] ou Successive Elimination [14].

Phase d'exploration et d'exploitation

À la n de la phase d'exploration, les experts ont terminé leur apprentissage et leurs performances sont stationnaires. An de trouver le meilleur expert, nous utilisons maintenant l'algorithme Successive Elimination [14].

Successive Elimination joue les experts de manière séquentielle. La moyenne empirique de chaque expert commence à être maintenue à partir du tour n : ˆ µm(t) = 1 t − n t X i=n+1 Jmi = mKyπmi(xi)(i).

Lorsque l'écart entre la moyenne empirique de l'expert m et du meilleur ex-pert empirique est assez grand, alors l'exex-pert m est sous-optimal avec une forte probabilité et n'est plus joué par l'algorithme.

Théorème 18. Pour M > 0, δ > 0, et  = 0, la complexité d'échantillonnage de LTEE est bornée supérieurement par :

O M

2 log M δ∆ + n

 ,

1. An de faciliter la lecture de l'algorithme, t ≤ T est testé seulement au début du tour de round-robin. An d'assurer l'arrêt de l'algorithme au tour T , il est nécessaire de tester cette condition une fois de plus à cette marque.

108 Réduction en problèmes de bandits stationnaires

Algorithme 27 : LTEE

Données : δ ∈ (0, 1],  ∈ [0, 1)

Résultat : une -approximation du meilleur expert pour t = 1, ..., n faire

Jouer séquentiellement un bras kt∈ [K];

Mettre à jour chaque experts m ∈ [M] avec le vecteur (xt, kt, ykt(t)); St= [M ], r = 0;

tant que t ≤ T faire

pour chaque m ∈ St faire Jouer le bras kt= πm(xt); Mettre à jour ˆµm(t + 1); t = t + 11;

r = r + 1;

mmax= arg maxm∈Sµˆm(t);

Retirer de St tout les experts m satisfaisant : ˆ

µmax(t) − ˆµm(t) +  ≥ 2plog(4r2M/δ)/2r ;

où ∆ est la diérence de récompense moyenne entre les deux meilleurs experts. Démonstration. La complexité d'échantillonnage de LTEE est bornée supérieure-ment par celle de Successive Elimination (voir théorème 2) et n, la complexité d'échantillonnage nécessaire à l'apprentissage de tous les experts (voir propriété 2).

Théorème 19. Il existe une distribution Dx,y telle que tout algorithme apprenant M experts et cherchant ensuite le meilleur a une complexité d'échantillonnage d'au moins : Ω M ∆2 log1 δ + N  ,

où 1 − δ est la probabilité de trouver le meilleur expert de l'ensemble et N une borne inférieure sur la complexité d'échantillonnage de l'ensemble d'experts.

Démonstration. La borne inférieure est obtenue en sommant la borne inférieure du problème d'identication du meilleur bras (voir théorème 1 dans [12]) et la borne inférieure N de l'apprentissage des experts. Dans le pire des cas, tous les experts terminent leur apprentissage au même moment et les observations provenant de la phase d'apprentissage ne peuvent pas être utilisées pour évaluer les performances des experts.

Lorsque la complexité d'échantillonnage des experts est optimale, i.e. quand n = N, l'algorithme LTEE est optimal à un facteur logarithmique près.

6.3.2 - Application aux Forêts de bandits 109

6.3.2 Application aux Forêts de bandits

Nous illustrons l'algorithme LTEE avec une application aux Forêts de ban-dits. L'ensemble d'experts est composé de M Forêts de bandits initialisées avec diérents paramètres : le nombre Lm d'arbres, la profondeur Dm, le nombre de variables contextuelles C disponibles à chaque coupure. Après la phase d'ap-prentissage, la meilleure forêt est cherchée à l'aide de Successive Elimination. Théorème 20. Pour M > 0, K ≥ 2, C ≥ 2, δ > 0, et  = 0, la complexité d'échantillonnage de LTEE utilisant un ensemble de Forêts de bandits est borné supérieurement par :

O M2 log M δ∆ + 2 D KD ∆2 1 logKDLC δ∆1 + KD ∆2 2 log KL δ∆2 ! ,

où ∆ est la diérence de récompenses moyennes entre les deux meilleurs experts, et où ∆1 et ∆2 sont les minimums des diérences de récompenses moyennes entre les deux meilleures variables dans un n÷ud non terminal et les deux meilleurs bras dans une feuille. L = maxmLm et D = maxmDm.

Démonstration. Le théorème 16 est utilisé pour dénir n.

Théorème 21. Il existe une distribution Dx,y telle que tout algorithme appre-nant M Forêts de bandits et cherchant ensuite la meilleure à une complexité d'échantillonnage d'au moins

Ω M ∆2 log 1 δ∆ + 2 D  1 ∆2 1 + K2 2  log 1 δ  ,

où 1 − δ est la probabilité de construire la forêt optimale et de la trouver parmi l'ensemble d'experts.

Démonstration. Le théorème 17 donne la valeur de N , c'est-à-dire la borne infé-rieure sur la complexité d'échantillonnage nécessaire à la construction des Forêts de bandits.

Dans le cas de la sélection de Forêts de bandits, l'algorithme LTEE est optimal à des facteurs logarithmiques près.