• Aucun résultat trouvé

4.5 Performance des algorithmes de bandits-manchots pour la recommandation

4.5.1 Analyses basées sur la précision globale

Le critère de performance de précision globale est celui qui est principalement employé

dans toute évaluation d’algorithmes deMAB et deCMAB.

Dans cette sous-section nous analysons ainsi les résultats de précision globale que nous

avons obtenus pour les sept algorithmes de MAB/CMAB expérimentés (ε-Greedy,UCB2,TS,

EXP3, EXP4, LinUCB, CTS) et ce pour l’ensemble des jeux de données étudiés dans les

différents cas cités précédemment (voir Sous-section 4.4.3).

Afin de faciliter la lecture, nous résumons les analyses sur la précision globale pour chacun

des cas et reportons les analyses détaillées en annexe de ce mémoire (Annexe B). De même,

nous y reportons également l’ensemble des tableaux de résultats (Annexe C).

4.5.1.1 MABsversusCMABssur jeux de données avec vecteur complet

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.2 et au

Ta-bleau C.1. Les analyses détaillées de ces expérimentations sont consultables dans les annexes

à la Section B.1. Nous résumons la conclusion de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision globale concernant le cas

avec vecteur de contexte complet. De manière générale, nous remarquons l’avantage

si-gnificatif d’utiliser un algorithme deCMAB basé sur un modèle linéaire plutôt qu’une méthode

pas la montée à l’échelle en termes de nombres d’actions et d’experts (en désaccord). Plus

spécifiquement sur les jeux de données de montée à l’échelle, dans le cas de Covertype, nous

remarquons également un avantage significatif à utiliser un algorithme deCMAB basé sur un

modèle linéaire plutôt qu’une méthode de MAB ou de sélection de politiques. Notons

néan-moins qu’EXP4.P obtient une précision globale supérieure à celles des algorithmes de MAB.

En revanche, dans le cas de Poker Hand, même siLinUCB etCTS obtiennent sensiblement

de meilleurs résultats qu’EXP4.P et que l’ensemble des algorithmes deMAB, ces différences

ne sont pas statistiquement significatives.

4.5.1.2 MABsversusCMABssur jeux de données avec vecteur de contexte tronqué

Pour expérimenter l’effet d’une restriction sur le contexte c.-à-d., avec le vecteur d’origine

tronqué, nous avons utilisé trois jeux de données : Contrôle (vt), YSE (vt) et RS-ASM (vt).

Rappelons que YSE (vt) a été construit de telle manière à provoquer un effet Yule-Simpson

lorsque nous retirons la dimension « pays ». Ceci permet ainsi d’observer les conséquences

sur les résultats obtenus pour les algorithmes deCMAB.

La restriction de contexte dans les algorithmes deCMAB a donné lieu à une

expérimen-tation récente [Bou+17] permettant la sélection intelligente et dynamique de dimensions

per-tinentes du contexte. Ces travaux concluent entre autres sur l’impact de la restriction sur le

contexte en termes de performance si celle-ci est trop importante notamment en

environne-ment non stationnaire : «Ignoring the context can be better then even considering a small

random subset of it.» [Bou+17]

Dans nos expérimentations, nous observons ainsi l’impact de la restriction de contexte sur

les algorithmes deCMAB. Plus le contexte fourni en entrée s’appauvrit (devient parcimonieux),

plus le cumul des regrets observé est important jusqu’à un seuil où la performance desCMAB

devient moins importante que celle desMAB.

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.2 et au

Ta-bleau C.3. Les analyses détaillées de ces expérimentations sont consultables dans les annexes

à la Section B.2. Nous résumons la conclusion de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision globale concernant le cas

avec vecteur de contexte tronqué.De manière générale, nous remarquons l’avantage

signi-ficatif d’utiliser un algorithme de CMABbasé sur un modèle linéaire plutôt qu’une méthode de

MABou de sélection de politiques. Notons néanmoins qu’EXP4.Pobtient une précision globale

supérieure à celles des algorithmes deMAB. En revanche, ces résultats restent à nuancer du

fait que le niveau de restriction (troncature) que nous avons appliquée au contexte reste

relati-vement peu important. Plus le vecteur sera restreint, plus la précision globale des algorithmes

de CMAB diminuera jusqu’à passer sous le seuil de performance des algorithmes de MAB

4.5. Performance des algorithmes de bandits-manchots pour la recommandation

4.5.1.3 MABsversusCMABsdans le cas non-stationnaire

Le jeu de données de notre expérimentation sur flux non-stationnaire est RS-ASM (ns)

où durant l’expérience de 200 000 itérations, nous modifions la distribution des récompenses

pour chaque bras toutes les50 000itérations (Voir Section 2.2.5). Il y aura donc 4périodes de

stationnarités différentes durant la simulation.

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.4. Les

ana-lyses détaillées de ces expérimentations sont consultables dans les annexes à la Section B.3.

Nous résumons la conclusion de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision globale, menées sur le

jeu de données non stationnaire RS-ASM (ns).Nous remarquons que la non stationnarité

a un impact sur la précision globale sur l’ensemble des algorithmes de CMABs etε-Greedy.

Les algorithmes EXP3, UCB2 et TS quant à eux parviennent à contrer la non-stationnarité.

Néanmoins,LinUCBetCTSrestent malgré tout plus performants que ces algorithmes sur

RS-ASM (ns). Même siEXP4.Pest un algorithme théoriquement connu pour sa capacité à contrer

la non-stationnarité, sur ce jeu de données spécifiquement, il est impossible de le vérifier dû

aux mêmes limites qu’évoquées sur la version (vc) du jeu de données (nombre d’experts en

désaccord et nombre d’actions trop élevées).

4.5.1.4 MABsversusCMABssur jeux de données dépourvu de contexte

Le jeu de données de notre expérimentation non contextuelle estJester.

Nous avons voulu illustrer le pire cas pour un algorithme de CMAB en observant ce qui

se passerait avec100%de contexte tronqué, c.-à-d., sans information de contexte sur laquelle

s’appuyer. Bien naturellement nous nous attendons à ce que les algorithmes de MAB soient

supérieurs en performance. Néanmoins, nous effectuons cette observation préliminaire car

dans la suite de ce mémoire, nous proposerons une contribution à la création de contexte

ex-nihilo (voir Chapitre 7 et contribution [Gut+19d]).

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.5. Les

ana-lyses détaillées de ces expérimentations sont consultables dans les annexes à la Section B.4.

Nous résumons la conclusion de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision globale, menées sur le jeu

de données non contextuel Jester.Sans surprise, nous remarquons l’avantage significatif

d’utiliser un algorithme de MAB plutôt qu’une méthode de CMAB. L’algorithme qui offre de

meilleures garanties expérimentales sur ce jeu de données non contextuel estTSsuivi d’UCB2.

4.5.1.5 Conclusion sur les analyses concernant la précision globale

Lorsque que nous disposons d’informations de contexte suffisamment pertinentes, nous

observons que les algorithmes de CMAB obtiennent une précision globale significativement

supérieure aux algorithmes deMAB. En revanche, dans le cas où ces informations de contexte

sont trop restreintes, il peut alors devenir plus pertinent d’employer des algorithmes deMAB.

Parmi les algorithmes de CMAB, on observe que LinUCB obtient de meilleurs résultats

dans la majorité des cas. Il en est de même pourTSpour les algorithmes deMAB.

Ces considérations posent la question de choisir le bon algorithme pour le bon jeu de

don-nées. Il est d’autant plus important de considérer cette question dans le cadre d’évaluations

en ligne. En effet, dans ces applications réelles, le choix du bon algorithme est encore plus

difficile à prévoir puisque nous ne possédons aucune connaissance a priori, de la pertinence

des informations dont on dispose au regard du problème de recommandation.

De ce fait, la question d’une sélection automatique des algorithmes les plus pertinents prend

tout son sens. L’une des contributions de cette thèse repose notamment sur l’idée d’utiliser un

porte-feuille d’algorithmes et de sélectionner, par proportion, celui ou ceux qui correspondent

le mieux au problème (voir Section 5.3).