Intervalles de confiance lorsque les contextes sont visibles

7.2.2.1 Modèle probabiliste et apprentissage . . . 103 7.2.2.1.1 Principe de l’approche variationnelle : . . . 104 7.2.2.1.2 Application à notre cas : . . . 106 7.2.2.2 Algorithme de bandit . . . 108 7.3 Expérimentations . . . 113 7.3.1 Données artificielles . . . 113 7.3.1.1 Protocole . . . 113 7.3.1.2 Résultats . . . 113 7.3.2 Données réelles . . . 114 7.3.2.1 Hors ligne . . . 114 7.3.2.1.1 Modèle de contexte . . . 114 7.3.2.1.2 Protocole . . . 115 7.3.2.1.3 Résultats . . . 115 7.3.2.2 En ligne . . . 116 7.3.2.2.1 Protocole . . . 116 7.3.2.2.2 Résultats . . . 120 7.4 Conclusion . . . 121

La modélisation d’un profil pour chaque utilisateur, associée à une hypothèse de linéarité, nous a permis d’améliorer considérablement les performances de notre processus de collecte dans le cha-pitre précédent. Grâce à la présence d’un paramètre de régression commun à tous les utilisateurs, nous avons montré qu’il est possible de mutualiser l’apprentissage, permettant ainsi une exploration plus intelligente de l’espace des utilisateurs. L’idée était d’utiliser le "message moyen" - à une trans-formation LDA près - de chaque utilisateur pour exploiter des corrélations entre vocabulaire employé et récompenses espérées. Cependant, l’hypothèse de stationnarité sous-jacente peut être discutée, car il est possible que certains utilisateurs soient actifs sur plusieurs sujets complètement différents selon par exemple le moment de la journée. En supposant que les messages postés par un utilisateur pendant une période donnée puisse permettre de prévoir son utilité à venir, nous proposons dans ce chapitre un nouveau modèle pour tenir compte de ces variations et mieux exploiter les flux de don-nées sous les contraintes associées à notre tâche.

7.1 Modèle

Dans cette section, nous formalisons le modèle mathématique du bandit contextuel ainsi que les hypothèses correspondantes. On suppose qu’il existe un vecteur inconnu permettant d’estimer l’espérance de la récompense que l’on peut observer pour chaque action en fonction de son vecteur de

contexte. On se place ici dans le cas où l’ensembleK des actions est fini et de taille K. Ainsi, à chaque

pas de temps t , chaque action i révèle un vecteur de contexte noté xi ,t ∈ R^d et l’agent sélectionne

un sous-ensembleKt de k < K actions pour lesquelles il reçoit les récompenses associées, son but

étant toujours de maximiser la somme des récompenses cumulées au cours du temps. L’hypothèse permettant de lier contexte et récompense que nous considérons suppose l’existence d’un vecteur de

poidsβ ∈ Rdinconnu tel que l’espérance de la récompense associée à i selon le contexte xi ,test égale

au produit scalaire des deux vecteurs à un instant t . Formellement, cela se traduit par :

∃β ∈ R^dtel que ∀t ∈ {1,..,T},∀i ∈ {1,..,K} : E[ri ,t|xi ,t] = x^>_{i ,t}β (7.1)

Dans notre cas, le contexte xi ,t de chaque utilisateur i à chaque instant t correspond au contenu

publié dans la fenêtre de temps t − 1. Contrairement au chapitre précédent, on utilise directement l’échantillon révélé par un utilisateur et non pas à une version bruitée d’un profil constant et inconnu.

Dans la suite, nous supposons queβ est borné par une constante S ∈ R+∗, c.-à-d. ||β|| ≤ S.

L’utilisation d’un vecteur de paramètres commun permet une exploration facilitée, comme précé-demment, grâce à la généralisation des corrélations observées pour des utilisateurs à l’ensemble des utilisateurs. Comme nous l’avons déjà vu, dans notre cas, une difficulté majeure provient du fait que tous les contextes ne sont pas observables, contrairement aux problèmes de bandits contextuels tra-ditionnels. En effet les contraintes des différentes API ne nous autorisent pas à voir un contexte pour chaque action et on ne peut donc pas utiliser des algorithmes de bandits contextuels existants tels queLinUCB[Li et al., 2011b] ou encoreOFUL[Abbasi-Yadkori et al., 2011] par exemple. À l’instar du chapitre précédent, plusieurs cas sont envisageables concernant le processus choisissant les actions

pour lesquelles un contexte est observable. On note par la suiteOt ⊂ K l’ensemble des utilisateurs

pour lesquels un vecteur de contexte est disponible à l’itération t . Ainsi, le cas oùOt= K correspond

au bandit contextuel traditionnel.

Dans la section suivante, nous étudions dans un premier temps le cas le plus simple où tous les contextes sont observables. Ceci nous permettra de mettre en place les bases nécessaires à l’étude du cas plus complexe où une partie des contextes n’est pas accessible.

7.2 Algorithmes

Nous nous concentrons ici sur les algorithmes de types optimistes. Rappelons que le principe gé-néral, derrière toutes les politiques de ce type, consiste à construire un intervalle de confiance sur les récompenses de chaque action. Pour ce faire, une des possibilités est de maintenir à jour des distribu-tions a posteriori sur les différents paramètres du modèle. Certaines hypothèses doivent être faites à la fois sur la vraisemblance des observations, mais aussi sur les distributions a priori des paramètres. En particulier, l’utilisation des priors conjugués permet d’obtenir des solutions exactes. Dans notre étude, nous utiliserons des distributions gaussiennes. Notons cependant que la dérivation d’un intervalle de confiance peut se faire à l’aide d’autres approches, comme ce fut le cas dans le chapitre précédent.

7.2.1 Intervalles de confiance lorsque les contextes sont visibles

Construisons dans un premier temps un estimateur des paramètres dans le cas où tous les contextes seraient observables, avec les hypothèses suivantes :

— Vraisemblance : Les récompenses sont indépendamment et identiquement distribuées selon les contextes observés : ri ,t ∼ N (x^>_{i ,t}β,σ2

i), avecσ2

i correspondant à la variance de la

récom-pense ri ,t;

— Prior : Les paramètres inconnus sont normalement distribués : β ∼ N (m0, v₀²I), avec m0 un

vecteur de taille d , I la matrice identité de taille d , et v0un paramètre permettant de contrôler

la variance.

Remarque 13 L’hypothèse de vraisemblance gaussienne est plus restrictive que celle du chapitre 6 dans

lequel un bruit sous-gaussien était suffisant. L’intérêt d’utiliser des gaussiennes est de conserver des formes analytiques sur les distributions des paramètres du problème.

Le but est de construire la distribution a posteriori du paramètreβ à un instant t connaissant les

récompenses collectées, et les contextes associés, jusqu’à l’itération t − 1. Pour alléger les notations,

nous fixons m0= 0 (vecteur nul de taille d), v0= 1 et σi= 1 pour tout i . Cependant, tous les résultats

peuvent être étendus à des cas plus complexes. Dans la pratique, lorsque nous n’avons pas

d’informa-tion particulière sur les bras, toutes la valeurs desσisont prises égales à la même valeur.

Nous introduisons les notations matricielles condensées suivantes pour la suite de cette section : — Ti ,t −1 l’ensemble des itérations où i a été choisi durant les t − 1 premières étapes : T_{i ,t −1}=

{s ≤ t − 1,i ∈ Ks}. On a |T_{i ,t −1}| = N_{i ,t −1};

— c_{i ,t −1}le vecteur de récompenses obtenues par le bras i avant l’itération t : c_{i ,t −1}= (ri ,s)_s∈T_{i ,t −1}; — D_{i ,t −1}la matrice de taille N_{i ,t −1}× d, composée des contextes observés pour le bras i , aux

itéra-tions antérieures à t où il a été choisi : D_{i ,t −1}= (x^>_{i ,s})_s∈T_{i ,t −1}.

Les deux propositions suivantes expriment les distributions a posteriori des paramètres du modèle à un instant t , avant que la sélection des actions n’ait été effectuée, c’est-à-dire en utilisant l’historique des choix effectués jusqu’au temps t − 1.

Proposition 7 La distribution a posteriori du paramètreβ à l’étape t, lorsque tous les contextes sont

visibles, respecte : β ∼ N ¡ˆβ_{t −1}, V⁻¹_{t −1}^¢ (7.2) Où : ˆ β_{t −1}= V_{t −1}⁻¹b_{t −1} b_{t −1}= K X i =1 D^>_{i ,t −1}c_{i ,t −1} V_{t −1}= I + K X i =1 D^>_{i ,t −1}D_{i ,t −1} (7.3)

Preuve Il s’agit d’un résultat classique de regression que nous avons démontré dans la section 3.3.3.3 de

l’état de l’art.

Tous ces paramètres peuvent être mis à jour de façon peu coûteuse à mesure que de nouveaux exemples d’apprentissage arrivent (la complexité de la mise à jour des paramètres est constante sur l’ensemble du processus).

Proposition 8 La valeur espéréeE[ri ,t|xi ,t], de la récompense de l’utilisateur i à l’itération t sachant

son contexte xi ,t, suit la distribution :

E[ri ,t|xi ,t] ∼ N ^³x_{i ,t}^>β^ˆt −1, x_{i ,t}^>V_{t −1}⁻¹ xi ,t ´

(7.4)

Preuve D’après le modèle, on sait queE[ri ,t|xi ,t] = x_{i ,t}^>β. Or β est une variable aléatoire gaussienne de

moyenne ˆβt −1et matrice de covariance V_{t −1}⁻¹ d’après la proposition précédente, d’où le résultat annoncé.

Théorème 21 Pour tout 0 < δ < 1 et xi ,t∈ R^d, en notantα = Φ−1(1 − δ/2)¹, pour chaque action i , après t itérations : P^³|E[ri ,t|xi ,t] − x_{i ,t}^>β^ˆt −1| ≤ α q x^>_{i ,t}V⁻¹_{t −1}xi ,t ´ ≥ 1 − δ (7.5)

Preuve En utilisant l’équation 7.4, la variable aléatoire E[ri ,t|xi ,t] − x^>_{i ,t}β^ˆt −1 q

x^>_{i ,t}V⁻¹_{t −1}xi ,t

suit une loi normale de moyenne 0 et de variance 1, d’où le résultat proposé.

Cette formule peut directement être utilisée pour définir une borne supérieure de l’intervalle de confiance (UCB - Upper Confidence Bound) de la récompense espérée pour chaque utilisateur dont le contexte a été observé à l’itération t :

si ,t= x_{i ,t}^>β^ˆt −1+ α q

x> i ,tV−1

t −1xi ,t (7.6)

Ainsi les approches de type UCB étant des approches optimistes, l’idée est alors de sélectionner à

chaque instant t les k utilisateurs ayant les k bornes si ,t les plus élevées. Le score précédent pourrait

directement être utilisé pour notre tâche de collecte d’information si les contextes de tous les

utilisa-teurs étaient disponibles, ce qui n’est pas le cas, hormis lorsqueOt= K . Dans la section qui suit, nous

étudions le cas des contextes manquants, qui nécessite un traitement particulier.

Dans le document Algorithmes de bandits pour la collecte d'informations en temps réel dans les réseaux sociaux (Page 110-113)