• Aucun résultat trouvé

Le problème de la collecte de données en temps réel est désormais formalisé comme un problème de bandit. Les corpus d’étude et les modèles de récompenses sont eux aussi définis. Les éléments donnés dans ce chapitre serviront de base à l’ensemble des approches considérées dans la suite du manuscrit.

Modèle stationnaire stochastique

Sommaire 5.1 Modèle et algorithmes . . . . 64 5.2 Etude du regret . . . . 66 5.3 Expérimentations . . . . 67 5.3.1 Hors ligne . . . . 67 5.3.1.1 Protocole . . . . 67 5.3.1.2 Résultats . . . . 68 5.3.2 En ligne . . . . 72 5.3.2.1 Protocole . . . . 72 5.3.2.2 Résultats . . . . 73 5.4 Conclusion . . . . 73

Dans ce chapitre, nous proposons de modéliser la récompense de chaque utilisateur par une dis-tribution stationnaire afin de se placer dans le cadre du bandit stochastique. L’objectif de cette pre-mière approche est de montrer l’intérêt des algorithmes de bandits pour traiter notre tâche de col-lecte d’information en temps réel dans un média social. Dans cette optique, nous verrons que les algorithmes existants peuvent être adaptés à notre cas, et nous proposerons également un nouvel algorithme, dont nous testerons les performances dans une partie expérimentale.

5.1 Modèle et algorithmes

Rappelons que l’on considère un ensemble de K utilisateurs notéK . A chaque itération t du

pro-cessus de collecte, l’agent décisionnel, autrement dit la politique de sélection, doit choisir un

sous-ensemble notéKt⊂ K de k utilisateurs à écouter. La récompense ri ,t associée à un utilisateur i suivi

pendant la fenêtre d’écoute t est immédiatement évaluée selon l’un des modèles proposés dans la partie 4.3. Notre but est de collecter un maximum d’information pertinente - relativement à notre modèle de récompense - tout au long du processus composé de T itérations, ce qui correspond à la maximisation de la somme des récompenses récoltées au cours du temps. Nous supposons que

chaque utilisateur i est associé à une distribution de récompense stationnaireνi de moyenne µi.

Ainsi, à chaque temps t , la récompense émise par un profil i correspond à un échantillon de la loi

νi, c’est à dire ri ,t ∼ νi. Afin de rester dans le cadre des bandits stationnaires, on suppose également

que tous les échantillons sont indépendants entre eux.

Les hypothèses de stationnarité utilisées dans ce chapitre nous positionnent dans le cadre du

ban-dit avec sélections multiples décrit dans l’état de l’art (voir section 3.4), pour lequel l’algorithmeCUCB

a été proposé dans [Chen et al., 2013]. Dans le cas qui nous intéresse, c’est-à-dire lorsque la répense d’un ensemble de bras est égale à la somme des récomrépenses individuelles des bras qui le

com-posent, l’algorithmeCUCBcorrespond à une extension de l’algorithmeUCB[Auer et al., 2002a]. Pour

effectuer la sélection de k actions à chaque itération, cet algorithme associe à chaque action i et à

chaque instant t un score noté si ,t correspondant à une borne supérieure de l’intervalle de confiance

de la récompense associée. Cette politique est dite optimiste, car elle suppose que pour chaque utilisa-teur, la récompense associée est la meilleure de ce qu’elle pourrait être selon l’intervalle de confiance considéré.

Selon l’algorithmeCUCB, et pour le cas qui nous intéresse où toutes les actions ne sont pas connues

a priori, le score de chaque action connue i à l’instant t s’écrit :

si ,t= ( ˆ µi ,t −1+ Bi ,tsi Ni ,t −1> 0 +∞ si Ni ,t −1= 0 (5.1) Où Ni ,t −1=t −1P

s=11{i ∈Ks}est égal au nombre de de fois où l’action i a été sélectionnée jusqu’au temps

t − 1, ˆµi ,t −t= 1 Ni ,t −1

t −1 P

s=11{i ∈Ks}ri ,scorrespond à la moyenne empirique de l’action i et Bi ,t= s

2 log(t ) Ni ,t −1

est un terme exploratoire. Le score si ,t représente bien un compromis entre exploitation et

explora-tion puisqu’il s’agit de la somme d’un premier terme estimant la qualité d’une acexplora-tion i et d’un second terme décroissant avec le nombre de fois où l’action i est choisie. De plus, étant donné que l’on ne connaît pas tous les utilisateurs à l’instant initial, le score des utilisateurs non écoutés au moins une

fois (c.-à-d. Ni ,t −1= 0) est initialisé à +∞ afin de forcer le système à les sélectionner. Avec ceci, nous

pouvons donc directement appliquer l’algorithmeCUCBà notre cas. Le processus de collecte

géné-rique associé est détaillé dans l’algorithme 14, dans lequel on associe un score si ,tà chaque utilisateur

Algorithme 14 : Algorithme de collecte - hypothèse stationnaire Input :Ki ni t for t = 1..T do 1 for i ∈ K do 2

Calculer si ,tselon l’équation 5.1

3

end 4

Ordonner les utilisateurs par ordre décroissant selon si ,t;

5

Sélectionner les k premiers pour fixerKt;

6

Ecouter en parallèle tous les utilisateurs i ∈ Ktet observerωi ,t ;

7

for i ∈ Ktdo 8

Recevoir la récompense associée ri ,t ;

9

AlimenterK avec les nouveaux utilisateurs j, j ∉ K

10

end 11

end 12

Remarque 10 Etant donné que tous les utilisateurs ne sont pas connus à l’initialisation, ce problème

problème entre dans le cadre du sleeping bandit [Kleinberg et al., 2008], dans lequel l’ensemble des actions disponibles à chaque itération change d’une itération à l’autre. Il est alors possible d’appliquer les algorithmes de bandit stationnaire classiques à la différence près qu’au lieu de sélectionner une fois chaque action en début de processus pour initialiser les moyennes empiriques, chaque action est jouée une fois lorsqu’elle apparaît pour la première fois dans l’ensemble des actions disponibles.

Pour la tâche de collecte d’information définie, la récompense de chaque utilisateur est basée sur la pertinence du contenu produit pendant une période finie. Cependant, de fortes variations peuvent être observées sur la fréquence de publication des utilisateurs écoutés. Typiquement, la plupart du

temps, les utilisateurs ne produisent aucun contenu. Avec la politiqueCUCBprésentée précédemment

(c.-à-d., avec Bi ,t =q2 ln(t )Ni ,t −1), le score si ,t peut tendre à pénaliser les utilisateurs produisant peu de

contenus les premières fois qu’ils sont écoutés. De plus, aucune différence ne peut être faite entre un utilisateur produisant beaucoup de contenus de qualité moyenne et un utilisateur produisant peu de contenus, mais d’une grande qualité. En vue de prendre en compte cette forte variabilité dans le com-portement des utilisateurs, nous proposons un nouvel algorithme de bandit à sélections multiples,

que nous appelonsCUCBV, et qui considère la variance des récompenses récoltées. L’algorithmeCUCBV

est une extension de l’algorithmeUCBVproposé dans [Audibert et al., 2009]. Cet algorithme associe un

score si ,t à chaque action i à l’instant t de la forme proposée dans l’équation 5.1, mais utilise la

va-riance dans le terme d’exploration, ce qui semble mieux adapté à notre tâche. Le terme d’exploration

Bi ,t de l’algorithmeCUCBVest défini par :

Bi ,t= s

2aVi ,t −1log(t )

Ni ,t −1 + 3clog(t )

Ni ,t −1 (5.2)

Où c et a sont des paramètres de l’algorithme permettant de contrôler l’exploration, et Vi ,t −1=

1 Ni ,t −1

t −1 P

s=1(1{it=i }ri ,s− ˆµi ,t −1)2est la variance empirique de l’utilisateur i .

Avec un tel facteur d’exploration, la politique tend à plus explorer les utilisateurs ayant une grande variance, puisque plus d’informations sont nécessaires pour avoir une bonne estimation de leur qua-lité. Dans la section suivante, on discute des garanties de convergence théoriques de l’algorithme

Documents relatifs