HAL Id: inria-00494716
https://hal.inria.fr/inria-00494716
Submitted on 24 Jun 2010
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires
Vitesse minimax du regret interne en prédiction de suites individuelles
Sebastien Gerchinovitz
To cite this version:
Sebastien Gerchinovitz. Vitesse minimax du regret interne en prédiction de suites individuelles.
42èmes Journées de Statistique, 2010, Marseille, France, France. �inria-00494716�
Vitesse minimax du regret interne en pr´ ediction de suites individuelles
S´ ebastien Gerchinovitz
DMA, Ecole Normale Sup´ erieure, 45 rue d’Ulm, 75005 Paris.
[email protected]
R´ esum´ e Le probl` eme de la pr´ ediction s´ equentielle avec avis d’experts consiste ` a pr´ edire tour apr` es tour les valeurs d’une certaine suite (temp´ eratures, pics d’ozone journaliers), ` a l’aide de pr´ edictions de base qu’on peut combiner pour former une seule pr´ ediction. Dans cette communication, nous nous int´ eressons ` a une formalisation g´ en´ erique de ce probl` eme de d´ ecision s´ equentielle, et ´ etudions la vitesse minimax d’un crit` ere de performance, le regret interne. D’apr` es les travaux de Stoltz (2005), Stoltz et Lugosi (2005), ainsi que Blum et Mansour (2007), cette vitesse est comprise entre Ω( √
n) et O( √
n ln N ), o` u n d´ esigne le nombre de tours de pr´ ediction et N le nombre d’actions. Nous montrons que le terme √
ln N est absent dans deux quantit´ es maximin et minimax associ´ ees, o` u les pertes (stochastiques) sont suppos´ ees ind´ ependantes et i.i.d. respectivement.
Mots-cl´ es : apprentissage s´ equentiel, pr´ ediction de suites individuelles, vitesses mini- max et maximin.
Abstract Prediction with expert advice consists in forecasting, in a sequential fashion, the values of an unknown sequence (temperatures, daily ozone peaks) from some base forecasts available to the forecaster. In this work, we look at a decision-theoretic formula- tion of this problem, and study the minimax rate of one of its performance criterion, the internal regret. Stoltz (2005), Stoltz and Lugosi (2005), and Blum and Mansour (2007) proved that this rate lies between Ω( √
n) and O( √
n ln N ), where n is the number of prediction rounds and N the number of actions. We show that the √
ln N term is unnec- essary in two related maximin and minimax quantities, where the (stochastic) losses are assumed to be independent and i.i.d. respectively.
Index terms: on-line learning, prediction of individual sequences, maximin and min- imax rates.
1 Un mod` ele g´ en´ erique de d´ ecision s´ equentielle
1.1 Introduction
Nous consid´ ererons le probl` eme de d´ ecision (ou pr´ ediction) s´ equentielle suivant, qui puise
sa formalisation dans les travaux de Blackwell et Hannan dans les ann´ ees 1950, et a
r´ ecemment ´ et´ e pr´ ecis´ e, entre autres, par Freund et Shapire (1997), ainsi que Foster et Vohra (1999).
Un statisticien doit choisir ` a chaque date t ∈ N
∗une combinaison convexe p
t∈ X
Nde N actions distinctes, o` u
X
N= {x ∈ R
N+,
N
X
i=1
x
i= 1} .
A chaque action i correspond une perte `
i,t∈ [0, 1], et le statisticien encoure la perte moyenne ` b
t= p
t· `
t= P
Ni=1
p
i,t`
i,t, o` u `
t= (`
i,t)
1≤i≤N. Apr` es n tours de pr´ ediction, sa perte cumul´ ee est alors P
nt=1
b `
t. L’objectif du statisticien est de minimiser cette perte cumul´ ee.
1.2 Formalisation ` a l’aide d’un jeu r´ ep´ et´ e
Le probl` eme de d´ ecision s´ equentielle pr´ ec´ edent peut ˆ etre d´ ecrit sous la forme d’un jeu r´ ep´ et´ e entre le statisticien et l’environnement.
A chaque date t ∈ N
∗,
1. le statisticien choisit et r´ ev` ele le vecteur de poids p
t∈ X
N; 2. l’environnement choisit et r´ ev` ele le vecteur de pertes
`
t= (`
i,t)
i∈ [0, 1]
N;
3. chaque action i encoure la perte `
i,t, et le statisticien encoure la perte moyenne ` b
t= p
t· `
t.
Cette description est commode pour synth´ etiser les d´ ependances entre les diff´ erentes quantit´ es introduites, mˆ eme si celles-ci seront ´ evidemment omises. Par exemple, p
test fonction (mesurable) de tous les vecteurs de pertes pass´ es `
s, 1 ≤ s ≤ t − 1.
On appelle alors strat´ egie toute suite de fonctions bor´ eliennes (p
t)
t∈N∗, o` u p
t: [0, 1]
Nt−1→ X
Nassocie aux vecteurs de pertes `
1, . . . , `
t−1la pr´ ediction au tour t, encore not´ ee p
t.
1.3 Un crit` ere de performance : le regret interne
Il existe plusieurs crit` eres pour mesurer la qualit´ e d’une strat´ egie. L’objectif ` a terme ´ etant de minimiser la perte cumul´ ee P
nt=1
b `
tencourue, la strat´ egie de d´ ecision retenue pourra
ˆ etre consid´ er´ ee comme performante lorsque cette perte cumul´ ee est presque aussi petite
que la perte cumul´ ee encourue par la meilleure des strat´ egies d’une classe de r´ ef´ erence.
Lorsque cette classe est compos´ ee des strat´ egies constantes δ
1, . . . , δ
N, le crit` ere de performance retenu s’appelle regret externe. Nous nous int´ eresserons pour notre part ` a un autre crit` ere de performance, le regret interne, introduit par Foster et Vohra (1999), et qui joue un rˆ ole important en th´ eorie des jeux r´ ep´ et´ es
1. Les strat´ egies composant ici la classe de r´ ef´ erence sont des modifications l´ eg` eres de la strat´ egie maˆıtre. Plus pr´ ecis´ ement, le regret interne sur la suite (`
t)
1≤t≤nest d´ efini par la diff´ erence
n
X
t=1
p
t· `
t− min
1≤i6=j≤N n
X
t=1
p
i→jt· `
t, (1)
o` u le poids modifi´ e p
i→jtest obtenu ` a partir de p
tselon la transformation d´ efinie par (p
i→jt)
k=
p
k,tsi k / ∈ {i, j}
0 si k = i , 1 ≤ k ≤ N .
p
i,t+ p
j,tsi k = j
Ainsi, le regret interne mesure le regret qu’encoure le statisticien ` a n’avoir pas choisi l’action j ` a chaque fois qu’il a choisi l’action i, et ce pour tous les couples (i, j) possibles, i 6= j .
Comme les poids p
i→jtet p
tne diff` erent qu’en deux coordonn´ ees au plus, beaucoup de termes se simplifient dans la diff´ erence (1), et le regret interne prend la forme plus simple
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t) . (2)
2 Regret interne minimax
L’objet de cette section est l’´ etude du regret interne minimax, qui est d´ efini en fonction du nombre n de tours de pr´ ediction et du nombre N d’actions par
RI(n, N ) = inf
S
sup
`1,...,`n∈[0,1]N
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t) , (3) o` u l’infimum est pris sur toutes les strat´ egies S = (p
t)
1≤t≤n. Il s’agit donc du meilleur des pires cas qu’on puisse esp´ erer (arbitrairement) atteindre.
1
Comme l’ont montr´ e Foster et Vohra (1997; 1999), dans un jeu r´ ep´ et´ e (randomis´ e) fini, si tous les
joueurs suivent une strat´ egie dont le regret interne est asymptotiquement n´ egligeable devant n, leur
probabilit´ e empirique (jointe) d’actions converge vers l’ensemble des ´ equilibres corr´ el´ es du jeu.
2.1 R´ esultats existants et question ouverte
Nous nous sommes int´ eress´ es ` a l’ordre de grandeur de RI(n, N ) en n et N , dont on connaˆıt pour l’instant un encadrement ` a un √
ln N pr` es. Plus pr´ ecis´ ement, Stoltz (2005) a montr´ e qu’il existe deux constantes C
1, c > 0 telles que, pour tout N ≥ 1 et n ≥ cN
2,
C
1√
n ≤ RI(n, N ) .
Quant ` a la borne sup´ erieure, Stoltz et Lugosi (2005) ainsi que Blum et Mansour (2007) ont montr´ e qu’il existe C
2> 0 telle que, pour tous n ≥ 1 et N ≥ 1,
RI(n, N ) ≤ C
2√
n ln N .
Nous nous sommes donc attach´ es ` a la pr´ ecision de cet encadrement. Nous avons ainsi montr´ e que le √
ln N n’´ etait pas n´ ecessaire pour deux quantit´ es minimax ou maximin qui minorent RI(n, N ) ; la quantit´ e plus g´ enerale RI(n, N ) est quant ` a elle en cours d’´ etude.
2.2 Dualit´ e maximin/minimax
Comme le font par exemple Cesa-Bianchi et Lugosi (2003), ou bien Abernethy et al.
(2009), le regret interne minimax peut ˆ etre r´ einterpr´ et´ e comme une quantit´ e (stochastique) maximin. Plus pr´ ecis´ ement, appliquant pour la deuxi` eme ´ egalit´ e le lemme de Sion, on a inf
S
sup
`1,...,`n∈[0,1]N
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t) = inf
S
sup
Q∈M+1([0,1]N n)
E
Q"
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t)
#
= sup
Q∈M+1([0,1]N n)
inf
SE
Q"
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t)
# .
Les deux quantit´ es de droite ci-dessus sont donc ´ egales ` a RI(n, N ), et nous avons pour l’instant ´ etudi´ e un minorant de chacune d’entre elles, ` a savoir
RI
indep(n, N ) = sup
Q∈Qindep(n,N)
inf
S
E
Q"
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t)
#
, (4)
pour le regret interne maximin ind´ ependant, et, pour le regret interne minimax i.i.d., RI
iid(n, N ) = inf
S
sup
Q∈Qiid(n,N)
E
Q"
1≤i6=j≤N
max
n
X
t=1
p
i,t(`
i,t− `
j,t)
#
, (5)
o` u les deux parties de M
+1([0, 1]
N n) auxquelles on a restreint le sup
Qsont d´ efinies par Q
indep(n, N ) =
⊗
nt=1µ
t, µ
1, . . . , µ
n∈ M
+1([0, 1]
N) Q
iid(n, N ) =
µ
⊗n; µ ∈ M
+1([0, 1]
N) .
2.3 R´ esultats obtenus
La borne inf´ erieure de Stoltz (2005) valant en particulier dans les cas maximin ind´ ependant et minimax i.i.d., les deux th´ eor` emes ci-dessous montrent que les deux quantit´ es RI
indep(n, N ) et RI
iid(n, N ) ont pour vitesse Θ( √
n), sans d´ ependance en la dimension N du probl` eme donc.
Pour majorer RI
indep(n, N ), nous avons consid´ er´ e une variante d’un algorithme tr` es
´ etudi´ e pour le regret externe (Weighted Majority Algorithm ou Exponentially Weighted Average Forecaster), et dont nous montrons qu’il est maximin optimal au sens du re- gret interne, pour des pertes ind´ ependantes. Notez qu’il d´ epend de la probabilit´ e Q sous-jascente, ce qui est licite dans le cas maximin. La majoration O( √
n) est obtenue ` a l’aide de simples outils de concentration de martingales (comme les in´ egalit´ es d’Hoeffding- Azuma et de Mc Diarmid).
Th´ eor` eme 1 (Regret interne maximin ind´ ependant) Etant donn´ es N ≥ 1, n ≥ 1 et Q ∈ Q
indep(n, N ), la strat´ egie constante (p
t), sans d´ ependance en les pertes ni en t, et d´ efinie par
p
i,t= p
i,1= e
−n−1/2Pns=1EQ[`i,s]P
Nj=1
e
−n−1/2Pns=1EQ[`j,s], 1 ≤ i ≤ N, 1 ≤ t ≤ n . v´ erifie, pour une constante absolue C
3> 0,
E
Q"
1≤i,j≤N
max
n
X
t=1
p
i(`
i,t− `
j,t)
#
≤ C
3√ n .
Quant au cas minimax, la strat´ egie consid´ er´ ee ne pourra plus d´ ependre de la proba- bilit´ e Q sous-jascente. La strat´ egie retenue est la version plug-in de la strat´ egie pr´ ec´ edente, o` u les esp´ erances sont estim´ ees par leurs moyennes empiriques.
Une strat´ egie minimax optimale pour des lois i.i.d.
Le temps est partitionn´ e en r´ egimes de taille exponentiellement croissante T
r= {t
r, . . . , t
r+1− 1}, r ≥ 0, o` u t
0= 1, t
1= 2 et, par r´ ecurrence, t
r+1= t
r+2
r−1pour tout r ≥ 1. D` es lors, pour tout r ≥ 0 et tout t ∈ T
r, le poids choisi p b
t= p b
(r)est d´ efini par
p b
(r)i= e
−√tr+1−trmˆ(r)i
P
N j=1e
−√tr+1−trmˆ(r)j
, 1 ≤ i ≤ N , o` u m b
(r)i=
t1r−1
P
tr−1 t=1`
i,t.
Toujours au moyen d’outils simples de concentration de martingales, on montre que les poids de la strat´ egie pr´ ec´ edente approchent avec grande probabilit´ e une variante de la loi de Gibbs (p
i,1)
1≤i≤Nd´ efinie dans le cas maximin ind´ ependant, et ce suffisamment rapidement sur tout r´ egime r pour permettre une borne distribution-free en √
n.
Th´ eor` eme 2 (Regret interne minimax i.i.d.) Il existe une constante absolue C
4> 0 telle que, pour tous N ≥ 1, n ≥ 1 et Q ∈ Q
iid(n, N ), la strat´ egie ( p b
t) pr´ ec´ edente v´ erifie
E
Q"
1≤i,j≤N
max
n
X
t=1