Vitesse minimax du regret interne en prédiction de suites individuelles

(1)

HAL Id: inria-00494716

https://hal.inria.fr/inria-00494716

Submitted on 24 Jun 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

Vitesse minimax du regret interne en prédiction de suites individuelles

Sebastien Gerchinovitz

To cite this version:

Sebastien Gerchinovitz. Vitesse minimax du regret interne en prédiction de suites individuelles.

42èmes Journées de Statistique, 2010, Marseille, France, France. �inria-00494716�

(2)

Vitesse minimax du regret interne en pr´ ediction de suites individuelles

S´ ebastien Gerchinovitz

DMA, Ecole Normale Sup´ erieure, 45 rue d’Ulm, 75005 Paris.

[email protected]

R´ esum´ e Le probl` eme de la pr´ ediction s´ equentielle avec avis d’experts consiste ` a pr´ edire tour apr` es tour les valeurs d’une certaine suite (temp´ eratures, pics d’ozone journaliers), ` a l’aide de pr´ edictions de base qu’on peut combiner pour former une seule pr´ ediction. Dans cette communication, nous nous int´ eressons ` a une formalisation g´ en´ erique de ce probl` eme de d´ ecision s´ equentielle, et ´ etudions la vitesse minimax d’un crit` ere de performance, le regret interne. D’apr` es les travaux de Stoltz (2005), Stoltz et Lugosi (2005), ainsi que Blum et Mansour (2007), cette vitesse est comprise entre Ω( √

n) et O( √

n ln N ), o` u n d´ esigne le nombre de tours de pr´ ediction et N le nombre d’actions. Nous montrons que le terme √

ln N est absent dans deux quantit´ es maximin et minimax associ´ ees, o` u les pertes (stochastiques) sont suppos´ ees ind´ ependantes et i.i.d. respectivement.

Mots-cl´ es : apprentissage s´ equentiel, pr´ ediction de suites individuelles, vitesses minimax et maximin.

Abstract Prediction with expert advice consists in forecasting, in a sequential fashion, the values of an unknown sequence (temperatures, daily ozone peaks) from some base forecasts available to the forecaster. In this work, we look at a decision-theoretic formula- tion of this problem, and study the minimax rate of one of its performance criterion, the internal regret. Stoltz (2005), Stoltz and Lugosi (2005), and Blum and Mansour (2007) proved that this rate lies between Ω( √

n) and O( √

n ln N ), where n is the number of prediction rounds and N the number of actions. We show that the √

ln N term is unnec- essary in two related maximin and minimax quantities, where the (stochastic) losses are assumed to be independent and i.i.d. respectively.

Index terms: on-line learning, prediction of individual sequences, maximin and minimax rates.

1 Un mod` ele g´ en´ erique de d´ ecision s´ equentielle

1.1 Introduction

Nous consid´ ererons le probl` eme de d´ ecision (ou pr´ ediction) s´ equentielle suivant, qui puise

sa formalisation dans les travaux de Blackwell et Hannan dans les ann´ ees 1950, et a

(3)

r´ ecemment ´ et´ e pr´ ecis´ e, entre autres, par Freund et Shapire (1997), ainsi que Foster et Vohra (1999).

Un statisticien doit choisir ` a chaque date t ∈ N

^∗

une combinaison convexe p

_t

∈ X

_N

de N actions distinctes, o` u

X

_N

= {x ∈ R

^N+

,

N

X

i=1

x

_i

= 1} .

A chaque action i correspond une perte `

_i,t

∈ [0, 1], et le statisticien encoure la perte moyenne ` b

t

= p

t

· `

t

= P

N

i=1

p

i,t

`

i,t

, o` u `

t

= (`

i,t

)

1≤i≤N

. Apr` es n tours de pr´ ediction, sa perte cumul´ ee est alors P

n

t=1

b `

_t

. L’objectif du statisticien est de minimiser cette perte cumul´ ee.

1.2 Formalisation ` a l’aide d’un jeu r´ ep´ et´ e

Le probl` eme de d´ ecision s´ equentielle pr´ ec´ edent peut ˆ etre d´ ecrit sous la forme d’un jeu r´ ep´ et´ e entre le statisticien et l’environnement.

A chaque date t ∈ N

^∗

,

1. le statisticien choisit et r´ ev` ele le vecteur de poids p

_t

∈ X

_N

; 2. l’environnement choisit et r´ ev` ele le vecteur de pertes

`

_t

= (`

_i,t

)

_i

∈ [0, 1]

^N

;

3. chaque action i encoure la perte `

_i,t

, et le statisticien encoure la perte moyenne ` b

_t

= p

_t

· `

_t

.

Cette description est commode pour synth´ etiser les d´ ependances entre les diff´ erentes quantit´ es introduites, mˆ eme si celles-ci seront ´ evidemment omises. Par exemple, p

t

est fonction (mesurable) de tous les vecteurs de pertes pass´ es `

_s

, 1 ≤ s ≤ t − 1.

On appelle alors strat´ egie toute suite de fonctions bor´ eliennes (p

t

)

t∈N^∗

, o` u p

_t

: [0, 1]

^N

t−1

→ X

_N

associe aux vecteurs de pertes `

₁

, . . . , `

t−1

la pr´ ediction au tour t, encore not´ ee p

_t

.

1.3 Un crit` ere de performance : le regret interne

Il existe plusieurs crit` eres pour mesurer la qualit´ e d’une strat´ egie. L’objectif ` a terme ´ etant de minimiser la perte cumul´ ee P

n

t=1

b `

_t

encourue, la strat´ egie de d´ ecision retenue pourra

ˆ etre consid´ er´ ee comme performante lorsque cette perte cumul´ ee est presque aussi petite

(4)

que la perte cumul´ ee encourue par la meilleure des strat´ egies d’une classe de r´ ef´ erence.

Lorsque cette classe est compos´ ee des strat´ egies constantes δ

1

, . . . , δ

N

, le crit` ere de performance retenu s’appelle regret externe. Nous nous int´ eresserons pour notre part ` a un autre crit` ere de performance, le regret interne, introduit par Foster et Vohra (1999), et qui joue un rˆ ole important en th´ eorie des jeux r´ ep´ et´ es

¹

. Les strat´ egies composant ici la classe de r´ ef´ erence sont des modifications l´ eg` eres de la strat´ egie maˆıtre. Plus pr´ ecis´ ement, le regret interne sur la suite (`

_t

)

1≤t≤n

est d´ efini par la diff´ erence

n

X

t=1

p

_t

· `

_t

− min

1≤i6=j≤N n

X

t=1

p

^i→j_t

· `

_t

, (1)

o` u le poids modifi´ e p

^i→j_t

est obtenu ` a partir de p

_t

selon la transformation d´ efinie par (p

^i→j_t

)

_k

=







p

_k,t

si k / ∈ {i, j}

0 si k = i , 1 ≤ k ≤ N .

p

_i,t

+ p

_j,t

si k = j

Ainsi, le regret interne mesure le regret qu’encoure le statisticien ` a n’avoir pas choisi l’action j ` a chaque fois qu’il a choisi l’action i, et ce pour tous les couples (i, j) possibles, i 6= j .

Comme les poids p

^i→j_t

et p

_t

ne diff` erent qu’en deux coordonn´ ees au plus, beaucoup de termes se simplifient dans la diff´ erence (1), et le regret interne prend la forme plus simple

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

) . (2)

2 Regret interne minimax

L’objet de cette section est l’´ etude du regret interne minimax, qui est d´ efini en fonction du nombre n de tours de pr´ ediction et du nombre N d’actions par

RI(n, N ) = inf

S

sup

`1,...,`n∈[0,1]^N

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

) , (3) o` u l’infimum est pris sur toutes les strat´ egies S = (p

_t

)

1≤t≤n

. Il s’agit donc du meilleur des pires cas qu’on puisse esp´ erer (arbitrairement) atteindre.

1

Comme l’ont montr´ e Foster et Vohra (1997; 1999), dans un jeu r´ ep´ et´ e (randomis´ e) fini, si tous les

joueurs suivent une strat´ egie dont le regret interne est asymptotiquement n´ egligeable devant n, leur

probabilit´ e empirique (jointe) d’actions converge vers l’ensemble des ´ equilibres corr´ el´ es du jeu.

(5)

2.1 R´ esultats existants et question ouverte

Nous nous sommes int´ eress´ es ` a l’ordre de grandeur de RI(n, N ) en n et N , dont on connaˆıt pour l’instant un encadrement ` a un √

ln N pr` es. Plus pr´ ecis´ ement, Stoltz (2005) a montr´ e qu’il existe deux constantes C

₁

, c > 0 telles que, pour tout N ≥ 1 et n ≥ cN

²

,

C

₁

√

n ≤ RI(n, N ) .

Quant ` a la borne sup´ erieure, Stoltz et Lugosi (2005) ainsi que Blum et Mansour (2007) ont montr´ e qu’il existe C

₂

> 0 telle que, pour tous n ≥ 1 et N ≥ 1,

RI(n, N ) ≤ C

₂

√

n ln N .

Nous nous sommes donc attach´ es ` a la pr´ ecision de cet encadrement. Nous avons ainsi montr´ e que le √

ln N n’´ etait pas n´ ecessaire pour deux quantit´ es minimax ou maximin qui minorent RI(n, N ) ; la quantit´ e plus g´ enerale RI(n, N ) est quant ` a elle en cours d’´ etude.

2.2 Dualit´ e maximin/minimax

Comme le font par exemple Cesa-Bianchi et Lugosi (2003), ou bien Abernethy et al.

(2009), le regret interne minimax peut ˆ etre r´ einterpr´ et´ e comme une quantit´ e (stochastique) maximin. Plus pr´ ecis´ ement, appliquant pour la deuxi` eme ´ egalit´ e le lemme de Sion, on a inf

S

sup

`1,...,`n∈[0,1]^N

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

) = inf

S

sup

Q∈M⁺₁([0,1]^{N n})

E

_Q

"

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

)

#

= sup

Q∈M⁺₁([0,1]^{N n})

inf

S

E

_Q

"

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

)

# .

Les deux quantit´ es de droite ci-dessus sont donc ´ egales ` a RI(n, N ), et nous avons pour l’instant ´ etudi´ e un minorant de chacune d’entre elles, ` a savoir

RI

_indep

(n, N ) = sup

Q∈Q_indep(n,N)

inf

S

E

_Q

"

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

)

#

, (4)

pour le regret interne maximin ind´ ependant, et, pour le regret interne minimax i.i.d., RI

_iid

(n, N ) = inf

S

sup

Q∈Q_iid(n,N)

E

_Q

"

1≤i6=j≤N

max

n

X

t=1

p

_i,t

(`

_i,t

− `

_j,t

)

#

, (5)

o` u les deux parties de M

⁺₁

([0, 1]

^{N n}

) auxquelles on a restreint le sup

_Q

sont d´ efinies par Q

_indep

(n, N ) =

⊗

ⁿ_t=1

µ

_t

, µ

₁

, . . . , µ

_n

∈ M

⁺₁

([0, 1]

^N

) Q

_iid

(n, N ) =

µ

^⊗n

; µ ∈ M

⁺₁

([0, 1]

^N

) .

(6)

2.3 R´ esultats obtenus

La borne inf´ erieure de Stoltz (2005) valant en particulier dans les cas maximin ind´ ependant et minimax i.i.d., les deux th´ eor` emes ci-dessous montrent que les deux quantit´ es RI

_indep

(n, N ) et RI

_iid

(n, N ) ont pour vitesse Θ( √

n), sans d´ ependance en la dimension N du probl` eme donc.

Pour majorer RI

_indep

(n, N ), nous avons consid´ er´ e une variante d’un algorithme tr` es

´ etudi´ e pour le regret externe (Weighted Majority Algorithm ou Exponentially Weighted Average Forecaster), et dont nous montrons qu’il est maximin optimal au sens du regret interne, pour des pertes ind´ ependantes. Notez qu’il d´ epend de la probabilit´ e Q sous-jascente, ce qui est licite dans le cas maximin. La majoration O( √

n) est obtenue ` a l’aide de simples outils de concentration de martingales (comme les in´ egalit´ es d’Hoeffding- Azuma et de Mc Diarmid).

Th´ eor` eme 1 (Regret interne maximin ind´ ependant) Etant donn´ es N ≥ 1, n ≥ 1 et Q ∈ Q

_indep

(n, N ), la strat´ egie constante (p

_t

), sans d´ ependance en les pertes ni en t, et d´ efinie par

p

_i,t

= p

_i,1

= e

⁻ⁿ^−1/2^Pⁿ^s=1^E^Q^[`^i,s^]

P

N

j=1

e

⁻ⁿ^−1/2^Pⁿ^s=1^E^Q^[`^j,s^]

, 1 ≤ i ≤ N, 1 ≤ t ≤ n . v´ erifie, pour une constante absolue C

₃

> 0,

E

_Q

"

1≤i,j≤N

max

n

X

t=1

p

_i

(`

_i,t

− `

_j,t

)

#

≤ C

₃

√ n .

Quant au cas minimax, la strat´ egie consid´ er´ ee ne pourra plus d´ ependre de la probabilit´ e Q sous-jascente. La strat´ egie retenue est la version plug-in de la strat´ egie pr´ ec´ edente, o` u les esp´ erances sont estim´ ees par leurs moyennes empiriques.

Une strat´ egie minimax optimale pour des lois i.i.d.

Le temps est partitionn´ e en r´ egimes de taille exponentiellement croissante T

_r

= {t

_r

, . . . , t

_r+1

− 1}, r ≥ 0, o` u t

₀

= 1, t

₁

= 2 et, par r´ ecurrence, t

_r+1

= t

_r

+2

^r−1

pour tout r ≥ 1. D` es lors, pour tout r ≥ 0 et tout t ∈ T

_r

, le poids choisi p b

_t

= p b

^(r)

est d´ efini par

p b

^(r)_i

= e

⁻

√tr+1−trmˆ^(r)_i

P

N j=1

e

⁻

√tr+1−t_rmˆ^(r)_j

, 1 ≤ i ≤ N , o` u m b

^(r)_i

=

_t¹

r−1

P

tr−1 t=1

`

_i,t

.

(7)

Toujours au moyen d’outils simples de concentration de martingales, on montre que les poids de la strat´ egie pr´ ec´ edente approchent avec grande probabilit´ e une variante de la loi de Gibbs (p

i,1

)

1≤i≤N

d´ efinie dans le cas maximin ind´ ependant, et ce suffisamment rapidement sur tout r´ egime r pour permettre une borne distribution-free en √

n.

Th´ eor` eme 2 (Regret interne minimax i.i.d.) Il existe une constante absolue C

₄

> 0 telle que, pour tous N ≥ 1, n ≥ 1 et Q ∈ Q

_iid

(n, N ), la strat´ egie ( p b

_t

) pr´ ec´ edente v´ erifie

E

_Q

"

1≤i,j≤N

max

n

X

t=1

p b

_i,t

(`

_i,t

− `

_j,t

)

#

≤ C

₄

√ n .

Ce r´ esultat pointe une diff´ erence essentielle entre les regrets externe et interne : dans le cas de pertes i.i.d., si plusieurs actions i sont quasi-optimales au sens o` u elles quasi- minimisent E

_Q

[`

_i,1

], une r´ epartition uniforme de la masse p

_t

sur ces actions n’aura aucun effet b´ en´ efique sur le regret externe, alors que c’est pr´ ecis´ ement cette proc´ edure qui per- met de supprimer la d´ ependance du regret interne en le nombre N d’actions.

Bibliographie

[1] Abernethy, J., Agarwal, A., Bartlett, P. and Rakhlin, A. (2009) A Stochastic View of Optimal Regret through Minimax Duality, Proceedings of the 22nd Annual Conference on Learning Theory.

[2] Blum, A. and Mansour, Y. (2007) From External to Internal Regret, Journal of Ma- chine Learning Research 8, 1307-1324.

[3] Cesa-Bianchi, N. and Lugosi, G. (2006) Prediction, learning, and games, Cambridge University Press.

[4] Foster, D. and Vohra, R. (1997) Calibrated learning and correlated equilibrium, Games and Economic Behavior, 21:40-55.

[5] Foster, D. and Vohra, R. (1999) Regret in the on-line decision problem, Games and Economic Behavior, 29:7-36.

[6] Freund, Y. and Schapire, R.E. (1997) A decision-theoretic generalization of on-line learning and an application to boosting, Journal of Computer and System Sciences, 55(1):119- 139.

[7] Massart, P. (2007) Concentration inequalities and model selection, Saint-Flour summer school lecture notes, Springer, New-York.

[8] Stoltz, G. and Lugosi, G. (2005) Internal regret in on-line portfolio selection, Proceed- ings of the 16th Annual Conference on Computational Learning Theory and 7th Kernel Workshop, 403-417, Springer.

[9] Stoltz, G. (2005) Incomplete information and internal regret in prediction of individual

sequences, PhD dissertation, Universit´ e Paris-Sud.