Annexe technique - Contributions à l'apprentissage statistique : estimation de densité, agrégat

Dans cette section figurent des définitions et résultats techniques mentionnés ou utilisés dans cette introduction.

1.6.1 Variables sous-Gaussiennes et inégalités de concentration

Dans cette section, nous collectons quelques définitions et résultats élémentaires de concen-tration de variables i.i.d. ; nous renvoyons àBoucheron et al.(2013) pour davantage de détails sur ce sujet.

Nous commençons par rappeler l’inégalité de Hoeffding (Hoeffding,1963), qui est utilisée dans la preuve de la Proposition1.5.

Lemme 1.2 (Boucheron et al., 2013, Lemme 2.2). Soit X une variable aléatoire à valeurs dans [0, 1]. Alors, pour tout λ ∈ R, log E[e^λX] 6 λE[X] + λ2/8.

Proof. Soit ψ(λ) = log E[e^λX] pour tout λ ∈ R. Définissons pour λ ∈ R la mesure de probabilité Pλ := {e^λX/E[e^λX]} · P, et notons Eλ[Z], Var_λ(Z) l’espérance et la variance d’une variable aléatoire Z selon Pλ. Par dérivation sous le signe intégral (en utilisant le fait que 0 6 X 6 1), la fonction ψ est deux fois dérivable, et vérifie ψ⁰(λ) = E[Xe^λX]/E[e^λX] = Eλ[X] et ψ⁰⁰(λ) = Var_λ(X).

Or, la variable X appartient à [0, 1] P-presque sûrement, donc Pλ-presque sûrement, de sorte que ψ⁰⁰(λ) = Var_λ(X) 6 1/4. L’inégalité de Taylor montre alors que, pour tout λ ∈ R, ψ(λ) 6 ψ(0) + ψ⁰(0) · λ + (1/4) · λ²/2, ce qui établit le Lemme 1.2 puisque ψ(0) = 0 et ψ⁰(0) = E0[X] = E[X].

L’inégalité de Hoeffding équivaut à dire que X − E[X] est 1/4-sous-Gaussienne, au sens de la définition suivante :

Définition 1.6 (Variable sous-Gaussienne). Soit σ²> 0. Une variable aléatoire réelle centrée X est dite σ²-sous-Gaussienne si, pour tout λ ∈ R, E[e^λX] 6 e^σ²^λ²^/2.

Le terme sous-Gaussien vient du fait que, si X ∼ N (0, σ2), alors E[eλX] = eσ²λ²/2 pour tout λ ∈ R. Si X est σ²-sous-Gaussienne, alors pour tout t> 0,

P(X > t) ∨ P(X 6 −t) 6 e^−t

2/(2σ2), (1.116)

en appliquant l’inégalité de Markov aux variables e^λX et e^−λX et en optimisant le choix de λ. En outre, il existe une constante universelle C telle que pour tout p> 1 :

kXk_Lp = E[|X|^p]^1/p 6 Cσ^√p . (1.117) Réciproquement, pour une variable centrée X, les inégalités (1.116) et (1.117) impliquent que X est cσ²-sous-Gaussiennes pour une certaine constante absolue c (Vershynin,2012;Boucheron et al.,2013). La condition (1.117) permet d’étendre la définition de variables sous-Gaussiennes aux variables non centrées, et revient à dire que X − E[X] est C⁰σ²-sous-Gaussienne et que |E[X]| 6 C00σ.

Plus généralement, on dit qu’un vecteur aléatoire X à valeurs dans R^dest σ²-sous-Gaussien (σ > 0) si hθ, Xi est σ²-sous-Gaussien pour tout θ ∈ S^d−1.

Si X₁, . . . , X_M sont des variables centrées σ²-sous-Gaussiennes, alors pour tout λ > 0 :

E[e^{λ max(X}¹^,...,X^M⁾] = E[max(e^λX1, . . . , e^λXM)] 6

i=1

E[e^λXⁱ] 6 M e^σ²^λ²^/2. (1.118)

Par convexité de la fonction exponentielle, on en déduit que exp(λE[max(X1, . . . , X_M)]) 6 M e^σ²^λ²^/2, c’est-à-dire (en optimisant λ) que E[max(X1, . . . , XM)] 6 σ^√2 log M . De même, l’inégalité de Markov implique que, pour tout t > 0,

P max(X1, . . . , X_M) > σ^p2 log M + σt 6 e−t2/2. (1.119) Enfin, soient X₁, . . . , X_n des variables indépendantes centrées et σ²-sous-Gaussiennes. Il découle de la Définition1.6que la moyenne ¯Xn:= n⁻¹Pn

i=1Xiest σ²/n-sous-Gaussienne. En particulier, si (X_i,j)_16i6n,16j6M sont des variables centrées à valeurs dans [−1, 1], telles que les lignes X_i,· = (X_i,j)_16j6M sont indépendantes, alors en notant ¯X_i := n⁻¹Pn

i=1X_i,j, on a E max 16j6M ¯ X_j 6 r 2 log M n ^, ^et ^P max 16j6M ¯ X_j > r 2 log M n ⁺ r 2t n 6 e^−t (1.120)

pour tout t > 0. Ce résultat s’applique notamment à X_i,j = `(fj, Zi) − R(fj), où ` : F × Z → [0, 1] est une fonction de perte, F = {f1, . . . , f_M} est une classe finie et Z₁, . . . , Zn sont des observations i.i.d., et permet dans ce cas de contrôler l’erreur de généralisation et l’excès de risque (Section 1.1.4).

1.6.2 Entropie relative et dualité

Nous décrivons à présent l’entropie relative ainsi qu’un résultat fondamental de dualité, qui est utilisé à plusieurs reprises dans ce texte.

Définition 1.7. Soit Θ un espace mesurable, et ρ, π deux mesures de probabilité sur Θ. L’entropie relative, ou divergence de Kullback-Leibler entre ρ et π, notée KL(ρ, π), est définie par KL(ρ, π) := Z Θ log dρ dπ dρ (1.121)

lorsque ρ est absolument continue par rapport à π, et +∞ dans le cas contraire.

L’entropie relative KL(ρ, π) mesure la différence entre les mesures π et ρ, ou la qualité de π en tant qu’approximation de ρ ; cette quantité n’est pas symétrique en ρ, π. Plus précisément, l’entropie relative constitue l’excès de risque de π par rapport à ρ en estimation de densité avec perte logarithmique, lorsque la vraie loi est ρ (Exemple1.2). Cette quantité est toujours positive, avec égalité si et seulement si π = ρ ; cela se vérifie en appliquant l’inégalité de Jensen à la fonction − log et le fait que ρ(dρ/dπ = 0) = 0 :

KL(ρ, π) = Z Θ − log^dπ dρ 1 dρ dπ ^{> 0} dρ > − log Z Θ dπ dρ¹ dρ dπ ^{> 0} dρ > − log Z Θ dπ= 0

Notons également, pour toute mesure finie π sur Θ et toute fonction f : Θ → R mesurable, hπ, f i := R

Θf dπ dès lors que l’intégrale est bien définie dans R ∪ {+∞, −∞}. Pour toute fonction positive h : Θ → R⁺ telle que hπ, hi ∈ (0, +∞), notons π_h := _hπ,hi^h · π la mesure de probabilité sur Θ de densité h/hπ, hi par rapport à π.

Théorème 1.18 (Donsker-Varadhan). Soit π, ρ deux mesures de probabilité sur Θ ; pour toute fonction bornée f : Θ → R, log Z Θ exp(f ) dπ + KL(ρ, π) − Z Θ f dρ = KL(ρ, π_{exp(f )}) . (1.122)

En particulier, pour toute fonction mesurable f : Θ → R, log hπ, exp(f )i = sup

hρ, f i − KL(ρ, π) , (1.123)

le supremum étant atteint pour ρ = π_{exp(f )} lorsque le terme de gauche est fini.

Proof. Commençons par supposer f bornée, de sorte que les intégrales sont bien définies. Si ρ n’est pas absolument continue par rapport à π, il ne l’est pas non plus par rapport à

π_{exp(f )} = [exp(f )/hπ, exp(f )i]π, et donc les membres de gauche et de droite de (1.122) sont

infinis. Si ρ est absolument continue par rapport à π, alors ρ = [dρ/dπ]π = [dρ/dπ] × [exp(f )/hπ, exp(f )i]⁻¹π_{exp(f )}, de sorte que

KL(ρ, π_{exp(f )}) = Z Θ log dρ dπ ^· hπ, exp(f )i exp(f ) dρ = Z Θ log dρ dπ

dρ + log hπ, exp(f )i − Z

f dρ ,

qui coïncide précisément avec (1.122). Il en découle que, pour tous ρ, π, f (avec f bornée), par positivité de l’entropie relative,

hρ, f i − KL(ρ, π) = loghπ, exp(f )i − KL(ρ, π_{exp(f )}) 6 loghπ, exp(f )i ,

avec égalité si et seulement si ρ = π_{exp(f )}. Le résultat dans le cas général où f n’est pas bornée s’en déduit en considérant f^B:= min(f, B) avec B → +∞.

Le Théorème 1.18 affirme que, pour toute mesure de probabilité π, l’entropie relative ρ 7→ KL(ρ, π) (définie sur l’espace des mesures de probabilité sur Θ, et à valeurs dans [0, +∞]) est la transformée de Fenchel-Legendre (Boyd and Vandenberghe,2004) de la transformée de Laplace logarithmique f 7→ loghπ, exp(f )i ∈ R ∪ {+∞} (définie sur les fonctions Θ → R). Ce résultat (ou une variante “inversée” de (1.123), qui découle de la même manière de (1.122)) est parfois appelé formule variationnelle de Donsker-Varadhan.

1.6.3 Convexité et forte convexité

Nous indiquons dans cette section la définition de la (forte) convexité (Boyd and Vandenberghe,

Définition 1.8 (Convexité, forte convexité). Soit E un espace vectoriel normé (de norme notée k · k), et f : E → R ∪ {+∞}. On dit que f est convexe si Ω := {x ∈ E : f (x) ∈ R} est non vide et convexe, et si pour tous x, x⁰ ∈ Ω et t ∈ [0, 1],

f tx + (1 − t)x⁰ 6 t · f(x) + (1 − t) · f(x0) .

Supposons également f différentiable sur Ω, et notons ∇f (x) ∈ E^∗ (où E^∗ est le dual de E) le gradient de f en x. Pour tout λ > 0, on dit que f est λ-fortement convexe si, pour tous x, x⁰ ∈ Ω,

f (x⁰) − f (x) − h∇f (x), x⁰− xi > ^λ 2^{kx − x}

0k². (1.124)

La convexité est équivalente à la condition de λ-forte convexité avec λ = 0. On vérifie directement que la fonction x 7→ kxk²/2 est 1-fortement convexe sur R^d (la condition (1.124) est alors une égalité), et que la somme d’une fonction λ-fortement convexe et d’une fonction convexe est λ-fortement convexe (Boyd and Vandenberghe,2004). Notons que, si f : Ω → R (où Ω ⊂ E est convexe) est différentiable et x^∗ ∈ arg min f , alors ∇f (x^∗) = 0. Réciproque-ment, si f est convexe et ∇f (x^∗) = 0, alors x^∗ est un minimiseur de f . Si de plus f est λ-fortement convexe, alors pour tout x ∈ Ω (puisque ∇f (x^∗) = 0) :

f (x) − f (x^∗) > ^λ 2^{kx − x}

∗k2. (1.125)

De plus, en inversant x et x⁰ dans l’inégalité (1.124) et en sommant l’inégalité obtenue avec (1.125), on obtient, pour tous x, x⁰ ∈ Ω,

h∇f (x⁰) − ∇f (x), x⁰− xi > λkx − x⁰k2. (1.126) De ce qui précède, nous déduisons le résultat de stabilité suivant (rappelons qu’une fonction f : R^d→ R est dite L-Lipschitz si |f (x⁰) − f (x)| 6 Lkx⁰− xk pour tous x, x⁰ ∈ Rd) :

Lemme 1.3. Soit F : R^d→ R une fonction λ-fortement convexe, et f : Rd→ R une fonction L-Lipschitz. Soient²¹ x^∗= arg min F , et _ex ∈ arg min(F + f ). Alors

kx^∗−xk 6_e ^L λ^, ^{f (x} ∗ ) − f (x) 6_e ^L 2 λ ^.

Proof. L’inégalité (F + f )(_ex) 6 (F + f )(x^∗) et le caractère L-Lipschitz de f impliquent que F (x) − F (x_e ^∗) 6 f (x^∗) − f (x) 6 Lke_e x − x^∗k .

De plus, par λ-forte convexité de F et par l’inégalité (1.125), on a F (x)−F (x_e ^∗) > λkex−x^∗k2/2. Il en découle que kx − x_e ^∗k 6 2L/λ et donc f(x^∗) − f (_ex) 6 2L2/λ. Cela établit la borne du Lemme1.3, au facteur 2 près.

Pour éliminer le facteur 2, procédons comme suit. Pour toute fonction g : R^d → R, soit φ_g : [0, 1] → R la fonction définie par φ_g(t) = g(x + t(x_e ^∗ −x)). Par définition de_e x,_e φF +f = φF + φf atteint son minimum en 0, de sorte que, pour tout t ∈ (0, 1],

0 6 ^φ^{F +f}^{(t) − φ}^{F +f}⁽⁰⁾

t ^{= ∆}^F^{(t) + ∆}^f^{(t) ,} ^(1.127)

L’existence de x^∗,_ex provient du fait que F, F + f tendent vers +∞ en +∞ (par forte convexité de F et en utilisant le fait que f est Lipschitz), et que ces deux fonctions sont continues (une fonction convexe sur R^d étant continue). L’unicité de x^∗provient de la forte convexité de F et de (1.125) ;x n’est pas nécessairement_e unique (il l’est cependant si f est convexe), mais le résultat s’applique à tout choix possible de_ex.

où l’on note ∆_g(t) = (φ_g(t) − φ_g(0))/t. Or, la fonction f est L-Lipschitz, de sorte que φ_f(t) − φ_f(0) 6 Lkt · (ex − x^∗)k, c’est-à-dire ∆_f(t) 6 Lkex − x^∗k pour tout t ∈ (0, 1). En outre, la fonction F est différentiable, donc φ_F également ; ainsi, lorsque t → 0⁺, ∆_F(t) → φ⁰_F(0) = h∇F (_ex), x^∗−xi. Or, la λ-forte convexité de F implique, par l’inégalité (_e 1.126), que

h∇F (_ex), x^∗−xi = −h∇F (_e _ex) − ∇F (x^∗),x − x_e ^∗i 6 −λkex − x^∗k2,

où l’on a utilisé que ∇F (x^∗) = 0. Ainsi, en prenant t → 0⁺, l’inégalité (1.127) implique que 0 6 −λkex − x^∗k2 + Lkx − x_e ^∗k, c’est-à-dire kx − x_e ^∗k 6 L/λ et donc f(x∗) − f (x) 6 L_e ²/λ comme annoncé.

1.6.4 Regret de la descente de gradient en ligne

Dans cette annexe, nous établissons une borne de regret pour l’algorithme de descente de gradient en ligne (en anglais Online gradient descent, OGD,Zinkevich,2003). Cet algorithme coïncide avec l’algorithme de descente de gradient stochastique décrit dans la Proposition1.2, mais considéré comme algorithme d’optimisation en ligne. Le cadre du problème est ici celui de l’optimisation convexe en ligne (voir la Section1.2.1)

Proposition 1.11 (Zinkevich, 2003). Soit Θ une partie convexe fermée de Rd. Supposons que, pour tout t = 1, . . . , n, la fonction `_t : Θ → R est convexe, différentiable et L-Lipschitz. Considérons l’algorithme de descente de gradient en ligne projetée :

• bθ1 := θ1 ∈ Θ fixe ;

• pour t = 1, . . . , n, bθt+1:= proj_Θ(bθt− η∇`_t(bθt)). Soit B > 0 ; posons η = B/(L√

n), et notons Θ_B := {θ ∈ Θ : kθ − θ₁k 6 B}. Alors, on a la borne de regret suivante :

n X t=1 `_t(bθ_t) − inf θ∈ΘB n X t=1 `_t(θ) 6 BL^√n . (1.128)

Proof. Posons h_t:= ∇`_t(bθ_t) pour tout t = 1, . . . , n ; puisque `_test L-Lipschitz, on a kh_tk 6 L. De plus, l’inégalité (1.27) implique qu’il suffit de contrôler le regret sur la suite de pertes linéaires hh_t, ·i. Comme bθt+1= proj_Θ(bθt− ηh_t), on a pour tout θ ∈ Θ :

kbθt+1− θk² 6 kbθt− ηh_tk²= kbθt− θk²− 2ηhh_t, bθt− θi + η²kh_tk² de sorte que hh_t, bθt− θi 6 ¹ 2η ^kb^θ^t^{− θk} 2− kbθt+1− θk² +^η 2^kh^t^k 2.

En sommant l’inégalité précédente sur t = 1, . . . , n, on obtient pour tout θ ∈ Θ_B :

n X t=1 `t(bθt) − n X t=1 `t(θ) 6 n X t=1 hh_t, bθt− θi 6 ^kθ¹^{− θk} 2 2η ⁺ η 2 n X t=1 kh_tk²6 ^B 2 2η ⁺ ηL²n 2 ^, qui vaut BL√ n pour η = B/(L^√n).

Mondrian Random forests: theory and

methodology

Minimax optimal rates for Mondrian

trees and forests

Abstract. Introduced by Breiman (2001a), Random Forests are widely used classification and regression algorithms. While being initially designed as batch algorithms, several vari-ants have been proposed to handle online learning. One particular instance of such forests is the Mondrian Forest Lakshminarayanan et al. (2014, 2016), whose trees are built using the so-called Mondrian process, therefore allowing to easily update their construction in a stream-ing fashion. In this chapter, we provide a thorough theoretical study of Mondrian Forests in a batch learning setting, based on new results about Mondrian partitions. Our results include consistency and convergence rates for Mondrian Trees and Forests, that turn out to be minimax optimal on the set of s-Hölder function with s ∈ (0, 1] (for trees and forests) and s ∈ (1, 2] (for forests only), assuming a proper tuning of their complexity parameter in both cases. Furthermore, we prove that an adaptive procedure (to the unknown s ∈ (0, 2]) can be constructed by combining Mondrian Forests with a standard model aggregation algorithm. These results are the first demonstrating that some particular random forests achieve mini-max rates in arbitrary dimension. Owing to their remarkably simple distributional properties, which lead to minimax rates, Mondrian trees are a promising basis for more sophisticated yet theoretically sound random forests variants.

Contents

2.1 Introduction . . . . 100

Dans le document Contributions à l'apprentissage statistique : estimation de densité, agrégation d'experts et forêts aléatoires (Page 101-109)