Apprentissage statistique Chapitre 7 : Vitesses rapides

(1)

Apprentissage statistique Chapitre 7 : Vitesses rapides

Lucie Le Briquer 13 mars 2018

Table des matières

1 Hypothèse de bruit de Massart 2

2 Hypothèse de bruit de Tsybakov 4

1

(2)

1 Hypothèse de bruit de Massart

Le bruit dans la classification binaire satisfait l’hypothèse de Massart au niveauγ ∈]0,¹₂] si :

∀x∈ X,

η(x)−1 2 >γ Définition 1(bruit de Massart)

Si lesX_i6aet Var(X_i) =σ², alors :

P(Xn−E[X]>ε)6exp Ç

− nε² 2σ²+²₃εa

å Rappels 1(inégalité de Bernstein)

Supposons queF est finie et quef^∗ ∈ F (oùf^∗ est le classifieur optimal de Bayes) alors, sous l’hypothèse de Massart au niveauγ,

∀δ >0, R( ˆf_ERM)− R^∗6 logÄ_{|F |}

δ

ä

nγ avec probabilité au moins1−δ.

Théorème 1

Remarque.L’hypothèse f^∗ ∈ F est nécessaire. Contre-exemple : X ={x₁, x₂} et η(x₁) = 1, η(x₂) = 0maisF={(0,0),(1,1)}. Notonsp=P(X =x₁). Alors :

R(0,0) =p R(1,1) = 1−p

Le classifieur optimal minimise{p,1−p}. Donc(0,0)est optimal si p <1−p⇔p < ¹₂ et (1,1) l’est sip> ¹2.

Donc pour distinguer le classifieur optimal, il faut au moins_|1−2p|¹ 2 échantillons. D’où si|1−2p|6

√1

n, on va sélectionner le mauvais classifieur avec une probabilité constante. L’erreur est de l’ordre de ^√¹_n. On a donc une vitesse lente.

Preuve.

R( ˆf)− R(f^∗) =R( ˆf)−Rˆn( ˆf) + ˆRn( ˆf)−Rˆn(f^∗)

| {z }

60

+ ˆRn(f^∗)− R(f^∗)

6îRˆn(f^∗)−Rˆn( ˆf)ó

−î

R(f^∗)− R( ˆf)ó Or,

Rˆn(f^∗)−Rˆn( ˆf) = 1 n

n

X

i=1

Ä1^f^∗^(xi)6=yi−1f(x^ˆ i)6=yi

ä

| {z }

Zi( ˆf)

2

(3)

NotonsZi(f) =1f^∗(xi)6=yi−1f(xi)6=yi. Il suffit alors de montrer que∀f ∈ F, 1

n

X

i=1

Z_i(f)−E[Z_i(f)]6log ^M_δ γn

avec probabilité>1−δ(en notantM =|F |).

On va utiliser l’inégalité de Bernstein. Pour ce faire, on calcule :

Var(Z_i(f))6E[Z_i²(f)] =P(f(x_i)6=f^∗(x_i)) =σ²_f En utilisant Bernstein, en notant :

ε(f) := max Ñ

2σ²_flog ^M_δ

n ; 2

3

log ^M_δ n

é

On obtient avec une probabilité>1−δ,∀f ∈ F : 1

n

X

i=1

Z_i(f)−E[Z_i(f)]6ε(f)

Donc en particulier,

R( ˆf)− R(f^∗)6ε( ˆf)

On va utiliser l’hypothèse de bruit pour bornerσ²_f. On va montrer que R(f)− R(f^∗)>2γσ_f². On sait que :

R(f)− R(f^∗) =E ï

2 1 2 −η(x)

1f(x)6=f^∗(x)

ò

>2γP(f(x)6=f^∗(x)) = 2γσ_f² (∗)

Donc,

R( ˆf)− R(f^∗)6max Ñ

2σ_f²log ^M_δ

n ; 2

3

log ^M_δ n

é

et

σ²_ˆ

f 6 R( ˆf)− R(f^∗) 2γ Donc finalement,

R( ˆf)− R(f^∗)6log ^M_δ γn

3

(4)

2 Hypothèse de bruit de Tsybakov

L’hypothèse deα−marge de Tsybakov est lorsqu’il existec0>0 etε0>0tels que :

P Å

η(x)−1 2 6ε

ã

6c0ε^1−α^α pour toutε < ε₀.

Définition 2(α−marge de Tsybakov)

Remarque.Si α= 0la condition est vide. Siα= 1, la condition est celle de Massart.

Sous la condition deα−marge etf^∗∈ F, on a avec probabilité>1−δ:

R( ˆf)− R(f)6c

Çlog ^M_δ n

å_2−α¹

oùc est une constante qui ne dépend que dec0,ε0 etα.

Théorème 2

Preuve.

La preuve est identique à celle de Massart jusqu’à(∗).

R(f)− R(f^∗) =E ï

2 1 2−η(x)

1f(x)6=f^∗(x)

ò

>E ï

2 1 2−η(x)

1f(x)6=f^∗(x)1|¹2−η(x)|>t

ò

>2tP Å

f(x)6=f^∗(x)et 1 2 −η(x)

>t

ã

>2tP(f(x)6=f^∗(x))−2tP Å

1 2 −η(x)

6t

ã

carP(A∩B)>P(A)−P(B^C)

>2tσ²_f−2tc0t^1−α^α sit6ε0

En prenantt=c1σ²_f

1−α

α , avecc1 tel quet6ε0, on obtient : R(f)− R(f^∗)>c₂σ²_f¹⁺

1−α

α =c₂σ_f^α² Ainsi,

R( ˆf)− R(f^∗)6max ÖÃ

2Ä

R( ˆf)− R(f^∗)ä^α

log ^M_δ

c^α₂n ; 2

3

log ^M_δ n

è

D’où :

R( ˆf)− R(f^∗)6c3

Çlog ^M_δ n

å_2−α¹

4