Apprentissage statistique Chapitre 7 : Vitesses rapides
Lucie Le Briquer 13 mars 2018
Table des matières
1 Hypothèse de bruit de Massart 2
2 Hypothèse de bruit de Tsybakov 4
1
1 Hypothèse de bruit de Massart
Le bruit dans la classification binaire satisfait l’hypothèse de Massart au niveauγ ∈]0,12] si :
∀x∈ X,
η(x)−1 2 >γ Définition 1(bruit de Massart)
Si lesXi6aet Var(Xi) =σ2, alors :
P(Xn−E[X]>ε)6exp Ç
− nε2 2σ2+23εa
å Rappels 1(inégalité de Bernstein)
Supposons queF est finie et quef∗ ∈ F (oùf∗ est le classifieur optimal de Bayes) alors, sous l’hypothèse de Massart au niveauγ,
∀δ >0, R( ˆfERM)− R∗6 logÄ|F |
δ
ä
nγ avec probabilité au moins1−δ.
Théorème 1
Remarque.L’hypothèse f∗ ∈ F est nécessaire. Contre-exemple : X ={x1, x2} et η(x1) = 1, η(x2) = 0maisF={(0,0),(1,1)}. Notonsp=P(X =x1). Alors :
R(0,0) =p R(1,1) = 1−p
Le classifieur optimal minimise{p,1−p}. Donc(0,0)est optimal si p <1−p⇔p < 12 et (1,1) l’est sip> 12.
Donc pour distinguer le classifieur optimal, il faut au moins|1−2p|1 2 échantillons. D’où si|1−2p|6
√1
n, on va sélectionner le mauvais classifieur avec une probabilité constante. L’erreur est de l’ordre de √1n. On a donc une vitesse lente.
Preuve.
R( ˆf)− R(f∗) =R( ˆf)−Rˆn( ˆf) + ˆRn( ˆf)−Rˆn(f∗)
| {z }
60
+ ˆRn(f∗)− R(f∗)
6îRˆn(f∗)−Rˆn( ˆf)ó
−î
R(f∗)− R( ˆf)ó Or,
Rˆn(f∗)−Rˆn( ˆf) = 1 n
n
X
i=1
Ä1f∗(xi)6=yi−1f(xˆ i)6=yi
ä
| {z }
Zi( ˆf)
2
NotonsZi(f) =1f∗(xi)6=yi−1f(xi)6=yi. Il suffit alors de montrer que∀f ∈ F, 1
n
n
X
i=1
Zi(f)−E[Zi(f)]6log Mδ γn
avec probabilité>1−δ(en notantM =|F |).
On va utiliser l’inégalité de Bernstein. Pour ce faire, on calcule :
Var(Zi(f))6E[Zi2(f)] =P(f(xi)6=f∗(xi)) =σ2f En utilisant Bernstein, en notant :
ε(f) := max Ñ
2σ2flog Mδ
n ; 2
3
log Mδ n
é
On obtient avec une probabilité>1−δ,∀f ∈ F : 1
n
n
X
i=1
Zi(f)−E[Zi(f)]6ε(f)
Donc en particulier,
R( ˆf)− R(f∗)6ε( ˆf)
On va utiliser l’hypothèse de bruit pour bornerσ2f. On va montrer que R(f)− R(f∗)>2γσf2. On sait que :
R(f)− R(f∗) =E ï
2 1 2 −η(x)
1f(x)6=f∗(x)
ò
>2γP(f(x)6=f∗(x)) = 2γσf2 (∗)
Donc,
R( ˆf)− R(f∗)6max Ñ
2σf2log Mδ
n ; 2
3
log Mδ n
é
et
σ2ˆ
f 6 R( ˆf)− R(f∗) 2γ Donc finalement,
R( ˆf)− R(f∗)6log Mδ γn
3
2 Hypothèse de bruit de Tsybakov
L’hypothèse deα−marge de Tsybakov est lorsqu’il existec0>0 etε0>0tels que :
P Å
η(x)−1 2 6ε
ã
6c0ε1−αα pour toutε < ε0.
Définition 2(α−marge de Tsybakov)
Remarque.Si α= 0la condition est vide. Siα= 1, la condition est celle de Massart.
Sous la condition deα−marge etf∗∈ F, on a avec probabilité>1−δ:
R( ˆf)− R(f)6c
Çlog Mδ n
å2−α1
oùc est une constante qui ne dépend que dec0,ε0 etα.
Théorème 2
Preuve.
La preuve est identique à celle de Massart jusqu’à(∗).
R(f)− R(f∗) =E ï
2 1 2−η(x)
1f(x)6=f∗(x)
ò
>E ï
2 1 2−η(x)
1f(x)6=f∗(x)1|12−η(x)|>t
ò
>2tP Å
f(x)6=f∗(x)et 1 2 −η(x)
>t
ã
>2tP(f(x)6=f∗(x))−2tP Å
1 2 −η(x)
6t
ã
carP(A∩B)>P(A)−P(BC)
>2tσ2f−2tc0t1−αα sit6ε0
En prenantt=c1σ2f
1−α
α , avecc1 tel quet6ε0, on obtient : R(f)− R(f∗)>c2σ2f1+
1−α
α =c2σfα2 Ainsi,
R( ˆf)− R(f∗)6max ÖÃ
2Ä
R( ˆf)− R(f∗)äα
log Mδ
cα2n ; 2
3
log Mδ n
è
D’où :
R( ˆf)− R(f∗)6c3
Çlog Mδ n
å2−α1
4