• Aucun résultat trouvé

Apprentissage statistique Chapitre 7 : Vitesses rapides

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique Chapitre 7 : Vitesses rapides"

Copied!
4
0
0

Texte intégral

(1)

Apprentissage statistique Chapitre 7 : Vitesses rapides

Lucie Le Briquer 13 mars 2018

Table des matières

1 Hypothèse de bruit de Massart 2

2 Hypothèse de bruit de Tsybakov 4

1

(2)

1 Hypothèse de bruit de Massart

Le bruit dans la classification binaire satisfait l’hypothèse de Massart au niveauγ ∈]0,12] si :

∀x∈ X,

η(x)−1 2 >γ Définition 1(bruit de Massart)

Si lesXi6aet Var(Xi) =σ2, alors :

P(Xn−E[X]>ε)6exp Ç

− nε22+23εa

å Rappels 1(inégalité de Bernstein)

Supposons queF est finie et quef ∈ F (oùf est le classifieur optimal de Bayes) alors, sous l’hypothèse de Massart au niveauγ,

∀δ >0, R( ˆfERM)− R6 logÄ|F |

δ

ä

nγ avec probabilité au moins1−δ.

Théorème 1

Remarque.L’hypothèse f ∈ F est nécessaire. Contre-exemple : X ={x1, x2} et η(x1) = 1, η(x2) = 0maisF={(0,0),(1,1)}. Notonsp=P(X =x1). Alors :

R(0,0) =p R(1,1) = 1−p

Le classifieur optimal minimise{p,1−p}. Donc(0,0)est optimal si p <1−p⇔p < 12 et (1,1) l’est sip> 12.

Donc pour distinguer le classifieur optimal, il faut au moins|1−2p|1 2 échantillons. D’où si|1−2p|6

1

n, on va sélectionner le mauvais classifieur avec une probabilité constante. L’erreur est de l’ordre de 1n. On a donc une vitesse lente.

Preuve.

R( ˆf)− R(f) =R( ˆf)−Rˆn( ˆf) + ˆRn( ˆf)−Rˆn(f)

| {z }

60

+ ˆRn(f)− R(f)

6îRˆn(f)−Rˆn( ˆf)ó

−î

R(f)− R( ˆf)ó Or,

n(f)−Rˆn( ˆf) = 1 n

n

X

i=1

Ä1f(xi)6=yi−1f(xˆ i)6=yi

ä

| {z }

Zi( ˆf)

2

(3)

NotonsZi(f) =1f(xi)6=yi−1f(xi)6=yi. Il suffit alors de montrer que∀f ∈ F, 1

n

n

X

i=1

Zi(f)−E[Zi(f)]6log Mδ γn

avec probabilité>1−δ(en notantM =|F |).

On va utiliser l’inégalité de Bernstein. Pour ce faire, on calcule :

Var(Zi(f))6E[Zi2(f)] =P(f(xi)6=f(xi)) =σ2f En utilisant Bernstein, en notant :

ε(f) := max Ñ 

2flog Mδ

n ; 2

3

log Mδ n

é

On obtient avec une probabilité>1−δ,∀f ∈ F : 1

n

n

X

i=1

Zi(f)−E[Zi(f)]6ε(f)

Donc en particulier,

R( ˆf)− R(f)6ε( ˆf)

On va utiliser l’hypothèse de bruit pour bornerσ2f. On va montrer que R(f)− R(f)>2γσf2. On sait que :

R(f)− R(f) =E ï

2 1 2 −η(x)

1f(x)6=f(x)

ò

>2γP(f(x)6=f(x)) = 2γσf2 (∗)

Donc,

R( ˆf)− R(f)6max Ñ 

f2log Mδ

n ; 2

3

log Mδ n

é

et

σ2ˆ

f 6 R( ˆf)− R(f) 2γ Donc finalement,

R( ˆf)− R(f)6log Mδ γn

3

(4)

2 Hypothèse de bruit de Tsybakov

L’hypothèse deα−marge de Tsybakov est lorsqu’il existec0>0 etε0>0tels que :

P Å

η(x)−1 2 6ε

ã

6c0ε1−αα pour toutε < ε0.

Définition 2(α−marge de Tsybakov)

Remarque.Si α= 0la condition est vide. Siα= 1, la condition est celle de Massart.

Sous la condition deα−marge etf∈ F, on a avec probabilité>1−δ:

R( ˆf)− R(f)6c

Çlog Mδ n

å2−α1

oùc est une constante qui ne dépend que dec00 etα.

Théorème 2

Preuve.

La preuve est identique à celle de Massart jusqu’à(∗).

R(f)− R(f) =E ï

2 1 2−η(x)

1f(x)6=f(x)

ò

>E ï

2 1 2−η(x)

1f(x)6=f(x)1|12−η(x)|>t

ò

>2tP Å

f(x)6=f(x)et 1 2 −η(x)

>t

ã

>2tP(f(x)6=f(x))−2tP Å

1 2 −η(x)

6t

ã

carP(A∩B)>P(A)−P(BC)

>2tσ2f−2tc0t1−αα sit6ε0

En prenantt=c1σ2f

1−α

α , avecc1 tel quet6ε0, on obtient : R(f)− R(f)>c2σ2f1+

1−α

α =c2σfα2 Ainsi,

R( ˆf)− R(f)6max ÖÃ

R( ˆf)− R(fα

log Mδ

cα2n ; 2

3

log Mδ n

è

D’où :

R( ˆf)− R(f)6c3

Çlog Mδ n

å2−α1

4

Références

Documents relatifs

Dans ce cadre, on va chercher à prédire le prochain label Y d’une nouvelle observation X.. Moralement, on veut donc comprendre la dépendance entre X

Pour le coût de Huber et celui L 1 , les valeurs aberrantes dans l’ensemble d’appren- tissage ont beaucoup moins d’influence sur le risque (donc sur les règles d’apprentissage

2 Application du théorème de Stone aux algorithmes par partitions 5 3 Algorithme des k plus proches voisins (k−ppv ou k−NN) 8.. Montrons la

La VC-dimension de l’ensemble des classifieurs affines est donc 3.. Soit d la VC-dimension

Alors il existe une boule de taille ε qui contient deux points du packing optimal. Donc ces deux points sont à une distance de plus

Dorénavant on suppose que l’on a une famille convexe de classifieurs

[r]

La convergence en probabilité est beaucoup