Apprentissage statistique Chapitre 6 : Pertes générales, chaining

(1)

Apprentissage statistique Chapitre 6 : Pertes générales, chaining

Lucie Le Briquer 6 mars 2018

Table des matières

(2)

1 Pertes générales

• Les données sont X∈ X (le plus souvent⊆R^d)

• Les étiquettes Y ∈[−1,1]

• On dispose de la familleF de classifieurs⊆ {x∈ X −→[−1,1]}

• Perte (générale) :l(f(x), y)∈[0,1]

Le risque def ∈ F est :

R(f) =E[l(f(X), Y)]

Exemple.(classiques de pertes)l_p(y, y⁰) =|y−y⁰|^p

À partir des données(X1, Y1), . . . ,(Xn, Yn)on définit le risque empirique d’un classifieur par : Rˆ_n(f) = 1

n

X

i=1

l(f(X_i), Y_i)

Le minimiseur du risque empirique estfˆ_n=argminRˆ_n(f)quand il est défini (ce qui sera toujours le cas désormais).

R( ˆfn)− inf

f∈FR(f)62 sup

f∈F

|Rˆn(f)−R(f)|

et,

P Ç

sup

f∈F

|Rˆn(f)−R(f)|>E ñ

sup

f∈F

|Rˆn(f)−R(f)|

ô +ε

å

6e^−2nε² Lemme 1

Preuve.

Ce n’estpas Hoeffding puisqu’on aurait :

P |Rˆn(f)−R(f)| −E[ ˆRn(f)−R(f)]>ε

6e^−2nε² Et donc on aurait seulement6|F |e^−2nε².

NotonsZn = sup_f∈F|Rˆn(f)−R(f)|. On veut montrer queP(Zn−E[Zn]>ε)6e^−2ε²ⁿ.

Z_n = sup

f∈F

1 n

n

X

i=1

l(f(X_i), Y_i)−E[l(f(X), Y)]

Si on change la valeur d’un seul (Xi, Yi) en maintenant les autres égaux, alors la valeur de Zn

change d’au plus _n¹. Inégalité de McDiarmid (ou des différences bornées) :

P(Zn−E[Zn]>ε)6e

−Pn^2ε² i=1

1

n2 =e^−2ε²ⁿ

(3)

Exemple.(intéressant d’utilisation de McDarmid) Concentration de la variance empirique.

SoientX₁, . . . , X_n i.i.d. de varianceσ².

ˆ

σ²_n= 1 n−1

n

X

i=1

(X_i−X_n)²= 2 n(n−1)

X

i<j

(X_i−X_j)²

McDiarmid donne :

P(ˆσ²_n−σ²>ε)6e⁻^nε

2 2

Pour en revenir au learning, il suffit de contrôlersup_f∈F|Rˆn(f)−R(f)|. En utilisant la symé- trisation, on va simplifier son écriture.

E ñ

sup

f∈F

|Rˆ_n(f)−R(f)|

ô

62 sup

Dn

Eσ

"

sup

f∈F

1 n

n

X

i=1

σ_il(f(x_i), y_i)

#

où lesσ_i=±1avec probabilité ¹₂, i.i.d. et indépendantes des (X_i, Y_i).

Lemme 2

Preuve.(idées)

On introduit un “échantillon fantôme” (X_i⁰, Y_i⁰) de même loi de (Xi, Yi) et indépendant. On remplace R(f) par E1

n

Pn

i=1l(f(X_i⁰), Y_i⁰)

. La fin de la preuve est presque identique au cas binaire.

La complexité de Rademacher pour la familleF au pointDn est :

R[l◦ F,Dn] =Eσ

"

sup

f∈F

1 n

n

X

i=1

σil(f(xi), yi)

#

et on notera

Rn[l◦ F] = sup

Dn

R[l◦ F,Dn] Définition 1(complexité de Rademacher)

SiF est finie, alors par Hoeffding :

Rn[l◦ F]6

2 log(|F |) n Lemme 3

1.1 Cas général, F infinie

On veut ε−approcher les fonctions croissantes à valeurs dans [0,1]. ∀f croissante ∃f_ε ∈ F^ε

∀i, |f(x_i)−f_ε(x_i)|6ε. Il y a ¹_ε sauts (de hauteur ε) à “placer” sur un desn points. Donc au plusn^1/ε.

(4)

Par ailleurs silest L−lipschitz,

Rn[l◦ F]6ε+Rn[l◦ F^ε] Donc dans le cas des fonctions croissantes on obtiendrait :

Rn[l◦ F]6ε+ 2

log(n) εn 63

Ålogn n

ã¹₃

Pour simplifier les notations, on va considérer la compexité de Rademacher : Rn[F,Dn] =Eσ

"

sup

f∈F

1 n

n

X

i=1

σif(xi)

#

Pour une classeF de fonctionsX −→[0,1].

Étant donnés une classe F ⊂ {X −→[0,1]}, une métriqued sur {X −→[0,1]} et ε > 0.

Unε−net de (F, d) est un ensemble V tel que pour toutf ∈ F, il existe g ∈ V tel que d(f, g)6ε(les éléments deV n’appartiennent pas forcément àF).

Les covering numbers de(F, d)sont :

N(F, d, ε) = inf{|V|; V est unε−net de(F, d)}

Définition 2(covering number)

En particulier pour les distancesd^x_p définies par :

d^x_p(f, g) = 1 n

n

X

i=1

|f(xi)−g(xi)|^p

!1/p

On notera

sup

x₁,...,x_n

N(F, d^x_p, ε) =N_n^p(F, ε)

Rn[F,Dn]6inf

ε>0ε+

2 log(2N(F, d^x₁, ε)) n

et

Rn[F]6inf

ε>0ε+

2 log(2N_n¹(F, ε)) n Théorème 1(discrétisation)

Exemples.

• Si F est l’ensemble des fonctions croissantes deRdans[0,1],

R_n[F]63

Ålog(n) n

ã^1/3

(5)

• Si F est l’ensemble des fonctions linéairesθ^Txavec cθ∈ Bp (surX =Bq), alors :

N(F, ε)6 Å2

ε ã^d

et R_n[F]62

dlog(16n/d) n

2 Chaining

Sif ∈ F sont à valeurs dans[0,1], alors, pour toutx= (x1, . . . , xn),

Rn[F, x]64 inf

ε>0

( ε+ 3

Z 1

ε

log(2N(F, d^x₁, ε⁰))

n dε⁰

) Théorème 2

Preuve.

Fixonsx= (x1, . . . , xn)de telle sorte quef peut être identifiée par (f(x1), . . . , f(xn)).

Rn[F, x]6Eσsup

f

|σ^Tf| oùσ=σ1

n, . . . ,σn

n

On noteVmun2^−m−net deF qui réaliseN(F, d^x₁,2^−m)etfmun élément deVmqui est à2^−m def. On écrit tout simplement :

f = (fM −fM−1) + (fM−1−fM−2) +. . .+ (f1−0) + (f−fM)

| {z }

62^−M

Donc

Rn[F, x]6Eσsup

f

σ^T

(f−fM) + (fM−f_M−1) +. . .+ (f1−0)

62^−M+

M

X

m=1

E sup

f_m,fm−1

|σ^T(f_m−f_m−1)|

Il reste à contrôler pour toutm6M : E sup

f_m,fm−1

|σ^T(f_m−f_m−1)|

car par Hoeffding :

P(σ^Tg>ε)6e

−²ⁿP²^ε_g²2

i =e⁻²ⁿ

2ε2 kgk2

Donc,

P Ç

sup

g∈G

σ^Tg>ε å

6|G|e⁻ ²ⁿ

2ε2 maxkgk2

Ainsi, ici :

E sup

fm,fm−1

|σ^T(fm−f_m−1)|6sup

f

kfm−f_m−1k2

p2 log(2|Vm||V_m−1|) n

6sup

f

kfm−f_m−1k2

p2 log(2|Vm|²) n

(6)

mais,

kfm−f_m−1k26kfm−fk2+kf−f_m−1k2

6√

n(kfm−fk1+kf −f_m−1k1) 6√

n(2^−m+ 2^−m+1) = 3√ n2^−m D’où :

Rn[F, x]62^−M + 3

M

X

m=1

2^−m

2 log(2|V_m|²) n

AvecV_m=N(F, d^x₁,2^−m). En choisissantM tel que2^−M⁻²6ε2^−M−1, on obtient :

R_n[F, x]64ε+ 12 Z 1

ε

2 log(2N(F, d^x₁, ε⁰))

n dε⁰

carPM

m=12^−m√

. . .= 2PM

m=1 2^−m−2^−(m+1)√ . . .

Exemples. SiN(F, d^x, ε≈n^1/ε)alors : Z 1

ε

log(2n^1/ε⁰)

n dε⁰6√ 2

Z 1

ε

…logn n

1

ε⁰dε⁰ 62√ 2

…logn

n ∀ε

DoncR_n[F, x]636»_log_n

n .

3 Calculs de covering numbers

On veutmajorer les coverings numbers.

Technique 1. On peut relier covering et packing numbers.

N(F, d, ε) = nombre de boules minimal pour recouvrirF M(F, d, ε) = nombre maximal de pointsfi dansF tel que|fi−fj|> ε

∀ε,∀F, ∀d:

M(F, d,2ε)6N(F, d, ε)6M(F, d, ε) Proposition 1

Preuve.

Pour la seconde inégalité, on remarque qu’un ensemble qui réaliseM(F, d, ε)est unε−covering.

Pour la première inégalité, considérons la contraposée. Supposons M >N + 1. Alors il existe une boule de tailleεqui contient deux points du packing optimal. Donc ces deux points sont à une distance de plus de2ε. Contradiction.

(7)

Technique 2. Utiliser le volume.

Å1 ε

ã^dVol(F)

Vol(B) 6N(F, d, ε)6M(F, d, ε)6 Å3

ε

ã^d Vol(F) Vol(B) siF ⊂R^det est convexe,Best la boule unité.

Proposition 2

Preuve.

F ⊂ [

fi∈F

B(fi, ε)

Donc,

Vol(F)6Vol Ñ

[

f_i∈F

B(fi, ε) é

6 X

f_i∈F

Vol(B(fi, ε)) =NVol(B)ε^d

D’un autre côté,

M ×Vol(B)ε 2

d

6Vol F+ε

2B 6Vol

Å3 2F

ã

= Å3

2 ã²

Vol(F) en supposant que Vol(F)>Vol(εB).

Technique 2. “Fat-shattering”, généralise la VC-dimension.

Étant donnésx1, . . . , xn, on dit que F éclate x1, . . . , xn au niveau α, s’il existe des seuils s1, . . . , sn tels que∀E⊂ {1, . . . , n}, il existefE ∈ F :

fE(xi)>si+α sii∈E fE(xi)6si−α sii /∈E

fatα(F)est la plus petite cardinalité d’un ensemble pouvant être éclaté au niveauα.

Définition 3

log(N(F, d_∞, α))6fat^α

4 log Å2en

dα ã

log Ç

2n Å

1 + 2 α

ã²å

≈fat^α

4(F) log² n dα

Proposition 3