• Aucun résultat trouvé

Apprentissage statistique Chapitre 6 : Pertes générales, chaining

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique Chapitre 6 : Pertes générales, chaining"

Copied!
7
0
0

Texte intégral

(1)

Apprentissage statistique Chapitre 6 : Pertes générales, chaining

Lucie Le Briquer 6 mars 2018

Table des matières

(2)

1 Pertes générales

• Les données sont X∈ X (le plus souvent⊆Rd)

• Les étiquettes Y ∈[−1,1]

• On dispose de la familleF de classifieurs⊆ {x∈ X −→[−1,1]}

• Perte (générale) :l(f(x), y)∈[0,1]

Le risque def ∈ F est :

R(f) =E[l(f(X), Y)]

Exemple.(classiques de pertes)lp(y, y0) =|y−y0|p

À partir des données(X1, Y1), . . . ,(Xn, Yn)on définit le risque empirique d’un classifieur par : Rˆn(f) = 1

n

n

X

i=1

l(f(Xi), Yi)

Le minimiseur du risque empirique estfˆn=argminRˆn(f)quand il est défini (ce qui sera toujours le cas désormais).

R( ˆfn)− inf

f∈FR(f)62 sup

f∈F

|Rˆn(f)−R(f)|

et,

P Ç

sup

f∈F

|Rˆn(f)−R(f)|>E ñ

sup

f∈F

|Rˆn(f)−R(f)|

ô +ε

å

6e−2nε2 Lemme 1

Preuve.

Ce n’estpas Hoeffding puisqu’on aurait :

P |Rˆn(f)−R(f)| −E[ ˆRn(f)−R(f)]>ε

6e−2nε2 Et donc on aurait seulement6|F |e−2nε2.

NotonsZn = supf∈F|Rˆn(f)−R(f)|. On veut montrer queP(Zn−E[Zn]>ε)6e−2ε2n.

Zn = sup

f∈F

1 n

n

X

i=1

l(f(Xi), Yi)−E[l(f(X), Y)]

Si on change la valeur d’un seul (Xi, Yi) en maintenant les autres égaux, alors la valeur de Zn

change d’au plus n1. Inégalité de McDiarmid (ou des différences bornées) :

P(Zn−E[Zn]>ε)6e

Pn2 i=1

1

n2 =e−2ε2n

(3)

Exemple.(intéressant d’utilisation de McDarmid) Concentration de la variance empirique.

SoientX1, . . . , Xn i.i.d. de varianceσ2.

ˆ

σ2n= 1 n−1

n

X

i=1

(Xi−Xn)2= 2 n(n−1)

X

i<j

(Xi−Xj)2

McDiarmid donne :

P(ˆσ2n−σ2>ε)6e

2 2

Pour en revenir au learning, il suffit de contrôlersupf∈F|Rˆn(f)−R(f)|. En utilisant la symé- trisation, on va simplifier son écriture.

E ñ

sup

f∈F

|Rˆn(f)−R(f)|

ô

62 sup

Dn

Eσ

"

sup

f∈F

1 n

n

X

i=1

σil(f(xi), yi)

#

où lesσi=±1avec probabilité 12, i.i.d. et indépendantes des (Xi, Yi).

Lemme 2

Preuve.(idées)

On introduit un “échantillon fantôme” (Xi0, Yi0) de même loi de (Xi, Yi) et indépendant. On remplace R(f) par E1

n

Pn

i=1l(f(Xi0), Yi0)

. La fin de la preuve est presque identique au cas binaire.

La complexité de Rademacher pour la familleF au pointDn est :

R[l◦ F,Dn] =Eσ

"

sup

f∈F

1 n

n

X

i=1

σil(f(xi), yi)

#

et on notera

Rn[l◦ F] = sup

Dn

R[l◦ F,Dn] Définition 1(complexité de Rademacher)

SiF est finie, alors par Hoeffding :

Rn[l◦ F]6

 2 log(|F |) n Lemme 3

1.1 Cas général, F infinie

On veut ε−approcher les fonctions croissantes à valeurs dans [0,1]. ∀f croissante ∃fε ∈ Fε

∀i, |f(xi)−fε(xi)|6ε. Il y a 1ε sauts (de hauteur ε) à “placer” sur un desn points. Donc au plusn1/ε.

(4)

Par ailleurs silest L−lipschitz,

Rn[l◦ F]6ε+Rn[l◦ Fε] Donc dans le cas des fonctions croissantes on obtiendrait :

Rn[l◦ F]6ε+ 2  

log(n) εn 63

Ålogn n

ã13

Pour simplifier les notations, on va considérer la compexité de Rademacher : Rn[F,Dn] =Eσ

"

sup

f∈F

1 n

n

X

i=1

σif(xi)

#

Pour une classeF de fonctionsX −→[0,1].

Étant donnés une classe F ⊂ {X −→[0,1]}, une métriqued sur {X −→[0,1]} et ε > 0.

Unε−net de (F, d) est un ensemble V tel que pour toutf ∈ F, il existe g ∈ V tel que d(f, g)6ε(les éléments deV n’appartiennent pas forcément àF).

Les covering numbers de(F, d)sont :

N(F, d, ε) = inf{|V|; V est unε−net de(F, d)}

Définition 2(covering number)

En particulier pour les distancesdxp définies par :

dxp(f, g) = 1 n

n

X

i=1

|f(xi)−g(xi)|p

!1/p

On notera

sup

x1,...,xn

N(F, dxp, ε) =Nnp(F, ε)

Rn[F,Dn]6inf

ε>0ε+

 2 log(2N(F, dx1, ε)) n

et

Rn[F]6inf

ε>0ε+

 2 log(2Nn1(F, ε)) n Théorème 1(discrétisation)

Exemples.

• Si F est l’ensemble des fonctions croissantes deRdans[0,1],

Rn[F]63

Ålog(n) n

ã1/3

(5)

• Si F est l’ensemble des fonctions linéairesθTxavec cθ∈ Bp (surX =Bq), alors :

N(F, ε)6 Å2

ε ãd

et Rn[F]62  

dlog(16n/d) n

2 Chaining

Sif ∈ F sont à valeurs dans[0,1], alors, pour toutx= (x1, . . . , xn),

Rn[F, x]64 inf

ε>0

( ε+ 3

Z 1

ε

 log(2N(F, dx1, ε0))

n dε0

) Théorème 2

Preuve.

Fixonsx= (x1, . . . , xn)de telle sorte quef peut être identifiée par (f(x1), . . . , f(xn)).

Rn[F, x]6Eσsup

f

Tf| oùσ=σ1

n, . . . ,σn

n

On noteVmun2−m−net deF qui réaliseN(F, dx1,2−m)etfmun élément deVmqui est à2−m def. On écrit tout simplement :

f = (fM −fM−1) + (fM−1−fM−2) +. . .+ (f1−0) + (f−fM)

| {z }

62−M

Donc

Rn[F, x]6Eσsup

f

σT

(f−fM) + (fM−fM−1) +. . .+ (f1−0)

62−M+

M

X

m=1

E sup

fm,fm−1

T(fm−fm−1)|

Il reste à contrôler pour toutm6M : E sup

fm,fm−1

T(fm−fm−1)|

car par Hoeffding :

P(σTg>ε)6e

2nP2εg22

i =e2n

2ε2 kgk2

Donc,

P Ç

sup

g∈G

σTg>ε å

6|G|e 2n

2ε2 maxkgk2

Ainsi, ici :

E sup

fm,fm−1

T(fm−fm−1)|6sup

f

kfm−fm−1k2

p2 log(2|Vm||Vm−1|) n

6sup

f

kfm−fm−1k2

p2 log(2|Vm|2) n

(6)

mais,

kfm−fm−1k26kfm−fk2+kf−fm−1k2

6√

n(kfm−fk1+kf −fm−1k1) 6√

n(2−m+ 2−m+1) = 3√ n2−m D’où :

Rn[F, x]62−M + 3

M

X

m=1

2−m

 2 log(2|Vm|2) n

AvecVm=N(F, dx1,2−m). En choisissantM tel que2−M−26ε2−M−1, on obtient :

Rn[F, x]64ε+ 12 Z 1

ε

 2 log(2N(F, dx1, ε0))

n dε0

carPM

m=12−m

. . .= 2PM

m=1 2−m−2−(m+1)√ . . .

Exemples. SiN(F, dx, ε≈n1/ε)alors : Z 1

ε

 

log(2n1/ε0)

n dε06√ 2

Z 1

ε

…logn n

1

ε00 62√ 2

…logn

n ∀ε

DoncRn[F, x]636»logn

n .

3 Calculs de covering numbers

On veutmajorer les coverings numbers.

Technique 1. On peut relier covering et packing numbers.

N(F, d, ε) = nombre de boules minimal pour recouvrirF M(F, d, ε) = nombre maximal de pointsfi dansF tel que|fi−fj|> ε

∀ε,∀F, ∀d:

M(F, d,2ε)6N(F, d, ε)6M(F, d, ε) Proposition 1

Preuve.

Pour la seconde inégalité, on remarque qu’un ensemble qui réaliseM(F, d, ε)est unε−covering.

Pour la première inégalité, considérons la contraposée. Supposons M >N + 1. Alors il existe une boule de tailleεqui contient deux points du packing optimal. Donc ces deux points sont à une distance de plus de2ε. Contradiction.

(7)

Technique 2. Utiliser le volume.

Å1 ε

ãdVol(F)

Vol(B) 6N(F, d, ε)6M(F, d, ε)6 Å3

ε

ãd Vol(F) Vol(B) siF ⊂Rdet est convexe,Best la boule unité.

Proposition 2

Preuve.

F ⊂ [

fi∈F

B(fi, ε)

Donc,

Vol(F)6Vol Ñ

[

fi∈F

B(fi, ε) é

6 X

fi∈F

Vol(B(fi, ε)) =NVol(B)εd

D’un autre côté,

M ×Vol(B)ε 2

d

6Vol F+ε

2B 6Vol

Å3 2F

ã

= Å3

2 ã2

Vol(F) en supposant que Vol(F)>Vol(εB).

Technique 2. “Fat-shattering”, généralise la VC-dimension.

Étant donnésx1, . . . , xn, on dit que F éclate x1, . . . , xn au niveau α, s’il existe des seuils s1, . . . , sn tels que∀E⊂ {1, . . . , n}, il existefE ∈ F :

fE(xi)>si+α sii∈E fE(xi)6si−α sii /∈E

fatα(F)est la plus petite cardinalité d’un ensemble pouvant être éclaté au niveauα.

Définition 3

log(N(F, d, α))6fatα

4 log Å2en

dα ã

log Ç

2n Å

1 + 2 α

ã2å

≈fatα

4(F) log2 n dα

Proposition 3

Références

Documents relatifs

Je sbjppóse tihré 1 lin'ttMIt &amp;&amp;trfc elifcmm. 'Soif M un de ses points. Je substilue à la courbe une ligne brisée inscrite* partant de A et finissant en B, dont je rabats

En effet, tout chemin ApqB ne passant pas par le point M coupe les petits cercles en p et q\ or le plus court chemin de A en p est égal au plus court chemin de A en M (lemme connu),

Dans les éléments, pour prouver que, de toutes les lignes tracées sur la surface d'une sphère et terminées aux deux mêmes points, la plus courte est l'arc de grand cercle qui joint

ANNff SCOlAIRE JOlt/ ZOZO FIOIE SUR LfS IAIIYŒNTRD ET LIGNES OE NMAUX1. EXAMINATIUR : NIUUDIOI RENE NlllfAU : Prtnllèe

~ Activité : Faire placer deux points A et B de coordonnées entières, construire le milieu M de [AB] et en lire les coordonnées. Chercher une formule permettant d’obtenir

Prendre notes des 4 cas de facteurs

Est-ce que la puissance moyenne par unité de surface, transportée par l’onde dans le conducteur, reste constante pendant la propagation. Quelle est l’explication

Quelle est la probabilité qu'après les deux tirages la conguration des urnes soit identique à la conguration initiale (deux boules rouges et une verte en A , une boule rouge en B