Apprentissage statistique Chapitre 6 : Pertes générales, chaining
Lucie Le Briquer 6 mars 2018
Table des matières
1 Pertes générales
• Les données sont X∈ X (le plus souvent⊆Rd)
• Les étiquettes Y ∈[−1,1]
• On dispose de la familleF de classifieurs⊆ {x∈ X −→[−1,1]}
• Perte (générale) :l(f(x), y)∈[0,1]
Le risque def ∈ F est :
R(f) =E[l(f(X), Y)]
Exemple.(classiques de pertes)lp(y, y0) =|y−y0|p
À partir des données(X1, Y1), . . . ,(Xn, Yn)on définit le risque empirique d’un classifieur par : Rˆn(f) = 1
n
n
X
i=1
l(f(Xi), Yi)
Le minimiseur du risque empirique estfˆn=argminRˆn(f)quand il est défini (ce qui sera toujours le cas désormais).
R( ˆfn)− inf
f∈FR(f)62 sup
f∈F
|Rˆn(f)−R(f)|
et,
P Ç
sup
f∈F
|Rˆn(f)−R(f)|>E ñ
sup
f∈F
|Rˆn(f)−R(f)|
ô +ε
å
6e−2nε2 Lemme 1
Preuve.
Ce n’estpas Hoeffding puisqu’on aurait :
P |Rˆn(f)−R(f)| −E[ ˆRn(f)−R(f)]>ε
6e−2nε2 Et donc on aurait seulement6|F |e−2nε2.
NotonsZn = supf∈F|Rˆn(f)−R(f)|. On veut montrer queP(Zn−E[Zn]>ε)6e−2ε2n.
Zn = sup
f∈F
1 n
n
X
i=1
l(f(Xi), Yi)−E[l(f(X), Y)]
Si on change la valeur d’un seul (Xi, Yi) en maintenant les autres égaux, alors la valeur de Zn
change d’au plus n1. Inégalité de McDiarmid (ou des différences bornées) :
P(Zn−E[Zn]>ε)6e
−Pn2ε2 i=1
1
n2 =e−2ε2n
Exemple.(intéressant d’utilisation de McDarmid) Concentration de la variance empirique.
SoientX1, . . . , Xn i.i.d. de varianceσ2.
ˆ
σ2n= 1 n−1
n
X
i=1
(Xi−Xn)2= 2 n(n−1)
X
i<j
(Xi−Xj)2
McDiarmid donne :
P(ˆσ2n−σ2>ε)6e−nε
2 2
Pour en revenir au learning, il suffit de contrôlersupf∈F|Rˆn(f)−R(f)|. En utilisant la symé- trisation, on va simplifier son écriture.
E ñ
sup
f∈F
|Rˆn(f)−R(f)|
ô
62 sup
Dn
Eσ
"
sup
f∈F
1 n
n
X
i=1
σil(f(xi), yi)
#
où lesσi=±1avec probabilité 12, i.i.d. et indépendantes des (Xi, Yi).
Lemme 2
Preuve.(idées)
On introduit un “échantillon fantôme” (Xi0, Yi0) de même loi de (Xi, Yi) et indépendant. On remplace R(f) par E1
n
Pn
i=1l(f(Xi0), Yi0)
. La fin de la preuve est presque identique au cas binaire.
La complexité de Rademacher pour la familleF au pointDn est :
R[l◦ F,Dn] =Eσ
"
sup
f∈F
1 n
n
X
i=1
σil(f(xi), yi)
#
et on notera
Rn[l◦ F] = sup
Dn
R[l◦ F,Dn] Définition 1(complexité de Rademacher)
SiF est finie, alors par Hoeffding :
Rn[l◦ F]6
2 log(|F |) n Lemme 3
1.1 Cas général, F infinie
On veut ε−approcher les fonctions croissantes à valeurs dans [0,1]. ∀f croissante ∃fε ∈ Fε
∀i, |f(xi)−fε(xi)|6ε. Il y a 1ε sauts (de hauteur ε) à “placer” sur un desn points. Donc au plusn1/ε.
Par ailleurs silest L−lipschitz,
Rn[l◦ F]6ε+Rn[l◦ Fε] Donc dans le cas des fonctions croissantes on obtiendrait :
Rn[l◦ F]6ε+ 2
log(n) εn 63
Ålogn n
ã13
Pour simplifier les notations, on va considérer la compexité de Rademacher : Rn[F,Dn] =Eσ
"
sup
f∈F
1 n
n
X
i=1
σif(xi)
#
Pour une classeF de fonctionsX −→[0,1].
Étant donnés une classe F ⊂ {X −→[0,1]}, une métriqued sur {X −→[0,1]} et ε > 0.
Unε−net de (F, d) est un ensemble V tel que pour toutf ∈ F, il existe g ∈ V tel que d(f, g)6ε(les éléments deV n’appartiennent pas forcément àF).
Les covering numbers de(F, d)sont :
N(F, d, ε) = inf{|V|; V est unε−net de(F, d)}
Définition 2(covering number)
En particulier pour les distancesdxp définies par :
dxp(f, g) = 1 n
n
X
i=1
|f(xi)−g(xi)|p
!1/p
On notera
sup
x1,...,xn
N(F, dxp, ε) =Nnp(F, ε)
Rn[F,Dn]6inf
ε>0ε+
2 log(2N(F, dx1, ε)) n
et
Rn[F]6inf
ε>0ε+
2 log(2Nn1(F, ε)) n Théorème 1(discrétisation)
Exemples.
• Si F est l’ensemble des fonctions croissantes deRdans[0,1],
Rn[F]63
Ålog(n) n
ã1/3
• Si F est l’ensemble des fonctions linéairesθTxavec cθ∈ Bp (surX =Bq), alors :
N(F, ε)6 Å2
ε ãd
et Rn[F]62
dlog(16n/d) n
2 Chaining
Sif ∈ F sont à valeurs dans[0,1], alors, pour toutx= (x1, . . . , xn),
Rn[F, x]64 inf
ε>0
( ε+ 3
Z 1
ε
log(2N(F, dx1, ε0))
n dε0
) Théorème 2
Preuve.
Fixonsx= (x1, . . . , xn)de telle sorte quef peut être identifiée par (f(x1), . . . , f(xn)).
Rn[F, x]6Eσsup
f
|σTf| oùσ=σ1
n, . . . ,σn
n
On noteVmun2−m−net deF qui réaliseN(F, dx1,2−m)etfmun élément deVmqui est à2−m def. On écrit tout simplement :
f = (fM −fM−1) + (fM−1−fM−2) +. . .+ (f1−0) + (f−fM)
| {z }
62−M
Donc
Rn[F, x]6Eσsup
f
σT
(f−fM) + (fM−fM−1) +. . .+ (f1−0)
62−M+
M
X
m=1
E sup
fm,fm−1
|σT(fm−fm−1)|
Il reste à contrôler pour toutm6M : E sup
fm,fm−1
|σT(fm−fm−1)|
car par Hoeffding :
P(σTg>ε)6e
−2nP2εg22
i =e−2n
2ε2 kgk2
Donc,
P Ç
sup
g∈G
σTg>ε å
6|G|e− 2n
2ε2 maxkgk2
Ainsi, ici :
E sup
fm,fm−1
|σT(fm−fm−1)|6sup
f
kfm−fm−1k2
p2 log(2|Vm||Vm−1|) n
6sup
f
kfm−fm−1k2
p2 log(2|Vm|2) n
mais,
kfm−fm−1k26kfm−fk2+kf−fm−1k2
6√
n(kfm−fk1+kf −fm−1k1) 6√
n(2−m+ 2−m+1) = 3√ n2−m D’où :
Rn[F, x]62−M + 3
M
X
m=1
2−m
2 log(2|Vm|2) n
AvecVm=N(F, dx1,2−m). En choisissantM tel que2−M−26ε2−M−1, on obtient :
Rn[F, x]64ε+ 12 Z 1
ε
2 log(2N(F, dx1, ε0))
n dε0
carPM
m=12−m√
. . .= 2PM
m=1 2−m−2−(m+1)√ . . .
Exemples. SiN(F, dx, ε≈n1/ε)alors : Z 1
ε
log(2n1/ε0)
n dε06√ 2
Z 1
ε
…logn n
1
ε0dε0 62√ 2
…logn
n ∀ε
DoncRn[F, x]636»logn
n .
3 Calculs de covering numbers
On veutmajorer les coverings numbers.
Technique 1. On peut relier covering et packing numbers.
N(F, d, ε) = nombre de boules minimal pour recouvrirF M(F, d, ε) = nombre maximal de pointsfi dansF tel que|fi−fj|> ε
∀ε,∀F, ∀d:
M(F, d,2ε)6N(F, d, ε)6M(F, d, ε) Proposition 1
Preuve.
Pour la seconde inégalité, on remarque qu’un ensemble qui réaliseM(F, d, ε)est unε−covering.
Pour la première inégalité, considérons la contraposée. Supposons M >N + 1. Alors il existe une boule de tailleεqui contient deux points du packing optimal. Donc ces deux points sont à une distance de plus de2ε. Contradiction.
Technique 2. Utiliser le volume.
Å1 ε
ãdVol(F)
Vol(B) 6N(F, d, ε)6M(F, d, ε)6 Å3
ε
ãd Vol(F) Vol(B) siF ⊂Rdet est convexe,Best la boule unité.
Proposition 2
Preuve.
F ⊂ [
fi∈F
B(fi, ε)
Donc,
Vol(F)6Vol Ñ
[
fi∈F
B(fi, ε) é
6 X
fi∈F
Vol(B(fi, ε)) =NVol(B)εd
D’un autre côté,
M ×Vol(B)ε 2
d
6Vol F+ε
2B 6Vol
Å3 2F
ã
= Å3
2 ã2
Vol(F) en supposant que Vol(F)>Vol(εB).
Technique 2. “Fat-shattering”, généralise la VC-dimension.
Étant donnésx1, . . . , xn, on dit que F éclate x1, . . . , xn au niveau α, s’il existe des seuils s1, . . . , sn tels que∀E⊂ {1, . . . , n}, il existefE ∈ F :
fE(xi)>si+α sii∈E fE(xi)6si−α sii /∈E
fatα(F)est la plus petite cardinalité d’un ensemble pouvant être éclaté au niveauα.
Définition 3
log(N(F, d∞, α))6fatα
4 log Å2en
dα ã
log Ç
2n Å
1 + 2 α
ã2å
≈fatα
4(F) log2 n dα
Proposition 3