Apprentissage statistique TD2 : Inégalités de concentration
Lucie Le Briquer 5 février 2018
1 TD1
2 Inégalités de concentration
Exercice 2.1
1. X v.a. positive. Commet1X>t6X,P(X >t)6t−1E[X].
2. (inégalité de Markov généralité) Y v.a. réelle telle que P(Y ∈I) = 1 avecI intervalle de R. Soitg:I−→R+ croissante.
{Y >t} ∩ {Y ∈I} ⊂ {g(Y)>t} ∩ {Y ∈I} carg croissante surI Alors,
P(Y >t) =P(Y >t, Y ∈I)6P(g(Y)>g(t), Y ∈I)6g−1(t)E[g(Y)]
Exercice 2.2
1. Soits >0, posonsgs: x7−→exp(sx). Alors, par l’exercice 1,
P(X >t)6g(t)−1E[exp(sX)]6exp(−st) exp Ås2b2
2 ã
En minimisant ens, on obtient :
P(X>t)6exp Å
−t2 2b2
ã
2.
E[exp(tX)] =E
"+∞
X
k=0
tkXk k!
#
Montrons que :
+∞
XE[|X|k]
<+∞
On a |X|6e|X|6eX+e−X. De plus, X
k>0
E[|X|k]
k! =
Beppo-LevyE[e|X|]6E[eX] +E[e−X]<+∞
L’interversion somme/intégrale est donc justifiée. Alors,
E[etX] = 1 +tE[X] + t2
2E[X2] +t3ε1(t)61 + t2b2
2 +t3ε2(t) (∗) On a quetE[X] 6
t∼0
t2ε3(t) ⇒ E[X] = 0avectet −t.
De(∗), on en déduit :
t2
2E[X2]6 t2b2
2 +ε4(t)t3
En divisant partpuis en prenant la limite on auraE[X2] =Var(X)6b2.
Exercice 2.3
1. Sn = PXi, avec Xi bi−sous-gaussienne. Il suffit de montrer que Sn est pPb2i−sous- gaussienne.
E
"
exp s
n
X
i=1
Xi
!#
=
n
Y
i=1
E[exp(sXi)] = exp s2 2
n
X
i=1
b2i
!!
Ainsi par l’exercice 2,
P(Sn>t)6exp Å
− t2 2Pn
i=1b2i ã
Comme−Sn est aussipPb2i, on a comme majoration :
P(|Sn|>t)6P(Sn>t) +P(−Sn>t)62 exp Å
− t2 2Pn
i=1b2i ã
2. (Xi)v.a.i.i.d.N(0, σ2). AlorsE[etXi] = expÄt2σ2 2
ä. Ainsi,
P(|Sn|>t)62 exp Å
− t2 2nσ2
ã
3. (Xi)v.a.i.i.d. de loi de Rademacher. On a :
E[etX] =et+e−t
2 =ch(t)6exp Åt2
2 ã
Exercice 2.4
Il suffit de montrer que ∀i, Xi est Mi−m2 i−sous-gaussienne. SoitX v.a. telle quem6X 6M, X est M−m2 −sous-gaussienne ? Soits∈R. On peut décomposerX comme :
X=MX−m
M−m +mM−X M−m exp(sX)6 (X−m)esM + (M −X)esm
M −m par convexité
Ainsi,
E[esX]6 −m
M−mesM+ M
M−mesm carE[X] = 0 Par passage au log, on obtient :
log(E[esX])6log Å
esm Å M
M −m − m
M −mes(M−m) ãã
6sm+ log Å M
M −m − m
M −mes(M−m) ã
=ϕp(u)
avecu=s(M−m)et p= MM−m. Oru7→ϕp(u)C∞(R+).
ϕ0p(0) = 0 ϕ00p(u) = p(1−p) exp(u) (p+ (1−p) expu)2 6 1
4 ∀u∈R+
Car (a+b)4 2 =a2+b4 2 +ab2ge2ab4 +ab2 >ab.
ϕp(u) =ϕp(0) +ϕ0p(0)u+ Z u
0
(u−v)ϕ00p(v)dv
|ϕp(u)|60 + 0 + Z u
0
(u−v)1 4dv 6 u2
8 ∀u>0 Conclusion : pour touts>0,
E[exp(sX)]6exp
Ås2(M −m)2 2
ã
En considérant−X, on l’obtient pour toutx∈R, ce qui conclut la preuve.
Exercice 2.5
(Xn)une(Fn)−martingale.Sn =Pn
i=1Xi. On suppose que :
|Xi+1−Xi|6bi+1<+∞ P−p.s.
1.
E[exp(t(Yn+1−Yn))|Fn]6exp(t2b2n+1/2) (∗)
E[exp(t(Yn−Y0))] =E
"
exp t
n
X
i=0
Zi
!#
=E
"
E
"
exp t
n−1
X
i=0
Zi
!
Fn
##
=E
"
E
"
exp t
n−2
X
i=0
Zi
!#
E[exp(tZn−1)| Fn]
#
6et2b2n+1/2E
"
exp t
n−2
X
i=0
Zi
!#
car(Xn) (Fn)−martingale
où Zi = Yi+1−Yi. Par récurrence on obtient alors que Sn =Yn−Y0 est pPb2i−sous- gaussienne.
2. Il suffit de montrer que(Xn)satisfait(∗). On sait que l’on a :
|wn|6|Xn+1−Xn|6bn+1P−p.s.
Alors,
m=−bn+16wn6bn+1=M D’après la preuve de l’inégalité d’Hoeffding, on a∀t∈R:
wn 6Mwn−m
M−m +mM−wn
M −m D’où,
E[exp(twn)| Fn]6 etM
M−mE[wn−m| Fn] + etm
M −mE[M−wn | Fn]
En utilisantE[wn|Fn] = 0car(Xn)est une(Fn)−martingale, on peut copier la preuve de Hoeffding et conclure queXn satisfait(∗).
Exercice 2.6
1. Soit(Fk)k6n= (σ(X1, . . . , Xk))k6netFi=Fnpouri > n. PosonsMi=E[f(X1, . . . , Xn)| Fi] pouri= 0, . . . , netMi=f(X1, . . . , Xn)pouri>n+1.(Mi)i∈Nest une(Fi)i∈N−martingale.
Il faut vérifier les hypothèses d’Azuma-Hoeffding.
|Mi+1−Mi|=
E[f(X1, . . . , Xn)| Fi+1]−E[f(X1, . . . , Xn)| Fi]
Les(Xi)sont indépendants, donc :
E[f(X1, . . . , Xn)|Fi] =ψi(X1, . . . , Xi)
oùψi(x1, . . . , xi) =E[f(x1, . . . , xi, Xi+1, . . . , Xn)]. Donc :
|Mi+1−Mi|=|ψi+1(X1, . . . , Xi+1)−ψi(X1, . . . , Xi)|
=
E[f(x1, . . . , xi+1, Xi+2, . . . , Xn)−f(x1, . . . , xi, Xi+1, . . . , Xn)]
6bi+1
Conclusion,|Mi+1−Mi|6bi+1 P−p.s.
2. (Yi,k)i∈1:n, k∈1:m.
f(Y1,1, . . . , Yn,m) =g(Z1(m), . . . , Zn(m)) avec Zi = √1mPm
k=0Yi,k. Par le TCL en dimension n on a (Z1, . . . , Zn) −→ N(0,idn).
D’après le théorème du porte-manteau, et comme g est continue, il suffit de montrer que
∀m∈N∗ : P
Å
g(Z1(m), . . . , Zn(m))−E[g(Z1(m), . . . , Zn(m))] >t ã
6exp Å
−t2 2n
ã (∗) Pour montrer (∗)pour toutm, on applique Mc Diarmid àf(Y1,1, . . . , Yn,m). Comme :
f(y1,1, . . . , yi,k, . . . , yn,m−f(y1,1, . . . ,y˜i,k, . . . , yn,m)
6|yi,k−y˜i,k|6 1
√m
On obtient en appliquant Mc Diarmid : P
Å
g(Z1(m), . . . , Zn(m))−E[g()] >t ã
6exp Ç
− t2
2P
(i,k)∈{1,...,n}×{1,...,m} 1 m
å
= exp Å
−t2 2n
ã
Remarque.
(Xn)⇒Z∼ N(0,id)def⇔E[h(Yn)]−→E[h(Z)]∀h∈ Cb(Rd)
porte-manteau
⇔ P(g(Xn)6t)−→P(g(Z)6t)∀t∈Retg:Rd−→Rcontinue
3 Concepts de base de l’apprentissage statistique : classi- fieurs et fonctions de perte
Exercice 3.1
1. Soitf un classifieur.
Rcω
P (f) =E[cω(Y, f(X))] =E
ω01Y=11f(X)=0+ω11Y=01f(X)=1
=E
ω0Y(1−f(X)) +ω1(1−Y)f(X)
=E ï
E
ω0Y(1−f(X)) +ω1(1−Y)f(X)|X ò
η(X) =E[Y|X]
=E
ω0η(X)(1−f(X)) +ω1(1−η(X))f(X)
>E
min(ω0η(X)(1−f(X)), ω1(1−η(X))f(X)
On a égalité sif(X) = 1 ⇔ ω1(1−η(X))6ω0η(X) ⇔ η(X)>ω0ω+ω1 1. Donc f(x) =1η(x)>ω0 +ω1ω1
2. Excès de risque : ρ(f, f∗) =E
ω0η(X)(f∗(X)−f(X)) +ω1(1−η(X))(f(X)−f∗(X))
=E
1f(X)=01f∗(X)=1(ω0η(X)−ω1(1−η(X)))
−1f(X)=11f∗(X)=0(ω0η(X)−ω1(1−η(X)))
Sur f∗(X) = 1,ω0η(X)−ω1(1−η(X))>0, surf∗(X) = 0,ω0η(X)−ω1(1−η(X))60.
D’où :
ρ(f, f∗) = (ω0+ω1)E ï
η(X)− ω1 ω0+ω1
1f(X)6=f∗(X)
ò
Si f est un classifieur de Bayes, alorsρ(f, f∗) = 0. Donc : f(X) =f∗(X)surη(X)6= ω1
ω0+ω1
4 L’algorithme de perceptron
Exercice 4.1 1. NotonsA=
i∈ {1, . . . , T}, |ωi6=ωi−1 . ωt=X
i∈A
yixi
hωt, ω∗i=X
i∈A
yixTiω∗
>Card(A)ρkω∗k par hypothèse Or par Cauchy-Schwarz,
|hωt, ω∗i|6kω∗kkωTk Comme,
kωTk2=kωT−1k2+ 2ythωy−1, xti
| {z }
60sit∈A
1t∈A+kxtk21{t∈A}
6kωT−1k2+r21t∈A
6r2Card(A) par récurrence On a donc :
ρkω∗kCard(A)6kω∗kr»
Card(A)