3 Concepts de base de l’apprentissage statistique : classi- fieurs et fonctions de perte

(1)

Apprentissage statistique TD2 : Inégalités de concentration

Lucie Le Briquer 5 février 2018

1 TD1

2 Inégalités de concentration

Exercice 2.1

1. X v.a. positive. Commet1^X>t6X,P(X >t)6t⁻¹E[X].

2. (inégalité de Markov généralité) Y v.a. réelle telle que P(Y ∈I) = 1 avecI intervalle de R. Soitg:I−→R+ croissante.

{Y >t} ∩ {Y ∈I} ⊂ {g(Y)>t} ∩ {Y ∈I} carg croissante surI Alors,

P(Y >t) =P(Y >t, Y ∈I)6P(g(Y)>g(t), Y ∈I)6g⁻¹(t)E[g(Y)]

Exercice 2.2

1. Soits >0, posonsgs: x7−→exp(sx). Alors, par l’exercice 1,

P(X >t)6g(t)⁻¹E[exp(sX)]6exp(−st) exp Ås²b²

2 ã

En minimisant ens, on obtient :

P(X>t)6exp Å

−t² 2b²

ã

2.

E[exp(tX)] =E

"_+∞

X

k=0

t^kX^k k!

#

Montrons que :

+∞

XE[|X|^k]

<+∞

(2)

On a |X|6e^|X|6e^X+e^−X. De plus, X

k>0

E[|X|^k]

k! =

Beppo-LevyE[e^|X|]6E[e^X] +E[e^−X]<+∞

L’interversion somme/intégrale est donc justifiée. Alors,

E[e^tX] = 1 +tE[X] + t²

2E[X²] +t³ε1(t)61 + t²b²

2 +t³ε2(t) (∗) On a quetE[X] 6

t∼0

t²ε₃(t) ⇒ E[X] = 0avectet −t.

De(∗), on en déduit :

t²

2E[X²]6 t²b²

2 +ε4(t)t³

En divisant partpuis en prenant la limite on auraE[X²] =Var(X)6b².

Exercice 2.3

1. Sn = PXi, avec Xi bi−sous-gaussienne. Il suffit de montrer que Sn est pPb²_i−sous- gaussienne.

E

"

exp s

n

X

i=1

X_i

!#

=

n

Y

i=1

E[exp(sX_i)] = exp s² 2

n

X

i=1

b²_i

!!

Ainsi par l’exercice 2,

P(Sn>t)6exp Å

− t² 2Pn

i=1b²_i ã

Comme−Sn est aussipPb²_i, on a comme majoration :

P(|Sn|>t)6P(Sn>t) +P(−Sn>t)62 exp Å

− t² 2Pn

i=1b²_i ã

2. (Xi)v.a.i.i.d.N(0, σ²). AlorsE[e^tXⁱ] = expÄ_t2σ² 2

ä. Ainsi,

P(|Sn|>t)62 exp Å

− t² 2nσ²

ã

3. (Xi)v.a.i.i.d. de loi de Rademacher. On a :

E[e^tX] =e^t+e^−t

2 =ch(t)6exp Åt²

2 ã

(3)

Exercice 2.4

Il suffit de montrer que ∀i, Xi est ^Mⁱ^−m₂ ⁱ−sous-gaussienne. SoitX v.a. telle quem6X 6M, X est ^M−m₂ −sous-gaussienne ? Soits∈R. On peut décomposerX comme :

X=MX−m

M−m +mM−X M−m exp(sX)6 (X−m)e^sM + (M −X)e^sm

M −m par convexité

Ainsi,

E[e^sX]6 −m

M−me^sM+ M

M−me^sm carE[X] = 0 Par passage au log, on obtient :

log(E[e^sX])6log Å

e^sm Å M

M −m − m

M −me^s(M^−m) ãã

6sm+ log Å M

M −m − m

M −me^s(M^−m) ã

=ϕ_p(u)

avecu=s(M−m)et p= _M^M_−m. Oru7→ϕp(u)C^∞(R⁺).

ϕ⁰_p(0) = 0 ϕ⁰⁰_p(u) = p(1−p) exp(u) (p+ (1−p) expu)² 6 1

4 ∀u∈R+

Car ^(a+b)₄ ² =â²^+b₄ ² +âb₂ge^2ab₄ +âb₂ >ab.

ϕ_p(u) =ϕ_p(0) +ϕ⁰_p(0)u+ Z u

0

(u−v)ϕ⁰⁰_p(v)dv

|ϕp(u)|60 + 0 + Z u

0

(u−v)1 4dv 6 u²

8 ∀u>0 Conclusion : pour touts>0,

E[exp(sX)]6exp

Ås²(M −m)² 2

ã

En considérant−X, on l’obtient pour toutx∈R, ce qui conclut la preuve.

Exercice 2.5

(X_n)une(Fn)−martingale.S_n =Pn

i=1X_i. On suppose que :

|X_i+1−X_i|6b_i+1<+∞ P−p.s.

(4)

1.

E[exp(t(Yn+1−Yn))|Fn]6exp(t²b²_n+1/2) (∗)

E[exp(t(Yn−Y0))] =E

"

exp t

n

X

i=0

Zi

!#

=E

"

E

"

exp t

n−1

X

i=0

Z_i

!

Fn

##

=E

"

E

"

exp t

n−2

X

i=0

Z_i

!#

E[exp(tZ_n−1)| F_n]

#

6e^t²^b²ⁿ⁺¹^/2E

"

exp t

n−2

X

i=0

Z_i

!#

car(X_n) (F_n)−martingale

où Zi = Yi+1−Yi. Par récurrence on obtient alors que Sn =Yn−Y0 est pPb²_i−sous- gaussienne.

2. Il suffit de montrer que(X_n)satisfait(∗). On sait que l’on a :

|w_n|6|X_n+1−X_n|6b_n+1P−p.s.

Alors,

m=−bn+16wn6bn+1=M D’après la preuve de l’inégalité d’Hoeffding, on a∀t∈R:

wn 6Mwn−m

M−m +mM−wn

M −m D’où,

E[exp(twn)| Fn]6 e^tM

M−mE[wn−m| Fn] + e^tm

M −mE[M−wn | Fn]

En utilisantE[wn|Fn] = 0car(Xn)est une(Fn)−martingale, on peut copier la preuve de Hoeffding et conclure queXn satisfait(∗).

Exercice 2.6

1. Soit(F_k)_k₆_n= (σ(X₁, . . . , X_k))_k₆_netF_i=F_npouri > n. PosonsM_i=E[f(X₁, . . . , X_n)| F_i] pouri= 0, . . . , netMi=f(X1, . . . , Xn)pouri>n+1.(Mi)_i∈_Nest une(Fi)_i∈_N−martingale.

Il faut vérifier les hypothèses d’Azuma-Hoeffding.

|Mi+1−Mi|=

E[f(X1, . . . , Xn)| Fi+1]−E[f(X1, . . . , Xn)| Fi]

Les(Xi)sont indépendants, donc :

E[f(X1, . . . , Xn)|Fi] =ψi(X1, . . . , Xi)

(5)

oùψi(x1, . . . , xi) =E[f(x1, . . . , xi, Xi+1, . . . , Xn)]. Donc :

|Mi+1−M_i|=|ψi+1(X₁, . . . , X_i+1)−ψ_i(X₁, . . . , X_i)|

=

E[f(x1, . . . , xi+1, Xi+2, . . . , Xn)−f(x1, . . . , xi, Xi+1, . . . , Xn)]

6bi+1

Conclusion,|Mi+1−M_i|6b_i+1 P−p.s.

2. (Yi,k)i∈1:n, k∈1:m.

f(Y_1,1, . . . , Y_n,m) =g(Z₁^(m), . . . , Z_n^(m)) avec Zi = ^√¹_mPm

k=0Yi,k. Par le TCL en dimension n on a (Z1, . . . , Zn) −→ N(0,idn).

D’après le théorème du porte-manteau, et comme g est continue, il suffit de montrer que

∀m∈N^∗ : P

Å

g(Z₁^(m), . . . , Z_n^(m))−E[g(Z₁^(m), . . . , Z_n^(m))] >t ã

6exp Å

−t² 2n

ã (∗) Pour montrer (∗)pour toutm, on applique Mc Diarmid àf(Y1,1, . . . , Yn,m). Comme :

f(y1,1, . . . , yi,k, . . . , yn,m−f(y1,1, . . . ,y˜i,k, . . . , yn,m)

6|yi,k−y˜i,k|6 1

√m

On obtient en appliquant Mc Diarmid : P

Å

g(Z₁^(m), . . . , Z_n^(m))−E[g()] >t ã

6exp Ç

− t²

2P

(i,k)∈{1,...,n}×{1,...,m} 1 m

å

= exp Å

−t² 2n

ã

Remarque.

(X_n)⇒Z∼ N(0,id)^def⇔E[h(Y_n)]−→E[h(Z)]∀h∈ Cb(R^d)

porte-manteau

⇔ P(g(Xn)6t)−→P(g(Z)6t)∀t∈Retg:R^d−→Rcontinue

3 Concepts de base de l’apprentissage statistique : classi- fieurs et fonctions de perte

Exercice 3.1

1. Soitf un classifieur.

R^c^ω

P (f) =E[c_ω(Y, f(X))] =E

ω₀1Y=11f(X)=0+ω₁1Y=01f(X)=1

=E

ω0Y(1−f(X)) +ω1(1−Y)f(X)

=E ï

E

ω0Y(1−f(X)) +ω1(1−Y)f(X)|X ò

η(X) =E[Y|X]

=E

ω₀η(X)(1−f(X)) +ω₁(1−η(X))f(X)

>E

min(ω₀η(X)(1−f(X)), ω₁(1−η(X))f(X)

On a égalité sif(X) = 1 ⇔ ω1(1−η(X))6ω0η(X) ⇔ η(X)>ω₀^ω+ω¹ ₁. Donc f(x) =1η(x)>_ω_{0 +}^ω¹_ω₁

(6)

2. Excès de risque : ρ(f, f^∗) =E

ω0η(X)(f^∗(X)−f(X)) +ω1(1−η(X))(f(X)−f^∗(X))

=E

1f(X)=01f^∗(X)=1(ω0η(X)−ω1(1−η(X)))

−1f(X)=11f^∗(X)=0(ω0η(X)−ω1(1−η(X)))

Sur f^∗(X) = 1,ω0η(X)−ω1(1−η(X))>0, surf^∗(X) = 0,ω0η(X)−ω1(1−η(X))60.

D’où :

ρ(f, f^∗) = (ω₀+ω₁)E ï

η(X)− ω₁ ω0+ω1

1f(X)6=f^∗(X)

ò

Si f est un classifieur de Bayes, alorsρ(f, f^∗) = 0. Donc : f(X) =f^∗(X)surη(X)6= ω₁

ω0+ω1

4 L’algorithme de perceptron

Exercice 4.1 1. NotonsA=

i∈ {1, . . . , T}, |ωi6=ω_i−1 . ω_t=X

i∈A

y_ix_i

hωt, ω^∗i=X

i∈A

y_ix^T_iω^∗

>Card(A)ρkω^∗k par hypothèse Or par Cauchy-Schwarz,

|hωt, ω^∗i|6kω^∗kkωTk Comme,

kωTk²=kωT−1k²+ 2ythωy−1, xti

| {z }

60sit∈A

1^t∈A+kxtk²1{t∈A}

6kωT−1k²+r²1^t∈A

6r²Card(A) par récurrence On a donc :

ρkω^∗kCard(A)6kω^∗kr»

Card(A)