• Aucun résultat trouvé

3 Concepts de base de l’apprentissage statistique : classi- fieurs et fonctions de perte

N/A
N/A
Protected

Academic year: 2022

Partager "3 Concepts de base de l’apprentissage statistique : classi- fieurs et fonctions de perte"

Copied!
6
0
0

Texte intégral

(1)

Apprentissage statistique TD2 : Inégalités de concentration

Lucie Le Briquer 5 février 2018

1 TD1

2 Inégalités de concentration

Exercice 2.1

1. X v.a. positive. Commet1X>t6X,P(X >t)6t−1E[X].

2. (inégalité de Markov généralité) Y v.a. réelle telle que P(Y ∈I) = 1 avecI intervalle de R. Soitg:I−→R+ croissante.

{Y >t} ∩ {Y ∈I} ⊂ {g(Y)>t} ∩ {Y ∈I} carg croissante surI Alors,

P(Y >t) =P(Y >t, Y ∈I)6P(g(Y)>g(t), Y ∈I)6g−1(t)E[g(Y)]

Exercice 2.2

1. Soits >0, posonsgs: x7−→exp(sx). Alors, par l’exercice 1,

P(X >t)6g(t)−1E[exp(sX)]6exp(−st) exp Ås2b2

2 ã

En minimisant ens, on obtient :

P(X>t)6exp Å

−t2 2b2

ã

2.

E[exp(tX)] =E

"+∞

X

k=0

tkXk k!

#

Montrons que :

+∞

XE[|X|k]

<+∞

(2)

On a |X|6e|X|6eX+e−X. De plus, X

k>0

E[|X|k]

k! =

Beppo-LevyE[e|X|]6E[eX] +E[e−X]<+∞

L’interversion somme/intégrale est donc justifiée. Alors,

E[etX] = 1 +tE[X] + t2

2E[X2] +t3ε1(t)61 + t2b2

2 +t3ε2(t) (∗) On a quetE[X] 6

t∼0

t2ε3(t) ⇒ E[X] = 0avectet −t.

De(∗), on en déduit :

t2

2E[X2]6 t2b2

2 +ε4(t)t3

En divisant partpuis en prenant la limite on auraE[X2] =Var(X)6b2.

Exercice 2.3

1. Sn = PXi, avec Xi bi−sous-gaussienne. Il suffit de montrer que Sn est pPb2i−sous- gaussienne.

E

"

exp s

n

X

i=1

Xi

!#

=

n

Y

i=1

E[exp(sXi)] = exp s2 2

n

X

i=1

b2i

!!

Ainsi par l’exercice 2,

P(Sn>t)6exp Å

− t2 2Pn

i=1b2i ã

Comme−Sn est aussipPb2i, on a comme majoration :

P(|Sn|>t)6P(Sn>t) +P(−Sn>t)62 exp Å

− t2 2Pn

i=1b2i ã

2. (Xi)v.a.i.i.d.N(0, σ2). AlorsE[etXi] = expÄt2σ2 2

ä. Ainsi,

P(|Sn|>t)62 exp Å

− t2 2nσ2

ã

3. (Xi)v.a.i.i.d. de loi de Rademacher. On a :

E[etX] =et+e−t

2 =ch(t)6exp Åt2

2 ã

(3)

Exercice 2.4

Il suffit de montrer que ∀i, Xi est Mi−m2 i−sous-gaussienne. SoitX v.a. telle quem6X 6M, X est M−m2 −sous-gaussienne ? Soits∈R. On peut décomposerX comme :

X=MX−m

M−m +mM−X M−m exp(sX)6 (X−m)esM + (M −X)esm

M −m par convexité

Ainsi,

E[esX]6 −m

M−mesM+ M

M−mesm carE[X] = 0 Par passage au log, on obtient :

log(E[esX])6log Å

esm Å M

M −m − m

M −mes(M−m) ãã

6sm+ log Å M

M −m − m

M −mes(M−m) ã

p(u)

avecu=s(M−m)et p= MM−m. Oru7→ϕp(u)C(R+).

ϕ0p(0) = 0 ϕ00p(u) = p(1−p) exp(u) (p+ (1−p) expu)2 6 1

4 ∀u∈R+

Car (a+b)4 2 =a2+b4 2 +ab2ge2ab4 +ab2 >ab.

ϕp(u) =ϕp(0) +ϕ0p(0)u+ Z u

0

(u−v)ϕ00p(v)dv

p(u)|60 + 0 + Z u

0

(u−v)1 4dv 6 u2

8 ∀u>0 Conclusion : pour touts>0,

E[exp(sX)]6exp

Ås2(M −m)2 2

ã

En considérant−X, on l’obtient pour toutx∈R, ce qui conclut la preuve.

Exercice 2.5

(Xn)une(Fn)−martingale.Sn =Pn

i=1Xi. On suppose que :

|Xi+1−Xi|6bi+1<+∞ P−p.s.

(4)

1.

E[exp(t(Yn+1−Yn))|Fn]6exp(t2b2n+1/2) (∗)

E[exp(t(Yn−Y0))] =E

"

exp t

n

X

i=0

Zi

!#

=E

"

E

"

exp t

n−1

X

i=0

Zi

!

Fn

##

=E

"

E

"

exp t

n−2

X

i=0

Zi

!#

E[exp(tZn−1)| Fn]

#

6et2b2n+1/2E

"

exp t

n−2

X

i=0

Zi

!#

car(Xn) (Fn)−martingale

où Zi = Yi+1−Yi. Par récurrence on obtient alors que Sn =Yn−Y0 est pPb2i−sous- gaussienne.

2. Il suffit de montrer que(Xn)satisfait(∗). On sait que l’on a :

|wn|6|Xn+1−Xn|6bn+1P−p.s.

Alors,

m=−bn+16wn6bn+1=M D’après la preuve de l’inégalité d’Hoeffding, on a∀t∈R:

wn 6Mwn−m

M−m +mM−wn

M −m D’où,

E[exp(twn)| Fn]6 etM

M−mE[wn−m| Fn] + etm

M −mE[M−wn | Fn]

En utilisantE[wn|Fn] = 0car(Xn)est une(Fn)−martingale, on peut copier la preuve de Hoeffding et conclure queXn satisfait(∗).

Exercice 2.6

1. Soit(Fk)k6n= (σ(X1, . . . , Xk))k6netFi=Fnpouri > n. PosonsMi=E[f(X1, . . . , Xn)| Fi] pouri= 0, . . . , netMi=f(X1, . . . , Xn)pouri>n+1.(Mi)i∈Nest une(Fi)i∈N−martingale.

Il faut vérifier les hypothèses d’Azuma-Hoeffding.

|Mi+1−Mi|=

E[f(X1, . . . , Xn)| Fi+1]−E[f(X1, . . . , Xn)| Fi]

Les(Xi)sont indépendants, donc :

E[f(X1, . . . , Xn)|Fi] =ψi(X1, . . . , Xi)

(5)

oùψi(x1, . . . , xi) =E[f(x1, . . . , xi, Xi+1, . . . , Xn)]. Donc :

|Mi+1−Mi|=|ψi+1(X1, . . . , Xi+1)−ψi(X1, . . . , Xi)|

=

E[f(x1, . . . , xi+1, Xi+2, . . . , Xn)−f(x1, . . . , xi, Xi+1, . . . , Xn)]

6bi+1

Conclusion,|Mi+1−Mi|6bi+1 P−p.s.

2. (Yi,k)i∈1:n, k∈1:m.

f(Y1,1, . . . , Yn,m) =g(Z1(m), . . . , Zn(m)) avec Zi = 1mPm

k=0Yi,k. Par le TCL en dimension n on a (Z1, . . . , Zn) −→ N(0,idn).

D’après le théorème du porte-manteau, et comme g est continue, il suffit de montrer que

∀m∈N : P

Å

g(Z1(m), . . . , Zn(m))−E[g(Z1(m), . . . , Zn(m))] >t ã

6exp Å

−t2 2n

ã (∗) Pour montrer (∗)pour toutm, on applique Mc Diarmid àf(Y1,1, . . . , Yn,m). Comme :

f(y1,1, . . . , yi,k, . . . , yn,m−f(y1,1, . . . ,y˜i,k, . . . , yn,m)

6|yi,k−y˜i,k|6 1

√m

On obtient en appliquant Mc Diarmid : P

Å

g(Z1(m), . . . , Zn(m))−E[g()] >t ã

6exp Ç

− t2

2P

(i,k)∈{1,...,n}×{1,...,m} 1 m

å

= exp Å

−t2 2n

ã

Remarque.

(Xn)⇒Z∼ N(0,id)def⇔E[h(Yn)]−→E[h(Z)]∀h∈ Cb(Rd)

porte-manteau

⇔ P(g(Xn)6t)−→P(g(Z)6t)∀t∈Retg:Rd−→Rcontinue

3 Concepts de base de l’apprentissage statistique : classi- fieurs et fonctions de perte

Exercice 3.1

1. Soitf un classifieur.

Rcω

P (f) =E[cω(Y, f(X))] =E

ω01Y=11f(X)=011Y=01f(X)=1

=E

ω0Y(1−f(X)) +ω1(1−Y)f(X)

=E ï

E

ω0Y(1−f(X)) +ω1(1−Y)f(X)|X ò

η(X) =E[Y|X]

=E

ω0η(X)(1−f(X)) +ω1(1−η(X))f(X)

>E

min(ω0η(X)(1−f(X)), ω1(1−η(X))f(X)

On a égalité sif(X) = 1 ⇔ ω1(1−η(X))6ω0η(X) ⇔ η(X)>ω0ω1 1. Donc f(x) =1η(x)>ω0 +ω1ω1

(6)

2. Excès de risque : ρ(f, f) =E

ω0η(X)(f(X)−f(X)) +ω1(1−η(X))(f(X)−f(X))

=E

1f(X)=01f(X)=10η(X)−ω1(1−η(X)))

−1f(X)=11f(X)=00η(X)−ω1(1−η(X)))

Sur f(X) = 1,ω0η(X)−ω1(1−η(X))>0, surf(X) = 0,ω0η(X)−ω1(1−η(X))60.

D’où :

ρ(f, f) = (ω01)E ï

η(X)− ω1 ω01

1f(X)6=f(X)

ò

Si f est un classifieur de Bayes, alorsρ(f, f) = 0. Donc : f(X) =f(X)surη(X)6= ω1

ω01

4 L’algorithme de perceptron

Exercice 4.1 1. NotonsA=

i∈ {1, . . . , T}, |ωi6=ωi−1 . ωt=X

i∈A

yixi

t, ωi=X

i∈A

yixTiω

>Card(A)ρkωk par hypothèse Or par Cauchy-Schwarz,

|hωt, ωi|6kωkkωTk Comme,

Tk2=kωT−1k2+ 2yty−1, xti

| {z }

60sit∈A

1t∈A+kxtk21{t∈A}

6kωT−1k2+r21t∈A

6r2Card(A) par récurrence On a donc :

ρkωkCard(A)6kωkr»

Card(A)

Références

Documents relatifs

Dans ce cadre, on va chercher à prédire le prochain label Y d’une nouvelle observation X.. Moralement, on veut donc comprendre la dépendance entre X

Pour le coût de Huber et celui L 1 , les valeurs aberrantes dans l’ensemble d’appren- tissage ont beaucoup moins d’influence sur le risque (donc sur les règles d’apprentissage

MAGARI, Congruenze di un prodotto diretto legate alle congruenze dei fattori (congruenze ideali I) sta in Algebre a congruenze speciali, Istituto Naz. di

Soit ( ) ∈ℕ ∗ une suite de variables aléatoires réelles définies sur le même espace probabilisé, indépendantes, admettant chacune une espérance et une variance.. •

Par exemple, pour d´eclarer une variable strNomDeFamille de type chaˆıne de caract`eres et lui attribuer la valeur ”Tavenard”, en VB, on a :. Dim strNomDeFamille as

Il existe une fonction d’état appelée énergie interne U dont la différentielle dU, pour un système fermé et immobile, est égale à la somme des

Le pouvoir tampon, défini comme la quantité de H 3 O + ou OH - que l’on doit ajouter pour faire varier le pH d’une unité, est d’autant plus fort que la concentration du tampon

Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L’objectif