Apprentissage statistique Chapitre 5 : L’Empirical Risk Minimization (ERM)

(1)

Apprentissage statistique

Chapitre 5 : L’Empirical Risk Minimization (ERM)

Lucie Le Briquer 13 février 2018

Table des matières

1 Minimisation dans une classe finie 2

2 La dimension de Vapnik-Chervonenkis 3

3 Inégalité de VC 5

(2)

1 Minimisation dans une classe finie

On se donne une famille de fonctions (classifieurs) F = {f: X −→ {0,1}} (le plus souvent X ⊂R^d) et le minimiseur du risque empirique dansF est le classifieurfˆdéfini par :

fˆ(·) = ˆf(Dn,·) =argmin

f∈F

Rˆn(f)

oùDn ={(x1, y1), . . . ,(xn, yn)∈ X × {0,1}}sont les données, et Rˆn(f) = _n¹Pn

i=11^f(xi)6=yi le nombre moyen d’erreur du classifieur.

L’errreur “d’estimation” de l’ERM est contrôlée par : R( ˆf)− inf

f∈FR(f)62 sup

f∈F

|Rˆ_n(f)−R(f)|

R

f∈FR(f)correspond à l’erreur d’approximation. Ainsi :

P Å

R( ˆf)> inf

f∈FR(f) +ε ã

62|F |e⁻^nε²² et E[R( ˆf)]6 inf

f∈FR(f) +3 2

2 log(2|F |) n Théorème 1

Ici on aR(f) =E[1f(X)6=Y] =P(f(X)6=Y).

Preuve.

1. Notonsf^∗=argminR(f).

R( ˆf)−R(f^∗) =R( ˆf)−Rˆn( ˆf) + ˆRn( ˆf)−Rˆn(f^∗)

| {z }

60

+Rn(f^∗)−R(f^∗)

62 sup

f∈F

|Rˆn(f)−R(f)|

Si l’argmin n’existe pas, on prendR(f) +εpuis idem.

2. Pour (2)on veut contrôler :

P Ç

2 sup

f∈F

|Rˆ_n(f)−R(f)|>ε å

6 X

f∈F

P

|Rˆ_n(f)−R(f)|>ε 2

6 X

f∈F

2e⁻²ⁿ(^ε₂)²

62|F |e⁻^nε²² 3. On va utiliser le fait que siX >0:

E[X] = Z +∞

P(x>ε)dε

(3)

En particulier,

E[R( ˆf)− inf

f∈FR(f)]6 Z +∞

ε^∗

2|F |e⁻^nε

2 2 dε+ε^∗

=ε+ Z +∞

ε^∗

2|F |ε εe⁻^nε

2 2 dε 6ε+

Z +∞

ε^∗

2|F |ε ε^∗e⁻^nε

2 2 dε

=ε^∗+2|F |

ε^∗ne^−n(ε^∗⁾²^/2 oùε^∗ est tel que2|F |e^−n(ε^∗^)/2= 1. Donc :

E[R( ˆf)− inf

f∈FR(f)]6ε^∗+ 2 ε^∗n =

2 log(2|F |)

n +

2

nlog(2|F |)

Remarque.SoitF la famille des classifieurs affines deR^d.F={f |f(x) =1a^Tx+b>0}.

× ×

×

1 1

0 0

Si on fixe un nombre de pointsn, on peut considérer uniquement les représentants dans la borne union de la preuve. De prime abord on peut penser qu’il y a2ⁿ, et on ne gagne rien, mais certaines combinaisons ne peuvent pas être classifiées (cf schéma) et on se ramène àn^p représentants.

2 La dimension de Vapnik-Chervonenkis

Le coefficient de pulvérisation deF est : S(F, n) = max

x1,...,xn

|{(f(x1), . . . , f(xn)), f ∈ F }|

Définition 1(coefficient de pulvérisation)

Il est vrai queS(F, n)62ⁿ, mais il est bien souvent beaucoup plus petit (polynomial).

La VC-dimension deF est le plus grandK tel que : S(F, k) = 2^k Définition 2(VC-dimension)

(4)

Remarque.Dans l’exemple des classifieurs affines, pour 3 points on a2³représentants, pour 4 points146= 2⁴. La VC-dimension de l’ensemble des classifieurs affines est donc3.

Soitdla VC-dimension deF. Alors : S(F, n)6

® 2ⁿ sin6d

en d

d

sin > d Lemme 1(Sauer-Shelah)

Preuve.

Récurrence surd+noudest la VC-dimension etnle nombre de points. Sid= 0ok,n= 0ok.

• On va montrer queS(F, n)6Pd k=0

Ån k ã

.

Soitdla VC-dimension deFet{x1, . . . , xn}npoints qui réalise le maximum de la définition deS(F, n)etA⊂ Fune sous-famille de classifieurs de taille minimale qui permet d’obtenir tous les labellings. On va considérer D⁰ ={x2, . . . , xn} et A⁰ ⊂A le plus petit ensemble qui maximise le nombre de labellisations deD⁰.

|A|=S(F, n) et |A|=|A⁰|+|A\A⁰|

• La VC-dimension deA⁰,d⁰, est plus petite que qued. Par minimalité deA⁰ on a :

|A⁰|6S(A⁰, n−1)6

d⁰

X

k=0

Ån−1 k

ã 6

d

X

k=0

Ån−1 k

ã

• SiA\A⁰pulvériseE⊂D, alorsApulvériseE∪ {x1}. Sinon un élément deA\A⁰serait dans A⁰car pour toutf⁰ ∈A\A, il existef⁰ ∈A⁰qui coïncide avecf surD⁰, mais par minimalité de A,f et f⁰ diffèrent sur x1. On doit alors avoir|E|+ 16ddoncV C−A\A⁰)6d−1.

D’où :

|A\A⁰|6

d−1

X

k=0

Ån−1 k

ã

Ainsi :

S(F, n)6

d

X

k=0

Ån−1 k

ã +

d−1

X

k=0

Ån−1 k

ã

=

d−1

X

k=0

Ån−1 k+ 1 ã

+ Ån−1

k ã

+ 16

d

X

k=0

Ån k ã

6en

d d

(5)

3 Inégalité de VC

Pour tout familleF etn∈N,

P Ç

sup

f∈F

|Rˆn(f)−R(f)|>ε å

62S(F, n)e⁻^nε

2 32

Ainsi,

E[R( ˆfn)]6 inf

f∈FR(f) + 4

dlog ^en_d

+ log(2) n

Théorème 2

Preuve.

On suppose quenε²>2.

Technique 1 (symmétrisation) Soit{(X₁⁰, Y₁⁰), . . . ,(X_n⁰, Y_n⁰)}=D⁰_n un échantillon “fantôme” de même loi queDn mais indépendant. Alors :

P Ç

sup

f∈F

|Rˆn(f)−R(f)>ε|

å 62P

Ç sup

f∈F

|Rˆn(f)−Rˆ⁰_n(f)|> ε 2

å

où Rˆ⁰_n(f) = _n¹Pn

i=11f(X_i⁰)6=Y_i⁰. Soit f˜un classifieur de F (qui peut dépendre de Dn) tel que

|Rˆn( ˜f)−Rn( ˜f)|>εsi c’est possible (sinon f˜vaut n’importe quoi), de sorte que

P Ç

sup

f∈F

|Rˆn(f)−R(f)|>ε å

=P(|Rˆn( ˜f)−R( ˜f)|>ε)

P Ç

sup

f∈F

|Rˆn(f)−Rˆ⁰_n(f)|> ε 2

å

>P

|Rˆn( ˜f)−Rˆ⁰_n( ˜f)|> ε 2

>P

|Rˆn( ˜f)−R( ˜f)|>εet|R( ˜f)−Rˆ⁰_n( ˜f)|6 ε 2

=E

î1|Rˆn( ˜f)−R( ˜f)|>ε×E

î1|R( ˜f)−Rˆ⁰_n( ˜f)|6^ε₂|Dn

óó

=E h

1|Rˆn( ˜f)−R( ˜f)|>ε×P

|Rˆ⁰_n( ˜f)−R( ˜f)|6 ε 2|Dn

i

Une fois conditionné àD_n,f˜est une fonction donnée. Donc par Hoeffding :

P

|Rˆ⁰_n( ˜f)−R( ˜f)|6 ε 2|Dn

>1−2e⁻^nε

2 2 >1

2 Donc on veut contrôlerP

Ä|Rˆ_n⁰( ˜f)−R( ˜f)|6^ε₂|D_nä mais :

Rˆn(f)−Rˆ⁰_n(f) = 1 n

n

X

i=1

1f(Xi)6=Yi−1f(X_i⁰)6=Y_i⁰

| {z }

∈{−1,0,1}

(6)

Donc si on introduit des variables σi =±1 avec probabilité ¹₂, la loi de Rˆn(f)−Rˆ_n⁰(f) est la même que la loi de :

1 n

n

X

i=1

σi

Ä1f(Xi)6=Yi−1f(X_i⁰)6=Y_i⁰

ä

Donc

P Ç

sup

f∈F

|. . .|> ε 2

å

=P sup

f∈F

1 n

n

X

i=1

σi

Ä1^f(Xi)6=Yi−1^f(X_i⁰)6=Y_i⁰

ä

> ε 2

!

Mais,

P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi−1 n

n

X

i=1

σi1f(X_i⁰)6=Y_i⁰

> ε 2

!

6 P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi

>ε

4 ou sup

f∈F

1 n

n

X

i=1

σi1f(X_i⁰)6=Y_i⁰

> ε 4

!

6 2P sup

f∈F

1 n

n

X

i=1

σ_i1f(X_i)6=Y_i

> ε 4

!

Mais par définition deS(F, n), il n’existe qu’au plusS(F, n)valeurs distinctes des 1f(x_i)6=y_i

i=1...n

quand lesxi et yi sont fixés.

P sup

f∈F

1 n

n

X

i=1

σi1^f(Xi)6=Yi

> ε 4

!

= E

"

P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi

> ε

4 |(Xi, Yi) = (xi, yi)

!#

6 E

h|S(F, n)|2e⁻²ⁿ⁴ (^ε₄)²i

= 2|S(F, n)|e⁻^nε

2 32

6 2en

d ^d

e⁻^nε

2 32