• Aucun résultat trouvé

Apprentissage statistique Chapitre 5 : L’Empirical Risk Minimization (ERM)

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique Chapitre 5 : L’Empirical Risk Minimization (ERM)"

Copied!
6
0
0

Texte intégral

(1)

Apprentissage statistique

Chapitre 5 : L’Empirical Risk Minimization (ERM)

Lucie Le Briquer 13 février 2018

Table des matières

1 Minimisation dans une classe finie 2

2 La dimension de Vapnik-Chervonenkis 3

3 Inégalité de VC 5

(2)

1 Minimisation dans une classe finie

On se donne une famille de fonctions (classifieurs) F = {f: X −→ {0,1}} (le plus souvent X ⊂Rd) et le minimiseur du risque empirique dansF est le classifieurfˆdéfini par :

fˆ(·) = ˆf(Dn,·) =argmin

f∈F

n(f)

oùDn ={(x1, y1), . . . ,(xn, yn)∈ X × {0,1}}sont les données, et Rˆn(f) = n1Pn

i=11f(xi)6=yi le nombre moyen d’erreur du classifieur.

L’errreur “d’estimation” de l’ERM est contrôlée par : R( ˆf)− inf

f∈FR(f)62 sup

f∈F

|Rˆn(f)−R(f)|

R

f∈FR(f)correspond à l’erreur d’approximation. Ainsi :

P Å

R( ˆf)> inf

f∈FR(f) +ε ã

62|F |e22 et E[R( ˆf)]6 inf

f∈FR(f) +3 2

 2 log(2|F |) n Théorème 1

Ici on aR(f) =E[1f(X)6=Y] =P(f(X)6=Y).

Preuve.

1. Notonsf=argminR(f).

R( ˆf)−R(f) =R( ˆf)−Rˆn( ˆf) + ˆRn( ˆf)−Rˆn(f)

| {z }

60

+Rn(f)−R(f)

62 sup

f∈F

|Rˆn(f)−R(f)|

Si l’argmin n’existe pas, on prendR(f) +εpuis idem.

2. Pour (2)on veut contrôler :

P Ç

2 sup

f∈F

|Rˆn(f)−R(f)|>ε å

6 X

f∈F

P

|Rˆn(f)−R(f)|>ε 2

6 X

f∈F

2e−2n(ε2)2

62|F |e22 3. On va utiliser le fait que siX >0:

E[X] = Z +∞

P(x>ε)dε

(3)

En particulier,

E[R( ˆf)− inf

f∈FR(f)]6 Z +∞

ε

2|F |e

2 2 dε+ε

=ε+ Z +∞

ε

2|F |ε εe

2 2 dε 6ε+

Z +∞

ε

2|F |ε εe

2 2

+2|F |

εne−n(ε)2/2 oùε est tel que2|F |e−n(ε)/2= 1. Donc :

E[R( ˆf)− inf

f∈FR(f)]6ε+ 2 εn =

 2 log(2|F |)

n +

  2

nlog(2|F |)

Remarque.SoitF la famille des classifieurs affines deRd.F={f |f(x) =1aTx+b>0}.

× ×

×

×

1 1

0 0

Si on fixe un nombre de pointsn, on peut considérer uniquement les représentants dans la borne union de la preuve. De prime abord on peut penser qu’il y a2n, et on ne gagne rien, mais certaines combinaisons ne peuvent pas être classifiées (cf schéma) et on se ramène ànp représentants.

2 La dimension de Vapnik-Chervonenkis

Le coefficient de pulvérisation deF est : S(F, n) = max

x1,...,xn

|{(f(x1), . . . , f(xn)), f ∈ F }|

Définition 1(coefficient de pulvérisation)

Il est vrai queS(F, n)62n, mais il est bien souvent beaucoup plus petit (polynomial).

La VC-dimension deF est le plus grandK tel que : S(F, k) = 2k Définition 2(VC-dimension)

(4)

Remarque.Dans l’exemple des classifieurs affines, pour 3 points on a23représentants, pour 4 points146= 24. La VC-dimension de l’ensemble des classifieurs affines est donc3.

Soitdla VC-dimension deF. Alors : S(F, n)6

® 2n sin6d

en d

d

sin > d Lemme 1(Sauer-Shelah)

Preuve.

Récurrence surd+noudest la VC-dimension etnle nombre de points. Sid= 0ok,n= 0ok.

• On va montrer queS(F, n)6Pd k=0

Ån k ã

.

Soitdla VC-dimension deFet{x1, . . . , xn}npoints qui réalise le maximum de la définition deS(F, n)etA⊂ Fune sous-famille de classifieurs de taille minimale qui permet d’obtenir tous les labellings. On va considérer D0 ={x2, . . . , xn} et A0 ⊂A le plus petit ensemble qui maximise le nombre de labellisations deD0.

|A|=S(F, n) et |A|=|A0|+|A\A0|

• La VC-dimension deA0,d0, est plus petite que qued. Par minimalité deA0 on a :

|A0|6S(A0, n−1)6

d0

X

k=0

Ån−1 k

ã 6

d

X

k=0

Ån−1 k

ã

• SiA\A0pulvériseE⊂D, alorsApulvériseE∪ {x1}. Sinon un élément deA\A0serait dans A0car pour toutf0 ∈A\A, il existef0 ∈A0qui coïncide avecf surD0, mais par minimalité de A,f et f0 diffèrent sur x1. On doit alors avoir|E|+ 16ddoncV C−A\A0)6d−1.

D’où :

|A\A0|6

d−1

X

k=0

Ån−1 k

ã

Ainsi :

S(F, n)6

d

X

k=0

Ån−1 k

ã +

d−1

X

k=0

Ån−1 k

ã

=

d−1

X

k=0

Ån−1 k+ 1 ã

+ Ån−1

k ã

+ 16

d

X

k=0

Ån k ã

6en

d d

(5)

3 Inégalité de VC

Pour tout familleF etn∈N,

P Ç

sup

f∈F

|Rˆn(f)−R(f)|>ε å

62S(F, n)e

2 32

Ainsi,

E[R( ˆfn)]6 inf

f∈FR(f) + 4  

dlog end

+ log(2) n

Théorème 2

Preuve.

On suppose quenε2>2.

Technique 1 (symmétrisation) Soit{(X10, Y10), . . . ,(Xn0, Yn0)}=D0n un échantillon “fantôme” de même loi queDn mais indépendant. Alors :

P Ç

sup

f∈F

|Rˆn(f)−R(f)>ε|

å 62P

Ç sup

f∈F

|Rˆn(f)−Rˆ0n(f)|> ε 2

å

où Rˆ0n(f) = n1Pn

i=11f(Xi0)6=Yi0. Soit f˜un classifieur de F (qui peut dépendre de Dn) tel que

|Rˆn( ˜f)−Rn( ˜f)|>εsi c’est possible (sinon f˜vaut n’importe quoi), de sorte que

P Ç

sup

f∈F

|Rˆn(f)−R(f)|>ε å

=P(|Rˆn( ˜f)−R( ˜f)|>ε)

P Ç

sup

f∈F

|Rˆn(f)−Rˆ0n(f)|> ε 2

å

>P

|Rˆn( ˜f)−Rˆ0n( ˜f)|> ε 2

>P

|Rˆn( ˜f)−R( ˜f)|>εet|R( ˜f)−Rˆ0n( ˜f)|6 ε 2

=E

î1|Rˆn( ˜f)−R( ˜f)|>ε×E

î1|R( ˜f)−Rˆ0n( ˜f)|6ε2|Dn

óó

=E h

1|Rˆn( ˜f)−R( ˜f)|>ε×P

|Rˆ0n( ˜f)−R( ˜f)|6 ε 2|Dn

i

Une fois conditionné àDn,f˜est une fonction donnée. Donc par Hoeffding :

P

|Rˆ0n( ˜f)−R( ˜f)|6 ε 2|Dn

>1−2e

2 2 >1

2 Donc on veut contrôlerP

Ä|Rˆn0( ˜f)−R( ˜f)|6ε2|Dnä mais :

n(f)−Rˆ0n(f) = 1 n

n

X

i=1

1f(Xi)6=Yi−1f(Xi0)6=Yi0

| {z }

∈{−1,0,1}

(6)

Donc si on introduit des variables σi =±1 avec probabilité 12, la loi de Rˆn(f)−Rˆn0(f) est la même que la loi de :

1 n

n

X

i=1

σi

Ä1f(Xi)6=Yi−1f(Xi0)6=Yi0

ä

Donc

P Ç

sup

f∈F

|. . .|> ε 2

å

=P sup

f∈F

1 n

n

X

i=1

σi

Ä1f(Xi)6=Yi−1f(Xi0)6=Yi0

ä

> ε 2

!

Mais,

P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi−1 n

n

X

i=1

σi1f(Xi0)6=Yi0

> ε 2

!

6 P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi

4 ou sup

f∈F

1 n

n

X

i=1

σi1f(Xi0)6=Yi0

> ε 4

!

6 2P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi

> ε 4

!

Mais par définition deS(F, n), il n’existe qu’au plusS(F, n)valeurs distinctes des 1f(xi)6=yi

i=1...n

quand lesxi et yi sont fixés.

P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi

> ε 4

!

= E

"

P sup

f∈F

1 n

n

X

i=1

σi1f(Xi)6=Yi

> ε

4 |(Xi, Yi) = (xi, yi)

!#

6 E

h|S(F, n)|2e2n4 (ε4)2i

= 2|S(F, n)|e

2 32

6 2en

d d

e

2 32

Références

Documents relatifs

Cet article est consacré à l'étude des structures affines radiales sur les variétés de dimension 3 (une structure affine est dite radiale si son groupe d'holonomie fixe un point

Cela vient du fait que le modèle est basé sur la distribution d’une loi normale. Si une variable suit une loi normale, alors l’intervalle [A, B] devrait contenir 99, 3 %

Dans cette partie, nous avons présenté des schémas de distance et de routage pour les graphes médians sans cube avec n sommets, ainsi qu’un schéma de dis- tance 4-approché pour

Puisque les divergences de Bregman englobent un large éventail de mesures de distorsion, en dimension finie ou infinie, et que l’algorithme des k-means s’étend à ces divergences,

Nous ctterons très brièvement cette catégorie de modèles laissant au lecteur le soin de consulter, pour plus de détail, les références bibliographiques

◊ remarque : on peut obtenir ce résultat plus simplement en considérant que le rapprochement et l'éloignement sont intervertis si on change le signe de v, mais il faut

Min-Id-Code is log-APX-hard on bipartite, split and cobipartite graphs. Theorem

We show that hereditary classes with infinite VC-dimension have infinitely many graphs with an identifying code of size logarithmic in the number of vertices while classes with