Apprentissage statistique
Chapitre 5 : L’Empirical Risk Minimization (ERM)
Lucie Le Briquer 13 février 2018
Table des matières
1 Minimisation dans une classe finie 2
2 La dimension de Vapnik-Chervonenkis 3
3 Inégalité de VC 5
1 Minimisation dans une classe finie
On se donne une famille de fonctions (classifieurs) F = {f: X −→ {0,1}} (le plus souvent X ⊂Rd) et le minimiseur du risque empirique dansF est le classifieurfˆdéfini par :
fˆ(·) = ˆf(Dn,·) =argmin
f∈F
Rˆn(f)
oùDn ={(x1, y1), . . . ,(xn, yn)∈ X × {0,1}}sont les données, et Rˆn(f) = n1Pn
i=11f(xi)6=yi le nombre moyen d’erreur du classifieur.
L’errreur “d’estimation” de l’ERM est contrôlée par : R( ˆf)− inf
f∈FR(f)62 sup
f∈F
|Rˆn(f)−R(f)|
R
f∈FR(f)correspond à l’erreur d’approximation. Ainsi :
P Å
R( ˆf)> inf
f∈FR(f) +ε ã
62|F |e−nε22 et E[R( ˆf)]6 inf
f∈FR(f) +3 2
2 log(2|F |) n Théorème 1
Ici on aR(f) =E[1f(X)6=Y] =P(f(X)6=Y).
Preuve.
1. Notonsf∗=argminR(f).
R( ˆf)−R(f∗) =R( ˆf)−Rˆn( ˆf) + ˆRn( ˆf)−Rˆn(f∗)
| {z }
60
+Rn(f∗)−R(f∗)
62 sup
f∈F
|Rˆn(f)−R(f)|
Si l’argmin n’existe pas, on prendR(f) +εpuis idem.
2. Pour (2)on veut contrôler :
P Ç
2 sup
f∈F
|Rˆn(f)−R(f)|>ε å
6 X
f∈F
P
|Rˆn(f)−R(f)|>ε 2
6 X
f∈F
2e−2n(ε2)2
62|F |e−nε22 3. On va utiliser le fait que siX >0:
E[X] = Z +∞
P(x>ε)dε
En particulier,
E[R( ˆf)− inf
f∈FR(f)]6 Z +∞
ε∗
2|F |e−nε
2 2 dε+ε∗
=ε+ Z +∞
ε∗
2|F |ε εe−nε
2 2 dε 6ε+
Z +∞
ε∗
2|F |ε ε∗e−nε
2 2 dε
=ε∗+2|F |
ε∗ne−n(ε∗)2/2 oùε∗ est tel que2|F |e−n(ε∗)/2= 1. Donc :
E[R( ˆf)− inf
f∈FR(f)]6ε∗+ 2 ε∗n =
2 log(2|F |)
n +
2
nlog(2|F |)
Remarque.SoitF la famille des classifieurs affines deRd.F={f |f(x) =1aTx+b>0}.
× ×
×
×
1 1
0 0
Si on fixe un nombre de pointsn, on peut considérer uniquement les représentants dans la borne union de la preuve. De prime abord on peut penser qu’il y a2n, et on ne gagne rien, mais certaines combinaisons ne peuvent pas être classifiées (cf schéma) et on se ramène ànp représentants.
2 La dimension de Vapnik-Chervonenkis
Le coefficient de pulvérisation deF est : S(F, n) = max
x1,...,xn
|{(f(x1), . . . , f(xn)), f ∈ F }|
Définition 1(coefficient de pulvérisation)
Il est vrai queS(F, n)62n, mais il est bien souvent beaucoup plus petit (polynomial).
La VC-dimension deF est le plus grandK tel que : S(F, k) = 2k Définition 2(VC-dimension)
Remarque.Dans l’exemple des classifieurs affines, pour 3 points on a23représentants, pour 4 points146= 24. La VC-dimension de l’ensemble des classifieurs affines est donc3.
Soitdla VC-dimension deF. Alors : S(F, n)6
® 2n sin6d
en d
d
sin > d Lemme 1(Sauer-Shelah)
Preuve.
Récurrence surd+noudest la VC-dimension etnle nombre de points. Sid= 0ok,n= 0ok.
• On va montrer queS(F, n)6Pd k=0
Ån k ã
.
Soitdla VC-dimension deFet{x1, . . . , xn}npoints qui réalise le maximum de la définition deS(F, n)etA⊂ Fune sous-famille de classifieurs de taille minimale qui permet d’obtenir tous les labellings. On va considérer D0 ={x2, . . . , xn} et A0 ⊂A le plus petit ensemble qui maximise le nombre de labellisations deD0.
|A|=S(F, n) et |A|=|A0|+|A\A0|
• La VC-dimension deA0,d0, est plus petite que qued. Par minimalité deA0 on a :
|A0|6S(A0, n−1)6
d0
X
k=0
Ån−1 k
ã 6
d
X
k=0
Ån−1 k
ã
• SiA\A0pulvériseE⊂D, alorsApulvériseE∪ {x1}. Sinon un élément deA\A0serait dans A0car pour toutf0 ∈A\A, il existef0 ∈A0qui coïncide avecf surD0, mais par minimalité de A,f et f0 diffèrent sur x1. On doit alors avoir|E|+ 16ddoncV C−A\A0)6d−1.
D’où :
|A\A0|6
d−1
X
k=0
Ån−1 k
ã
Ainsi :
S(F, n)6
d
X
k=0
Ån−1 k
ã +
d−1
X
k=0
Ån−1 k
ã
=
d−1
X
k=0
Ån−1 k+ 1 ã
+ Ån−1
k ã
+ 16
d
X
k=0
Ån k ã
6en
d d
3 Inégalité de VC
Pour tout familleF etn∈N,
P Ç
sup
f∈F
|Rˆn(f)−R(f)|>ε å
62S(F, n)e−nε
2 32
Ainsi,
E[R( ˆfn)]6 inf
f∈FR(f) + 4
dlog end
+ log(2) n
Théorème 2
Preuve.
On suppose quenε2>2.
Technique 1 (symmétrisation) Soit{(X10, Y10), . . . ,(Xn0, Yn0)}=D0n un échantillon “fantôme” de même loi queDn mais indépendant. Alors :
P Ç
sup
f∈F
|Rˆn(f)−R(f)>ε|
å 62P
Ç sup
f∈F
|Rˆn(f)−Rˆ0n(f)|> ε 2
å
où Rˆ0n(f) = n1Pn
i=11f(Xi0)6=Yi0. Soit f˜un classifieur de F (qui peut dépendre de Dn) tel que
|Rˆn( ˜f)−Rn( ˜f)|>εsi c’est possible (sinon f˜vaut n’importe quoi), de sorte que
P Ç
sup
f∈F
|Rˆn(f)−R(f)|>ε å
=P(|Rˆn( ˜f)−R( ˜f)|>ε)
P Ç
sup
f∈F
|Rˆn(f)−Rˆ0n(f)|> ε 2
å
>P
|Rˆn( ˜f)−Rˆ0n( ˜f)|> ε 2
>P
|Rˆn( ˜f)−R( ˜f)|>εet|R( ˜f)−Rˆ0n( ˜f)|6 ε 2
=E
î1|Rˆn( ˜f)−R( ˜f)|>ε×E
î1|R( ˜f)−Rˆ0n( ˜f)|6ε2|Dn
óó
=E h
1|Rˆn( ˜f)−R( ˜f)|>ε×P
|Rˆ0n( ˜f)−R( ˜f)|6 ε 2|Dn
i
Une fois conditionné àDn,f˜est une fonction donnée. Donc par Hoeffding :
P
|Rˆ0n( ˜f)−R( ˜f)|6 ε 2|Dn
>1−2e−nε
2 2 >1
2 Donc on veut contrôlerP
Ä|Rˆn0( ˜f)−R( ˜f)|6ε2|Dnä mais :
Rˆn(f)−Rˆ0n(f) = 1 n
n
X
i=1
1f(Xi)6=Yi−1f(Xi0)6=Yi0
| {z }
∈{−1,0,1}
Donc si on introduit des variables σi =±1 avec probabilité 12, la loi de Rˆn(f)−Rˆn0(f) est la même que la loi de :
1 n
n
X
i=1
σi
Ä1f(Xi)6=Yi−1f(Xi0)6=Yi0
ä
Donc
P Ç
sup
f∈F
|. . .|> ε 2
å
=P sup
f∈F
1 n
n
X
i=1
σi
Ä1f(Xi)6=Yi−1f(Xi0)6=Yi0
ä
> ε 2
!
Mais,
P sup
f∈F
1 n
n
X
i=1
σi1f(Xi)6=Yi−1 n
n
X
i=1
σi1f(Xi0)6=Yi0
> ε 2
!
6 P sup
f∈F
1 n
n
X
i=1
σi1f(Xi)6=Yi
>ε
4 ou sup
f∈F
1 n
n
X
i=1
σi1f(Xi0)6=Yi0
> ε 4
!
6 2P sup
f∈F
1 n
n
X
i=1
σi1f(Xi)6=Yi
> ε 4
!
Mais par définition deS(F, n), il n’existe qu’au plusS(F, n)valeurs distinctes des 1f(xi)6=yi
i=1...n
quand lesxi et yi sont fixés.
P sup
f∈F
1 n
n
X
i=1
σi1f(Xi)6=Yi
> ε 4
!
= E
"
P sup
f∈F
1 n
n
X
i=1
σi1f(Xi)6=Yi
> ε
4 |(Xi, Yi) = (xi, yi)
!#
6 E
h|S(F, n)|2e−2n4 (ε4)2i
= 2|S(F, n)|e−nε
2 32
6 2en
d d
e−nε
2 32