Apprentissage statistique
Chapitre 4 : Consistance des algorithmes par moyennage local
Lucie Le Briquer 19 février 2018
Table des matières
1 Théorème de Stone 3
2 Application du théorème de Stone aux algorithmes par partitions 5 3 Algorithme des k plus proches voisins (k−ppv ou k−NN) 8
Convention0/0 = 0.
Une règle d’apprentissage par moyennage local est caractérisée par un tableau de fonctions mesurables(ωi,n)i∈{1,...,n},∀i, n ωi,n: Xn×X−→R+.
On définit la fonction de régression associéeηˆdéfinie pour tout n >1, (xi, yi)i∈{1,...,n} et x∈X:
ˆ
η (xi, yi), x
=
n
X
i=1
ωi,n((xi)i, x)yi
On définit alors la règle de classificationfˆcomme étant la règle plug-in associée àηˆdéfinie pour toutn>1 par :
fˆ (xi, yi), x
=1{ˆη((xi,yi),x)>12}
Définition 1(règle d’apprentissage par moyennage local)
On rappelle la règle par partition : on se donne une suite de partition(Pn)n∈N telle que : 1. Pn est de cardinal dénombrable.
2. Tout élément de Pn est mesurable.
La règle pour la régression par partition est donnée par : ˆ
η((xi, yi), x) = Pn
i=1yi1Pn(x)(xi) Pn
i=11Pn(x)(xi)
Pn(x): élément dePn qui contientx. C’est donc une règle de type voisinage avec les poids(ωi,n) définis par :
ωi,n((xi), x) = 1Pn(x)(xi) Pn
i=11Pn(x)(xi) Remarques.
1. (ωi,n)sont appelés les poids.
2. En générale on noteωi,n((xi), x)parωi,n(x).
3. Pour l’algorithme de partitionPn
i=1ωi,n(x) =1{Pn
i=11Pn(x)(xi)>0}61.
1 Théorème de Stone
On considère X = Rd, Y = {0,1}. Soit k.k sur Rd, (ωin) suite de poids pour une règle d’apprentissage par voisinage local. SoitP∈ Pet(Xi, Yi)i∈Ni.i.d. de loiPet(X, Y)⊥(Xi, Yi) de même loiP. On suppose :
1. Pn
i=1ωi,n(X1:n, X)−−−−−→
n→+∞ 1 dansL1(P). Il existec1>0 tel que :
n
X
i=1
ωi,n(X1:n, X)6c1 P−p.s.
2. Pour touta >0,
n→+∞lim E
" n X
i=1
ωi,n(X1:n, X)1{kXi−Xk>a}
#
= 0
3.
n→+∞lim E ï
max
16i6nωi,n(X1:n, X) ò
= 0
4. Il existec2>0tel que pour toute fonctionf telle queE[|f(X)|]<+∞on ait :
E
" n X
i=1
ωi,n(X1:n, X)|f(Xi)|
#
6c2E[|f(X1)|]
Alors la règle par voisinage local associée à(ωi,n)est faiblement consistante pourP :
n→+∞lim E îRDn
P ( ˆfn)ó
=R∗P Théorème 1(de Stone)
Remarque.fˆ(xi, yi)i∈{1,...,n}, x
= ˆfn(x)pareil pourη.ˆ Preuve.
D’après le deuxième cours,
|RDPn( ˆfn)−R∗P|62E[|η(X)−ηˆn(X)|Dn] Donc :
E
îRDn
P ( ˆfn)ó
−R∗P
62E[|η(X)−ηˆn(X)|]
Donc on montre quelimE[|η(X)−ηˆn(X)|] = 0.
On introduit˜˜η:Xn×X−→[0,1]définit pour toutx1, . . . , xn, x∈Xpar :
˜
η((xi), x) =
n
X
i=1
ωi,n((xi), x)η(xi)
Soitn>1,(Xi, Yi)∼Pi.i.d.⊥(X, Y)∼P
E[|η(X)−ηˆn(X)|]6E[|η(X)−η˜n(X)|] +E[|η˜n(X)−ηˆn(X)|] =A+B Par Cauchy-Schwarz, on a :
B26E[(˜ηn(X)−ηˆn(X))2]
=X
i,j
E
ωi,n(X)ωj,n(X)(Yi−η(Xi))(Yj−η(Xj))
=
n
X
i=0
E
ωi,n(X)2(Yi−η(Xi))2 +
n
X
i6=j=1
E
E[. . .|X1:n, X]
=
n
X
i=0
E ï
ωi,n(X)2(Yi−η(Xi))2
+
n
X
i6=j=1
E
ωi,n(X)ωj,n(X)E[(Yi−η(Xi))(Yj−η(Xj))|X1:n, X] ò
=
n
X
i=0
E
ωi,n(X)2(Yi−η(Xi))2
+
n
X
i6=j=1
E
ωi,nωj,nE[Yi−η(Xi)|X1:n, X]E[Yj−η(Xj)|X1:n, X]
=
n
X
i=0
E
ωi,n(X)2(Yi−η(Xi))2
62
n
X
i=1
E[ωi,n(X)2]
62E
"
max
16j6nωj,n(X)
n
X
i=1
ωi,n(X)
#
62c1E ï
max
16j6nωj,n(X) ò
On se donneηε pourε >0fixé tel que : 1. ηε est uniformément continue surRd 2. E[|η(X)−ηε(X)|]6ε
On peut sans perte de généralité supposer que pour toutε >0 supRd|ηε|62(à faire en exercice).
On définit aussiη˜εpar :
˜ ηεn(x) =
n
X
i=1
ηε(xi)ωi,n((xi), x)
A=E
|η(X)±ηε(X)±η˜nε(X)−η˜n(X)|
6E[|η(X)−ηε(X)|] +E[|˜ηεn(X)−η˜n(X)|] +E[|ηε(X)−η˜nε(X)|]
6ε+c1ε+E[|˜ηεn(X)−η˜n(X)|]
| {z }
C
Pourε >0 fixé, il existea >0tel que ∀x,x˜∈Rd |ηε(x)−ηε(˜x)|6ε.
C=E
î|ηε(X)−X
ωi,n(X)ηε(Xi)|ó 6E
"
1−
n
X
i=1
ωi,n(X)
|ηε(X)|
# +E
"
n
X
i=1
ωi,n(X)(ηε(X)−ηε(Xi))
#
62E
"
1−
n
X
i=1
ωi,n(X)
# +E
"
n
X
i=1
ωi,n(X)(ηε(X)−ηε(Xi)) 1{kXi−Xk>a}+1{kXi−Xk6a}
#
62E
"
1−
n
X
i=1
ωi,n(X)
# + 2E
"
n
X
i=1
ωi,n(X)1{kXi−Xk>a}
# +εc1
Conclusion, pour toutε >0, A+B6√
2c1
»
E[maxωi,n] + (1 +c2)ε+c1ε+E
"
1−
n
X
i=1
ωi,n
# + 2E
"
n
X
i=1
ωi,n1{kXi−Xk>a}
#
Donclim supA+B 6(1 +c1+c2)ε∀ε >0.
2 Application du théorème de Stone aux algorithmes par partitions
Soit(Pn)n une suite de partitions mesurables et dénombrables deRd. On suppose :
(1) lim
n→+∞ sup
A∈Pn
diam(A) = 0
(2) lim
n→+∞
Card(A∈Pn|A∩ B(0, r)6=∅)
n = 0 pour toutr >0
Remarque.La norme que l’on prend pour définir le diamètre etB(0, r)est quelconque.
Si (Pn) vérifie (1) et (2), alors la règle par partitions associée à (Pn) est universellement faiblement consistante.
Proposition 1
Preuve.
On vérifie que les hypotèses du théorème de Stone sont satisfaites.
1. Par la remarque du début on a :
n
X
i=1
ωi,n(x1:n, x) =
n
X
i=1
1Pn(x)(xi) Pn
i=11Pn(x)(xi) =1{NP(x)(x1:n)>0}
oùNA(x1:n) =Pn
i=11A(xi)∀A⊂Rd.
SoitPX la loi de X surR. Pour toutε >0il existe r >0tel que PX(B(0, r))>1−ε ⇔ PX(B(0, r)C)6ε Soitε >0et rε>0fixé. On considère :
Pnε={A∈Pn : A∩ B(0, rε)6=∅}
E
"
1−
n
X
i=1
ωi,n(X)
#
=P(NP(X)(X1:n) = 0)
=P P(X)∈Pnε, NP(X)(X1:n) = 0
+P P(X)∈/Pnε, NP(X)(X1:n) = 0
=A+B
B6P(P(X)∈/Pnε)6P(X /∈ B(0, r))6ε Et,
A= X
C∈Pnε
P(Pn(X) =C, NC(X1:n) = 0) Or ∀C∈Pnε,NC(X1:n) =Pn
i=11C(Xi)∼ B(n,P(X ∈C)). Alors,
A= X
C∈Pnε
P(X ∈C)(1−P(X ∈C))n
6 ñ
sup
t∈[0,1]
t(1−t)n ô
Card(Pnε) 6 Card(Pnε)
n Par(2), on a ∀ε >0,
lim sup
n→+∞E
"
|1−
n
X
i=1
ω1,n|
# 6ε
On a donc montré la condition (1)du théorème de Stone.
2. Soita >0.
ωi,n(X)1{kXi−Xk>a}6ωi,n(X)1{diam(Pn(X)>a}
Donc E
" n X
i=1
ωi,n(Xi:n, X)1{kXi−Xk>a}
# 6E
"
1{diam(Pn(X)>a)}
n
X
i=1
ωi,n
#
Markov6
supA∈Pndiam(A)
a −−−−−→
n→+∞ 0 par hyp(1) 3. Montrons la condition(3). Soitε >0et rε tel queP(X /∈ B(0, r))6ε.
E[max
i ωi,n]6E
1Pnε(Pn(X)) maxωi,n
+ε même raisonnement qu’avant
6 X
C∈Pnε
E ñ
1{Pn(X)=c}max
i
1C(Xi) P
j1C(Xj) ô
+ε
6 X
C∈Pnε
E ï
1{Pn(X)=C}1{NC(X1:n)>0}
NC(X1:n) ò
+ε
Lemme : siZ∼ B(n, p):
E
ï1{Z>0}
Z ò
6 2
p(n+ 1) Retour à la preuve :
6 X
C∈Pnε
P(X ∈C) 2
P(X∈C)(n+ 1)+ε
CommeX⊥(Xi)et NC(X1:n)∼ B(n,P(X∈C))+ lemme. Finalement : E[maxωi:n]62Card(Pnε)
n+ 1 +ε Par l’hypothèse(2),∀ε >0 on a :
lim sup
n→+∞E[maxωi,n]6ε Ce qui conclut.
4. Montrons que l’hypothèse(4)du théorème de Stone est vérifiée. Soitf tel queE[|f(X)|]<
+∞.
E
" n X
i=1
ωi,n(X)|f(Xi)|
#
=E
" n X
i=1
1Pn(X)(Xi)
NPn(X)(X1:n)|f(Xi)|
#
=
n
X
i=1
E
ñ 1Pn(X)(Xi)
NPn(X)(X1:n)|f(Xi)|
ô
=
n
X
i=1
E
ñ 1Pn(X)(Xi)
NPn(Xi)(X1, . . . , Xi−1, X, Xi+1, . . . , Xn)|f(Xi)|
ô
Car les(Xi)i.i.d.⊥X de même loi. Or,∀i: 1Pn(Xi)(X)
NPn(Xi)(X1, . . . , X, . . . , Xn) =ωi,n(X)
car 1Pn(X)(Xi) = 0 ssi 1Pn(Xi)(X) = 0 et si 1Pn(X)(Xi) = 1 = 1Pn(Xi)(X) on a par définition :
NPn(X)(X1:n) =NPn(Xn)(X1, . . . , X, . . . , Xn) Donc :
E
" n X
i=1
ωi,n|f(Xi)|
#
=E
"
|f(X)|
n
X
i=1
ωi,n
#
6E[|f(X)|]
Conclusion, on peut appliquer le théorème de Stone.
Preuve.(du lemme utilisé)
Z∼ B(n, p)
E
ï1{Z>0}
Z ò
6 2
p(n+ 1) Comme 1{Z>0}Z 6Z+12 ,
E
ï1{Z>0}
Z ò
62E ï 1
Z+ 1 ò
Or,
E[(Z+ 1)−1] =
n
X
k=0
(k+ 1)−1 Ån
k ã
pk(1−p)n−k
= 1
(n+ 1)p
n
X
k=0
n+ 1 k+ 1
Ån k ã
pk+1(1−p)n−k
= 1
(n+ 1)p
n
X
k=0
Ån+ 1 k+ 1 ã
pk+1(1−p)n−k
= 1
(n+ 1)p
n+1
X
k0=1
Ån+ 1 k0
ã
pk0(1−p)n−k0
6 1
p(n+ 1)
3 Algorithme des k plus proches voisins (k−ppv ou k−NN)
Soit n >1, x1:n ∈ Xn (on suppose que X = Rd muni d’une certaine norme k.k). Soitx ∈ X. On définit la suite d’applications mesurables(i1, . . . , in) :Xn×X−→ {1, . . . , n} par récurrence comme suit :
i1(x1:n, x) = min
i∈ {1, . . . , n}, d(x, xi)6d(x, xj)∀j∈ {1, . . . , n}
i2(x1:n, x) = min
i∈ {1, . . . , n}\{i1(x1:n, x)}, d(x, xi)6d(x, xj)∀j∈ {1, . . . , n}\{i1(x)}
in(x1:n, x) =l’unique élément de{1, . . . , n}\{i1(x), . . . , in−1(x)}.
La règle pour la régression associée auk ppv est la suivante : ˆ
η((x1:n, y1:n), x) = 1 kn
kn
X
j=1
yij(xi:n, x)
pour une suite d’entiers(kn)n d’entiers >0. On noteij(x1:n, x):(j). Ainsi : ˆ
η((x1:n, y1:n), x) = 1 kn
kn
X
j=1
y(j)
La règle de classificationfˆassociée aukppv est la règle plug-in associée àη. L’algorithme deˆ k ppv fait partie des algorithme par voisinage local avec :
ωi,n(x) = 1
kn1{xi∈k−ppv(x)}= 1 kn1
i∈{i1(x),...,in(x)}
Remarque.Pn
i=1ωi,n= 1donc la première hypothèse du théorème de Stone est vérifiée.
SoitX=Rd,(kn)une suite d’entiers>0. On supposeY={0,1}et on prend le coût0−1.
On suppose :
n→+∞lim kn = +∞ lim
n→+∞
kn n = 0
Alors l’algorithme desk-ppv est universellement faiblement consistant.
Théorème 2
Preuve.
SoitPune loi surX×Yet(Xi, Yi)i i.i.d de loiP,(X, Y)⊥(Xi, Yi)de loiP.
1. Il suffit de montrer les conditions 2,3,4 du théorème de Stone d’après la remarque.
2. Soita >0.
E
" n X
i=1
ωi,n(X)1{kXi−Xk>a}
#
=E
"
1 kn
n
X
i=1
1{Xi∈k−ppv(X)}1{kXi−Xk>a}
#
Or,
1{Xi∈k−ppv(X)}1{kXi−Xk>a}61{kXkn−Xk>a}1{Xi∈kn−ppv(X)}
E
" n X
i=1
ωi,n(X)1{kXi−Xk>a}
#
=6P kXkn−Xk>a On va montrer en TD que :
limP(kXkn−Xk>a) = 0 si kn n →0 3.
E[max
i ωi,n] =E ï
maxi
1
kn1{Xi∈k−ppv(X)}
ò 6 1
kn
−−−−−→
n→+∞ 0 par hypothèse 4. c.f. lemme suivant
Soit(Xi) i.i.d ; de loiP et X⊥(Xi) de loi P. Soit f: Rd −→ R tel queE[|f(X)|] < +∞.
Alors il existeγd>0tel que :
E
"
1 k
k
X
i=1
f(Xi)
#
6γdE[|f(X)|] ∀k∈N∗
De plus,
γd6(1−2/
» 2−√
3)d−1 Lemme 1(de Stone)
La preuve de ce résultat est basée sur deux lemmes géométriques.
Soitx∈Rd\{0} etθ∈[0,π2]. On définit le cône de directionxet d’angleθ par : C(x, θ) =
ß
˜
x∈Rd | hx,xi˜
kxkk˜xk >cosθ
™ Définition 2
Soitx∈Rd\{0}. Soitω, z∈C(x,π6). Sikzk6kωk. Alors : kz−ωk6kωk Lemme 2
Soitθ∈[0,π2]. Alors il existe une famille finie{x1, . . . , xN(θ)}tel que :
Rd=
N(θ)
[
i=1
C(xi, θ) Lemme 3
Preuve.
La première observation : s’il existe{x1, . . . , xN(θ)tel que :
(∗) Sd=
N(θ)
[
i=1
C(xi, θ)∩Sd oùSd={x : kxk= 1}
alors la démontstration est finie. Soit z ∈ Rd\{0} alors kzkz ∈ Sd et alors ∃i et ω tels que ω=kzkz ∈C(xi, θ).kzkω∈C(xi, θ),z∈C(xi, θ).
On montre(∗). Pour cela on montre que pour toutr∈[0,1]il existex1, . . . , xN 6= 0tels que :
Sd=
N
[
i=1
Sd∩ B(xi, r)
On construitx1, . . . , xN par récurrence. x1 =e1. Supposons x1, . . . , xk construits. S’il existe x˜ tel que :
inf
i∈{1,...,k}kx˜−xik>k alors on posexk+1= ˜x/kxk, et sinon on arrête.˜
On montre d’abord qu’on a un nombre fini dexi. En effet, pour touti6=j, B(xi, r/2)∩ B(xj, r/2) =∅ (1)
par définition. DE plus :
n
[
i=1
B(xi, r/2)⊂ B(0,1 +r/2)\B(0, r/2) (2)
⇒on a donc :
nVol(B(0,1))r 2
d
6Vol(B(0,1)) Å
1 + r 2
d
−r 2
dã
Comme c’est valable pour toutnsi(xi)est infini oon a une contradiction. Donc on a une famille finie de(xi)et (1),(2)sont encore vérifiées. Donc si on noteNrle cardinal de(xi)on a :
NR6 Å2
r+ 1 ãd
−1
Pour en revenir au cône.∀θ∈[0, π/2]et x∈Rd\{0},kxk= 1. Alors : C(x, θ)∩Sd=B(x, rθ)∩Sd (3) avecrθ= 2 sin(θ/2)(à faire en exercice).
Donc on prendx1, . . . , xNrθ ∈Sd tels que :
Sd=
Nrθ
[
i=1
Sd∩ B(xi, rθ) D’après(3)on a(∗)et de plu :
Nrθ 6 Å2
rθ + 1 ãd
−1 = Ç 1
sin θ2+ 1 åd
−1 Et pourθ=π6 :
Nrθ6
Ç 2
p2−√ 3
+ 1 åd
−1
Preuve.(du Lemme 1de Stone)
k
X
p=1
E[f(Xp)] =
n
X
p=1
E
f(Xp)1{Xp∈k−ppv(X)}
Par hypothèse, les(Xi)sont i.i.d.⊥X de même loi, donc :
=
n
X
p=1
E
f(X)1{X∈k−ppv(Xp)parmi(X1,...,X,...,Xn)}
On découpeRd comme :
Rd =x+
Nrπ/6
[ C(xi, π/6)
Définissons :
x+C(xi, π/6) =Ai(x)
{Xp∈Aj(X)} ∩ {X ∈k−ppv(Xp)⊂ {Xp∈Aj(X)} ∩ {Xp∈k−ppv(X)dansAj(X)}
d’après le premier lemme. On en déduit que :
k
X
p=1
E[|f(Xp)|]6
k
X
p=1 Nπ/6
X
j=1
E[|f(X)|1Xp∈Aj(X)1{Xp∈k−ppv(X)dansAj(X)}] Donc :
k
X
p=1
E[(Xp)]6kNπ/6E[|f(X)|]
Conclusion :
1 kE
" k X
p=1
|f(Xp)|
#
6Nπ/6E[|f(X)|]
et on a vu une majoration deNπ/6.