Apprentissage statistique Chapitre 4 : Consistance des algorithmes par moyennage local

(1)

Apprentissage statistique

Chapitre 4 : Consistance des algorithmes par moyennage local

Lucie Le Briquer 19 février 2018

Table des matières

1 Théorème de Stone 3

2 Application du théorème de Stone aux algorithmes par partitions 5 3 Algorithme des k plus proches voisins (k−ppv ou k−NN) 8

(2)

Convention0/0 = 0.

Une règle d’apprentissage par moyennage local est caractérisée par un tableau de fonctions mesurables(ω_i,n)i∈{1,...,n},∀i, n ω_i,n: Xⁿ×X−→R+.

On définit la fonction de régression associéeηˆdéfinie pour tout n >1, (xi, yi)i∈{1,...,n} et x∈X:

ˆ

η (x_i, y_i), x

=

n

X

i=1

ω_i,n((x_i)_i, x)y_i

On définit alors la règle de classificationfˆcomme étant la règle plug-in associée àηˆdéfinie pour toutn>1 par :

fˆ (xi, yi), x

=1{ˆη((xi,yi),x)>¹₂}

Définition 1(règle d’apprentissage par moyennage local)

On rappelle la règle par partition : on se donne une suite de partition(Pn)_n∈N telle que : 1. Pn est de cardinal dénombrable.

2. Tout élément de Pn est mesurable.

La règle pour la régression par partition est donnée par : ˆ

η((x_i, y_i), x) = Pn

i=1y_i1P_n(x)(x_i) Pn

i=11^Pn(x)(xi)

Pn(x): élément dePn qui contientx. C’est donc une règle de type voisinage avec les poids(ωi,n) définis par :

ω_i,n((x_i), x) = 1P_n(x)(x_i) Pn

i=11^Pn(x)(xi) Remarques.

1. (ω_i,n)sont appelés les poids.

2. En générale on noteω_i,n((x_i), x)parω_i,n(x).

3. Pour l’algorithme de partitionPn

i=1ω_i,n(x) =1{Pn

i=11P_n(x)(x_i)>0}61.

(3)

1 Théorème de Stone

On considère X = R^d, Y = {0,1}. Soit k.k sur R^d, (ωin) suite de poids pour une règle d’apprentissage par voisinage local. SoitP∈ Pet(Xi, Yi)i∈Ni.i.d. de loiPet(X, Y)⊥(Xi, Yi) de même loiP. On suppose :

1. Pn

i=1ωi,n(X1:n, X)−−−−−→

n→+∞ 1 dansL¹(P). Il existec1>0 tel que :

n

X

i=1

ωi,n(X1:n, X)6c1 P−p.s.

2. Pour touta >0,

n→+∞lim E

" _n X

i=1

ωi,n(X1:n, X)1{kXi−Xk>a}

#

= 0

3.

n→+∞lim E ï

max

16i6nω_i,n(X_1:n, X) ò

= 0

4. Il existec₂>0tel que pour toute fonctionf telle queE[|f(X)|]<+∞on ait :

E

" _n X

i=1

ωi,n(X1:n, X)|f(Xi)|

#

6c2E[|f(X1)|]

Alors la règle par voisinage local associée à(ωi,n)est faiblement consistante pourP :

n→+∞lim E îR^Dⁿ

P ( ˆf_n)ó

=R^∗_P Théorème 1(de Stone)

Remarque.fˆ(x_i, y_i)i∈{1,...,n}, x

= ˆf_n(x)pareil pourη.ˆ Preuve.

D’après le deuxième cours,

|R^D_Pⁿ( ˆfn)−R^∗_P|62E[|η(X)−ηˆn(X)|Dn] Donc :

E

îR^Dⁿ

P ( ˆf_n)ó

−R^∗_P

62E[|η(X)−ηˆ_n(X)|]

Donc on montre quelimE[|η(X)−ηˆ_n(X)|] = 0.

On introduit˜˜η:Xⁿ×X−→[0,1]définit pour toutx1, . . . , xn, x∈Xpar :

˜

η((x_i), x) =

n

X

i=1

ω_i,n((x_i), x)η(x_i)

(4)

Soitn>1,(Xi, Yi)∼Pi.i.d.⊥(X, Y)∼P

E[|η(X)−ηˆn(X)|]6E[|η(X)−η˜n(X)|] +E[|η˜n(X)−ηˆn(X)|] =A+B Par Cauchy-Schwarz, on a :

B²6E[(˜η_n(X)−ηˆ_n(X))²]

=X

i,j

E

ω_i,n(X)ω_j,n(X)(Y_i−η(X_i))(Y_j−η(X_j))

=

n

X

i=0

E

ωi,n(X)²(Yi−η(Xi))² +

n

X

i6=j=1

E

E[. . .|X1:n, X]

=

n

X

i=0

E ï

ωi,n(X)²(Yi−η(Xi))²

+

n

X

i6=j=1

E

ωi,n(X)ωj,n(X)E[(Yi−η(Xi))(Yj−η(Xj))|X1:n, X] ò

=

n

X

i=0

E

ωi,n(X)²(Yi−η(Xi))²

+

n

X

i6=j=1

E

ω_i,nω_j,nE[Y_i−η(X_i)|X1:n, X]E[Y_j−η(X_j)|X1:n, X]

=

n

X

i=0

E

ω_i,n(X)²(Y_i−η(X_i))²

62

n

X

i=1

E[ωi,n(X)²]

62E

"

max

16j6nω_j,n(X)

n

X

i=1

ω_i,n(X)

#

62c1E ï

max

16j6nωj,n(X) ò

On se donneη^ε pourε >0fixé tel que : 1. η^ε est uniformément continue surR^d 2. E[|η(X)−η^ε(X)|]6ε

On peut sans perte de généralité supposer que pour toutε >0 sup_Rd|η^ε|62(à faire en exercice).

On définit aussiη˜^εpar :

˜ η^ε_n(x) =

n

X

i=1

η^ε(x_i)ω_i,n((x_i), x)

A=E

|η(X)±η^ε(X)±η˜_n^ε(X)−η˜n(X)|

6E[|η(X)−η^ε(X)|] +E[|˜η^ε_n(X)−η˜n(X)|] +E[|η^ε(X)−η˜_n^ε(X)|]

6ε+c1ε+E[|˜η^ε_n(X)−η˜n(X)|]

| {z }

C

(5)

Pourε >0 fixé, il existea >0tel que ∀x,x˜∈R^d |η^ε(x)−η^ε(˜x)|6ε.

C=E

î|η^ε(X)−X

ωi,n(X)η^ε(Xi)|ó 6E

"

1−

n

X

i=1

ω_i,n(X)

|η^ε(X)|

# +E

"

n

X

i=1

ω_i,n(X)(η^ε(X)−η^ε(X_i))

#

62E

"

1−

n

X

i=1

ω_i,n(X)

# +E

"

n

X

i=1

ω_i,n(X)(η^ε(X)−η^ε(X_i)) 1{kXi−Xk>a}+1{kXi−Xk6a}

#

62E

"

1−

n

X

i=1

ωi,n(X)

# + 2E

"

n

X

i=1

ωi,n(X)1{kXi−Xk>a}

# +εc1

Conclusion, pour toutε >0, A+B6√

2c1

»

E[maxωi,n] + (1 +c2)ε+c1ε+E

"

1−

n

X

i=1

ωi,n

# + 2E

"

n

X

i=1

ωi,n1{kXi−Xk>a}

#

Donclim supA+B 6(1 +c1+c2)ε∀ε >0.

2 Application du théorème de Stone aux algorithmes par partitions

Soit(Pn)n une suite de partitions mesurables et dénombrables deR^d. On suppose :

(1) lim

n→+∞ sup

A∈Pn

diam(A) = 0

(2) lim

n→+∞

Card(A∈Pn|A∩ B(0, r)6=∅)

n = 0 pour toutr >0

Remarque.La norme que l’on prend pour définir le diamètre etB(0, r)est quelconque.

Si (Pn) vérifie (1) et (2), alors la règle par partitions associée à (Pn) est universellement faiblement consistante.

Proposition 1

Preuve.

On vérifie que les hypotèses du théorème de Stone sont satisfaites.

1. Par la remarque du début on a :

n

X

i=1

ωi,n(x1:n, x) =

n

X

i=1

1Pn(x)(xi) Pn

i=11P_n(x)(x_i) =1{N_P(x)(x1:n)>0}

oùN_A(x_1:n) =Pn

i=11A(x_i)∀A⊂R^d.

(6)

SoitP^X la loi de X surR. Pour toutε >0il existe r >0tel que PX(B(0, r))>1−ε ⇔ PX(B(0, r)^C)6ε Soitε >0et rε>0fixé. On considère :

P_n^ε={A∈Pn : A∩ B(0, rε)6=∅}

E

"

1−

n

X

i=1

ω_i,n(X)

#

=P(N_P(X)(X_1:n) = 0)

=P P(X)∈P_n^ε, N_P(X)(X1:n) = 0

+P P(X)∈/P_n^ε, N_P(X)(X1:n) = 0

=A+B

B6P(P(X)∈/P_n^ε)6P(X /∈ B(0, r))6ε Et,

A= X

C∈P_n^ε

P(Pn(X) =C, NC(X1:n) = 0) Or ∀C∈P_n^ε,N_C(X_1:n) =Pn

i=11C(X_i)∼ B(n,P(X ∈C)). Alors,

A= X

C∈P_n^ε

P(X ∈C)(1−P(X ∈C))ⁿ

6 ñ

sup

t∈[0,1]

t(1−t)ⁿ ô

Card(P_n^ε) 6 Card(P_n^ε)

n Par(2), on a ∀ε >0,

lim sup

n→+∞E

"

|1−

n

X

i=1

ω_1,n|

# 6ε

On a donc montré la condition (1)du théorème de Stone.

2. Soita >0.

ωi,n(X)1{kXi−Xk>a}6ωi,n(X)1{diam(Pn(X)>a}

Donc E

" _n X

i=1

ωi,n(Xi:n, X)1{kXi−Xk>a}

# 6E

"

1{diam(Pn(X)>a)}

n

X

i=1

ωi,n

#

Markov6

sup_A∈P_ndiam(A)

a −−−−−→

n→+∞ 0 par hyp(1) 3. Montrons la condition(3). Soitε >0et r_ε tel queP(X /∈ B(0, r))6ε.

E[max

i ωi,n]6E

1^Pn^ε(Pn(X)) maxωi,n

+ε même raisonnement qu’avant

6 X

C∈P_n^ε

E ñ

1{Pn(X)=c}max

i

1^C(Xi) P

j1^C(Xj) ô

+ε

6 X

C∈P_n^ε

E ï

1{Pn(X)=C}1{NC(X1:n)>0}

NC(X1:n) ò

+ε

(7)

Lemme : siZ∼ B(n, p):

E

ï1{Z>0}

Z ò

6 2

p(n+ 1) Retour à la preuve :

6 X

C∈P_n^ε

P(X ∈C) 2

P(X∈C)(n+ 1)+ε

CommeX⊥(Xi)et NC(X1:n)∼ B(n,P(X∈C))+ lemme. Finalement : E[maxωi:n]62Card(P_n^ε)

n+ 1 +ε Par l’hypothèse(2),∀ε >0 on a :

lim sup

n→+∞E[maxωi,n]6ε Ce qui conclut.

4. Montrons que l’hypothèse(4)du théorème de Stone est vérifiée. Soitf tel queE[|f(X)|]<

+∞.

E

" _n X

i=1

ωi,n(X)|f(Xi)|

#

=E

" _n X

i=1

1P_n(X)(X_i)

N_P_n_(X)(X1:n)|f(Xi)|

#

=

n

X

i=1

E

ñ 1Pn(X)(Xi)

N_P_n_(X)(X_1:n)|f(X_i)|

ô

=

n

X

i=1

E

ñ 1^Pn(X)(Xi)

N_P_n_(X_i₎(X1, . . . , X_i−1, X, Xi+1, . . . , Xn)|f(Xi)|

ô

Car les(X_i)i.i.d.⊥X de même loi. Or,∀i: 1^Pn(X_i)(X)

N_P_n_(X_i₎(X1, . . . , X, . . . , Xn) =ωi,n(X)

car 1Pn(X)(Xi) = 0 ssi 1Pn(Xi)(X) = 0 et si 1Pn(X)(Xi) = 1 = 1Pn(Xi)(X) on a par définition :

N_P_n_(X)(X1:n) =N_P_n_(X_n₎(X1, . . . , X, . . . , Xn) Donc :

E

" _n X

i=1

ω_i,n|f(X_i)|

#

=E

"

|f(X)|

n

X

i=1

ω_i,n

#

6E[|f(X)|]

Conclusion, on peut appliquer le théorème de Stone.

Preuve.(du lemme utilisé)

(8)

Z∼ B(n, p)

E

ï1{Z>0}

Z ò

6 2

p(n+ 1) Comme ¹^{Z>0}_Z 6_Z+1² ,

E

ï1{Z>0}

Z ò

62E ï 1

Z+ 1 ò

Or,

E[(Z+ 1)⁻¹] =

n

X

k=0

(k+ 1)⁻¹ Ån

k ã

p^k(1−p)^n−k

= 1

(n+ 1)p

n

X

k=0

n+ 1 k+ 1

Ån k ã

p^k+1(1−p)^n−k

= 1

(n+ 1)p

n

X

k=0

Ån+ 1 k+ 1 ã

p^k+1(1−p)^n−k

= 1

(n+ 1)p

n+1

X

k⁰=1

Ån+ 1 k⁰

ã

p^k⁰(1−p)^n−k⁰

6 1

p(n+ 1)

3 Algorithme des k plus proches voisins (k−ppv ou k−NN)

Soit n >1, x_1:n ∈ Xⁿ (on suppose que X = R^d muni d’une certaine norme k.k). Soitx ∈ X. On définit la suite d’applications mesurables(i₁, . . . , i_n) :Xⁿ×X−→ {1, . . . , n} par récurrence comme suit :

i1(x1:n, x) = min

i∈ {1, . . . , n}, d(x, xi)6d(x, xj)∀j∈ {1, . . . , n}

i2(x1:n, x) = min

i∈ {1, . . . , n}\{i1(x1:n, x)}, d(x, xi)6d(x, xj)∀j∈ {1, . . . , n}\{i1(x)}

i_n(x_1:n, x) =l’unique élément de{1, . . . , n}\{i₁(x), . . . , i_n−1(x)}.

La règle pour la régression associée auk ppv est la suivante : ˆ

η((x1:n, y1:n), x) = 1 kn

k_n

X

j=1

yi_j(xi:n, x)

pour une suite d’entiers(k_n)_n d’entiers >0. On notei_j(x_1:n, x):(j). Ainsi : ˆ

η((x1:n, y1:n), x) = 1 kn

k_n

X

j=1

y(j)

La règle de classificationfˆassociée aukppv est la règle plug-in associée àη. L’algorithme deˆ k ppv fait partie des algorithme par voisinage local avec :

ω_i,n(x) = 1

kn1{xi∈k−ppv(x)}= 1 kn1

i∈{i₁(x),...,i_n(x)}

(9)

Remarque.Pn

i=1ωi,n= 1donc la première hypothèse du théorème de Stone est vérifiée.

SoitX=R^d,(kn)une suite d’entiers>0. On supposeY={0,1}et on prend le coût0−1.

On suppose :

n→+∞lim k_n = +∞ lim

n→+∞

k_n n = 0

Alors l’algorithme desk-ppv est universellement faiblement consistant.

Théorème 2

Preuve.

SoitPune loi surX×Yet(X_i, Y_i)_i i.i.d de loiP,(X, Y)⊥(X_i, Y_i)de loiP.

1. Il suffit de montrer les conditions 2,3,4 du théorème de Stone d’après la remarque.

2. Soita >0.

E

" _n X

i=1

ωi,n(X)1{kXi−Xk>a}

#

=E

"

1 kn

n

X

i=1

1{Xi∈k−ppv(X)}1{kXi−Xk>a}

#

Or,

1{Xi∈k−ppv(X)}1{kXi−Xk>a}61{kX_kn−Xk>a}1{Xi∈kn−ppv(X)}

E

" _n X

i=1

ω_i,n(X)1{kX_i−Xk>a}

#

=6P kX_k_n−Xk>a On va montrer en TD que :

limP(kXkn−Xk>a) = 0 si k_n n →0 3.

E[max

i ωi,n] =E ï

maxi

1

kn1{Xi∈k−ppv(X)}

ò 6 1

kn

−−−−−→

n→+∞ 0 par hypothèse 4. c.f. lemme suivant

Soit(X_i) i.i.d ; de loiP et X⊥(X_i) de loi P. Soit f: R^d −→ R tel queE[|f(X)|] < +∞.

Alors il existeγ_d>0tel que :

E

"

1 k

k

X

i=1

f(Xi)

#

6γdE[|f(X)|] ∀k∈N^∗

De plus,

γd6(1−2/

» 2−√

3)^d−1 Lemme 1(de Stone)

(10)

La preuve de ce résultat est basée sur deux lemmes géométriques.

Soitx∈R^d\{0} etθ∈[0,^π₂]. On définit le cône de directionxet d’angleθ par : C(x, θ) =

ß

˜

x∈R^d | hx,xi˜

kxkk˜xk >cosθ

™ Définition 2

Soitx∈R^d\{0}. Soitω, z∈C(x,^π₆). Sikzk6kωk. Alors : kz−ωk6kωk Lemme 2

Soitθ∈[0,^π₂]. Alors il existe une famille finie{x1, . . . , x_N(θ)}tel que :

R^d=

N(θ)

[

i=1

C(xi, θ) Lemme 3

Preuve.

La première observation : s’il existe{x1, . . . , x_N(θ)tel que :

(∗) S^d=

N(θ)

[

i=1

C(xi, θ)∩S^d oùS^d={x : kxk= 1}

alors la démontstration est finie. Soit z ∈ R^d\{0} alors _kzk^z ∈ S^d et alors ∃i et ω tels que ω=_kzk^z ∈C(xi, θ).kzkω∈C(xi, θ),z∈C(xi, θ).

On montre(∗). Pour cela on montre que pour toutr∈[0,1]il existex1, . . . , xN 6= 0tels que :

S^d=

N

[

i=1

S^d∩ B(xi, r)

On construitx1, . . . , xN par récurrence. x1 =e1. Supposons x1, . . . , xk construits. S’il existe x˜ tel que :

inf

i∈{1,...,k}kx˜−xik>k alors on posexk+1= ˜x/kxk, et sinon on arrête.˜

On montre d’abord qu’on a un nombre fini dex_i. En effet, pour touti6=j, B(x_i, r/2)∩ B(x_j, r/2) =∅ (1)

(11)

par définition. DE plus :

n

[

i=1

B(x_i, r/2)⊂ B(0,1 +r/2)\B(0, r/2) (2)

⇒on a donc :

nVol(B(0,1))r 2

^d

6Vol(B(0,1)) Å

1 + r 2

^d

−r 2

^dã

Comme c’est valable pour toutnsi(x_i)est infini oon a une contradiction. Donc on a une famille finie de(x_i)et (1),(2)sont encore vérifiées. Donc si on noteN_rle cardinal de(x_i)on a :

NR6 Å2

r+ 1 ã^d

−1

Pour en revenir au cône.∀θ∈[0, π/2]et x∈R^d\{0},kxk= 1. Alors : C(x, θ)∩S^d=B(x, rθ)∩S^d (3) avecrθ= 2 sin(θ/2)(à faire en exercice).

Donc on prendx₁, . . . , x_N_rθ ∈S^d tels que :

S^d=

N_rθ

[

i=1

S^d∩ B(x_i, r_θ) D’après(3)on a(∗)et de plu :

Nr_θ 6 Å2

r_θ + 1 ã^d

−1 = Ç 1

sin ^θ₂+ 1 å^d

−1 Et pourθ=^π₆ :

Nr_θ6

Ç 2

p2−√ 3

+ 1 åd

−1

Preuve.(du Lemme 1de Stone)

k

X

p=1

E[f(Xp)] =

n

X

p=1

E

f(Xp)1{Xp∈k−ppv(X)}

Par hypothèse, les(Xi)sont i.i.d.⊥X de même loi, donc :

=

n

X

p=1

E

f(X)1{X∈k−ppv(Xp)parmi(X₁,...,X,...,X_n)}

On découpeR^d comme :

R^d =x+

N_rπ/6

[ C(xi, π/6)

(12)

Définissons :

x+C(xi, π/6) =Ai(x)

{Xp∈Aj(X)} ∩ {X ∈k−ppv(Xp)⊂ {Xp∈Aj(X)} ∩ {Xp∈k−ppv(X)dansAj(X)}

d’après le premier lemme. On en déduit que :

k

X

p=1

E[|f(Xp)|]6

k

X

p=1 N_π/6

X

j=1

E[|f(X)|1Xp∈Aj(X)1{Xp∈k−ppv(X)dansAj(X)}] Donc :

k

X

p=1

E[(Xp)]6kNπ/6E[|f(X)|]

Conclusion :

1 kE

" _k X

p=1

|f(X_p)|

#

6N_π/6E[|f(X)|]

et on a vu une majoration deN_π/6.