• Aucun résultat trouvé

Apprentissage statistique Chapitre 4 : Consistance des algorithmes par moyennage local

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique Chapitre 4 : Consistance des algorithmes par moyennage local"

Copied!
12
0
0

Texte intégral

(1)

Apprentissage statistique

Chapitre 4 : Consistance des algorithmes par moyennage local

Lucie Le Briquer 19 février 2018

Table des matières

1 Théorème de Stone 3

2 Application du théorème de Stone aux algorithmes par partitions 5 3 Algorithme des k plus proches voisins (k−ppv ou k−NN) 8

(2)

Convention0/0 = 0.

Une règle d’apprentissage par moyennage local est caractérisée par un tableau de fonctions mesurables(ωi,n)i∈{1,...,n},∀i, n ωi,n: Xn×X−→R+.

On définit la fonction de régression associéeηˆdéfinie pour tout n >1, (xi, yi)i∈{1,...,n} et x∈X:

ˆ

η (xi, yi), x

=

n

X

i=1

ωi,n((xi)i, x)yi

On définit alors la règle de classificationfˆcomme étant la règle plug-in associée àηˆdéfinie pour toutn>1 par :

fˆ (xi, yi), x

=1η((xi,yi),x)>12}

Définition 1(règle d’apprentissage par moyennage local)

On rappelle la règle par partition : on se donne une suite de partition(Pn)n∈N telle que : 1. Pn est de cardinal dénombrable.

2. Tout élément de Pn est mesurable.

La règle pour la régression par partition est donnée par : ˆ

η((xi, yi), x) = Pn

i=1yi1Pn(x)(xi) Pn

i=11Pn(x)(xi)

Pn(x): élément dePn qui contientx. C’est donc une règle de type voisinage avec les poids(ωi,n) définis par :

ωi,n((xi), x) = 1Pn(x)(xi) Pn

i=11Pn(x)(xi) Remarques.

1. (ωi,n)sont appelés les poids.

2. En générale on noteωi,n((xi), x)parωi,n(x).

3. Pour l’algorithme de partitionPn

i=1ωi,n(x) =1{Pn

i=11Pn(x)(xi)>0}61.

(3)

1 Théorème de Stone

On considère X = Rd, Y = {0,1}. Soit k.k sur Rd, (ωin) suite de poids pour une règle d’apprentissage par voisinage local. SoitP∈ Pet(Xi, Yi)i∈Ni.i.d. de loiPet(X, Y)⊥(Xi, Yi) de même loiP. On suppose :

1. Pn

i=1ωi,n(X1:n, X)−−−−−→

n→+∞ 1 dansL1(P). Il existec1>0 tel que :

n

X

i=1

ωi,n(X1:n, X)6c1 P−p.s.

2. Pour touta >0,

n→+∞lim E

" n X

i=1

ωi,n(X1:n, X)1{kXi−Xk>a}

#

= 0

3.

n→+∞lim E ï

max

16i6nωi,n(X1:n, X) ò

= 0

4. Il existec2>0tel que pour toute fonctionf telle queE[|f(X)|]<+∞on ait :

E

" n X

i=1

ωi,n(X1:n, X)|f(Xi)|

#

6c2E[|f(X1)|]

Alors la règle par voisinage local associée à(ωi,n)est faiblement consistante pourP :

n→+∞lim E îRDn

P ( ˆfn

=RP Théorème 1(de Stone)

Remarque.fˆ(xi, yi)i∈{1,...,n}, x

= ˆfn(x)pareil pourη.ˆ Preuve.

D’après le deuxième cours,

|RDPn( ˆfn)−RP|62E[|η(X)−ηˆn(X)|Dn] Donc :

E

îRDn

P ( ˆfn

−RP

62E[|η(X)−ηˆn(X)|]

Donc on montre quelimE[|η(X)−ηˆn(X)|] = 0.

On introduit˜˜η:Xn×X−→[0,1]définit pour toutx1, . . . , xn, x∈Xpar :

˜

η((xi), x) =

n

X

i=1

ωi,n((xi), x)η(xi)

(4)

Soitn>1,(Xi, Yi)∼Pi.i.d.⊥(X, Y)∼P

E[|η(X)−ηˆn(X)|]6E[|η(X)−η˜n(X)|] +E[|η˜n(X)−ηˆn(X)|] =A+B Par Cauchy-Schwarz, on a :

B26E[(˜ηn(X)−ηˆn(X))2]

=X

i,j

E

ωi,n(X)ωj,n(X)(Yi−η(Xi))(Yj−η(Xj))

=

n

X

i=0

E

ωi,n(X)2(Yi−η(Xi))2 +

n

X

i6=j=1

E

E[. . .|X1:n, X]

=

n

X

i=0

E ï

ωi,n(X)2(Yi−η(Xi))2

+

n

X

i6=j=1

E

ωi,n(X)ωj,n(X)E[(Yi−η(Xi))(Yj−η(Xj))|X1:n, X] ò

=

n

X

i=0

E

ωi,n(X)2(Yi−η(Xi))2

+

n

X

i6=j=1

E

ωi,nωj,nE[Yi−η(Xi)|X1:n, X]E[Yj−η(Xj)|X1:n, X]

=

n

X

i=0

E

ωi,n(X)2(Yi−η(Xi))2

62

n

X

i=1

E[ωi,n(X)2]

62E

"

max

16j6nωj,n(X)

n

X

i=1

ωi,n(X)

#

62c1E ï

max

16j6nωj,n(X) ò

On se donneηε pourε >0fixé tel que : 1. ηε est uniformément continue surRd 2. E[|η(X)−ηε(X)|]6ε

On peut sans perte de généralité supposer que pour toutε >0 supRdε|62(à faire en exercice).

On définit aussiη˜εpar :

˜ ηεn(x) =

n

X

i=1

ηε(xii,n((xi), x)

A=E

|η(X)±ηε(X)±η˜nε(X)−η˜n(X)|

6E[|η(X)−ηε(X)|] +E[|˜ηεn(X)−η˜n(X)|] +E[|ηε(X)−η˜nε(X)|]

6ε+c1ε+E[|˜ηεn(X)−η˜n(X)|]

| {z }

C

(5)

Pourε >0 fixé, il existea >0tel que ∀x,x˜∈Rdε(x)−ηε(˜x)|6ε.

C=E

î|ηε(X)−X

ωi,n(X)ηε(Xi)|ó 6E

"

1−

n

X

i=1

ωi,n(X)

ε(X)|

# +E

"

n

X

i=1

ωi,n(X)(ηε(X)−ηε(Xi))

#

62E

"

1−

n

X

i=1

ωi,n(X)

# +E

"

n

X

i=1

ωi,n(X)(ηε(X)−ηε(Xi)) 1{kXi−Xk>a}+1{kXi−Xk6a}

#

62E

"

1−

n

X

i=1

ωi,n(X)

# + 2E

"

n

X

i=1

ωi,n(X)1{kXi−Xk>a}

# +εc1

Conclusion, pour toutε >0, A+B6√

2c1

»

E[maxωi,n] + (1 +c2)ε+c1ε+E

"

1−

n

X

i=1

ωi,n

# + 2E

"

n

X

i=1

ωi,n1{kXi−Xk>a}

#

Donclim supA+B 6(1 +c1+c2)ε∀ε >0.

2 Application du théorème de Stone aux algorithmes par partitions

Soit(Pn)n une suite de partitions mesurables et dénombrables deRd. On suppose :

(1) lim

n→+∞ sup

A∈Pn

diam(A) = 0

(2) lim

n→+∞

Card(A∈Pn|A∩ B(0, r)6=∅)

n = 0 pour toutr >0

Remarque.La norme que l’on prend pour définir le diamètre etB(0, r)est quelconque.

Si (Pn) vérifie (1) et (2), alors la règle par partitions associée à (Pn) est universellement faiblement consistante.

Proposition 1

Preuve.

On vérifie que les hypotèses du théorème de Stone sont satisfaites.

1. Par la remarque du début on a :

n

X

i=1

ωi,n(x1:n, x) =

n

X

i=1

1Pn(x)(xi) Pn

i=11Pn(x)(xi) =1{NP(x)(x1:n)>0}

oùNA(x1:n) =Pn

i=11A(xi)∀A⊂Rd.

(6)

SoitPX la loi de X surR. Pour toutε >0il existe r >0tel que PX(B(0, r))>1−ε ⇔ PX(B(0, r)C)6ε Soitε >0et rε>0fixé. On considère :

Pnε={A∈Pn : A∩ B(0, rε)6=∅}

E

"

1−

n

X

i=1

ωi,n(X)

#

=P(NP(X)(X1:n) = 0)

=P P(X)∈Pnε, NP(X)(X1:n) = 0

+P P(X)∈/Pnε, NP(X)(X1:n) = 0

=A+B

B6P(P(X)∈/Pnε)6P(X /∈ B(0, r))6ε Et,

A= X

C∈Pnε

P(Pn(X) =C, NC(X1:n) = 0) Or ∀C∈Pnε,NC(X1:n) =Pn

i=11C(Xi)∼ B(n,P(X ∈C)). Alors,

A= X

C∈Pnε

P(X ∈C)(1−P(X ∈C))n

6 ñ

sup

t∈[0,1]

t(1−t)n ô

Card(Pnε) 6 Card(Pnε)

n Par(2), on a ∀ε >0,

lim sup

n→+∞E

"

|1−

n

X

i=1

ω1,n|

# 6ε

On a donc montré la condition (1)du théorème de Stone.

2. Soita >0.

ωi,n(X)1{kXi−Xk>a}i,n(X)1{diam(Pn(X)>a}

Donc E

" n X

i=1

ωi,n(Xi:n, X)1{kXi−Xk>a}

# 6E

"

1{diam(Pn(X)>a)}

n

X

i=1

ωi,n

#

Markov6

supA∈Pndiam(A)

a −−−−−→

n→+∞ 0 par hyp(1) 3. Montrons la condition(3). Soitε >0et rε tel queP(X /∈ B(0, r))6ε.

E[max

i ωi,n]6E

1Pnε(Pn(X)) maxωi,n

+ε même raisonnement qu’avant

6 X

C∈Pnε

E ñ

1{Pn(X)=c}max

i

1C(Xi) P

j1C(Xj) ô

6 X

C∈Pnε

E ï

1{Pn(X)=C}1{NC(X1:n)>0}

NC(X1:n) ò

(7)

Lemme : siZ∼ B(n, p):

E

ï1{Z>0}

Z ò

6 2

p(n+ 1) Retour à la preuve :

6 X

C∈Pnε

P(X ∈C) 2

P(X∈C)(n+ 1)+ε

CommeX⊥(Xi)et NC(X1:n)∼ B(n,P(X∈C))+ lemme. Finalement : E[maxωi:n]62Card(Pnε)

n+ 1 +ε Par l’hypothèse(2),∀ε >0 on a :

lim sup

n→+∞E[maxωi,n]6ε Ce qui conclut.

4. Montrons que l’hypothèse(4)du théorème de Stone est vérifiée. Soitf tel queE[|f(X)|]<

+∞.

E

" n X

i=1

ωi,n(X)|f(Xi)|

#

=E

" n X

i=1

1Pn(X)(Xi)

NPn(X)(X1:n)|f(Xi)|

#

=

n

X

i=1

E

ñ 1Pn(X)(Xi)

NPn(X)(X1:n)|f(Xi)|

ô

=

n

X

i=1

E

ñ 1Pn(X)(Xi)

NPn(Xi)(X1, . . . , Xi−1, X, Xi+1, . . . , Xn)|f(Xi)|

ô

Car les(Xi)i.i.d.⊥X de même loi. Or,∀i: 1Pn(Xi)(X)

NPn(Xi)(X1, . . . , X, . . . , Xn) =ωi,n(X)

car 1Pn(X)(Xi) = 0 ssi 1Pn(Xi)(X) = 0 et si 1Pn(X)(Xi) = 1 = 1Pn(Xi)(X) on a par définition :

NPn(X)(X1:n) =NPn(Xn)(X1, . . . , X, . . . , Xn) Donc :

E

" n X

i=1

ωi,n|f(Xi)|

#

=E

"

|f(X)|

n

X

i=1

ωi,n

#

6E[|f(X)|]

Conclusion, on peut appliquer le théorème de Stone.

Preuve.(du lemme utilisé)

(8)

Z∼ B(n, p)

E

ï1{Z>0}

Z ò

6 2

p(n+ 1) Comme 1{Z>0}Z 6Z+12 ,

E

ï1{Z>0}

Z ò

62E ï 1

Z+ 1 ò

Or,

E[(Z+ 1)−1] =

n

X

k=0

(k+ 1)−1 Ån

k ã

pk(1−p)n−k

= 1

(n+ 1)p

n

X

k=0

n+ 1 k+ 1

Ån k ã

pk+1(1−p)n−k

= 1

(n+ 1)p

n

X

k=0

Ån+ 1 k+ 1 ã

pk+1(1−p)n−k

= 1

(n+ 1)p

n+1

X

k0=1

Ån+ 1 k0

ã

pk0(1−p)n−k0

6 1

p(n+ 1)

3 Algorithme des k plus proches voisins (k−ppv ou k−NN)

Soit n >1, x1:n ∈ Xn (on suppose que X = Rd muni d’une certaine norme k.k). Soitx ∈ X. On définit la suite d’applications mesurables(i1, . . . , in) :Xn×X−→ {1, . . . , n} par récurrence comme suit :

i1(x1:n, x) = min

i∈ {1, . . . , n}, d(x, xi)6d(x, xj)∀j∈ {1, . . . , n}

i2(x1:n, x) = min

i∈ {1, . . . , n}\{i1(x1:n, x)}, d(x, xi)6d(x, xj)∀j∈ {1, . . . , n}\{i1(x)}

in(x1:n, x) =l’unique élément de{1, . . . , n}\{i1(x), . . . , in−1(x)}.

La règle pour la régression associée auk ppv est la suivante : ˆ

η((x1:n, y1:n), x) = 1 kn

kn

X

j=1

yij(xi:n, x)

pour une suite d’entiers(kn)n d’entiers >0. On noteij(x1:n, x):(j). Ainsi : ˆ

η((x1:n, y1:n), x) = 1 kn

kn

X

j=1

y(j)

La règle de classificationfˆassociée aukppv est la règle plug-in associée àη. L’algorithme deˆ k ppv fait partie des algorithme par voisinage local avec :

ωi,n(x) = 1

kn1{xi∈k−ppv(x)}= 1 kn1

i∈{i1(x),...,in(x)}

(9)

Remarque.Pn

i=1ωi,n= 1donc la première hypothèse du théorème de Stone est vérifiée.

SoitX=Rd,(kn)une suite d’entiers>0. On supposeY={0,1}et on prend le coût0−1.

On suppose :

n→+∞lim kn = +∞ lim

n→+∞

kn n = 0

Alors l’algorithme desk-ppv est universellement faiblement consistant.

Théorème 2

Preuve.

SoitPune loi surX×Yet(Xi, Yi)i i.i.d de loiP,(X, Y)⊥(Xi, Yi)de loiP.

1. Il suffit de montrer les conditions 2,3,4 du théorème de Stone d’après la remarque.

2. Soita >0.

E

" n X

i=1

ωi,n(X)1{kXi−Xk>a}

#

=E

"

1 kn

n

X

i=1

1{Xi∈k−ppv(X)}1{kXi−Xk>a}

#

Or,

1{Xi∈k−ppv(X)}1{kXi−Xk>a}61{kXkn−Xk>a}1{Xi∈kn−ppv(X)}

E

" n X

i=1

ωi,n(X)1{kXi−Xk>a}

#

=6P kXkn−Xk>a On va montrer en TD que :

limP(kXkn−Xk>a) = 0 si kn n →0 3.

E[max

i ωi,n] =E ï

maxi

1

kn1{Xi∈k−ppv(X)}

ò 6 1

kn

−−−−−→

n→+∞ 0 par hypothèse 4. c.f. lemme suivant

Soit(Xi) i.i.d ; de loiP et X⊥(Xi) de loi P. Soit f: Rd −→ R tel queE[|f(X)|] < +∞.

Alors il existeγd>0tel que :

E

"

1 k

k

X

i=1

f(Xi)

#

dE[|f(X)|] ∀k∈N

De plus,

γd6(1−2/

» 2−√

3)d−1 Lemme 1(de Stone)

(10)

La preuve de ce résultat est basée sur deux lemmes géométriques.

Soitx∈Rd\{0} etθ∈[0,π2]. On définit le cône de directionxet d’angleθ par : C(x, θ) =

ß

˜

x∈Rd | hx,xi˜

kxkk˜xk >cosθ

™ Définition 2

Soitx∈Rd\{0}. Soitω, z∈C(x,π6). Sikzk6kωk. Alors : kz−ωk6kωk Lemme 2

Soitθ∈[0,π2]. Alors il existe une famille finie{x1, . . . , xN(θ)}tel que :

Rd=

N(θ)

[

i=1

C(xi, θ) Lemme 3

Preuve.

La première observation : s’il existe{x1, . . . , xN(θ)tel que :

(∗) Sd=

N(θ)

[

i=1

C(xi, θ)∩Sd oùSd={x : kxk= 1}

alors la démontstration est finie. Soit z ∈ Rd\{0} alors kzkz ∈ Sd et alors ∃i et ω tels que ω=kzkz ∈C(xi, θ).kzkω∈C(xi, θ),z∈C(xi, θ).

On montre(∗). Pour cela on montre que pour toutr∈[0,1]il existex1, . . . , xN 6= 0tels que :

Sd=

N

[

i=1

Sd∩ B(xi, r)

On construitx1, . . . , xN par récurrence. x1 =e1. Supposons x1, . . . , xk construits. S’il existe x˜ tel que :

inf

i∈{1,...,k}kx˜−xik>k alors on posexk+1= ˜x/kxk, et sinon on arrête.˜

On montre d’abord qu’on a un nombre fini dexi. En effet, pour touti6=j, B(xi, r/2)∩ B(xj, r/2) =∅ (1)

(11)

par définition. DE plus :

n

[

i=1

B(xi, r/2)⊂ B(0,1 +r/2)\B(0, r/2) (2)

⇒on a donc :

nVol(B(0,1))r 2

d

6Vol(B(0,1)) Å

1 + r 2

d

−r 2

dã

Comme c’est valable pour toutnsi(xi)est infini oon a une contradiction. Donc on a une famille finie de(xi)et (1),(2)sont encore vérifiées. Donc si on noteNrle cardinal de(xi)on a :

NR6 Å2

r+ 1 ãd

−1

Pour en revenir au cône.∀θ∈[0, π/2]et x∈Rd\{0},kxk= 1. Alors : C(x, θ)∩Sd=B(x, rθ)∩Sd (3) avecrθ= 2 sin(θ/2)(à faire en exercice).

Donc on prendx1, . . . , xN ∈Sd tels que :

Sd=

N

[

i=1

Sd∩ B(xi, rθ) D’après(3)on a(∗)et de plu :

Nrθ 6 Å2

rθ + 1 ãd

−1 = Ç 1

sin θ2+ 1 åd

−1 Et pourθ=π6 :

Nrθ6

Ç 2

p2−√ 3

+ 1 åd

−1

Preuve.(du Lemme 1de Stone)

k

X

p=1

E[f(Xp)] =

n

X

p=1

E

f(Xp)1{Xp∈k−ppv(X)}

Par hypothèse, les(Xi)sont i.i.d.⊥X de même loi, donc :

=

n

X

p=1

E

f(X)1{X∈k−ppv(Xp)parmi(X1,...,X,...,Xn)}

On découpeRd comme :

Rd =x+

Nrπ/6

[ C(xi, π/6)

(12)

Définissons :

x+C(xi, π/6) =Ai(x)

{Xp∈Aj(X)} ∩ {X ∈k−ppv(Xp)⊂ {Xp∈Aj(X)} ∩ {Xp∈k−ppv(X)dansAj(X)}

d’après le premier lemme. On en déduit que :

k

X

p=1

E[|f(Xp)|]6

k

X

p=1 Nπ/6

X

j=1

E[|f(X)|1Xp∈Aj(X)1{Xp∈k−ppv(X)dansAj(X)}] Donc :

k

X

p=1

E[(Xp)]6kNπ/6E[|f(X)|]

Conclusion :

1 kE

" k X

p=1

|f(Xp)|

#

6Nπ/6E[|f(X)|]

et on a vu une majoration deNπ/6.

Références

Documents relatifs

[r]

–  Méthode K-NN (plus proche voisin) –  Arbres de décision. –  Réseaux de neurones –  Classification bayésienne

Application : model selection using

Over-fit : High complexity models are memorizing the data they have seen and are unable to generalize to unseen examples...

Les distributions correspondantes à un téta donné sont Fq et Gq.On utilise les échantillons pour estimer q par une q^ et on utilise alors les distributions Fq^ et Gq^ comme dans

• Comme on peut le voir sur le diagramme logarithmique ci-après, les mesures indiquées semblent hélas toutes correspondre à la zone de raccordement entre les

Il apparaît que les nombres r qui sont la raison d’une progression arithmétique des carrés de trois fractions irréductibles appartiennent à la suite A003273 des nombres

La bibliothèque standard de R (MASS) pour l’analyse discriminante ne pro- pose pas de procédure automatique de choix de variable contrairement à la procédure stepdisc de SAS mais,