• Aucun résultat trouvé

Apprentissage statistique Chapitre 3 : Problème de régression et de classification

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique Chapitre 3 : Problème de régression et de classification"

Copied!
9
0
0

Texte intégral

(1)

Apprentissage statistique

Chapitre 3 : Problème de régression et de classification

Lucie Le Briquer 19 février 2018

Table des matières

1 Régression, Y=R 2

2 Règle d’apprentissage en régression 3

2.1 Règle d’apprentissage par partition pour la régression . . . 3 2.2 Classification supervisée . . . 4

(2)

1 Régression, Y = R

Comme dit au chapitre précédent, on est plutôt intéressés par la condition deY|X, mais cela est trop compliqué à apprendre en général.

SoitP un noyau de Markov, régulier, associé à la loi conditionnelle deY|X.

On appelle fonction de régression associée àP : η(x) =

Z

Y

yP(x, dy) Définition 1(fonction de régression)

Remarque.On a que η(X) =E[Y|X] P−p.s.

En régression, le coût le plus fréquemment utilisé est le coût quadratique/des moindres carrés : (y, y0)7−→(y−y0)2

Remarque.Si on noteε=Y −η(X),Y =η(X) +ε(εcorrespond au bruit), on aE[ε] = 0par définition deη.

Cadre des statistiques non-paramétriques.

P∈ P={P˜ |E˜[Y2]<+∞}.

1. La fonction de régression est un prédicteur de Bayes pourPet le coût quadratique.

2. Soitf un autre prédicteur de Bayes,f =η PX−p.s.

3. Le risque de Bayes est :

E[(Y −η(X))2] 4. L’excès de risque d’un prédicteurf est donné par :

e(f, f) =E[(f(X)−η(X))2] Propriété 1

Preuve.

1. Soitf ∈ F(X,Y).

RP(f) =E[(Y −f(X))2]

=E[(Y ±η(X)−f(X))2]

=E[(Y −η(X))2] +E[(η(X)−f(X))2] + 2E[(Y −η(X))(η(X)−f(X))

| {z }

∈L2(Ω,σ(X),P)

]

Or par définition de l’espérance conditionnelle dansL2, η(X) =projL2(Ω,σ(X),P)(Y)

(3)

Ainsi,

RP(f) =E[(Y −η(X))2] +E[(η(X)−f(X))2]>

E[(Y −η(X))2] =RP(η) Comme c’est valable∀f ∈ F(X,Y), on obtientR

P =RP(η), etηest un classifieur de Bayes.

2. Si f est aussi un prédicteur de Bayes, alors tous les calculs pour (∗) sont des égalités et donc :

E[(f(X)−η(X))2] = 0 3. L’inégalité (∗)implique le résultat.

4. Trivial.

Autres fonctions de coût : 1. Coût seuillé :

c(y, y0) =1{|y−y0|>α} avecα >0 2. Coût quadratique seuillé :

c(y, y0) = min(|y−y0|2, α2) 3. Coût de Huber :

ψ(u) =

ß u2 siu6α 2αu−α2 siu>α 4. Coût Lp :ψ(u) =|u|p

5.

c(y, y0) =1]−∞,−α](y−y0)

⇒c= 1siy−y0−α⇒y+α6y0

On observe que les fonctions de coût considérées sont de la formec(y, y0) =ψ(|y−y0|)avecψ↑ etψ(0) = 0.

Remarque.Pour le coût de Huber et celuiL1, les valeurs aberrantes dans l’ensemble d’appren- tissage ont beaucoup moins d’influence sur le risque (donc sur les règles d’apprentissage à partir d’ERM=minimisation de risque empirique).

2 Règle d’apprentissage en régression

2.1 Règle d’apprentissage par partition pour la régression

Y=R. On suppose que l’on dispose d’une partitionP deXqui est de cardinal dénombrable et constitué de sous-ensembles deXmesurables.

Pour tout x∈ X, on note P(x)l’unique élément de la partition qui contient x, appelé cellule associée àx, et∀A⊂Xon note :

NA(x1...n) =Card{xi : xi∈A}

(x1, . . . xn)∈X.

(4)

La règle de régression par partition associée àP est : fˆ (xi, yi)16i6n, x

=

® 1

NP(x)(x1...n)

Pn

i=1yi1P(x)(xi) siNP(x)(x1...n)6= 0

0 sinon

pour(xi, yi)16i6n∈(X×Y)n et x∈X. Exemple.(de règle par partition)

Considérons la partition cubique associée à un pash >0 :

P = ( d

Y

i=1

[hki, h(ki+ 1)[|(k1, . . . , kd)∈Rd )

dans le casX=Rd. SiX⊂Rd :

P = (

X∩

d

Y

i=1

[hki, h(ki+ 1)[| (k1, . . . , kd)∈Rd )

Remarque.On peut considérer et on étudiera des partitions variant avec le nombre d’observa- tions. Par exemple dans le cas de la régression par partition cubique, on va prendre une suite de pashn−−−−−→

n→+∞ 0.

2.2 Classification supervisée

Y={0,1}

Remarque.(sur la classification multiclasse)

Y={1, . . . , M}

• i∈Y, la première stratégie est de considérer la décomposition binaire de i, cela construit un arbre binaire. et ensuite on effectue une suite de classification binaire.

→problème d’accumulation de l’erreur d’apprentissage

• On considère M problèmes binaires Y = i v.s. Y 6= i auxquels on associe un pseudo- classifieur i.e. des fonctionsfi:X−→R. Pour la prédiction on utilise alors pourx∈X:

Y =argmaxi{fi(x)}

Pour simplifier les calculs, on considère dès fois Y = {±1} (on a une bijection classique entre les deux :x7→2x−1).

oLes résultats théoriques dépendent de la convention choisie.

Dans le cas de la classification binaire on choisit le coût0−1ou de Hamming : c(y, y0) =1Y(y, y0) =1{y6=y0}

(5)

SoitY={0,1},P∈ P, etc le coût0−1.

1. Le classifieurf défini pour toutx∈Xpar : f(x) =1{η(x)>12}

est un classifieur de Bayes pourcet P.

2. Sif est un autre classifieur de Bayes pourc etP, alors : f(x) =f(x)pour x /∈

ß

η(x) =1 2

3. Le risque de Bayes est :

RP=E[min(η(X),1−η(X))]

4. L’excés de risque pourf ∈ F(X,Y)est : e(f, f) =E

|2η(X)−1|1{f(X)6=f(X)}

Propriété 2

Preuve.

1. Soitf ∈ F(X,Y).

R0−1

P (f) =E[1{f(X)6=Y}]

=E

1{f(X)=1}1{Y=1}+1{f(X)=1}1{Y=0}

=E ï

E

1{f(X)=1}1{Y=1}+1{f(X)=1}1{Y=0} |X ò

=E ï

1{f(X)=1}E

1{Y=1} |X

+1{f(X)=1}E

1{Y=0} |X ò

Or,

E[1{Y=1} |X] =P(Y = 1|X) =E[Y|X] =η(X) Ainsi,

RP(f) =E ï

η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}

ò

>E[min(η(X),1−η(X))] (∗)

Remarque. ∀x, η(x)61−η(x) ⇔ η(x)61−η(x) ⇔ η(x)612

Conclusion la borne est atteinte pourf =f.

2. Soitf un classifieur de Bayes.(∗)devient une égalité, alors : E

η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}

=E[min(η(X),1−η(X))]

=E[η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}]

(6)

Alors,

E ï

η(X)

1{f(X)=0}−1{f(X)=0}

+ (1−η(X))

1{f(X)=1}−1{f(X)=1}

ò

=E[Z] = 0

La variable aléatoire Z est positive car le raisonnement précédent est valable à X fixé déterministe. Ainsi Z= 0P−p.s.

⇒1{f(X)=0}=1{f(X)=0} siη(X)6= 12

En effet, supposons que 1{f(X)=0} 6=1{f(X)=0}. Considérons l’évènement {f(X) = 0} ∩ {f(X) = 1}.Z=η(X)−(1−η(X)) = 2η(X)−1. Mais sur

ß

η(X)6= 1 2

∩ {f(X) = 1} ⊂ ß

η(X)>1 2

Z est strictement positive.

3. Déduit de la preuve de (1).

4. Soitf ∈ F(X,Y).

RP(f)−RP=E[Z]

=E ï

η(X)

1{η(X)>12}+1{η(X)612}

1{f(X)=0}−1{f(X)=0}

+ (1−η(X))

1{η(X)>12}+1{η(X)612}

1{f(X)=1}−1{f(X)=1}

ò

=E ï

1{η(X)>12}

η(X)1{f(X)=0}−(1−η(X))1{f(X)=1}1{f(X)=0}

+1{η(X)612}

(1−η(X))1{f(X)=1}−η(X)1{f(X)=0}1{f(X)=1}

ò

=E ï

1{f(X)=1}|2η(X)−1| ×1{f(X)=0}+1{f(X)=0}|2η(X)−1| ×1{f(X)=1}

ò

=E ï

|2η(X)−1|1{f(X)6=f(X)}

ò

Exemple.(de règle de classification)

1. Règle de classification par partition. SoitP une partition deXdénombrable et mesurable.

On considère la règle de régression associée :

f((xi, yi)16i6n, x) = 1 NP(x)(x1,n)

n

X

=1

yi1P(x)(xi)

La règle de classification associée est :

0−1((xi, yi), x) =1{f((xˆ i,yi),x)>12}

On peut définir, comme dans le cas de la régression, la règle de classification par partition cubique.

(7)

2. Règles des k plus proches voisins. X = Rd et X = B(Rd) et d’une norme k.k. Soient (xi, yi)16i6n et x∈ X. On définit par récurrencen fonctionsi1, . . . , in: X−→ {1, . . . , n}

par :

i1(x) = min ß

i| kx−xik= min

j kx−xjk

i2(x) = min ß

i∈ {1, . . . , n}\{i1(x)} | kx−xik= min

j6={i1(x)}kx−xjk

(cela revient à définir pour un échantillon(xi, yi)la suite des indicesitels qued(xi, x)est croissante)

On définit alors :

ˆ

η((xi, yi)16i6n, x) = 1 k

k

X

j=1

yij(x)

On définit par la méthode de classification k−NN (k plus proches voisins) pour tout (xi, yi)16i6n, x:

0−1((xi, yi)16i6n, x) =1η((xi,yi),x)>12}

3. Règle plug-in. Soit ηˆune règle d’apprentissage pour le problème de régression.

On appelle règle plug-in associée àη, la règle d’apprentissage pour le problème de classifi-ˆ cation définie par :

ηˆ((xi, yi)16i6n, x) =1{η((xˆ i,yi)16i6n,x)>12} Définition 2(règle plug-in)

Soit ηˆ une règle de régression et fˆηˆ la règle de classification plug-in associée. Pour tout Dn= (xi, yi)16i6n :

RP(Dn,fˆηˆ)−RP 62E

|ˆη(X)−η(X)|

Dn Proposition 1

Preuve.

(8)

D’après la proposition pour le risque0−1 : e( ˆfnηˆ, f) =E

|2η(X)−1|1{fˆnηˆ(X)6=f(X)}| Dn

=E ï

(2η(X)−1)1{fˆn(X)=0}1{f(X)=1}

+ (1−2η(X))1{fˆn(X)=1}1{f(X)=0} |Dn ò

=E ï

2(η(X)−1

2)1ηn(X)612}1{η(X)>12}

+ 2(1

2 −η(X))1ηn(X)<12}1{η(X)612} |Dn

ò

6E ï

2(η(X)−ηˆn(X))1ηn(X)612}1{η(X)>12}

+ 2(ˆηn(X)−η(X))1ηn(X)>12}1{η(X)612} |Dn

ò

62E

|ηˆn(X)−η(X)|

Exercice 1

Soitω0−ω1>0,ω01>0. On associe le coût asymétrique :

cω(y, y0) =ωy01{y6=y0}01{y=1,y0=0}11{y=0,y0=1}

SoitY={0,1},P∈ P etc un coût asymétrique.

1. Le classifieur définit par :

fw(x) =1{η(x)>ω0 +ω1ω1}

est un classifieur de Bayes pourcω.

2. Sif est un autre classifieur de Bayes pour cω alors f(X) = η(X) p.s. sur {η(X) 6=

ω0

ω01}

3. Le risque de Bayes est :

RP=E[min(ω0η(X), ω1(1−η(X)))]

4. L’excès de risque pourf ∈ F(X,Y)est :

01)E ï

η(X)− ω1 ω10

1f(X)6=fω(X)

ò Proposition 2

Correction.

(9)

• Soitf un classifieur.

Rcω

P (f) =E[cω(Y, f(X))] =E

ω01Y=11f(X)=011Y=01f(X)=1

=E

ω0Y(1−f(X)) +ω1(1−Y)f(X)

=E ï

E

ω0Y(1−f(X)) +ω1(1−Y)f(X)|X ò

η(X) =E[Y|X]

=E

ω0η(X)(1−f(X)) +ω1(1−η(X))f(X)

>E

min(ω0η(X)(1−f(X)), ω1(1−η(X))f(X)

On a égalité sif(X) = 1 ⇔ ω1(1−η(X))6ω0η(X) ⇔ η(X)>ω0ω1 1. Donc f(x) =1η(x)>ω0 +ω1ω1

est un classifieur de Bayes.

• Excès de risque : ρ(f, f) =E

ω0η(X)(f(X)−f(X)) +ω1(1−η(X))(f(X)−f(X))

=E

1f(X)=01f(X)=10η(X)−ω1(1−η(X)))

−1f(X)=11f(X)=00η(X)−ω1(1−η(X)))

Sur f(X) = 1,ω0η(X)−ω1(1−η(X))>0, surf(X) = 0,ω0η(X)−ω1(1−η(X))60.

D’où :

ρ(f, f) = (ω01)E ï

η(X)− ω1 ω01

1f(X)6=f(X)

ò

Si f est un classifieur de Bayes, alorsρ(f, f) = 0. Donc : f(X) =f(X)surη(X)6= ω1

ω01

Références

Documents relatifs

On supposera dans ce cours qu’il existe toujours des versions régulières des lois conditionnelles.. 2

Dans ce cadre, on va chercher à prédire le prochain label Y d’une nouvelle observation X.. Moralement, on veut donc comprendre la dépendance entre X

2 Application du théorème de Stone aux algorithmes par partitions 5 3 Algorithme des k plus proches voisins (k−ppv ou k−NN) 8.. Montrons la

La VC-dimension de l’ensemble des classifieurs affines est donc 3.. Soit d la VC-dimension

Alors il existe une boule de taille ε qui contient deux points du packing optimal. Donc ces deux points sont à une distance de plus

[r]

Dorénavant on suppose que l’on a une famille convexe de classifieurs

[r]