Apprentissage statistique Chapitre 3 : Problème de régression et de classiﬁcation

(1)

Apprentissage statistique

Chapitre 3 : Problème de régression et de classification

Lucie Le Briquer 19 février 2018

Table des matières

1 Régression, Y=R 2

2 Règle d’apprentissage en régression 3

2.1 Règle d’apprentissage par partition pour la régression . . . 3 2.2 Classification supervisée . . . 4

(2)

1 Régression, Y = R

Comme dit au chapitre précédent, on est plutôt intéressés par la condition deY|X, mais cela est trop compliqué à apprendre en général.

SoitP un noyau de Markov, régulier, associé à la loi conditionnelle deY|X.

On appelle fonction de régression associée àP : η(x) =

Z

Y

yP(x, dy) Définition 1(fonction de régression)

Remarque.On a que η(X) =E[Y|X] P−p.s.

En régression, le coût le plus fréquemment utilisé est le coût quadratique/des moindres carrés : (y, y⁰)7−→(y−y⁰)²

Remarque.Si on noteε=Y −η(X),Y =η(X) +ε(εcorrespond au bruit), on aE[ε] = 0par définition deη.

Cadre des statistiques non-paramétriques.

P∈ P={P˜ |E˜[Y²]<+∞}.

1. La fonction de régression est un prédicteur de Bayes pourPet le coût quadratique.

2. Soitf un autre prédicteur de Bayes,f =η P^X−p.s.

3. Le risque de Bayes est :

E[(Y −η(X))²] 4. L’excès de risque d’un prédicteurf est donné par :

e(f^∗, f) =E[(f(X)−η(X))²] Propriété 1

Preuve.

1. Soitf ∈ F(X,Y).

R_P(f) =E[(Y −f(X))²]

=E[(Y ±η(X)−f(X))²]

=E[(Y −η(X))²] +E[(η(X)−f(X))²] + 2E[(Y −η(X))(η(X)−f(X))

| {z }

∈L²(Ω,σ(X),P)

]

Or par définition de l’espérance conditionnelle dansL², η(X) =proj^⊥_L2(Ω,σ(X),P)(Y)

(3)

Ainsi,

R_P(f) =E[(Y −η(X))²] +E[(η(X)−f(X))²]>

∗ E[(Y −η(X))²] =R_P(η) Comme c’est valable∀f ∈ F(X,Y), on obtientR^∗

P =R_P(η), etηest un classifieur de Bayes.

2. Si f est aussi un prédicteur de Bayes, alors tous les calculs pour (∗) sont des égalités et donc :

E[(f(X)−η(X))²] = 0 3. L’inégalité (∗)implique le résultat.

4. Trivial.

Autres fonctions de coût : 1. Coût seuillé :

c(y, y⁰) =1{|y−y⁰|>α} avecα >0 2. Coût quadratique seuillé :

c(y, y⁰) = min(|y−y⁰|², α²) 3. Coût de Huber :

ψ(u) =

ß u² siu6α 2αu−α² siu>α 4. Coût L^p :ψ(u) =|u|^p

5.

c(y, y⁰) =1]−∞,−α](y−y⁰)

⇒c= 1siy−y⁰−α⇒y+α6y⁰

On observe que les fonctions de coût considérées sont de la formec(y, y⁰) =ψ(|y−y⁰|)avecψ↑ etψ(0) = 0.

Remarque.Pour le coût de Huber et celuiL¹, les valeurs aberrantes dans l’ensemble d’apprentissage ont beaucoup moins d’influence sur le risque (donc sur les règles d’apprentissage à partir d’ERM=minimisation de risque empirique).

2 Règle d’apprentissage en régression

2.1 Règle d’apprentissage par partition pour la régression

Y=R. On suppose que l’on dispose d’une partitionP deXqui est de cardinal dénombrable et constitué de sous-ensembles deXmesurables.

Pour tout x∈ X, on note P(x)l’unique élément de la partition qui contient x, appelé cellule associée àx, et∀A⊂Xon note :

N_A(x_1...n) =Card{x_i : x_i∈A}

(x₁, . . . x_n)∈X.

(4)

La règle de régression par partition associée àP est : fˆ (x_i, y_i)₁₆_i₆_n, x

=

® ₁

N_P(x)(x1...n)

Pn

i=1y_i1P(x)(x_i) siN_P_(x)(x_1...n)6= 0

0 sinon

pour(x_i, y_i)₁₆_i₆_n∈(X×Y)ⁿ et x∈X. Exemple.(de règle par partition)

Considérons la partition cubique associée à un pash >0 :

P = ( _d

Y

i=1

[hk_i, h(k_i+ 1)[|(k₁, . . . , k_d)∈R^d )

dans le casX=R^d. SiX⊂R^d :

P = (

X∩

d

Y

i=1

[hki, h(ki+ 1)[| (k1, . . . , kd)∈R^d )

Remarque.On peut considérer et on étudiera des partitions variant avec le nombre d’observa- tions. Par exemple dans le cas de la régression par partition cubique, on va prendre une suite de pashn−−−−−→

n→+∞ 0.

2.2 Classification supervisée

Y={0,1}

Remarque.(sur la classification multiclasse)

Y={1, . . . , M}

• i∈Y, la première stratégie est de considérer la décomposition binaire de i, cela construit un arbre binaire. et ensuite on effectue une suite de classification binaire.

→problème d’accumulation de l’erreur d’apprentissage

• On considère M problèmes binaires Y = i v.s. Y 6= i auxquels on associe un pseudo- classifieur i.e. des fonctionsfi:X−→R. Pour la prédiction on utilise alors pourx∈X:

Y =argmax_i{fi(x)}

Pour simplifier les calculs, on considère dès fois Y = {±1} (on a une bijection classique entre les deux :x7→2x−1).

oLes résultats théoriques dépendent de la convention choisie.

Dans le cas de la classification binaire on choisit le coût0−1ou de Hamming : c(y, y⁰) =1∆_Y(y, y⁰) =1{y6=y⁰}

(5)

SoitY={0,1},P∈ P, etc le coût0−1.

1. Le classifieurf^∗ défini pour toutx∈Xpar : f^∗(x) =1{η(x)>¹₂}

est un classifieur de Bayes pourcet P.

2. Sif est un autre classifieur de Bayes pourc etP, alors : f(x) =f^∗(x)pour x /∈

ß

η(x) =1 2

™

R^∗_P=E[min(η(X),1−η(X))]

4. L’excés de risque pourf ∈ F(X,Y)est : e(f, f^∗) =E

|2η(X)−1|1{f(X)6=f^∗(X)}

Propriété 2

Preuve.

R⁰⁻¹

P (f) =E[1{f(X)6=Y}]

=E

1{f(X)=1}1{Y=1}+1{f(X)=1}1{Y=0}

=E ï

E

1{f(X)=1}1{Y=1}+1{f(X)=1}1{Y=0} |X ò

=E ï

1{f(X)=1}E

1{Y=1} |X

+1{f(X)=1}E

1{Y=0} |X ò

Or,

E[1{Y=1} |X] =P(Y = 1|X) =E[Y|X] =η(X) Ainsi,

R_P(f) =E ï

η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}

ò

>E[min(η(X),1−η(X))] (∗)

Remarque. ∀x, η(x)61−η(x) ⇔ η(x)61−η(x) ⇔ η(x)6¹2

Conclusion la borne est atteinte pourf =f^∗.

2. Soitf un classifieur de Bayes.(∗)devient une égalité, alors : E

η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}

=E[min(η(X),1−η(X))]

=E[η(X)1{f^∗(X)=0}+ (1−η(X))1{f^∗(X)=1}]

(6)

Alors,

E ï

η(X)

1{f(X)=0}−1{f^∗(X)=0}

+ (1−η(X))

1{f(X)=1}−1{f^∗(X)=1}

ò

=E[Z] = 0

La variable aléatoire Z est positive car le raisonnement précédent est valable à X fixé déterministe. Ainsi Z= 0P−p.s.

⇒1{f(X)=0}=1{f^∗(X)=0} siη(X)6= ¹₂

En effet, supposons que 1{f(X)=0} 6=1{f^∗(X)=0}. Considérons l’évènement {f(X) = 0} ∩ {f^∗(X) = 1}.Z=η(X)−(1−η(X)) = 2η(X)−1. Mais sur

ß

η(X)6= 1 2

™

∩ {f^∗(X) = 1} ⊂ ß

η(X)>1 2

™

Z est strictement positive.

3. Déduit de la preuve de (1).

R_P(f)−R^∗_P=E[Z]

=E ï

η(X)

1{η(X)>¹₂}+1{η(X)6¹2}

1{f(X)=0}−1{f^∗(X)=0}

+ (1−η(X))

1{η(X)>¹₂}+1{η(X)6¹2}

1{f(X)=1}−1{f^∗(X)=1}

ò

=E ï

1{η(X)>¹₂}

η(X)1{f(X)=0}−(1−η(X))1{f^∗(X)=1}1{f(X)=0}

+1{η(X)6¹₂}

(1−η(X))1{f(X)=1}−η(X)1{f^∗(X)=0}1{f(X)=1}

ò

=E ï

1{f^∗(X)=1}|2η(X)−1| ×1{f(X)=0}+1{f^∗(X)=0}|2η(X)−1| ×1{f^∗(X)=1}

ò

=E ï

|2η(X)−1|1{f(X)6=f^∗(X)}

ò

Exemple.(de règle de classification)

1. Règle de classification par partition. SoitP une partition deXdénombrable et mesurable.

On considère la règle de régression associée :

f((x_i, y_i)₁₆_i₆_n, x) = 1 NP(x)(x1,n)

n

X

=1

y_i1P(x)(x_i)

La règle de classification associée est :

fˆ⁰⁻¹((xi, yi), x) =1{f((xˆ i,yi),x)>¹₂}

On peut définir, comme dans le cas de la régression, la règle de classification par partition cubique.

(7)

2. Règles des k plus proches voisins. X = R^d et X = B(R^d) et d’une norme k.k. Soient (xi, yi)16i6n et x∈ X. On définit par récurrencen fonctionsi1, . . . , in: X−→ {1, . . . , n}

par :

i1(x) = min ß

i| kx−xik= min

j kx−xjk

™

i₂(x) = min ß

i∈ {1, . . . , n}\{i1(x)} | kx−x_ik= min

j6={i1(x)}kx−x_jk

™

(cela revient à définir pour un échantillon(x_i, y_i)la suite des indicesitels qued(x_i, x)est croissante)

On définit alors :

ˆ

η((xi, yi)16i6n, x) = 1 k

k

X

j=1

yi_j(x)

On définit par la méthode de classification k−NN (k plus proches voisins) pour tout (x_i, y_i)₁₆_i₆_n, x:

fˆ⁰⁻¹((x_i, y_i)₁₆_i₆_n, x) =1{ˆη((x_i,y_i),x)>¹₂}

3. Règle plug-in. Soit ηˆune règle d’apprentissage pour le problème de régression.

On appelle règle plug-in associée àη, la règle d’apprentissage pour le problème de classifi-ˆ cation définie par :

fˆ^η^ˆ((xi, yi)16i6n, x) =1{^η((x^ˆ i,yi)16i6n,x)>¹₂} Définition 2(règle plug-in)

Soit ηˆ une règle de régression et fˆ^η^ˆ la règle de classification plug-in associée. Pour tout D_n= (x_i, y_i)₁₆_i₆_n :

R_P(D_n,fˆ^η^ˆ)−R^∗_P 62E

|ˆη(X)−η(X)|

D_n Proposition 1

Preuve.

(8)

D’après la proposition pour le risque0−1 : e( ˆf_n^η^ˆ, f^∗) =E

|2η(X)−1|1_{f^ˆ_n^η^ˆ(X)6=f^∗(X)}| Dn

=E ï

(2η(X)−1)1_{fˆ_n(X)=0}1{f^∗(X)=1}

+ (1−2η(X))1_{f^ˆ_n(X)=1}1{f^∗(X)=0} |D_n ò

=E ï

2(η(X)−1

2)1{ˆηn(X)6¹₂}1{η(X)>¹₂}

+ 2(1

2 −η(X))1{ˆηn(X)<¹₂}1{η(X)6¹2} |Dn

ò

6E ï

2(η(X)−ηˆn(X))1{ˆηn(X)6¹2}1{η(X)>¹₂}

+ 2(ˆηn(X)−η(X))1{ˆη_n(X)>¹₂}1{η(X)6¹₂} |Dn

ò

62E

|ηˆ_n(X)−η(X)|

Exercice 1

Soitω0−ω1>0,ω0+ω1>0. On associe le coût asymétrique :

cω(y, y⁰) =ωy⁰1{y6=y⁰}=ω01{y=1,y⁰=0}+ω11{y=0,y⁰=1}

SoitY={0,1},P∈ P etc un coût asymétrique.

1. Le classifieur définit par :

f_w^∗(x) =1{η(x)>ω0 +^ω¹ω1}

est un classifieur de Bayes pourcω.

2. Sif est un autre classifieur de Bayes pour cω alors f(X) = η(X) p.s. sur {η(X) 6=

ω0

ω₀+ω₁}

R^∗_P=E[min(ω0η(X), ω1(1−η(X)))]

4. L’excès de risque pourf ∈ F(X,Y)est :

(ω₀+ω₁)E ï

η(X)− ω₁ ω1+ω0

1f(X)6=f_ω^∗(X)

ò Proposition 2

Correction.

(9)

• Soitf un classifieur.

R^c^ω

P (f) =E[cω(Y, f(X))] =E

ω01^Y⁼¹1f(X)=0+ω11^Y⁼⁰1f(X)=1

=E

ω0Y(1−f(X)) +ω1(1−Y)f(X)

=E ï

E

ω0Y(1−f(X)) +ω1(1−Y)f(X)|X ò

η(X) =E[Y|X]

=E

ω0η(X)(1−f(X)) +ω1(1−η(X))f(X)

>E

min(ω0η(X)(1−f(X)), ω1(1−η(X))f(X)

On a égalité sif(X) = 1 ⇔ ω1(1−η(X))6ω0η(X) ⇔ η(X)>ω₀^ω+ω¹ ₁. Donc f(x) =1η(x)>ω0 +^ω¹ω1

est un classifieur de Bayes.

• Excès de risque : ρ(f, f^∗) =E

ω0η(X)(f^∗(X)−f(X)) +ω1(1−η(X))(f(X)−f^∗(X))

=E

1f(X)=01f^∗(X)=1(ω0η(X)−ω1(1−η(X)))

−1f(X)=11f^∗(X)=0(ω0η(X)−ω1(1−η(X)))

Sur f^∗(X) = 1,ω0η(X)−ω1(1−η(X))>0, surf^∗(X) = 0,ω0η(X)−ω1(1−η(X))60.

D’où :

ρ(f, f^∗) = (ω₀+ω₁)E ï

η(X)− ω₁ ω0+ω1

1f(X)6=f^∗(X)

ò

Si f est un classifieur de Bayes, alorsρ(f, f^∗) = 0. Donc : f(X) =f^∗(X)surη(X)6= ω₁

ω0+ω1