Apprentissage statistique
Chapitre 3 : Problème de régression et de classification
Lucie Le Briquer 19 février 2018
Table des matières
1 Régression, Y=R 2
2 Règle d’apprentissage en régression 3
2.1 Règle d’apprentissage par partition pour la régression . . . 3 2.2 Classification supervisée . . . 4
1 Régression, Y = R
Comme dit au chapitre précédent, on est plutôt intéressés par la condition deY|X, mais cela est trop compliqué à apprendre en général.
SoitP un noyau de Markov, régulier, associé à la loi conditionnelle deY|X.
On appelle fonction de régression associée àP : η(x) =
Z
Y
yP(x, dy) Définition 1(fonction de régression)
Remarque.On a que η(X) =E[Y|X] P−p.s.
En régression, le coût le plus fréquemment utilisé est le coût quadratique/des moindres carrés : (y, y0)7−→(y−y0)2
Remarque.Si on noteε=Y −η(X),Y =η(X) +ε(εcorrespond au bruit), on aE[ε] = 0par définition deη.
Cadre des statistiques non-paramétriques.
P∈ P={P˜ |E˜[Y2]<+∞}.
1. La fonction de régression est un prédicteur de Bayes pourPet le coût quadratique.
2. Soitf un autre prédicteur de Bayes,f =η PX−p.s.
3. Le risque de Bayes est :
E[(Y −η(X))2] 4. L’excès de risque d’un prédicteurf est donné par :
e(f∗, f) =E[(f(X)−η(X))2] Propriété 1
Preuve.
1. Soitf ∈ F(X,Y).
RP(f) =E[(Y −f(X))2]
=E[(Y ±η(X)−f(X))2]
=E[(Y −η(X))2] +E[(η(X)−f(X))2] + 2E[(Y −η(X))(η(X)−f(X))
| {z }
∈L2(Ω,σ(X),P)
]
Or par définition de l’espérance conditionnelle dansL2, η(X) =proj⊥L2(Ω,σ(X),P)(Y)
Ainsi,
RP(f) =E[(Y −η(X))2] +E[(η(X)−f(X))2]>
∗ E[(Y −η(X))2] =RP(η) Comme c’est valable∀f ∈ F(X,Y), on obtientR∗
P =RP(η), etηest un classifieur de Bayes.
2. Si f est aussi un prédicteur de Bayes, alors tous les calculs pour (∗) sont des égalités et donc :
E[(f(X)−η(X))2] = 0 3. L’inégalité (∗)implique le résultat.
4. Trivial.
Autres fonctions de coût : 1. Coût seuillé :
c(y, y0) =1{|y−y0|>α} avecα >0 2. Coût quadratique seuillé :
c(y, y0) = min(|y−y0|2, α2) 3. Coût de Huber :
ψ(u) =
ß u2 siu6α 2αu−α2 siu>α 4. Coût Lp :ψ(u) =|u|p
5.
c(y, y0) =1]−∞,−α](y−y0)
⇒c= 1siy−y0−α⇒y+α6y0
On observe que les fonctions de coût considérées sont de la formec(y, y0) =ψ(|y−y0|)avecψ↑ etψ(0) = 0.
Remarque.Pour le coût de Huber et celuiL1, les valeurs aberrantes dans l’ensemble d’appren- tissage ont beaucoup moins d’influence sur le risque (donc sur les règles d’apprentissage à partir d’ERM=minimisation de risque empirique).
2 Règle d’apprentissage en régression
2.1 Règle d’apprentissage par partition pour la régression
Y=R. On suppose que l’on dispose d’une partitionP deXqui est de cardinal dénombrable et constitué de sous-ensembles deXmesurables.
Pour tout x∈ X, on note P(x)l’unique élément de la partition qui contient x, appelé cellule associée àx, et∀A⊂Xon note :
NA(x1...n) =Card{xi : xi∈A}
(x1, . . . xn)∈X.
La règle de régression par partition associée àP est : fˆ (xi, yi)16i6n, x
=
® 1
NP(x)(x1...n)
Pn
i=1yi1P(x)(xi) siNP(x)(x1...n)6= 0
0 sinon
pour(xi, yi)16i6n∈(X×Y)n et x∈X. Exemple.(de règle par partition)
Considérons la partition cubique associée à un pash >0 :
P = ( d
Y
i=1
[hki, h(ki+ 1)[|(k1, . . . , kd)∈Rd )
dans le casX=Rd. SiX⊂Rd :
P = (
X∩
d
Y
i=1
[hki, h(ki+ 1)[| (k1, . . . , kd)∈Rd )
Remarque.On peut considérer et on étudiera des partitions variant avec le nombre d’observa- tions. Par exemple dans le cas de la régression par partition cubique, on va prendre une suite de pashn−−−−−→
n→+∞ 0.
2.2 Classification supervisée
Y={0,1}
Remarque.(sur la classification multiclasse)
Y={1, . . . , M}
• i∈Y, la première stratégie est de considérer la décomposition binaire de i, cela construit un arbre binaire. et ensuite on effectue une suite de classification binaire.
→problème d’accumulation de l’erreur d’apprentissage
• On considère M problèmes binaires Y = i v.s. Y 6= i auxquels on associe un pseudo- classifieur i.e. des fonctionsfi:X−→R. Pour la prédiction on utilise alors pourx∈X:
Y =argmaxi{fi(x)}
Pour simplifier les calculs, on considère dès fois Y = {±1} (on a une bijection classique entre les deux :x7→2x−1).
oLes résultats théoriques dépendent de la convention choisie.
Dans le cas de la classification binaire on choisit le coût0−1ou de Hamming : c(y, y0) =1∆Y(y, y0) =1{y6=y0}
SoitY={0,1},P∈ P, etc le coût0−1.
1. Le classifieurf∗ défini pour toutx∈Xpar : f∗(x) =1{η(x)>12}
est un classifieur de Bayes pourcet P.
2. Sif est un autre classifieur de Bayes pourc etP, alors : f(x) =f∗(x)pour x /∈
ß
η(x) =1 2
™
3. Le risque de Bayes est :
R∗P=E[min(η(X),1−η(X))]
4. L’excés de risque pourf ∈ F(X,Y)est : e(f, f∗) =E
|2η(X)−1|1{f(X)6=f∗(X)}
Propriété 2
Preuve.
1. Soitf ∈ F(X,Y).
R0−1
P (f) =E[1{f(X)6=Y}]
=E
1{f(X)=1}1{Y=1}+1{f(X)=1}1{Y=0}
=E ï
E
1{f(X)=1}1{Y=1}+1{f(X)=1}1{Y=0} |X ò
=E ï
1{f(X)=1}E
1{Y=1} |X
+1{f(X)=1}E
1{Y=0} |X ò
Or,
E[1{Y=1} |X] =P(Y = 1|X) =E[Y|X] =η(X) Ainsi,
RP(f) =E ï
η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}
ò
>E[min(η(X),1−η(X))] (∗)
Remarque. ∀x, η(x)61−η(x) ⇔ η(x)61−η(x) ⇔ η(x)612
Conclusion la borne est atteinte pourf =f∗.
2. Soitf un classifieur de Bayes.(∗)devient une égalité, alors : E
η(X)1{f(X)=0}+ (1−η(X))1{f(X)=1}
=E[min(η(X),1−η(X))]
=E[η(X)1{f∗(X)=0}+ (1−η(X))1{f∗(X)=1}]
Alors,
E ï
η(X)
1{f(X)=0}−1{f∗(X)=0}
+ (1−η(X))
1{f(X)=1}−1{f∗(X)=1}
ò
=E[Z] = 0
La variable aléatoire Z est positive car le raisonnement précédent est valable à X fixé déterministe. Ainsi Z= 0P−p.s.
⇒1{f(X)=0}=1{f∗(X)=0} siη(X)6= 12
En effet, supposons que 1{f(X)=0} 6=1{f∗(X)=0}. Considérons l’évènement {f(X) = 0} ∩ {f∗(X) = 1}.Z=η(X)−(1−η(X)) = 2η(X)−1. Mais sur
ß
η(X)6= 1 2
™
∩ {f∗(X) = 1} ⊂ ß
η(X)>1 2
™
Z est strictement positive.
3. Déduit de la preuve de (1).
4. Soitf ∈ F(X,Y).
RP(f)−R∗P=E[Z]
=E ï
η(X)
1{η(X)>12}+1{η(X)612}
1{f(X)=0}−1{f∗(X)=0}
+ (1−η(X))
1{η(X)>12}+1{η(X)612}
1{f(X)=1}−1{f∗(X)=1}
ò
=E ï
1{η(X)>12}
η(X)1{f(X)=0}−(1−η(X))1{f∗(X)=1}1{f(X)=0}
+1{η(X)612}
(1−η(X))1{f(X)=1}−η(X)1{f∗(X)=0}1{f(X)=1}
ò
=E ï
1{f∗(X)=1}|2η(X)−1| ×1{f(X)=0}+1{f∗(X)=0}|2η(X)−1| ×1{f∗(X)=1}
ò
=E ï
|2η(X)−1|1{f(X)6=f∗(X)}
ò
Exemple.(de règle de classification)
1. Règle de classification par partition. SoitP une partition deXdénombrable et mesurable.
On considère la règle de régression associée :
f((xi, yi)16i6n, x) = 1 NP(x)(x1,n)
n
X
=1
yi1P(x)(xi)
La règle de classification associée est :
fˆ0−1((xi, yi), x) =1{f((xˆ i,yi),x)>12}
On peut définir, comme dans le cas de la régression, la règle de classification par partition cubique.
2. Règles des k plus proches voisins. X = Rd et X = B(Rd) et d’une norme k.k. Soient (xi, yi)16i6n et x∈ X. On définit par récurrencen fonctionsi1, . . . , in: X−→ {1, . . . , n}
par :
i1(x) = min ß
i| kx−xik= min
j kx−xjk
™
i2(x) = min ß
i∈ {1, . . . , n}\{i1(x)} | kx−xik= min
j6={i1(x)}kx−xjk
™
(cela revient à définir pour un échantillon(xi, yi)la suite des indicesitels qued(xi, x)est croissante)
On définit alors :
ˆ
η((xi, yi)16i6n, x) = 1 k
k
X
j=1
yij(x)
On définit par la méthode de classification k−NN (k plus proches voisins) pour tout (xi, yi)16i6n, x:
fˆ0−1((xi, yi)16i6n, x) =1{ˆη((xi,yi),x)>12}
3. Règle plug-in. Soit ηˆune règle d’apprentissage pour le problème de régression.
On appelle règle plug-in associée àη, la règle d’apprentissage pour le problème de classifi-ˆ cation définie par :
fˆηˆ((xi, yi)16i6n, x) =1{η((xˆ i,yi)16i6n,x)>12} Définition 2(règle plug-in)
Soit ηˆ une règle de régression et fˆηˆ la règle de classification plug-in associée. Pour tout Dn= (xi, yi)16i6n :
RP(Dn,fˆηˆ)−R∗P 62E
|ˆη(X)−η(X)|
Dn Proposition 1
Preuve.
D’après la proposition pour le risque0−1 : e( ˆfnηˆ, f∗) =E
|2η(X)−1|1{fˆnηˆ(X)6=f∗(X)}| Dn
=E ï
(2η(X)−1)1{fˆn(X)=0}1{f∗(X)=1}
+ (1−2η(X))1{fˆn(X)=1}1{f∗(X)=0} |Dn ò
=E ï
2(η(X)−1
2)1{ˆηn(X)612}1{η(X)>12}
+ 2(1
2 −η(X))1{ˆηn(X)<12}1{η(X)612} |Dn
ò
6E ï
2(η(X)−ηˆn(X))1{ˆηn(X)612}1{η(X)>12}
+ 2(ˆηn(X)−η(X))1{ˆηn(X)>12}1{η(X)612} |Dn
ò
62E
|ηˆn(X)−η(X)|
Exercice 1
Soitω0−ω1>0,ω0+ω1>0. On associe le coût asymétrique :
cω(y, y0) =ωy01{y6=y0}=ω01{y=1,y0=0}+ω11{y=0,y0=1}
SoitY={0,1},P∈ P etc un coût asymétrique.
1. Le classifieur définit par :
fw∗(x) =1{η(x)>ω0 +ω1ω1}
est un classifieur de Bayes pourcω.
2. Sif est un autre classifieur de Bayes pour cω alors f(X) = η(X) p.s. sur {η(X) 6=
ω0
ω0+ω1}
3. Le risque de Bayes est :
R∗P=E[min(ω0η(X), ω1(1−η(X)))]
4. L’excès de risque pourf ∈ F(X,Y)est :
(ω0+ω1)E ï
η(X)− ω1 ω1+ω0
1f(X)6=fω∗(X)
ò Proposition 2
Correction.
• Soitf un classifieur.
Rcω
P (f) =E[cω(Y, f(X))] =E
ω01Y=11f(X)=0+ω11Y=01f(X)=1
=E
ω0Y(1−f(X)) +ω1(1−Y)f(X)
=E ï
E
ω0Y(1−f(X)) +ω1(1−Y)f(X)|X ò
η(X) =E[Y|X]
=E
ω0η(X)(1−f(X)) +ω1(1−η(X))f(X)
>E
min(ω0η(X)(1−f(X)), ω1(1−η(X))f(X)
On a égalité sif(X) = 1 ⇔ ω1(1−η(X))6ω0η(X) ⇔ η(X)>ω0ω+ω1 1. Donc f(x) =1η(x)>ω0 +ω1ω1
est un classifieur de Bayes.
• Excès de risque : ρ(f, f∗) =E
ω0η(X)(f∗(X)−f(X)) +ω1(1−η(X))(f(X)−f∗(X))
=E
1f(X)=01f∗(X)=1(ω0η(X)−ω1(1−η(X)))
−1f(X)=11f∗(X)=0(ω0η(X)−ω1(1−η(X)))
Sur f∗(X) = 1,ω0η(X)−ω1(1−η(X))>0, surf∗(X) = 0,ω0η(X)−ω1(1−η(X))60.
D’où :
ρ(f, f∗) = (ω0+ω1)E ï
η(X)− ω1 ω0+ω1
1f(X)6=f∗(X)
ò
Si f est un classifieur de Bayes, alorsρ(f, f∗) = 0. Donc : f(X) =f∗(X)surη(X)6= ω1
ω0+ω1