Apprentissage statistique
Chapitre 8 : Convexification du problème binaire
Lucie Le Briquer 13 mars 2018
ERM :
minf∈F
"
1 n
n
X
i=1
1f(xi)6=yi
#
= ˆRn(f)
• F peut être finie de très grand cardinalité
• nfinie peut être grand Rˆn(f)est à valeurs discrètes.
Pour pouvoir résoudre un problème, on cherche à le convexifier. On peut convexifier la perte et/ou convexifier l’ensembleF.
1ère étape (convexification deF)
Si f ∈ F:X −→ {0,1}, on les symétrise enf˜= 2f −1 à valeurs dans{−1,1}. Donc on peut supposerf ∈ F:X −→ {−1,1}. Sif est à valeurs dans{−1,1},
1f(X)6=Y ⇔ 1f(X)Y <0
On va considérer non plus des classifieursX −→ {−1,1}, mais des classifieurs ditsoft à valeurs dansR(ou[−1,1]). À chaque classifieur softf:X −→R, on associe un classifeurbinaire sgn(f)∈ {−1,1}.
Exemples.
• linéaire : fa(x) =aTxpour a∈ A ⊂Rd
• majoritaire :
fλ(x) =
M
X
i=1
λifi(x) pour(f1, . . . , fM)fixé etλ∈ Sn−1
• base :
fθ(x) = (
X
i∈N
θifi(x), θi∈RNet (f1, . . . , fi, . . .)fixés )
Dorénavant on suppose que l’on a une famille convexe de classifieurs soft.
1
2ème étape (convexifier la perte) Le problème :
f∈Fminsoft 1 n
n
X
i=1
1f(Xi)Yi<0
n’est pas convexe. On va donc rempacler1−Z>0 par une fonction convexe.
ϕest une fonction surrogate si :
• ϕest convexe
• ϕest croissante
• ϕ(0) = 1,ϕ>0
Définition 1(fonctionsurrogate)
Exemples.
• Hinge :max(0, x+ 1)
Hinge
• exp:exp(ηx)
• log-it :log2(1 +eηx)
Au lieu de minimiser le risque empirique, on considère leϕ−risque empirique :
Rˆϕ(f) = 1 n
n
X
i=1
ϕ(−f(Xi)Yi)
et leϕ−risqueRϕ(f) =E[ϕ(−f(X)Y)]. On note :
fϕ∗ = argmin
f:X −→R
Rϕ(f) et fˆϕ=argmin
f∈F
Rˆϕ(f)
Siϕest différentiable, alors sgn(fϕ∗) =f∗. Théorème 1
Preuve.
f∗(x) = 1 ⇔ η(x)> 1 2
fϕ∗ est la fonction qui minimiseE[ϕ(−f(X)Y)]. On raisonne poit par point et : fϕ∗(x) =argmin
α∈R
η(x)ϕ(−α) + (1−η(x))ϕ(α)
2
NotonsHη(α) =ηϕ(−α) + (1−η)ϕ(α)alors argminHη(α)est obtenu par :
−ηϕ0(−α) + (1−η)ϕ0(α) = 0 ⇔ η
1−η = ϕ0(α) ϕ0(−α)
D’où,
η>1
2 ⇔ η
1−η >1 ⇔ ϕ0(α)>ϕ0(−α) ⇔
convexité α>−α ⇔ α>0 Don’η(x)>12 ⇔ fϕ∗(x)>0 ou encore,f∗(x) = 1 ⇔ sgn(fϕ∗(x)) = 1.
Pour toutη >0, on noteτ(η) = minα∈RHη(α), supposons qu’il existe c >0 et γ <1 tels que :
η−1 2
6c(1−τ(η))γ pour toutη∈[0,1], alors,
R(sgn(f))− R(f∗)62c(Rϕ(f)− R∗ϕ)γ Lemme 1(de Zhang)
Preuve.
R(sgn(f))− R(f∗) =E ï
2
η(X)−1 2
1sgn(f)f∗<0
ò
hyp6 2cE
(1−τ(η(x)))γ1sgn(f)f∗<0
Jensen6 2cE
1−τ(η(x))1sgn(f)f∗<0
γ
Le résultat vient du fait que :
Rϕ(f)− R∗ϕ>E
(1−τ(η(x)))1sgn(f)f∗<0
En effetf∗ a le même signe quefϕ∗ et sgn(f)a le même signe quef. Donc :
E
(1−τ(η(x)))1sgn(f)f∗<0
=E
î(1−τ(η(x)))1f(X)fϕ∗(X)<0
ó
Rϕ(f) =E[ϕ(−f(X)Y)] =E[Hη(X)(f(X))]etR∗ϕ=E[minαHη(X)(α)]. Donc il suffit de montrer que∀x∈X,
Hη(x)(f(x))>(1−τ(η(x)))1f(x)fϕ∗(x)<0+ min
α Hη(x)(α)
Si1f(x)fϕ∗(x)<0= 0alors c’est bon. Sinon, supposons quef(x)fϕ∗(x)<0. On veut donc montrer : Hη(x)(f(x))>(1−τ(η(x))) +τ(η(x)) = 1
Mais
Hη(x)(f(x)) =η(x)ϕ(−f(x)) + (1−η(x))ϕ(f(x))
>ϕ −η(x)f(x) + (1−η(x))f(x)
=ϕ (1−2η(x))f(x)
3
Commefϕ∗ a le même signe quef∗etf∗ a le même signe que2η(x)−1. Commef(x)fϕ∗(x)<0, sgn(fϕ∗(x)) =−sgn(f∗) =−sgn(2η(x)−1) =sgn(1−2η(x)). Alors(1−2η(x))f(x)>0 et donc commeϕest croissante et que ϕ(0) = 1, on a bienHη(x)(f(x))>1.
Remarque.
• Si ϕest Hinge, c= 12 etγ= 1
• Si ϕest exp,c= √1
2 etγ=12
• Si ϕest log-it,c=√1
2 etγ= 12
4