Apprentissage statistique

(1)

Apprentissage statistique

Chapitre 8 : Convexification du problème binaire

Lucie Le Briquer 13 mars 2018

ERM :

minf∈F

"

1 n

n

X

i=1

1f(xi)6=yi

#

= ˆRn(f)

• F peut être finie de très grand cardinalité

• nfinie peut être grand Rˆn(f)est à valeurs discrètes.

Pour pouvoir résoudre un problème, on cherche à le convexifier. On peut convexifier la perte et/ou convexifier l’ensembleF.

1ère étape (convexification deF)

Si f ∈ F:X −→ {0,1}, on les symétrise enf˜= 2f −1 à valeurs dans{−1,1}. Donc on peut supposerf ∈ F:X −→ {−1,1}. Sif est à valeurs dans{−1,1},

1f(X)6=Y ⇔ 1f(X)Y <0

On va considérer non plus des classifieursX −→ {−1,1}, mais des classifieurs ditsoft à valeurs dansR(ou[−1,1]). À chaque classifieur softf:X −→R, on associe un classifeurbinaire sgn(f)∈ {−1,1}.

Exemples.

• linéaire : f_a(x) =a^Txpour a∈ A ⊂R^d

• majoritaire :

fλ(x) =

M

X

i=1

λifi(x) pour(f1, . . . , fM)fixé etλ∈ Sⁿ⁻¹

• base :

f_θ(x) = (

X

i∈N

θ_if_i(x), θ_i∈R^Net (f₁, . . . , f_i, . . .)fixés )

Dorénavant on suppose que l’on a une famille convexe de classifieurs soft.

1

(2)

2ème étape (convexifier la perte) Le problème :

f∈Fmin_soft 1 n

n

X

i=1

1f(Xi)Yi<0

n’est pas convexe. On va donc rempacler1^−Z>0 par une fonction convexe.

ϕest une fonction surrogate si :

• ϕest convexe

• ϕest croissante

• ϕ(0) = 1,ϕ>0

Définition 1(fonctionsurrogate)

Exemples.

• Hinge :max(0, x+ 1)

Hinge

• exp:exp(ηx)

• log-it :log₂(1 +e^ηx)

Au lieu de minimiser le risque empirique, on considère leϕ−risque empirique :

Rˆϕ(f) = 1 n

n

X

i=1

ϕ(−f(Xi)Yi)

et leϕ−risqueRϕ(f) =E[ϕ(−f(X)Y)]. On note :

f_ϕ^∗ = argmin

f:X −→R

R_ϕ(f) et fˆ_ϕ=argmin

f∈F

Rˆ_ϕ(f)

Siϕest différentiable, alors sgn(f_ϕ^∗) =f^∗. Théorème 1

Preuve.

f^∗(x) = 1 ⇔ η(x)> 1 2

f_ϕ^∗ est la fonction qui minimiseE[ϕ(−f(X)Y)]. On raisonne poit par point et : f_ϕ^∗(x) =argmin

α∈R

η(x)ϕ(−α) + (1−η(x))ϕ(α)

2

(3)

NotonsHη(α) =ηϕ(−α) + (1−η)ϕ(α)alors argminHη(α)est obtenu par :

−ηϕ⁰(−α) + (1−η)ϕ⁰(α) = 0 ⇔ η

1−η = ϕ⁰(α) ϕ⁰(−α)

D’où,

η>1

2 ⇔ η

1−η >1 ⇔ ϕ⁰(α)>ϕ⁰(−α) ⇔

convexité α>−α ⇔ α>0 Don’η(x)>¹₂ ⇔ f_ϕ^∗(x)>0 ou encore,f^∗(x) = 1 ⇔ sgn(f_ϕ^∗(x)) = 1.

Pour toutη >0, on noteτ(η) = min_α∈_RHη(α), supposons qu’il existe c >0 et γ <1 tels que :

η−1 2

6c(1−τ(η))^γ pour toutη∈[0,1], alors,

R(sgn(f))− R(f^∗)62c(Rϕ(f)− R^∗_ϕ)^γ Lemme 1(de Zhang)

Preuve.

R(sgn(f))− R(f^∗) =E ï

2

η(X)−1 2

1sgn(f)f^∗<0

ò

hyp6 2cE

(1−τ(η(x)))^γ1^sgn(f)f^∗^<0

Jensen6 2cE

1−τ(η(x))1sgn(f)f^∗<0

^γ

Le résultat vient du fait que :

Rϕ(f)− R^∗_ϕ>E

(1−τ(η(x)))1sgn(f)f^∗<0

En effetf^∗ a le même signe quef_ϕ^∗ et sgn(f)a le même signe quef. Donc :

E

(1−τ(η(x)))1sgn(f)f^∗<0

=E

î(1−τ(η(x)))1f(X)f_ϕ^∗(X)<0

ó

R_ϕ(f) =E[ϕ(−f(X)Y)] =E[H_η(X)(f(X))]etR^∗_ϕ=E[min_αH_η(X)(α)]. Donc il suffit de montrer que∀x∈X,

H_η(x)(f(x))>(1−τ(η(x)))1f(x)f_ϕ^∗(x)<0+ min

α H_η(x)(α)

Si1f(x)f_ϕ^∗(x)<0= 0alors c’est bon. Sinon, supposons quef(x)f_ϕ^∗(x)<0. On veut donc montrer : H_η(x)(f(x))>(1−τ(η(x))) +τ(η(x)) = 1

Mais

Hη(x)(f(x)) =η(x)ϕ(−f(x)) + (1−η(x))ϕ(f(x))

>ϕ −η(x)f(x) + (1−η(x))f(x)

=ϕ (1−2η(x))f(x)

3

(4)

Commef_ϕ^∗ a le même signe quef^∗etf^∗ a le même signe que2η(x)−1. Commef(x)f_ϕ^∗(x)<0, sgn(f_ϕ^∗(x)) =−sgn(f^∗) =−sgn(2η(x)−1) =sgn(1−2η(x)). Alors(1−2η(x))f(x)>0 et donc commeϕest croissante et que ϕ(0) = 1, on a bienH_η(x)(f(x))>1.

Remarque.

• Si ϕest Hinge, c= ¹₂ etγ= 1

• Si ϕest exp,c= ^√¹

2 etγ=¹₂

• Si ϕest log-it,c=^√¹

2 etγ= ¹₂

4