• Aucun résultat trouvé

Apprentissage statistique

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage statistique"

Copied!
4
0
0

Texte intégral

(1)

Apprentissage statistique

Chapitre 8 : Convexification du problème binaire

Lucie Le Briquer 13 mars 2018

ERM :

minf∈F

"

1 n

n

X

i=1

1f(xi)6=yi

#

= ˆRn(f)

• F peut être finie de très grand cardinalité

• nfinie peut être grand Rˆn(f)est à valeurs discrètes.

Pour pouvoir résoudre un problème, on cherche à le convexifier. On peut convexifier la perte et/ou convexifier l’ensembleF.

1ère étape (convexification deF)

Si f ∈ F:X −→ {0,1}, on les symétrise enf˜= 2f −1 à valeurs dans{−1,1}. Donc on peut supposerf ∈ F:X −→ {−1,1}. Sif est à valeurs dans{−1,1},

1f(X)6=Y ⇔ 1f(X)Y <0

On va considérer non plus des classifieursX −→ {−1,1}, mais des classifieurs ditsoft à valeurs dansR(ou[−1,1]). À chaque classifieur softf:X −→R, on associe un classifeurbinaire sgn(f)∈ {−1,1}.

Exemples.

• linéaire : fa(x) =aTxpour a∈ A ⊂Rd

• majoritaire :

fλ(x) =

M

X

i=1

λifi(x) pour(f1, . . . , fM)fixé etλ∈ Sn−1

• base :

fθ(x) = (

X

i∈N

θifi(x), θi∈RNet (f1, . . . , fi, . . .)fixés )

Dorénavant on suppose que l’on a une famille convexe de classifieurs soft.

1

(2)

2ème étape (convexifier la perte) Le problème :

f∈Fminsoft 1 n

n

X

i=1

1f(Xi)Yi<0

n’est pas convexe. On va donc rempacler1−Z>0 par une fonction convexe.

ϕest une fonction surrogate si :

• ϕest convexe

• ϕest croissante

• ϕ(0) = 1,ϕ>0

Définition 1(fonctionsurrogate)

Exemples.

• Hinge :max(0, x+ 1)

Hinge

• exp:exp(ηx)

• log-it :log2(1 +eηx)

Au lieu de minimiser le risque empirique, on considère leϕ−risque empirique :

ϕ(f) = 1 n

n

X

i=1

ϕ(−f(Xi)Yi)

et leϕ−risqueRϕ(f) =E[ϕ(−f(X)Y)]. On note :

fϕ = argmin

f:X −→R

Rϕ(f) et fˆϕ=argmin

f∈F

ϕ(f)

Siϕest différentiable, alors sgn(fϕ) =f. Théorème 1

Preuve.

f(x) = 1 ⇔ η(x)> 1 2

fϕ est la fonction qui minimiseE[ϕ(−f(X)Y)]. On raisonne poit par point et : fϕ(x) =argmin

α∈R

η(x)ϕ(−α) + (1−η(x))ϕ(α)

2

(3)

NotonsHη(α) =ηϕ(−α) + (1−η)ϕ(α)alors argminHη(α)est obtenu par :

−ηϕ0(−α) + (1−η)ϕ0(α) = 0 ⇔ η

1−η = ϕ0(α) ϕ0(−α)

D’où,

η>1

2 ⇔ η

1−η >1 ⇔ ϕ0(α)>ϕ0(−α) ⇔

convexité α>−α ⇔ α>0 Don’η(x)>12 ⇔ fϕ(x)>0 ou encore,f(x) = 1 ⇔ sgn(fϕ(x)) = 1.

Pour toutη >0, on noteτ(η) = minα∈RHη(α), supposons qu’il existe c >0 et γ <1 tels que :

η−1 2

6c(1−τ(η))γ pour toutη∈[0,1], alors,

R(sgn(f))− R(f)62c(Rϕ(f)− Rϕ)γ Lemme 1(de Zhang)

Preuve.

R(sgn(f))− R(f) =E ï

2

η(X)−1 2

1sgn(f)f<0

ò

hyp6 2cE

(1−τ(η(x)))γ1sgn(f)f<0

Jensen6 2cE

1−τ(η(x))1sgn(f)f<0

γ

Le résultat vient du fait que :

Rϕ(f)− Rϕ>E

(1−τ(η(x)))1sgn(f)f<0

En effetf a le même signe quefϕ et sgn(f)a le même signe quef. Donc :

E

(1−τ(η(x)))1sgn(f)f<0

=E

î(1−τ(η(x)))1f(X)fϕ(X)<0

ó

Rϕ(f) =E[ϕ(−f(X)Y)] =E[Hη(X)(f(X))]etRϕ=E[minαHη(X)(α)]. Donc il suffit de montrer que∀x∈X,

Hη(x)(f(x))>(1−τ(η(x)))1f(x)fϕ(x)<0+ min

α Hη(x)(α)

Si1f(x)fϕ(x)<0= 0alors c’est bon. Sinon, supposons quef(x)fϕ(x)<0. On veut donc montrer : Hη(x)(f(x))>(1−τ(η(x))) +τ(η(x)) = 1

Mais

Hη(x)(f(x)) =η(x)ϕ(−f(x)) + (1−η(x))ϕ(f(x))

>ϕ −η(x)f(x) + (1−η(x))f(x)

=ϕ (1−2η(x))f(x)

3

(4)

Commefϕ a le même signe quefetf a le même signe que2η(x)−1. Commef(x)fϕ(x)<0, sgn(fϕ(x)) =−sgn(f) =−sgn(2η(x)−1) =sgn(1−2η(x)). Alors(1−2η(x))f(x)>0 et donc commeϕest croissante et que ϕ(0) = 1, on a bienHη(x)(f(x))>1.

Remarque.

• Si ϕest Hinge, c= 12 etγ= 1

• Si ϕest exp,c= 1

2 etγ=12

• Si ϕest log-it,c=1

2 etγ= 12

4

Références

Documents relatifs

Si f, fonction réelle de la variable réelle, est dérivable et bornée et si sa dérivée admet une limite finie en +∞ alors cette limite

Dans un premier temps, nous allons voir que nous pouvons quelque peu simplifier la situation proposée (le travail ci-dessous n’est en rien obligatoire mais il nous donne l’occasion de

Remarquons que l’on a en fait montré que la restriction de u à toute droite vectorielle est une homothétie... Le résultat

Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L’objectif

S’il veut les faire descendre de leur Olympe pour réfléchir aux enjeux de santé et aux défis de l’organisation sanitaire pour toute une population, qu’il leur démontre

Par exemple, la classification de données de très grande dimension ou la classification de données corrélées sont des problèmes particulièrement présents en analyse d’images

Variantes de la base d’apprentissage obtenues par tirages aléatoires avec remise depuis la base initiale. (sorte de « bootstrap » duplication/disparition aléatoires de

4 Apprentissage de dictionnaire et ACP parcimonieuse D´ebruitage et restauration d’images.. Dictionnaire parcimonieux structur´e pour la reconnaissance