Séparateur à Vaste Marge

3.2 Séparateur à Vaste Marge et Apprentissage de Noyau

−1.5 −1 −0.5 0 0.5 1 1.5 −1.5 −1 −0.5 0 0.5 1 1.5 Exemples +1 Exemples −1

−1.5 −1 −0.5 0 0.5 1 1.5 −1.5 −1 −0.5 0 0.5 1 1.5 fonction f Exemples +1 Exemples −1 Vecteurs supports

−1 0 1 ⁻¹ 0 1 −1 −0.5 0 0.5 1

3.2 Séparateur à Vaste Marge et Apprentissage de Noyau

3.2.2 Séparateur à Vaste Marge

Les Séparateurs à Vaste Marge sont un type de classiﬁeurs qui a été proposé par Vapnik

[Vapnik 1998], à la suite de ses travaux théoriques sur l’apprentissage statistique supervisé. Ils

entrent dans le cadre des problèmes de minimisation du risque structurel. La fonction de perte

utilisée est le Hinge ou le Hinge au carré et le terme de régularisation est la normeℓ

au carré que

nous avons présentée section3.1.3et dont nous avons vu les propriétés dans un cadre fonctionnel

section 3.2.1.

Cette approche a certains avantages par rapport à d’autres méthodes de la littérature. Tout

d’abord, elle est basée sur la théorie de l’apprentissage statistique introduite par Vapnik [

Vap-nik 1998] qui lui fournit certaines garanties en terme de généralisation. Un des résultats de cette

théorie, montrant l’intérêt des SVM, est qu’avec une grande probabilité :

R(f)≤Rˆ(f) + Φ(n, h(H)) (3.30)

où h(H) est une mesure de la complexité de l’espace d’hypothèse H et Φ est une fonction

croissante de h(H) [Vapnik 1998]. Cette équation montre que la minimisation simultanée du

risque empirique et de la complexité de la fonction a pour eﬀet de minimiser le risque. La

mesure de complexité utilisée dans les SVM est la norme k · k

, or cette norme est inversement

proportionnelle à la marge entre les exemples de chaque classe. La minimisation de la complexité

correspond donc à la maximisation de la marge, ce qui donne leur nom aux SVM.

De plus, la possibilité d’utiliser l’astuce du noyau permet d’apprendre des fonctions de

dé-cision prenant en compte des données non linéairement séparables mais toujours relativement

interprétables car faisant appel à des exemples. Par ailleurs, les fonctions de décision SVM sont

parcimonieuses en terme d’exemples. Nous verrons en eﬀet qu’un certain nombre des coeﬃcients

α

sont nuls, ce qui est intéressant pour la rapidité de prédiction. Finalement, le problème

d’op-timisation SVM est strictement convexe lorsque le noyau est déﬁni positif, il est donc bien posé

et une seule solution existe.

Problème SVM L’apprentissage d’un classiﬁeur SVM se fait par la minimisation suivante :

min

C

n

X

H(y

, f(x

)) + 1

2||f||

(3.31)

oùCest un paramètre de régularisation,f(·) est la fonction de décision appartenant à un espace

de Hilbert à noyau reproduisant H, H(y, f(x)) = max(0,1−y·f(x))

est le coût Hinge à la

puissance p = {1,2} qui promeut une vaste marge, et k · k

est la norme induite de H. On

reconnaît dans l’équation (3.31) une formulation similaire au problème général d’apprentissage

statistique régularisé déﬁni en (3.5). Nous avons choisi d’utiliser la formulation avec un paramètre

de régularisationC =

, oùλapparaît dans l’équation (3.5), pour respecter la formulation SVM

originelle.

Le choix dep(1 ou 2 en général) a un impact en terme de diﬀérentiabilité du problème et de

parcimonie de la solution, mais il n’a pas été montré d’avantage clair en terme de performances

de prédiction de p = 1 ou p = 2 [Chapelle 2007]. Dans nos travaux, nous utiliserons donc la

valeur permettant de résoudre le problème le plus eﬃcacement possible.

Coût Hinge et problème dual La valeur p = 1 pour le coût Hinge correspond aux SVM

classiques [Vapnik 1998]. Grâce à la dualité forte du problème SVM, il est aussi possible de

trouver la solution de l’équation (3.31) en résolvant son dual par rapport àf(·) [Schölkopf 2001b].

Ce dernier se présente sous la forme :

max

−12

X

y

y

α

α

K(x

,x

) +

X

α

(3.32)

s.c. C

n ≥α

≥0 ∀i et

X

α

y

= 0

(a) Problème

(b) Fonction de décision

R(f)_≤R^ˆ(f) + Φ(n, h(_H)) (3.30)

où h(_H) est une mesure de la complexité de l’espace d’hypothèse _H et Φ est une fonction

croissante de h(_H) [Vapnik 1998]. Cette équation montre que la minimisation simultanée du

mesure de complexité utilisée dans les SVM est la norme _{k · k}

)) + ¹

2^||^f^||

oùCest un paramètre de régularisation,f(_·) est la fonction de décision appartenant à un espace

de Hilbert à noyau reproduisant _H, H(y, f(x)) = max(0,1₋y·f(x))

puissance p = _{1,2_} qui promeut une vaste marge, et _{k · k}

est la norme induite de _H. On

trouver la solution de l’équation (3.31) en résolvant son dual par rapport àf(_·) [Schölkopf 2001b].

−¹₂

s.c. ^C

≥0 _∀i et

où _∀i∈ [1, n], α

∈ R sont les variables duales et K(_·,·) est la fonction noyau associée à _H. À

de résoudre le problème dans le dual de (3.31) par rapport à f(_·). La diﬀérence principale par

strictement déﬁnie positive quel que soit K(_·,·) et donc de rendre le problème mieux posé. La

P(y= 1_|x) = ¹

1 + exp (a.f(x) +b) ^(3.34)