Algorithmes

2.4 Machines à Vecteurs Supports à une classe (1-SVM)

_w,ξ_i_,ρ ¹₂

2.4 Machines à Vecteurs Supports à une classe (1-SVM)

2.4.1 Algorithmes

Nous considérons toujours l'échantillon d'apprentissageS et supposons que les

observa-tions sont distribuées suivant une distribution de probabilité sous-jacente inconnue Ω.

Nous souhaitons savoir si une nouvelle observation est issue deΩou non. Cela peut être

fait en déterminant une régionRdans l'espace d'entréesX telle que la probabilité qu'une

nouvelle observation générée suivant Ω et n'appartenant pas à R soit majorée par une

valeur ν ∈ (0,1)spéciée a priori. Ce problème est résolu en estimant une fonction de

décision f qui est positive surRet négative ailleurs.

Une fonction non linéaire φ : X → H transforme les observations d'apprentissage de

l'espace d'entrées X dans un espace de Hilbert H. Dans ce nouvel espace, les données

d'apprentissage suivent une distribution sous-jacenteΩ

et le problème sera de déterminer

une région R

de H qui contient la majorité des observations de cette distribution. Un

hyperplanH(w, ρ)est construit dans l'espace transformé et est déni par

H(w, ρ) = hw, φ(x)i − ρ (2.39)

oùwest le vecteur de poids qui est un vecteur normal àH,ρest le biais etρ/kwkspécie

la distance de l'hyperplan à l'origine (la marge). Notons que nous avons remplacé le biais

b des hyperplans considérés dans les SVM biclasses par le biais ρ an de permettre la

comparaison avec ν-SVM. En eet, la marge dans 1-SVM est égale àρ/kwk, alors que

celle de ν-SVM est égale à 2ρ/kwk. Le biais ρ, ajouté dans la fonction objective (2.41),

permet d'obtenir également comme pour le paramètre supplémentaire ρ introduit dans

ν-SVM les mêmes propriétés de ν (Proposition 2.3.1).

Pour obtenir une séparation maximale entre l'hyperplan et l'origine, on cherche à

maxi-miser la marge donc à minimaxi-miserkwk. Ceci revient à résoudre le problème d'optimisation

quadratique suivant

M inimiser

kwk

sous les contraintes hw, φ(x

i ≥ρ, i= 1, . . . , n. (2.40)

Cependant, il n'est pas toujours possible de séparer parfaitement les observations de la

classe cible de l'origine dans l'espace de redescription. Pour de tels cas, l'algorithme

résol-vant le problème d'optimisation (2.40) ne converge pas vers une solution nie. Pour tenir

compte de ce problème, on dénit un paramètreν ∈(0,1)et des variables d'écartξ

pour

relâcher les contraintes.ν correspond à la fraction maximale des erreurs d'apprentissage,

i.e. les observations situées entre l'hyperplan et l'origine. Les variables ξ

sont utilisées

pour pénaliser la fonction objective en permettant à certaines observations d'être mal

classées. Le problème d'optimisation modié peut être écrit :

M inimiser

kwk

+

P

ξ

−ρ

sous les contraintes hw, φ(x

i ≥ρ−ξ

, ξ

≥0, i= 1, . . . , n. (2.41)

D'où siw etρ sont solutions du problème (2.41), nous nous attendons alors à ce que la

fonction de décision

h(x) =sgn(hw.φ(x)i − ρ) (2.42)

soit positive pour la plupart des données d'apprentissagex

alors que le termekwkreste

petit. Le compromis entre ces deux objectifs est controlé par ν. Plus précisement, ν

contrôle le compromis entre maximiser la distance à l'origine et contenir la plupart des

observations dans la région construite par l'hyperplan. Scholkopf et al. [75] ont démontré

queν est une borne supérieure de la fraction des erreurs d'apprentissage (données

d'ap-prentissage situées entre l'hyperplan et l'origine), et une borne inférieure de la fraction

des vecteurs supports (cf. Proposition2.4.3 de la section2.4.3).

La Figure2.5représente un schéma 2D d'un classieur 1-SVM. Le noyau gaussien

trans-forme les données sur une hypersphère, et 1-SVM vise à trouver un hyperplan dans cet

espace transformé séparant la majorité des données de l'origine avec une marge maximale,

tout en permettant à quelques observations d'être mal classées.

En utilisant les multiplicateurs de Lagrangeα

, β

≥0, nous introduisons le Lagrangien

(2.43), puis les dérivées partielles du Lagrangien par rapport aux variables primaires

w, ξ, b sont annulées (2.442.46).

L(w, ξ, ρ, α, β) =

||w||

+

P

ξ

−ρ

−P

α

∂w ^{= 0} ^⇐⇒ ^w⁼

∂ξ ^{= 0} ^⇐⇒ ^α

⁼

νn ⁻^β

^≤

∂ρ ^{= 0} ^⇐⇒

h(x) =sgn ^X

)i =^X