1.4 Sélection de modèle appliquée aux SVM
1.4.2 Méthodes dédiées aux SVM bi-classes
Cette section présente les principales méthodes existantes de sélection de modèle pour les
SVM bi-classes. Ces méthodes utilisent l'architecture des SVM ainsi que le fait que le classieur
est l'optimum du problème d'apprentissage.
1.4.2.1 Bornes sur l'erreur de validation croisée leave-one-out
Comme nous l'avons vu, la procédure de validation croisée leave-one-out est très coûteuse en
opérations. Nous présentons ici des bornes supérieures sur cette erreur utilisant la structure des
machines à vecteurs support. La liste n'est pas exhaustive et n'est introduite qu'an de présenter
les bases des développements à venir.
Le comptage des vecteurs support : La méthode la plus simple pour borner l'erreur de
validation croisée leave-one-out pour une machine à marge dure est de partir de la constatation
que seuls les vecteurs support jouent un rôle. En eet, enlever un exemple dont le multiplicateur
de Lagrange est égal à zéro ne change pas la fonction de décision. La plus simple des bornes non
triviales est donc
ˆ
Err
(cv,1)6 N
SVm
avecN
SVle nombre de vecteurs support de la machine entraînée avec tous les exemples.
La borne Rayon-Marge : Dans le chapitre 10 de [104], Vapnik propose une borne sur l'erreur
de validation croisée leave-one-out de la SVM à marge dure.
Théorème 2 (D'après les sections 10.3 et 10.4 de [104]). Considérons une SVM à marge dure
entraînée surd
m. Soitγ =¯h
−1κ
sa marge etR le rayon de la plus petite boule deH
κcontenant
l'ensemble {κ
xi: 16i6m}. Alors,
ˆ
Err
(cv,1)= 1
m
mX
p=11l
{yphp(xp)60}6 4
m
R
2γ
2avech
pla fonction calculée par la SVM entraînée surd
m\ {(x
p, y
p)}.
An d'appliquer cette borne à la `
2-SVM, il faut considérer le bon espace de représentation,
c'est-à-dire le "RKHS induit parκ
λ"
1, qui dépend deλ. En conséquence, le rayon doit être
recal-culé pour chaque valeur deλ, ce qui revient à résoudre une série de problèmes de programmation
quadratique.
La borne Span (Span bound en anglais) : La Span bound est une borne de l'erreur de
validation croisée leave-one-out développée par Vapnik et Chapelle dans [105] en utilisant le
concept de sous-espace vectoriel engendré par les vecteurs support. Seuls les résultats concernant
la SVM à marge dure, et donc la `
2-SVM, sont présentés ici bien qu'une formulation existe pour
la`
1-SVM.
Dénition 11. SoitΛ
ple sous-espace engendré par la combinaison linéaire contrainte des images
des vecteurs support dans l'espace de représentation, à l'exception du vecteur support x
p:
Λ
p=
X
i6=p, αi>0τ
iκ
xi,X
i6=pτ
i= 1
et soit S
pla distance de cet espace à κ
xp.
Nous utilisons la formulation et la notation de Chapelle dans [27]. La valeur maximale des
S
pest appelée le S-spanS. Nous avons alors :
Théorème 3 (Borne Span [27] et Théorème 10 de [105]). Considérons une SVM à marge dure
entraînée surd
m. Soitγ =¯h
−1κ
sa marge, S le S-span et R le rayon de la plus petite boule de
H
κcontenant l'ensemble{κ
xi: 16i6m}. Alors,
ˆ
Err
(cv,1)= 1
m
mX
p=11l
{yphp(xp)60}6 2
m
SR
γ
2avec h
pla fonction calculée par la SVM entraînée sur d
m\ {(x
p, y
p)}.
La démonstration de cette borne est très proche de la démonstration de la borne
Rayon-Marge, ce qui explique leurs formes similaires. La borne Span est plus ne dans la mesure où le
S-span est toujours plus petit que le diamètre.
En raison de sa complexité de calcul, cette borne (exacte) sur l'erreur de validation croisée
leave-one-out n'est pas utilisée en pratique. On lui préfère généralement une approximation de
cette erreur basée sur la notion d'espace engendré déni pour la borne Span.
1.4.2.2 Approximation de l'erreur de validation croisée leave-one-out par les spans
Nous détaillons à présent une approximation de l'erreur de validation croisée leave-one-out.
Cette approximation [105] se base sur l'hypothèse que l'ensemble des vecteurs support ne change
pas pendant la procédure de validation croisée. Les notations utilisent explicitement λ an de
rappeler que ce résultat est aussi bien valable pour la machine à marge douce que pour la machine
marge dure (qui correspond àλ−→0).
Théorème 4 (Théorème 3 de [105]). Soit une `
1-SVM entraînée sur d
m. Sous l'hypothèse que
l'ensemble des vecteurs support reste constant pendant la procédure de validation croisée, l'égalité
suivante est vériée :
1.4. Sélection de modèle appliquée aux SVM 29
avecS
p(λ) la distance entre κ
xpet l'ensemble Λ
p(λ) déni par
Λ
p(λ) =
X
j:αj(λ)∈(0,λ−1)∧j6=pτ
jκ
xj, X
j:αj(λ)∈(0,λ−1)∧j6=pτ
j= 1
.
Cette dénition de Λ
p(λ) est légèrement diérente de celle présentée dans [105], mais elles
sont identiques sous l'hypothèse d'invariance des vecteurs support.
Corollaire 1 (Corollaire 1 dans [105]). Sous l'hypothèse du théorème 4,
ˆ
Err
(cv,1)= 1
m
mX
p=11l{
y phpλ(xp)60} =
1
m
mX
p=11l{
α p(λ)Sp(λ)2−yphλ(xp)>0}. (1.21)
Le terme de droite de l'équation (1.21) est nommé l'approximation de l'erreur de validation
croisée leave-one-out (ou simplement approximation de l'erreur de test par abus de langage) et
nous le notons Errˆ
(cv,1)sv
, l'indice sv faisant référence à l'hypothèse d'invariance des vecteurs
support.
Lorsque ce calcul est implanté de manière naïve, sa complexité est du même ordre de
gran-deur que celle de la procédure de validation croisée. Puisque nous nous intéressons de manière
privilégiée aux machines à coût quadratique, la suite de l'étude se concentre sur les machines à
marge dure. Ce cas est traité dans [27]. Dans ce cadre de travail, l'équation 1.21 se simplie en
1
m
mX
p=11l
{yphp(xp)60}= 1
m
mX
p=11l{
α pS2 p−1>0} .
Les auteurs fournissent un résultat pratique pour calculer la valeur des spansS
pen se basant sur
une reformulation algébrique :
∀p∈[[ 1, m]], S
p2= min
τmax
µ
Φ (x
p)− X
j:αj>0∧j6=pτ
jκ
xj
2+ 2µ
X
j:αj>0∧j6=pτ
j−1
avec µ le multiplicateur de Lagrange associé à la contrainte P
τ
j= 1. Soit E l'ensemble des
indices des vecteurs support, soit m
Eson cardinal et soit K
E,Ela sous-matrice de K composée
uniquement des lignes et colonnes d'indices dansE. SoitK¯ la matrice donnée par :
¯
K= K
E,E1
mE1
T mE0
!
.
En posantτ¯= τ
T, µ
T, Le précédant problème min-max se reformule en :
S
p2= min
τ
max
µ
avec V la sous-matrice de K¯ obtenue en enlevant la ligne et la colonne d'indice p etv la p-ème
colonne de K¯ privée de sa p-ème composante. L'existence deV
−1dans le cas général n'est pas
discutée : seul le cas où la matrice de Gram est de rang plein nous intéresse
1. Puisque la valeur
optimale de ¯τ estV
−1v, l'équation 12 de [27] donne la valeur de S
p:
S
p2=κ(x
p, x
p)−v
TV
−1v
= 1/ K¯
−1p,p
.
Ainsi, la plus coûteuse étape du calcul de l'approximation de l'erreur de validation croisée
leave-one-out est l'inversion deK¯. Ce résultat est seulement valable pour les machines à marge
dure : l'extension aux machines à marge douce nécessite une reformulation à marge dure
(uni-quement possible pour la `
2-SVM), ce qui implique la construction deK à partir deκ
λ.
Dans le document
Sélection de modèle par chemin de régularisation pour les machines à vecteurs support à coût quadratique
(Page 43-46)