• Aucun résultat trouvé

1.4 Sélection de modèle appliquée aux SVM

1.4.2 Méthodes dédiées aux SVM bi-classes

Cette section présente les principales méthodes existantes de sélection de modèle pour les

SVM bi-classes. Ces méthodes utilisent l'architecture des SVM ainsi que le fait que le classieur

est l'optimum du problème d'apprentissage.

1.4.2.1 Bornes sur l'erreur de validation croisée leave-one-out

Comme nous l'avons vu, la procédure de validation croisée leave-one-out est très coûteuse en

opérations. Nous présentons ici des bornes supérieures sur cette erreur utilisant la structure des

machines à vecteurs support. La liste n'est pas exhaustive et n'est introduite qu'an de présenter

les bases des développements à venir.

Le comptage des vecteurs support : La méthode la plus simple pour borner l'erreur de

validation croisée leave-one-out pour une machine à marge dure est de partir de la constatation

que seuls les vecteurs support jouent un rôle. En eet, enlever un exemple dont le multiplicateur

de Lagrange est égal à zéro ne change pas la fonction de décision. La plus simple des bornes non

triviales est donc

ˆ

Err

(cv,1)

6 N

SV

m

avecN

SV

le nombre de vecteurs support de la machine entraînée avec tous les exemples.

La borne Rayon-Marge : Dans le chapitre 10 de [104], Vapnik propose une borne sur l'erreur

de validation croisée leave-one-out de la SVM à marge dure.

Théorème 2 (D'après les sections 10.3 et 10.4 de [104]). Considérons une SVM à marge dure

entraînée surd

m

. Soitγ =¯h

−1

κ

sa marge etR le rayon de la plus petite boule deH

κ

contenant

l'ensemble {κ

xi

: 16i6m}. Alors,

ˆ

Err

(cv,1)

= 1

m

m

X

p=1

1l

{yphp(xp)60}

6 4

m

R

2

γ

2

avech

p

la fonction calculée par la SVM entraînée surd

m

\ {(x

p

, y

p

)}.

An d'appliquer cette borne à la `

2

-SVM, il faut considérer le bon espace de représentation,

c'est-à-dire le "RKHS induit parκ

λ

"

1

, qui dépend deλ. En conséquence, le rayon doit être

recal-culé pour chaque valeur deλ, ce qui revient à résoudre une série de problèmes de programmation

quadratique.

La borne Span (Span bound en anglais) : La Span bound est une borne de l'erreur de

validation croisée leave-one-out développée par Vapnik et Chapelle dans [105] en utilisant le

concept de sous-espace vectoriel engendré par les vecteurs support. Seuls les résultats concernant

la SVM à marge dure, et donc la `

2

-SVM, sont présentés ici bien qu'une formulation existe pour

la`

1

-SVM.

Dénition 11. SoitΛ

p

le sous-espace engendré par la combinaison linéaire contrainte des images

des vecteurs support dans l'espace de représentation, à l'exception du vecteur support x

p

:

Λ

p

=

X

i6=p, αi>0

τ

i

κ

xi

,X

i6=p

τ

i

= 1

et soit S

p

la distance de cet espace à κ

xp

.

Nous utilisons la formulation et la notation de Chapelle dans [27]. La valeur maximale des

S

p

est appelée le S-spanS. Nous avons alors :

Théorème 3 (Borne Span [27] et Théorème 10 de [105]). Considérons une SVM à marge dure

entraînée surd

m

. Soitγ =¯h

−1

κ

sa marge, S le S-span et R le rayon de la plus petite boule de

H

κ

contenant l'ensemble{κ

xi

: 16i6m}. Alors,

ˆ

Err

(cv,1)

= 1

m

m

X

p=1

1l

{yphp(xp)60}

6 2

m

SR

γ

2

avec h

p

la fonction calculée par la SVM entraînée sur d

m

\ {(x

p

, y

p

)}.

La démonstration de cette borne est très proche de la démonstration de la borne

Rayon-Marge, ce qui explique leurs formes similaires. La borne Span est plus ne dans la mesure où le

S-span est toujours plus petit que le diamètre.

En raison de sa complexité de calcul, cette borne (exacte) sur l'erreur de validation croisée

leave-one-out n'est pas utilisée en pratique. On lui préfère généralement une approximation de

cette erreur basée sur la notion d'espace engendré déni pour la borne Span.

1.4.2.2 Approximation de l'erreur de validation croisée leave-one-out par les spans

Nous détaillons à présent une approximation de l'erreur de validation croisée leave-one-out.

Cette approximation [105] se base sur l'hypothèse que l'ensemble des vecteurs support ne change

pas pendant la procédure de validation croisée. Les notations utilisent explicitement λ an de

rappeler que ce résultat est aussi bien valable pour la machine à marge douce que pour la machine

marge dure (qui correspond àλ−→0).

Théorème 4 (Théorème 3 de [105]). Soit une `

1

-SVM entraînée sur d

m

. Sous l'hypothèse que

l'ensemble des vecteurs support reste constant pendant la procédure de validation croisée, l'égalité

suivante est vériée :

1.4. Sélection de modèle appliquée aux SVM 29

avecS

p

(λ) la distance entre κ

xp

et l'ensemble Λ

p

(λ) déni par

Λ

p

(λ) =

X

j:αj(λ)∈(0,λ−1)∧j6=p

τ

j

κ

xj

, X

j:αj(λ)∈(0,λ−1)∧j6=p

τ

j

= 1

.

Cette dénition de Λ

p

(λ) est légèrement diérente de celle présentée dans [105], mais elles

sont identiques sous l'hypothèse d'invariance des vecteurs support.

Corollaire 1 (Corollaire 1 dans [105]). Sous l'hypothèse du théorème 4,

ˆ

Err

(cv,1)

= 1

m

m

X

p=1

1l{

y phpλ(xp)60

} =

1

m

m

X

p=1

1l{

α p(λ)Sp(λ)2−yphλ(xp)>0

}. (1.21)

Le terme de droite de l'équation (1.21) est nommé l'approximation de l'erreur de validation

croisée leave-one-out (ou simplement approximation de l'erreur de test par abus de langage) et

nous le notons Errˆ

(cv,1)

sv

, l'indice sv faisant référence à l'hypothèse d'invariance des vecteurs

support.

Lorsque ce calcul est implanté de manière naïve, sa complexité est du même ordre de

gran-deur que celle de la procédure de validation croisée. Puisque nous nous intéressons de manière

privilégiée aux machines à coût quadratique, la suite de l'étude se concentre sur les machines à

marge dure. Ce cas est traité dans [27]. Dans ce cadre de travail, l'équation 1.21 se simplie en

1

m

m

X

p=1

1l

{yphp(xp)60}

= 1

m

m

X

p=1

1l{

α pS2 p−1>0

} .

Les auteurs fournissent un résultat pratique pour calculer la valeur des spansS

p

en se basant sur

une reformulation algébrique :

∀p∈[[ 1, m]], S

p2

= min

τ

max

µ

Φ (x

p

)− X

j:αj>0∧j6=p

τ

j

κ

xj

2

+ 2µ

X

j:αj>0∧j6=p

τ

j

−1

avec µ le multiplicateur de Lagrange associé à la contrainte P

τ

j

= 1. Soit E l'ensemble des

indices des vecteurs support, soit m

E

son cardinal et soit K

E,E

la sous-matrice de K composée

uniquement des lignes et colonnes d'indices dansE. SoitK¯ la matrice donnée par :

¯

K= K

E,E

1

mE

1

T mE

0

!

.

En posantτ¯= τ

T

, µ

T

, Le précédant problème min-max se reformule en :

S

p2

= min

τ

max

µ

avec V la sous-matrice de K¯ obtenue en enlevant la ligne et la colonne d'indice p etv la p-ème

colonne de K¯ privée de sa p-ème composante. L'existence deV

1

dans le cas général n'est pas

discutée : seul le cas où la matrice de Gram est de rang plein nous intéresse

1

. Puisque la valeur

optimale de ¯τ estV

1

v, l'équation 12 de [27] donne la valeur de S

p

:

S

p2

=κ(x

p

, x

p

)−v

T

V

1

v

= 1/ K¯

1

p,p

.

Ainsi, la plus coûteuse étape du calcul de l'approximation de l'erreur de validation croisée

leave-one-out est l'inversion deK¯. Ce résultat est seulement valable pour les machines à marge

dure : l'extension aux machines à marge douce nécessite une reformulation à marge dure

(uni-quement possible pour la `

2

-SVM), ce qui implique la construction deK à partir deκ

λ

.