Méthodes classiques d'estimation de l'erreur en généralisation

1.4 Sélection de modèle appliquée aux SVM

_{_Y₆₌_f_D₍_X₎_}

_{_Y_p₆₌_f_D₍_X_p₎_}

_D∗(p)∼_Pˆ(p)^m

_{_Y_p₆₌_f D^∗⁽^p⁾(Xp)}

_D∗(p)∼P^ˆ(p)^m

D^∗⁽^p⁾(Xp)}

_{_Z_p_∈_/_D∗b∧Yp6=f_D∗b(Xp)}

_{_Z_p_∈_/_D∗b}

Méthodes classiques d'estimation de l'erreur en généralisation

1.4 Sélection de modèle appliquée aux SVM

1.4.1 Méthodes classiques d'estimation de l'erreur en généralisation





∀i∈[[ 1, m]], ∀k∈[[ 1, Q]]\ {y

}, α

>0

∀k∈[[ 1, Q−1 ]], P

P

−δ

α

= 0

avec

J

(α) =−

1

2α

H(λ)α+ 1

Q−11

α,

oùH(λ) est la matrice de M

(R) de terme général

h

(λ) =

δ

− 1

Q

(κ(x

, x

) +λδ

).

La sous-section suivante est dédiée à la question de la sélection de modèle pour les SVM.

1.4 Sélection de modèle appliquée aux SVM

Pour les machines à vecteurs support, la sélection de modèle correspond au choix du noyau

et à la détermination de la valeur des hyperparamètres, qui sont de deux types : le coecient de

régularisationλet les paramètres du noyau. L'estimation de l'erreur est un premier pas vers la

sélection de modèle. Nous présentons, dans un premier temps, les méthodes usuelles d'estimation

de l'erreur en généralisation. Les solutions dédiées à la sélection de modèle pour les SVM bi-classes

sont ensuite détaillées. La dernière partie présente des résultats spéciques aux M-SVM.

1.4.1 Méthodes classiques d'estimation de l'erreur en généralisation

Les trois principales méthodes de sélection de modèle sont le hold-out, la validation croisée

à V pas et le bootstrap. Les critères de la statistique classique, tel que AIC [1] et BIC [95], ne

sont pas habituellement appliqués aux SVM [7].

1.4.1.1 Validation hold-out

La procédure de validation hold-out consiste à dénir un ensemble d'apprentissage et un

en-semble de validation. Le premier enen-semble sert à entraîner le classieur alors que le second permet

d'évaluer les performances en généralisation. Cette procédure n'est intéressante que lorsque

beau-coup d'exemples sont à disposition. En eet, son principal défaut est de ne pas tirer le meilleur

parti des données. Une possibilité pour cela consiste à faire tourner le jeu de validation : il s'agit

de la validation croisée.

1.4.1.2 Validation croisée à V pas

Le principe de la validation croisée àV pas consiste à partitionner l'ensemble d'apprentissage

en V parts approximativement égales. L'apprentissage se fait sur V −1 parts alors que le test

se fait sur celle restante. Ce processus est répété pour chaque part. Le taux d'erreur global est

appelé l'erreur de validation croisée àV pas que nous notons Errˆ

. L'erreur de validation

croisée à V pas est couramment utilisée dans une optique de sélection de modèle [97, 18]. En

pratique,V est souvent xé à 5, 7 ou 10. Dans ces conditions, cet estimateur présente une faible

variance mais un biais élevé [12].

Lorsque V =m, cette procédure porte le nom de validation croisée leave-one-out. En nous

inspirant de la notation de [41], nous notonsErrˆ

la fréquence d'erreur de validation croisée

leave-one-out. Cet estimateur possède la particularité d'être presque sans biais [104] :

Théorème 1 (Théorème 10.8 de [104]). L'estimateur de la probabilité d'erreur fourni par la

validation croisée leave-one-out est presque sans biais au sens où

E p

erreur

=EErrˆ

(1.15)

oùp

erreur correspond à la probabilité pour que le classieur entraîné sur un échantillon de taille

m−1 commette une erreur.

Cette absence de biais, au prix d'une variance élevée, en fait un bon outil de sélection de

modèle. Pour des raisons pratiques, la validation à petit nombre de pas est plus souvent utilisée

car la complexité de la procédure de validation croisée leave-one-out est au pire pour les SVM en

O m

. Nous verrons par la suite que l'utilisation de bornes ou d'estimations de cette quantité

permet de diminuer cette complexité.

1.4.1.3 Bootstrap .632+

⁽^α^{) =}⁻

2^α

H(λ)α+ ¹

Q−1¹

(_R) de terme général

− ¹

appelé l'erreur de validation croisée àV pas que nous notons _Errˆ

inspirant de la notation de [41], nous notons_Errˆ

=_EErr^ˆ

) =_E

] = ¹

avec_Pˆ la distribution empirique qui associe une probabilité de1/mà chacune des observations.

m-échantillon qui suit la loi_Pˆ. Pour la méthode du bootstrap leave-one-out, de la même manière

empirique _Pˆ

= ¹