• Aucun résultat trouvé

Description du système de classification

7.3 Sélection des caractéristiques discriminantes .1Introduction.1Introduction

7.4.3 Le séparateur à vaste marge (SVM)

Soit H un hyperplan dans l’espace des caractéristiques Rd. H peut s’exprimer de la façon suivante :

H = {x ∈ Rd|w.x + b = 0}

avec w un vecteur normal à l’hyperplan, b un réel tel que wb le décalage de l’hyperplan par rapport à l’origine (voir figure 7.8b). On cherche w et b tels que H soit un hyperplan séparateur de l’espace des caractéristiques permettant de classer les données (xi)i=1...n

d’étiquettes (li)i=1...n∈ {−1, 1} correctement selon leur position par rapport au séparateur, i.e. tels que, pour tout i, li(wxi+ b)≥ 0.

Dans le cas de données linéairement séparables, il n’est pas possible de déterminer de manière unique un hyperplan séparateur en se basant sur le seul critère de minimisation du nombre d’observations mal classées (voir figure 7.8a).

V. Vapnik [128] a proposé, en 1998, un critère d’optimalité basé sur la "marge" pour séparer des classes linéairement séparables (généralisable à des frontières non linéaires via un changement d’espace). Maximiser la marge entre les classes revient à maximiser la plus petite distance séparant un point de l’espace des observations à l’hyperplan séparateur (voir figure 7.8b).

La distance d’un point xi à l’hyperplan séparateur est donné par : | wxi+ b|

|| w || ,

ce qui implique que la demi-marge (i.e. la distance entre l’hyperplan séparateur et les échantillons les plus proches) vaut :

min 1≤i≤n | wxi+ b| || w || = min1≤i≤n li(wxi+ b) || w || , la dernière égalité étant vraie car l’hyperplan H est séparateur.

Afin de faciliter l’optimisation, quitte à remplacer w et b par min w

1≤i≤n(|wxi+b|) et min b

1≤i≤n(|wxi+b|)

respectivement, on peut supposer que

min

1≤i≤n(| wxi+ b|) = 1,

c’est-à-dire que la fonction discriminante vaut +1 pour les points situés sur la marge et d’étiquette "+1" et -1 pour les points situés sur la marge et d’étiquette "-1" : ces points sont appelés les vecteurs support.

Désormais, avec ce choix de "normalisation" sur w et b, la marge vaut ||w||1 . Notons que maximiser la marge w1 est équivalent à minimiser w .

7.4. CHOIX DES CLASSIFIEURS

(a) Hyperplans séparateurs (b) Hyperplan séparateur maximisant la marge

Figure 7.8 – Hyperplans séparateurs et marge maximale (cas linéairement séparables).

(a) Exemples d’hyperplans séparant les données des classes "-1" (oranges) et "+1" (bleues). (b) Hyperplan séparateur optimal au sens de Vapnik [128], i.e. maximisant la marge entre les données à séparer.

optimal est formulée sous la forme du problème d’optimisation suivant :

minimiser 12 w 2

sous les contraintes li(wxi+ b)≥ 1 ∀i ∈ 1 . . . n (7.7) avec xi : vecteur de caractéristiques du ie exemple,

li : classe du ieexemple ∈ {−1, 1}. (7.8) L’objectif de maximisation de la marge permet d’assurer une bonne généralisation à de nouveaux points test.

On peut montrer2que la fonction de décision f du séparateur à vaste marge (SVM) s’écrit :

f (x) = sign( 

i∈supports

αilixi x + b)

où les αi sont des coefficients appelés multiplicateurs de Lagrange.

Cependant, dans la majorité des cas pratiques, les classes ne sont pas linéairement séparables. Ce problème est résolu par l’autorisation d’une erreur ξi (variable ressort ou slack variable en anglais) que l’on cherchera à minimiser (on dit dans ce cas que l’on a une "marge souple"). La contrainte de bonne classification lk(w.xk + b) ≥ 1 introduite dans le problème 7.7 devient lk(w.xk + b) ≥ 1−ξk. On introduit également une constante de

2. Le séparateur à vaste marge (SVM) sera au cœur de la partie III de cette thèse. Les éléments présentés dans cette section seront explicités chapitre 11.

coût, notée C, utilisée pour pénaliser plus ou moins l’erreur. Le problème d’optimisation devient : minimiser 12 w 2+C n  i=1 ξi

sous les contraintes li(wxi+ b)≥ 1 − ξi, ∀i ∈ 1 . . . n, ξi ≥ 0, ∀i ∈ 1 . . . n

(7.9)

avec xi: vecteur de caractéristiques du ieexemple, li: classe du ie exemple∈ {−1, 1},

C : coût de mauvaise classification,≥ 1, ξi : variable ressort.

(7.10)

Dans le cas de données non linéairement séparables dans leur espace d’origine, un changement d’espace, généralement de dimension plus grande, peut les rendre séparables. A une frontière linéaire dans l’espace transformé, correspond une frontière non linéaire dans l’espace d’origine (voir figure 7.9). L’hyperplan optimal dans l’espace transformé s’écrit :

(a) Coordonnées cartésiennes

Problème non linéairement séparable

(b) Coordonnées polaires

Problème linéairement séparable

Figure 7.9 – Illustration du changement de base : projection par une fonction φ dans la

transformée de l’espace des caractéristiques. Des données (a) non linéairement séparables dans le repère original peuvent devenir (b) séparables en utilisant des fonctions noyaux. Dans ce cas, le passage des coordonnées cartésiennes aux coordonnées polaires permet de rendre le problème original linéairement séparable.

f (x) = 

i∈supports

αili φ(xi), φ(x) + b où φ est la fonction de projection dans le nouvel espace.

En pratique, le passage des points dans l’espace de dimension supérieure n’est jamais réalisé explicitement car, lors de la résolution du système d’équations, le changement de dimension est utilisé uniquement lors de la comparaison (produit scalaire) entre deux points

7.4. CHOIX DES CLASSIFIEURS

(ou kernels), qui se comportent comme un produit scalaire et réalisent cette transformation de manière implicite :

φ(xi), φ(xj) = K(xi; xj) où K est une fonction noyau.

L’une des fonctions noyaux les plus communément utilisées est la fonction à base radiale (RBF, aussi appelée noyau gaussien) :

K(xi, xj) = exp( xi− xj 2

2 ) (7.11)

où σ est un paramètre permettant de définir l’écart type (i.e. largeur) de la gaussienne associée. C’est celle que nous utiliserons dans cette étude.

Les valeurs optimales des paramètres C (constante de coût de violation de la contrainte de bonne classification) et σ (utilisée dans la formulation du noyau fonction à base radiale (RBF)) sont déterminées par recherche exhaustive sur grille (grid search en anglais, voir le tableau 7.5). La meilleure combinaison (C, σ) est choisie comme étant celle maximisant l’aire sous la courbe ROC (cf. section 4.5.2, page 62).

Paramètre Valeur

Fonction noyau Radial Basis Function (équation 7.11) γ déterminé par grid search :

21 valeurs entre 2−10 et 210 (échelle logarithmique) C déterminé par grid search :

21 valeurs entre 2−5 et 215 (échelle logarithmique)

Table 7.5 – Choix des paramètres du SVM.

C désigne le coût d’erreur de classification.

γ = 12 est le coefficient de l’exponentielle de la RBF.

La probabilité d’appartenance à l’une ou l’autre des deux classes peut être estimée à partir de la distance à la marge. Nous utilisons pour cela l’algorithme de Platt [92] (décrit section 11.6).

Notre implémentation repose sur l’utilisation de la toolbox SVM-KM [15].