• Aucun résultat trouvé

3.2 Séparateur à Vaste Marge et Apprentissage de Noyau

3.2.2 Séparateur à Vaste Marge

Les Séparateurs à Vaste Marge sont un type de classifieurs qui a été proposé par Vapnik

[Vapnik 1998], à la suite de ses travaux théoriques sur l’apprentissage statistique supervisé. Ils

entrent dans le cadre des problèmes de minimisation du risque structurel. La fonction de perte

utilisée est le Hinge ou le Hinge au carré et le terme de régularisation est la norme

2

au carré que

nous avons présentée section3.1.3et dont nous avons vu les propriétés dans un cadre fonctionnel

section 3.2.1.

Cette approche a certains avantages par rapport à d’autres méthodes de la littérature. Tout

d’abord, elle est basée sur la théorie de l’apprentissage statistique introduite par Vapnik [

Vap-nik 1998] qui lui fournit certaines garanties en terme de généralisation. Un des résultats de cette

théorie, montrant l’intérêt des SVM, est qu’avec une grande probabilité :

R(f)Rˆ(f) + Φ(n, h(H)) (3.30)

h(H) est une mesure de la complexité de l’espace d’hypothèse H et Φ est une fonction

croissante de h(H) [Vapnik 1998]. Cette équation montre que la minimisation simultanée du

risque empirique et de la complexité de la fonction a pour effet de minimiser le risque. La

mesure de complexité utilisée dans les SVM est la norme k · k

H

, or cette norme est inversement

proportionnelle à la marge entre les exemples de chaque classe. La minimisation de la complexité

correspond donc à la maximisation de la marge, ce qui donne leur nom aux SVM.

De plus, la possibilité d’utiliser l’astuce du noyau permet d’apprendre des fonctions de

dé-cision prenant en compte des données non linéairement séparables mais toujours relativement

interprétables car faisant appel à des exemples. Par ailleurs, les fonctions de décision SVM sont

parcimonieuses en terme d’exemples. Nous verrons en effet qu’un certain nombre des coefficients

α

i

sont nuls, ce qui est intéressant pour la rapidité de prédiction. Finalement, le problème

d’op-timisation SVM est strictement convexe lorsque le noyau est défini positif, il est donc bien posé

et une seule solution existe.

Problème SVM L’apprentissage d’un classifieur SVM se fait par la minimisation suivante :

min

f∈H

C

n

n

X

i=1

H(y

i

, f(x

i

)) + 1

2||f||

2H

(3.31)

Cest un paramètre de régularisation,f(·) est la fonction de décision appartenant à un espace

de Hilbert à noyau reproduisant H, H(y, f(x)) = max(0,1y·f(x))

p

est le coût Hinge à la

puissance p = {1,2} qui promeut une vaste marge, et k · k

H

est la norme induite de H. On

reconnaît dans l’équation (3.31) une formulation similaire au problème général d’apprentissage

statistique régularisé défini en (3.5). Nous avons choisi d’utiliser la formulation avec un paramètre

de régularisationC =

1

λ

, oùλapparaît dans l’équation (3.5), pour respecter la formulation SVM

originelle.

Le choix dep(1 ou 2 en général) a un impact en terme de différentiabilité du problème et de

parcimonie de la solution, mais il n’a pas été montré d’avantage clair en terme de performances

de prédiction de p = 1 ou p = 2 [Chapelle 2007]. Dans nos travaux, nous utiliserons donc la

valeur permettant de résoudre le problème le plus efficacement possible.

Coût Hinge et problème dual La valeur p = 1 pour le coût Hinge correspond aux SVM

classiques [Vapnik 1998]. Grâce à la dualité forte du problème SVM, il est aussi possible de

trouver la solution de l’équation (3.31) en résolvant son dual par rapport àf(·) [Schölkopf 2001b].

Ce dernier se présente sous la forme :

max

α

12

n,n

X

i,j=1

y

i

y

j

α

i

α

j

K(x

i

,x

j

) +

n

X

i=1

α

i

(3.32)

s.c. C

nα

i

≥0 i et

N

X

i=1

α

i

y

i

= 0

−1.5 −1 −0.5 0 0.5 1 1.5 −1.5 −1 −0.5 0 0.5 1 1.5 Exemples +1 Exemples −1

(a) Problème

−1.5 −1 −0.5 0 0.5 1 1.5 −1.5 −1 −0.5 0 0.5 1 1.5 fonction f Exemples +1 Exemples −1 Vecteurs supports

(b) Fonction de décision

−1 0 1 −1 0 1 −1 −0.5 0 0.5 1

(c) Surface de la fonction

Figure3.8: Illustration d’une classification SVM sur un problème en deux dimensions (d= 2) en utilisant

un noyau gaussien et 30 exemples d’apprentissage. Le problème d’apprentissage est montré en (a) et la

fonction de décision est visualisée sur le plan avec les courbes de niveau [-1,0,1] en (b). La courbe de

niveau 0 correspond à la frontière de décision et les courbes (-1, 1) permettent de visualiser la marge.

Les vecteurs supports sélectionnés sont aussi reportés et l’on voit clairement que, comme le problème est

séparable, seuls les points situés sur la marge sont sélectionnés (16/30). La surface de la fonction f est

tracée en (c).

i∈ [1, n], α

i

∈ R sont les variables duales et K(·,·) est la fonction noyau associée à H. À

partir des contraintes de boite sur lesα

i

dans le problème (3.32), on distingue trois cas possibles

pour les valeurs de α

i

. Si α

i

= 0, cela signifie que l’exemple i est bien classé avec une marge

suffisante pour avoir un coût Hinge nul (y

i

f(x

i

)>1). Siα

i

=

C

n

, alors l’exempleiest situé dans

la marge ou est mal classé (y

i

f(x

i

) < 1). Et finalement, si 0 < α

i

<

Cn

, alors l’exemple i est

situé exactement sur la marge (y

i

f(x

i

) = 1).

Le théorème de représentation permet d’exprimer la fonction de décision en fonction des

variables duales :

f(x

) =

n

X

j=1

α

j

y

j

K(x

,x

j

) +b (3.33)

avec cette fois-ci les α

i

solutions du problème (3.32). Les variables duales représentent donc

le poids qu’aura chaque exemple dans la fonction de décision. Or, puisque certains coefficients

α

i

sont égaux à zéro, le calcul de la prédiction ne se fera donc pas sur l’ensemble des points

d’apprentissage mais sur un sous-ensemble de taille n

s

.

Un exemple de classification SVM est tracé Figure 3.8 pour un problème séparable et un

noyau gaussien. La fonction de décision peut être comparée à celle présentée dans la section

précédente. À la différence de la machine à noyaux (3.29), nous pouvons voir que, cette fois-ci,

la marge est maximisée et que seul un sous-ensemble des points d’apprentissage est utilisé dans

la fonction de décision.

Coût Hinge au carré Mettre le coût Hinge au carré dans (3.31) mène aux SVM à coût

quadratique [Shawe-Taylor 2004,Chapelle 2007]. De même que pour le coût Hinge, il est possible

de résoudre le problème dans le dual de (3.31) par rapport à f(·). La différence principale par

rapport au problème (3.32) est que le paramètre C n’apparaît plus comme une contrainte de

boite mais sous la forme d’un terme diagonal ajouté à la matrice de Gram. Ce terme diagonal,

rappelant la régularisation ridge en régression linéaire, aura pour effet de rendre la matrice

strictement définie positive quel que soit K(·,·) et donc de rendre le problème mieux posé. La

solution du problème est généralement moins parcimonieuse que pour les SVM classiques, en

partie à cause de la différentiabilité du Hinge au carré.

Extensions probabilistes Pour un classifieur SVM, la décision s’effectue en utilisant le signe

de la fonction de prédiction. Cependant, dans certains cas, il peut être intéressant d’avoir une

prédiction probabiliste. Dans le cadre des SVM, il existe un algorithme, proposé par Platt

[Platt 1999] et corrigé par [Lin 2007], pour estimer des probabilités d’appartenance aux classes.

Cette méthode consiste à transformer le score SVM de la manière suivante :

P(y= 1|x) = 1

1 + exp (a.f(x) +b) (3.34)

avec f la fonction de décision et x l’échantillon observé. Les paramètres a et b sont appris en

maximisant la log-vraisemblance sur un ensemble de validation. On reconnaît dans cette forme

une version unidimensionnelle de la régression logistique. La méthode de Platt consiste donc à

effectuer une régression logistique sur le score retourné par la fonction de décision SVM.

Nous citerons aussi les travaux de Grandvalet [Grandvalet 2006] qui utilisent une

interpré-tation probabiliste des SVM pour s’adapter à des problèmes mal équilibrés, c’est-à-dire lorsque

le nombre d’exemples d’une classe est bien plus important que pour l’autre classe. Finalement,

lorsque l’on a accès à des classes incertaines, par exemple si les étiquettes sont des estimées des

probabilités conditionnelles, il est possible d’utiliser cette information pour effectuer

automati-quement la pondérationaetbsans passer par une maximisation de la vraisemblance [Niaf 2011].