• Aucun résultat trouvé

SVM non-lin´ eaires

Dans le document The DART-Europe E-theses Portal (Page 84-88)

l’apprentissage automatique

D. SVM non-lin´ eaires

1) Principe

Il s’agit de doter les SVM d’un m´ecanisme permettant de produire des surfaces de d´ecision non-planes. L’id´ee est de transformer les donn´ees de l’espace de d´epart Rd dans un espace de Hilbert E de dimension sup´erieure (possiblement infinie) dans lequel les donn´ees transform´ees deviennent lin´eairement s´eparables. Ainsi, en exploitant une application

Φ :RdE, (V.49)

l’algorithme SVM lin´eaire appliqu´e aux donn´ees Φ(xi) dans l’espaceEproduit des surfaces de d´ecision non-planes dans l’espace Rd (mieux appropri´ees aux donn´ees de d´epart pour un choix judicieux de Φ).

Cette proc´edure peut ˆetre rendue tr`es efficace en utilisant une astuce permettant d’effectuer les calculs n´ecessaires `a l’algorithme dans l’espace de d´epart Rd sans passer explicitement dans E.

Du fait que les donn´ees apparaissent dans tous les calculs uniquement sous forme de produits scalaires (xi.xj), il suffit de trouver une fa¸con efficace de calculer Φ(xi).Φ(xj). Cela est r´ealis´e en faisant appel `a une fonctionnoyau k(xi,xj), d´efinie par :

k(xi,xj) = Φ(xi).Φ(xj). (V.50) Tout le d´eveloppement pr´esent´e dans la section V-2-C reste valable en rempla¸cant simplement les termes xi.xj park(xi,xj). La nouvelle fonction de d´ecision est d´efinie par le signe de :

o`u les si sont les vecteurs supports.

L’avantage d’une telle approche r´eside dans le fait qu’il n’est pas n´ecessaire de connaˆıtre Φ explicitement. Il suffit d’obtenir des noyaux convenables. C’est ce que nous discutons dans la section suivante.

2) Noyaux

Sous quelles conditions une fonction k(x,y) sym´etrique est-elle associ´ee `a un espaceE et une transformation Φ vers cet espace ?

72 V. Fondements th´eoriques

La r´eponse est donn´ee par les conditions de Mercer qui stipulent qu’il existe une application Φ et un d´eveloppement de k(x,y) de la forme : ce qui traduit le fait quek(x,y) d´ecrit un produit interne dans un espace E, si et seulement si pour toute fonctiong(x) surRd, de normeL2finie (i.e.

g(x)2dxest finie) la condition suivante

est satisfaite :

k(x,y)g(x)g(y)dxdy 0. (V.53) Diff´erentes formes de noyau (v´erifiant les conditions de Mercer) ont ´et´e propos´ees. Nous examinerons :

– le noyau lin´eaire :

k(x,y) =x.y, (V.54)

– le noyau polynˆomial de degr´e δ :

k(x,y) = (x.y)δ, (V.55) – le noyau radial (RBF- Radial Basis Function) exponentiel :

k(x,y) = exp

Voici quelques propri´et´es int´eressantes de ces deux derniers noyaux.

Noyau polynˆomial Le noyau polynˆomial de degr´e δ correspond `a une transformation Φ par laquelle les composantes des vecteurs transform´es Φ(x) sont tous les monˆomes d’ordreδ form´es

`

Le noyau polynˆomial permet ainsi d’effectuer la classification sur des nouveaux attributs qui sont tous les produits d’ordreδ des attributs de d´epart.

V-2. Les Machines `a Vecteurs Supports (SVM) 73

Il est possible dans ce cas de calculer la dimensiondE de l’espace transform´eEcorrespondant

`

a un noyau polynˆomial de degr´e δ en comptant le nombre de monˆomes d’ordre δ possibles. Il vient

dE= Cδδ+d−1 = (δ+d−1)!

δ!(d−1)! . (V.58)

A titre d’exemple, pour des vecteurs d’attributs d’entr´ee de dimension 40, la dimension de l’espace transform´e avec un noyau polynˆomial de degr´e 4 est ´egale `a 123,410.

Un exemple de r´ealisation des SVM munies d’un noyau polynˆomial de degr´e 2, sur des donn´ees audio r´eelles est donn´e dans la figure V.5.

Fig. V.5 Un exemple sur des donn´ees audio r´eelles. Visualisation des surfaces de d´ecisions induites par un noyau polynˆomial de degr´e 2 pour la SVM hautbois contre trompette. En bleu (respectivement rouge), les exemples d’apprentissage, ici des vecteurs d’attributs tridimensionnels, de la classe hautbois (respectivement trompette) et les surfaces correspondant aux hyperplansH1etH2. Les surfaces induites

par l’hyperplan optimal sont trac´ees en noir.

74 V. Fondements th´eoriques

Signalons qu’il est ´egalement possible de recourir `a des noyaux polynˆomiaux ditsin-homog`enes de la forme :

k(x,y) = (x.y+ 1)δ, (V.59) qui permettent de prendre en compte tous les monˆomes d’ordre inf´erieur ou ´egal `a δ.

Noyau exponentiel La figure V.6 montre les surfaces de d´ecision correspondant `a des valeurs croissantes de σ. On peut constater que ce param`etre permet de contrˆoler la courbure des surfaces de d´ecision. A des σ ´elev´es correspondent des surfaces pr´esentant des courbures plus importantes.

Fig. V.6 Effet du param`etre σ, d’apr`es [Sh¨olkopf et Smola, 2002]. De gauche `a droite le param`etre σ2 est diminu´e. Les lignes continues indiquent les surfaces de d´ecision et les lignes interrompues les bords de la marge. Notons que pour les grandes valeurs deσ2, le classificateur est quasi lin´eaire et la surface de d´ecision ne parvient pas `a s´eparer les donn´ees correctement. A l’autre extrˆeme, les valeurs trop faibles de σ2 donnent lieu `a des surfaces de d´ecision qui suivent de trop pr`es la structure des donn´ees d’apprentissage et il y a un risque de sur-apprentissage. Il est donc n´ecessaire de r´ealiser un

compromis tel que celui r´ealis´e dans l’image du milieu.

Il est montr´e que les exemples transform´es Φ(x1), ...,Φ(xl) sont lin´eairement ind´ependants. Ils g´en`erent un sous-espace de Ede dimensionl. Par suite, le noyau gaussien d´efini sur un nombre infini d’exemples d’apprentissage transpose les attributs dans un espace de dimension infinie.

Espace RKHS (Reproducing Kernel Hilbert Space) Etant donn´´ es un noyauket des exemples x1,x2, ...,xl Rd, la matrice de Gram de k par rapport `a x1,x2, ...,xl est d´efinie par

V-2. Les Machines `a Vecteurs Supports (SVM) 75

Lorsque K est d´efinie positive, le noyau k est dit d´efini positif. L’int´erˆet d’un tel noyau est qu’il permet de d´efinir de fa¸con assez simple une application Φ vers un espace muni d’un produit scalaire d´ecrit park, en consid´erant :

Φ : X →RX x →k(.,x)

o`u X est un ensemble non-vide d’exemples et RX := {f :X → R}. Φ(x) est ainsi la fonction associant `a chaque exemple xi la fonction k(xi,x). RX est un espace de fonctions appel´e Reproducing Kernel Hilbert Space (dans le cas o`u toutes les fonctions ´evaluant les ´el´ements de RX sur les exemples xi sont continues). Pour plus de d´etails concernant ces espaces, nous invitons le lecteur `a consulter [Sh¨olkopf et Smola, 2002].

Dans le document The DART-Europe E-theses Portal (Page 84-88)