• Aucun résultat trouvé

Les machines à vecteurs de support ont été introduites à la n des années 70 par Vapnik, et initialement formulées comme des méthodes supervisées adoptées pour leur capacité à travailler avec des données de grandes dimension. Étant donné un ensemble d'entrainement Dl = (xi, yi), i = 1, . . . , l qui constitue un ensemble de données linéairement séparables, où xi représente une observation et yi la décision associée appartient à {−1, +1}. Le but des SVM est de construire un hyperplan qui sépare le mieux possible les deux classes D+ et Dqui correspondent respectivement aux points xi tels que yi = +1 et yi = −1. Cette méthode recherche simplement l'hyperplan séparateur avec la plus grande marge. Supposons que toutes les données d'apprentissage satisfont aux contraintes suivantes :

w.xi+ b ≥ +1 pour yi = +1 (B.1)

w.xi+ b ≤ −1 pour yi = −1 (B.2)

Les équationsB.1 etB.2 sont combinées dans l'ensemble d'inégalités suivant :

Suivant les deux équationsB.1etB.2, la marge est simplement égale à 2/ kwk. Comme l'objectif est de maximiser cette marge, cela revient alors à minimiser kwk. L'hyperplan à marge maximale est la solution du problème primal d'optimisation suivant portant sur les paramètres w et b.

     min1 2 w2 w ∈ Rd, b ∈ R

Sous les contraintes yi(w.xi+ b) ≥ 1 ∀ i = 1, . . . , l.

(B.4)

Ce problème peut être résolu en utilisant les multiplicateurs de Lagrange (αi)1≤i≤l associés aux contraintes du problèmeB.4. Le coecient 1/2 qui apparaît ici est rajouté pour simplier les calculs de dérivée qui vont suivre. Le dual lagrangien de ce problème devient :

Lp= 1 2 w2 l X i=1 αi[yi(w.xi+ b) − 1] (B.5) Le lagrangien doit être minimisé par rapport aux variables dites primales w et b et maxi-misé par rapport aux multiplicateurs αi : ce sont les conditions de Karush-Kuhn-Tucker (KKT) [Scholkopf and Smola, 2001].

∂L ∂w = 0 w = l X i=1 αixiyi (B.6) ∂L ∂b = 0 l X i=1 αiyi = 0 (B.7)

Par substitution de B.6 etB.7dans l'équation du lagrangien B.5 on obtient le problème dual :      max αi Pl i=1αi1 2 Pl i,j=1αiαjyiyjxi.xj

Sous les contraintes, αi ≥ 0, ∀i et Pl

i=1αiyi = 0

La solution du problème dual donne les multiplicateurs de Lagrange optimaux α

i. En pratique, seuls les points xi qui sont sur les hyperplans frontière |xi.w + b| = 1 interviennent dans la fonction de décision, car les αi sont non nuls seulement pour ces points. Ainsi, l'hyperplan optimal ne dépend que des k vecteurs support (k ≤ l). Une fois que nous avons trouvé les multiplicateurs de Lagrange optimaux α

i, nous obtenons le w du séparateur optimal avec la marge maximale : w =

k

X

i=1

αiyixi (B.9)

Le paramètre b peut être déterminé en utilisant n'importe quel vecteur support (xi, yi)i∈k dans l'équation |xi.w+ b| = 1. La fonction de décision permettant de classer une nouvelle observation x est dénie par le signe de :

f (x) =

k

X

i=1

αi.yixi.x + b (B.10)

En pratique, il est souvent préférable de tolérer certaines erreurs, au bénéce d'une marge plus grande car ces erreurs peuvent être dues à des outliers (des observations aberrantes) de la classe qui leur est associée. Nous parlons alors de classicateur à marge souple [Scholkopf and Smola, 2001]. Un premier remède consiste à rendre les contraintes de l'équation B.4moins rigides en introduisant des variables d'écart positives i ≥ 0 pour que les contraintes deviennent :

yi(w.xi+ b) ≥ 1 − i, ∀i

Ainsi l'hyperplan optimal peut être considéré comme la solution du problème d'optimisation convexe suivant :      min1 2 w2 + CΣli=1i w ∈ Rd, b ∈ R

Sous les contraintes yi(w.xi+ b) ≥ 1 − i ∀ i = 1, . . . , l.

(B.11) Le terme CΣl

i=1ireprésente une mesure de la quantité mal classée. C est un paramètre de pénalité, permettant de contrôler le compromis entre le fait de maximiser la marge et minimiser les erreurs de classication commises sur l'ensemble d'apprentissage. Plus il est grand plus une pénalité attribuée aux erreurs est élevée.

La méthode SVM est aussi utilisée dans le cas où les ensembles d'entraînement sont non linéairement séparables. Une fonction noyau K(xi, xj)est appliquée an de projeter l'espace d'entrée non linéaire dans un espace de dimension plus élevée (FigureB.2). Il s'agit d'une fonction continue, symétrique, semi-dénie positive basée sur une transformation non linéaire de l'espace d'entrée X en un espace de re-description Φ(X).

à partir des échantillons d'apprentissage.

Figure B.2  Transformation de l'espace d'entrée en un espace de re-description. Les noyaux les plus fréquemment rencontrés sont :

 Linéaire : K(xi, xj) =< xi, xj >  RBF : K(xi, xj) = e−γkxi−xjk2

 Polynomial : K(xi, xj) = γ < xi, xj >d  Sigmoïdal : K(xi, xj) = tanh(γ < xi, xj >)

d est le degré de polynôme. Le paramètre γ dénit la portée de l'inuence d'un seul exemple d'en-traînement. Pour la fonction RBF, un γ faible signie une gaussienne avec une grande variance, donc l'inuence de xj est plus grande, c'est-à-dire que si xj est un vecteur support, une valeur faible de γ implique que la classe de ce vecteur support aura une inuence sur la décision de la classe du vecteur xi même si la distance entre eux est grande. Si la valeur de γ est élevée, alors la variance est faible, ce qui implique que le vecteur support n'a pas une inuence répandue. Donc, un γ élevé conduit à des modèles à biais élevé et à faible variance, et inversement. Le paramètre C échange la mauvaise classication des exemples d'entraînement contre la simplicité de la surface de décision. Un C faible rend la surface de décision lisse, alors qu'un C élevé vise à classer correctement tous les exemples d'entraînement en donnant au modèle la liberté de sélectionner plus d'échantillons comme vecteurs de support. D'un autre coté Guermeur et al.1 ont traité le problème de classication multi classes en proposant des extensions de SVM, les plus utilisées sont les suivantes :

 Le SVM Un-Contre-Tous forme k SVM binaires où k représente le nombre des classes. Le

ième SVM est entraîné avec tous les échantillons appartenant à la ième classe comme des échantillons positifs, et considère les autres exemples comme des échantillons négatifs. Ainsi k fonctions de décision sont générées (Figure B.3). Pour classier un exemple de test, la décision s'obtient avec le principe de "winner-takes-all". Cette approche présente donc k classieurs, et la décision correspond au classieur ayant renvoyé la valeur la plus élevée. La classe de l'entrée x = argmaxi=1,...,kwi.x + b

Figure B.3  Classication multi-classes par la méthode Un-Contre-Tous.

 Le SVM Un-Contre-Un entraine un SVM pour chaque paire de classes i et j. Comme le montre la Figure B.4, le rôle du classieur d'indice (i, j), avec (1 ≤ i < j ≤ k), est de caractériser la catégorie d'indice i de celle d'indice j. Par conséquent, pour K classes cette méthode entraîne k(k − 1)/2 SVM binaires. Pour classier un exemple de test, la décision s'obtient avec le principe de "max-wins voting". Si signe (wij∆x + bij) montre que x appartient à la ième classe, alors le vote pour la ième classe est incrémenté. Sinon, celui de la jème classe est incrémenté. Finalement, la décision correspond à la classe qui a reçu le plus grand nombre de votes.

Annexe C