Problème de la classication linéaire

L. La classe de tous les hyperplans qui en decoule sera notée

L. Cette grandeur est au coeur des SVM et elle jouera un rôle important tout

L. La marge d'une

w kwk,_k_w^b_k

kwk,_k_w^b_k)

w kwk,_k_w^b_k

w kwk,_k_w^b_k

Le problème de la discrimination linéaire remonte aux années 1930 quand Fisher a

pro-posé la première procédure de classication binaire. Entre les années 1960 et 1980 les

statistiques ont connu une révolution menée par l'apparition de la théorie de

l'apprentis-sage statistique. Et depuis 1992, les machines à vecteurs supports en sont le plus grand

succès.

2.2.1 Formalisation du problème

Le problème de classication rentre dans le cadre de l'apprentissage statistique supervisé.

Le but est de prévoir la classe d'appartenance notée y d'un vecteurp-dimensionnel x en

se basant sur les mesures des variables qui l'expliquent avec pour seule information celle

contenue dans l'echantillon d'apprentissage S.

Dans le cadre la discrimination biclasse, on considère un couple (M, Y) de variables

aléatoires à valeurs dansX × Y, oùX désigne l'espace des variables explicatives souvent

pris dans R

, Y = {−1,+1}. L'échantillon d'apprentissage S est ainsi une collection

de nréalisations indépendantes et identiquement distribuées (i.i.d.) du couple aléatoire

(M, Y)dont sa distribution jointe est xe mais inconnue. Cet ensemble est souvent noté

par :

S ={(M

, Y

),(M

, Y

), . . . ,(M

, Y

}.

Le but est de construire une fonctionh: X −→ Y telle queP h(M)6=Ysoit minimale.

h est appelée classieur. L'appartenance d'une observationm

∈R

(une réalisation de

la variable aléatoire M

) à une classe ou à une autre dépend de la valeur -1 ou 1 prise

pary

=h(m

). Dans la suite, et pour raison de conformité avec les notations introduites

dans le Chapitre1, nous désignons par x

=x

∈R

l'observationm

.

2.2.2 Approche générale

Généralement, la classication binaire est accomplie au moyen d'une fonction à valeurs

réelles f :X ⊆R

→R. La fonction h introduite dans le paragraphe précédent est telle

que h(x) = sgn f(x)

, i.e. toute observation x

est aectée à la classe qui correspond

au signe de f(x

: si f(x

≥ 0, x

est aecté à la classe positive (h(x

) = +1) sinon

elle sera dans la classe négative (h(x

) =−1). En classication linéaire la fonction f est

linéaire en x

et elle prend la forme générale suivante,

f(x

) =hw, x

i+b,

où(w, b)∈R

×Rsont les paramètres à estimer de la fonctionf et l'opérateurh idésigne

le produit scalaire usuel dans R

. La règle de décision est donc donnée par sgn f(x

.

Comme nous sommes dans un cadre de classication par apprentissage, l'estimation des

paramètres de f s'eectue en se basant sur l'échantillon d'apprentissageS.

Géométriquement, le classieur h divise l'espace des variables explicatives X en deux

demi-espaces correspondant chacun à une classe. Cette séparation est réalisée par

l'hy-perplanH

déni par l'équation hw, xi+b= 0 oùwest un vecteur normal à

l'hyper-plan de séparation qu'on appelle vecteur de poids, tandis que la variation du paramètre

b, appelé biais, engendre une simple translation de l'hyperplan séparateur. Il est donc

nécessaire d'employer une représentation à (p+ 1)paramètres de liberté pour parcourir

l'ensemble de tous les hyperplans deR

.

L'objectif de la discrimination linéaire est de trouver la bonne (En terme de capacité de

généralisation) fonctionf dans la classe de toutes les fonctions linéaires deX dansRque

nous noterons F

H. Cette

forme simple de classieur a été énormement utilisée dans la classication binaire. Les

termes vecteur de poids pour le vecteurwet biais pour le paramètrebsont empruntés

∈_R

∈_R

réelles f :X ⊆_R

où(w, b)∈_R

×_Rsont les paramètres à estimer de la fonctionf et l'opérateurh idésigne

) = ^|h^{w, x}

ⁱ⁺^b^|

kwk ⁼

kwk ⁼

kwk ⁼

kwk^. (2.1)

kwk^{, x}

+ ^b

kwk ^{= 0}^.