• Aucun résultat trouvé

3.4 Méthodes à noyau

3.4.3 Relevance Vector Machine (RVM)

3.4.3.1 Introduction

La méthode des RVM pour « Relevance Vector Machine » a été développée par Tipping [89, 90]. C’est une méthode qui permet aussi de traiter des problèmes de régression. Elle utilise le modèle classique linéaire des machines à noyau des SVM (voir équation 3.5) mais fait ap- pel à une formulation bayésienne pour déterminer les paramètres et sélectionner les exemples pertinents qui permettront de réaliser le modèle discriminant final.

3.4.3.2 Formulation

Le même ensemble d’apprentissage S que précédemment est utilisé ; il est composé de N exemples tel queS = {xi, yi}i=1,...Navecxi ∈ RM, le vecteur de caractéristiques d’un exemple

CHAPITRE 3. APPRENTISSAGE ET CLASSIFICATION 51

Pour une meilleure compréhension de la méthode, plaçons-nous tout d’abord dans le cadre de la régression, où yiest une fonction continue ; le passage au cas de la classification, où yi prend

deux valeurs discrètes, sera explicité à la fin de cette section.

Le principe des RVM est de modéliser toutes les quantités du système par des densités de probabilité. Cela permet de représenter le bruit sur les données d’apprentissage et d’éviter ainsi des phénomènes de surapprentissage. Pour chaque donnée d’apprentissage, considérons ti la

réalisation bruitée de la vérité yi :

ti = yi+ ǫi (3.31)

avec(ǫi)i∈Ides bruits indépendants Gaussien de moyenne nulle et de variance σ2.

Les SVM fournissent une prédiction donnée dans l’équation 3.29. Le vecteur poids est noté

w = {w1, ..., wN}. Si le biais b est intégré dans w, le problème à résoudre est le suivant :

y=

N

X

i=1

wi∗K(x, xi) (3.32)

avec K(, ) la fonction noyau.

Un modèle bayésien classique est introduit tel que la fonction de vraisemblance sur l’ensemble d’apprentissage s’écrive : p(t|w, σ2) = (2πσ2)−N 2exp{− 1 2σ2kt − Φwk 2} (3.33) avecw = w1, ..., wN.

Φest la matrice telle que Φnm = K(xn,xm−1) et Φn1 = 1. L’estimation du maximum de vrai-

semblance mène généralement à des phénomènes de surapprentissage. Mais ce problème peut être résolu en utilisant des fonctions plus « régulières » définies par des poids gaussiens de l’ARD8: p(w|α) = N Y i=0 N (wi|0, α−1i ) (3.34)

avec α un vecteur de N + 1 hyperparamètres. L’introduction d’un hyperparamètre pour chaque

poids est la clé des RVM ; c’est ce qui permet aussi d’obtenir un modèle épars. En appliquant la règle de Bayes, la probabilité a posteriori sur les poids est obtenue :

p(w|t, α, σ2) = (2π)−N +12 |Σ|− 1 2exp{−1 2(w− µ) TΣ−1(w − µ)} (3.35) avec : Σ= (ΦTBΦ+ A)−1 (3.36)

8. L’ARD pour « Automatic Relevance Determination » est une approche basée sur l’interférence bayésienne dans laquelle ce sont des hyperparamètres qui permettent de contrôler l’amplitude des intervalles dans lesquels évoluent les données d’entrée [64].

µ= ΣΦTBt (3.37)

A= diag(α0, α1, ..., αN) (3.38)

B = σ−2IN (3.39)

σ2 est également traité comme hyperparamètre et peut être estimé à partir des données d’ap- prentissage.

En substituant les poids, nous obtenons la vraisemblance marginale :

p(t|α, σ2) = (2π)−N 2|B−1+ ΦA−1ΦT| 1 2exp{−1 2t T (B−1+ ΦA−1ΦT)−1t} (3.40)

Dans l’idéal, il faudrait également définir des hyperpoids sur α et σ2 et substituer aussi ces hy- perparamètres ; toutefois cette méthode est difficilement applicable sous cette formulation. C’est pourquoi Tipping propose d’utiliser une procédure plus pragmatique citée dans [63]. Celle-ci consiste à optimiser directement la vraisemblance marginale (voir équation 3.40), par rapport à α et σ2, ce qui revient à trouver le maximum de p(α, σ2|t) en assurant des poids uniformes.

Ensuite, en utilisant ces valeurs maximales, des prédictions sont faites à partir de 3.35.

Les valeurs de α et σ2 qui maximisent 3.40 ne peuvent pas être obtenues directement. Il faut passer par une formule itérative pour estimer la valeur de σ :

αnouveau

i =

1− αiΣii

µ2i (3.41)

La valeur de σ2 est donnée par :

(σ2)new = kt − Φµk2

N Pi1− αiΣii

(3.42) En pratique, pendant le processus d’optimisation, une grande partie des αitend vers l’infini et,

en se référant à 3.35, la probabilité p(w|t, α, σ2) tend vers 0 ; et c’est là toute l’astuce des RVM

car les poids correspondants sont nuls ou quasi-nuls, ce qui implique que les fonctions noyau correspondantes peuvent être enlevées du modèle. Les vecteurs restants sont donc les vecteurs pertinents - « relevant » en anglais.

Ce principe est appliqué pour faire de la régression dans le cas où y a un continuum de valeurs possibles. Pour la classification entre deux classes, où y ∈ {−1, 1} (yi = 1 pour un exemple

positif, et yi = 0 sinon), l’objectif est de prédire la probabilité a posteriori de la classe d’un

nouvel exemple sachant son observationx. Le modèle linéaire précédant est alors généralisé en

appliquant la fonction logique sigmoïde suivante à y(x) :

σ(y) = 1

1 + e−y (3.43)

La vraisemblance peut s’écrire :

p(t|w) =

N

Y

i=1

CHAPITRE 3. APPRENTISSAGE ET CLASSIFICATION 53

Il est toutefois impossible de substituer les poids pour obtenir de façon analytique la vraisem- blance marginale, et une procédure itérative proposée par MacKay [63] est utilisée (voir algo- rithme 2).

Algorithme 2 Classification par les RVM - mise à jour des poids répéter

- pour une valeur fixée de α, il faut rechercher les meilleurs poidswM P possibles (localisa-

tion du maximum a posteriori). C’est équivalent à une optimisation classique d’un modèle logistique régularisé. Un algorithme des moindres carrés pondérés récursifs est utilisé pour trouver le maximum.

- le Hessien est calculé par rapport àwM P. :

▽▽log p(t, w|α)|wM P =−(ΣTBΦ+ A)

avec B et une matrice diagonale telle que B= diag{B1, B2, ..., BN} et

Bn= σy(xn)[1− σy(xn)]

ce qui nous permet de déterminer la matrice de covariance Σ ; les hyperparamètres α peuvent alors être mis à jour.

jusqu’à ce qu’un critère approprié de convergence soit satisfait.

La figure 3.13 présente un exemple de classification par les RVM sur les mêmes données d’ap- prentissage que pour l’exemple fourni figure 3.13. La frontière de décision s’appuie sur des vecteurs « relevant » (en bleu).

3.4.3.3 Discussion

Les RVM se basent sur le même modèle que les SVM . Ces deux méthodes construisent un modèle linéaire épars - ou parcimonieux - dans le sens où seul un certain nombre de vecteurs d’apprentissage est conservé : les vecteurs support des SVM et les vecteurs « relevant » des RVM.

Même si l’apprentissage est hors-ligne, il faut toutefois une puissance de calcul plus consé- quente pour les RVM qui requièrent d’inverser au moins à la première itération une matrice de taille N × N, N étant le nombre de données comprises dans l’ensemble d’apprentissage.

FIGURE 3.13 – Exemple de classification par les RVM

Les croix rouges et les triangles noirs représentent les points d’apprentissage de deux classes différentes. Les points cerclés en bleu représentent les vecteurs « relevant » des RVM. La surface verte représente la région de l’espace des paramètres à laquelle appartiennent les points de la classe des triangles noirs et la surface blanche représente la région à laquelle appartiennent les points de la classe des croix rouges.