• Aucun résultat trouvé

Le boosting vu comme une descente de grandient dans l’espcace des fonctions

N/A
N/A
Protected

Academic year: 2022

Partager "Le boosting vu comme une descente de grandient dans l’espcace des fonctions"

Copied!
3
0
0

Texte intégral

(1)

Le boosting vu comme une descente de grandient dans l’espcace des fonctions

Pascal Vincent

Avril 2007

Notation

Les notations que j’utilise ici suivent celles utilisées dans le tutoriel sur l’AdaBoost classique de Jiri Matas et Jan Sochman.

Ensemble d’apprentissage: {(x 1 , y 1 ),

, (x m , y m )}, x i ∈ X , y i ∈ { − 1, + 1}

Classifieur faible choisi à l’étape t: h t : X → { − 1, + 1}

Poids du classifieur h t : α t

La fonction discriminante du classifieur fort à l’étape t est obtenu par une combinaison linéaire de tous les classifieurs faibles obtenus à cette étape:

f t (x) = X

t =1 t

α t h t (x)

La décision du classifieur fort à l’étape t est H t (x) = sign(f t (x))

Le classifieur fort final est obtenu à l’étape T et correspond à la fonction dscriminante f = f T et à la fonction de décision H = H T

Fonction de coût (perte) et descente de gradient dans l’espace des fonctions

Définissons une fonction de coût L(f (x), y) = e y f(x) .

Notez que la quantité y f (x) est positive si f (x) est du mêm signe que y donc que la fonction f prédit la bonne classe pour x. La magnitude de y f(x), qu’on appelle la marge , peut être inter- prêtée comme la confiance qu’a le classifieur f en sa prédiction: si c’est fortment positif alors le classifieur fait la bonne prédiction avec une grande confiance, si c’est fortement négatif il a très confiance en sa prédiction mais se trompe.

A partir d’une telle fonction de coût, on peut définit un coût moyen sur les exemples d’appren- tissage, c.a.d. le risque empirique

R ˆ(f ) = 1 m

X

i=1 m

L(f (x i ), y i )

qu’on veut minimiser.

On va à chaque étape t ajouter à f un classifieur faible h t avec un poids α t dans le but de réduire le plus possible ce risqe empirique R ˆ .

1

(2)

Comment trouver h t+1

Pour diminuer le risque empirique R ˆ , il faudrait changer f de manière à changer le vecteur de prédicitons (f (x 1 ),

, f(x m )) dans la direction opposée du vecteur de gradient:

∇R ˆ(f ) = ∂R ˆ

∂f (x 1 ) ,

, ∂R ˆ

∂f (x m )

!

=

∂L(f (x 1 ), y 1 )

∂f (x 1 ) ,

, ∂L(f (x m ), y m )

∂f (x m )

= ∂e y 1 f(x 1 )

∂f (x 1 ) ,

, ∂e y m f(x m )

∂f (x m )

!

=

− y 1 e y 1 f(x 1 ) ,

, − y m e y m f(x m )

Pour ce faire, on va chercher un h t+1 = h (à ajouter à f t ) qui donnerait un vecteur h

G

= (h(x 1 ),

, h(x m )) allant le plus possible dans le sens opposé de ce gradient, c.a.d. qu’on va chercher une fonction h qui maximise le produit scalaire D

h

G

, − ∇R ˆ(f ) E .

h t+1 = argmax h

"

X

i=1 m

h(x i ) y i e y i f t (x i )

#

Si on suppose que h est un classifieur binaire donnant une réponse dans { − 1, + 1}, on peut réécrire h(x i )y i = 1 − 2 δ y i h(x i ) , où δ représente la fonction indicatrice, donc

h t+1 = argmax h

"

X

i=1 m

(1 − 2 δ y i

h(x i ) ) e y i f t (x i )

#

= argmax h

"

X

i=1 m

e y i f t (x i )

!

− 2 X

i=1 m

δ y i

h(x i ) e y i f t (x i )

!#

= argmax h

"

− X

i=1 m

δ y i

h(x i ) e y i f t (x i )

#

= argmin h

"

X

i=1 m

δ y i

h(x i ) D t+1 (i)

#

avec D t+1 (i) = e −yift Z ( xi )

t ′ où Z t ′ est un simple facteur de normalisation afin que D t+1 puissent être interprété comme une distribution sur les x i , c.a.d. des poids sur les exemples qui somment à 1.

Notez que δ y i

h(x i ) vaut 0 si h(x i ) classifie correctement x i et 1 si h se trompe.

On peut alors écrire

h t+1 = argmin h E x ∼ D t+1 [δ y i

h(x i ) ]

où E x ∼ D t+1 indique l’espérance pour des x tirés selon la distribution empirique pondérée donnée par les paires exemple poids (x i, D t+1 (i)). On peut interpréter cette minimisation comme la min- imisation du taux d’erreur de classification pour cet ensemble pondéré de points avec les poids D t+1 : lorsqu’on se trompe pour un point x i qui a un poids D t+1 (i) on paye un coût D t+1 (i).

On peut donc trouver h t en entraînant un classifieur faible sur l’ensemble d’entraînement repondéré {(x 1, y 1 , D t+1 (1)),

, (x m, y m , D t+1 (m))}.

2

(3)

On notera que

D t+1 (i) = exp( − y i f t (x i )) Z t ′

= exp

− y i P

k=1

t α k h k (x i )

Z t

= D t (i) exp( − α t y i h t (x i )) Z t

ce qui correspond à la formule (récurrente) de repondération de l’algorithme AdaBoost classique, en posant D 1 (i) = m 1 et avec les Z t des facteurs de normalisation tels que D t+1 soit une distribu- tion (c.a.d. que les D t (i) somment à 1) et on a alors Z t ′ = m Q

q =1 t Z q .

Comment trouver α t+1

Une fois qu’on a trouvé h t+1 , on va chercher le α t+1 qui minimise R ˆ(f t+1 ) = R ˆ(f t + α t+1 h t+1 ):

α t+1 = argmin α 1 m

X

i=1 m

L(f t (x i ) + αh t+1 (x i ), y i )

Le α optimal est celui qui va annuler le gradient

∂R ˆ(f t + αh t+1 )

∂α = 1

m X

i=1

m ∂L(f t (x i ) + αh t+1 (x i ), y i )

∂α

Pour la fonction de coût L indiquée ci-haut, ceci peut se résoudre analytiquement et donne la formule pour α t+1 de l’algorithme AdaBoost classique.

Intérêt de cette façon de voir le boosting

Voir le boosting comme une descente de gradient dans l’espace des fonctions permet de généraliser la technique à d’autres fonctions de pertes, ou à des apprenants faibles qui ne sont pas des classifieurs binaires, ....

3

Références

Documents relatifs

Si le groupe G n’a pas de sous-représentation (sous- espace stable par tout G) non triviale alors les morphismes qui commutent à G sont scalaires (sur C ), [H2G2-T2, Proposition

Le raisonnement est similaire pour n impair. On cherche la meilleure approximation linéaire

Comme ces deux ensembles sont dans {0, 1, · · · , n} qui contient n + 1 éléments et que la somme de leurs nombres d'élément est strictement plus grande, leur intersection est

On dit que f est ind´ efiniment d´ erivable si f est k-d´ erivable pour

En déduire la limite de la suite (u n ).. En déduire qu'elle

http://fermin.perso.math.cnrs.fr/.. Zetlaoui

On peut aussi considérer que toute fonction pourrait être vue comme la dérivée d’une autre. 2) La nécessité de ne travailler que sur un intervalle I se justifiera par la suite. 3)

Par construction, ces racines sont réelles et distinctes (donc simples).. Nous avons obtenu