Le boosting vu comme une descente de grandient dans l’espcace des fonctions

(1)

Le boosting vu comme une descente de grandient dans l’espcace des fonctions

Pascal Vincent

Avril 2007

Notation

Les notations que j’utilise ici suivent celles utilisées dans le tutoriel sur l’AdaBoost classique de Jiri Matas et Jan Sochman.

Ensemble d’apprentissage: {(x 1 , y 1 ),

, (x m , y m )}, x i ∈ X , y i ∈ { − 1, + 1}

Classifieur faible choisi à l’étape t: h t : X → { − 1, + 1}

Poids du classifieur h t : α t

La fonction discriminante du classifieur fort à l’étape t est obtenu par une combinaison linéaire de tous les classifieurs faibles obtenus à cette étape:

f t (x) = X

t ^′ =1 t

α t h t (x)

La décision du classifieur fort à l’étape t est H t (x) = sign(f t (x))

Le classifieur fort final est obtenu à l’étape T et correspond à la fonction dscriminante f = f T et à la fonction de décision H = H T

Fonction de coût (perte) et descente de gradient dans l’espace des fonctions

Définissons une fonction de coût L(f (x), y) = e ⁻ ^{y f(x)} .

Notez que la quantité y f (x) est positive si f (x) est du mêm signe que y donc que la fonction f prédit la bonne classe pour x. La magnitude de y f(x), qu’on appelle la marge , peut être inter- prêtée comme la confiance qu’a le classifieur f en sa prédiction: si c’est fortment positif alors le classifieur fait la bonne prédiction avec une grande confiance, si c’est fortement négatif il a très confiance en sa prédiction mais se trompe.

A partir d’une telle fonction de coût, on peut définit un coût moyen sur les exemples d’appren- tissage, c.a.d. le risque empirique

R ˆ(f ) = 1 m

X

i=1 m

L(f (x i ), y i )

qu’on veut minimiser.

On va à chaque étape t ajouter à f un classifieur faible h t avec un poids α t dans le but de réduire le plus possible ce risqe empirique R ˆ .

1

(2)

Comment trouver h _t+1

Pour diminuer le risque empirique R ˆ , il faudrait changer f de manière à changer le vecteur de prédicitons (f (x 1 ),

, f(x m )) dans la direction opposée du vecteur de gradient:

∇R ˆ(f ) = ∂R ˆ

∂f (x 1 ) ,

, ∂R ˆ

∂f (x m )

!

=

∂L(f (x 1 ), y 1 )

∂f (x 1 ) ,

, ∂L(f (x m ), y m )

∂f (x m )

= ∂e ⁻ ^y ¹ ^f(x ¹ ⁾

∂f (x 1 ) ,

, ∂e ⁻ ^y ^m ^f(x ^m ⁾

∂f (x m )

!

=

− y 1 e ⁻ ^y ¹ ^f(x ¹ ⁾ ,

, − y m e ⁻ ^y ^m ^f(x ^m ⁾

Pour ce faire, on va chercher un h t+1 = h (à ajouter à f t ) qui donnerait un vecteur h

^G

= (h(x 1 ),

, h(x m )) allant le plus possible dans le sens opposé de ce gradient, c.a.d. qu’on va chercher une fonction h qui maximise le produit scalaire D

h

^G

, − ∇R ˆ(f ) E .

h t+1 = argmax h

"

X

i=1 m

h(x i ) y i e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

#

Si on suppose que h est un classifieur binaire donnant une réponse dans { − 1, + 1}, on peut réécrire h(x i )y i = 1 − 2 δ y _i h(x i ) , où δ représente la fonction indicatrice, donc

h t+1 = argmax h

"

X

i=1 m

(1 − 2 δ y _i

h(x i ) ) e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

#

= argmax h

"

X

i=1 m

e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

!

− 2 X

i=1 m

δ y _i

h(x i ) e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

!#

= argmax h

"

− X

i=1 m

δ y _i

h(x i ) e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

#

= argmin h

"

X

i=1 m

δ y _i

h(x i ) D t+1 (i)

#

avec D t+1 (i) = ^e ^−yift _Z ⁽ ^xi ⁾

t ′ où Z t ′ est un simple facteur de normalisation afin que D t+1 puissent être interprété comme une distribution sur les x i , c.a.d. des poids sur les exemples qui somment à 1.

Notez que δ y i

h(x i ) vaut 0 si h(x i ) classifie correctement x i et 1 si h se trompe.

On peut alors écrire

h t+1 = argmin h E x ∼ D t+1 [δ y i

h(x i ) ]

où E x ∼ D t+1 indique l’espérance pour des x tirés selon la distribution empirique pondérée donnée par les paires exemple poids (x i, D t+1 (i)). On peut interpréter cette minimisation comme la min- imisation du taux d’erreur de classification pour cet ensemble pondéré de points avec les poids D t+1 : lorsqu’on se trompe pour un point x i qui a un poids D t+1 (i) on paye un coût D t+1 (i).

On peut donc trouver h _t en entraînant un classifieur faible sur l’ensemble d’entraînement repondéré {(x 1, y 1 , D t+1 (1)),

, (x m, y _m , D t+1 (m))}.

2

(3)

On notera que

D t+1 (i) = exp( − y i f t (x i )) Z t ′

= exp

− y i P

k=1

t α k h k (x i )

Z _t ^′

= D t (i) exp( − α t y i h t (x i )) Z t

ce qui correspond à la formule (récurrente) de repondération de l’algorithme AdaBoost classique, en posant D 1 (i) = _m ¹ et avec les Z t des facteurs de normalisation tels que D t+1 soit une distribu- tion (c.a.d. que les D t (i) somment à 1) et on a alors Z t ′ = m Q

q =1 t Z q .

Comment trouver α _t+1

Une fois qu’on a trouvé h t+1 , on va chercher le α t+1 qui minimise R ˆ(f t+1 ) = R ˆ(f t + α t+1 h t+1 ):

α t+1 = argmin α 1 m

X

i=1 m

L(f t (x i ) + αh t+1 (x i ), y i )

Le α optimal est celui qui va annuler le gradient

∂R ˆ(f t + αh t+1 )

∂α = 1

m X

i=1

m ∂L(f t (x i ) + αh t+1 (x i ), y i )

∂α

Pour la fonction de coût L indiquée ci-haut, ceci peut se résoudre analytiquement et donne la formule pour α t+1 de l’algorithme AdaBoost classique.

Intérêt de cette façon de voir le boosting

Voir le boosting comme une descente de gradient dans l’espace des fonctions permet de généraliser la technique à d’autres fonctions de pertes, ou à des apprenants faibles qui ne sont pas des classifieurs binaires, ....

3

Le boosting vu comme une descente de grandient dans l’espcace des fonctions

Le boosting vu comme une descente de grandient dans l’espcace des fonctions

Pascal Vincent

Avril 2007

Notation

Les notations que j’utilise ici suivent celles utilisées dans le tutoriel sur l’AdaBoost classique de Jiri Matas et Jan Sochman.

Ensemble d’apprentissage: {(x 1 , y 1 ),

, (x m , y m )}, x i ∈ X , y i ∈ { − 1, + 1}

Classifieur faible choisi à l’étape t: h t : X → { − 1, + 1}

Poids du classifieur h t : α t

La fonction discriminante du classifieur fort à l’étape t est obtenu par une combinaison linéaire de tous les classifieurs faibles obtenus à cette étape:

f t (x) = X

t ′ =1 t

α t h t (x)

La décision du classifieur fort à l’étape t est H t (x) = sign(f t (x))

Le classifieur fort final est obtenu à l’étape T et correspond à la fonction dscriminante f = f T et à la fonction de décision H = H T

Fonction de coût (perte) et descente de gradient dans l’espace des fonctions

Définissons une fonction de coût L(f (x), y) = e − y f(x) .

A partir d’une telle fonction de coût, on peut définit un coût moyen sur les exemples d’appren- tissage, c.a.d. le risque empirique

R ˆ(f ) = 1 m

X

i=1 m

L(f (x i ), y i )

qu’on veut minimiser.

On va à chaque étape t ajouter à f un classifieur faible h t avec un poids α t dans le but de réduire le plus possible ce risqe empirique R ˆ .

1

Comment trouver h t+1

Pour diminuer le risque empirique R ˆ , il faudrait changer f de manière à changer le vecteur de prédicitons (f (x 1 ),

, f(x m )) dans la direction opposée du vecteur de gradient:

∇R ˆ(f ) = ∂R ˆ

∂f (x 1 ) ,

, ∂R ˆ

∂f (x m )

!

=

∂L(f (x 1 ), y 1 )

∂f (x 1 ) ,

, ∂L(f (x m ), y m )

∂f (x m )

= ∂e − y 1 f(x 1 )

∂f (x 1 ) ,

, ∂e − y m f(x m )

∂f (x m )

!

=

− y 1 e − y 1 f(x 1 ) ,

, − y m e − y m f(x m )

Pour ce faire, on va chercher un h t+1 = h (à ajouter à f t ) qui donnerait un vecteur h

= (h(x 1 ),

, h(x m )) allant le plus possible dans le sens opposé de ce gradient, c.a.d. qu’on va chercher une fonction h qui maximise le produit scalaire D

h

, − ∇R ˆ(f ) E .

h t+1 = argmax h

"

X

i=1 m

h(x i ) y i e − y i f t (x i )

#

Si on suppose que h est un classifieur binaire donnant une réponse dans { − 1, + 1}, on peut réécrire h(x i )y i = 1 − 2 δ y i h(x i ) , où δ représente la fonction indicatrice, donc

h t+1 = argmax h

"

X

i=1 m

(1 − 2 δ y i

h(x i ) ) e − y i f t (x i )

#

= argmax h

"

X

i=1 m

e − y i f t (x i )

!

− 2 X

i=1 m

δ y i

h(x i ) e − y i f t (x i )

!#

= argmax h

"

− X

t ^′ =1 t

Définissons une fonction de coût L(f (x), y) = e ⁻ ^{y f(x)} .

Comment trouver h _t+1

= ∂e ⁻ ^y ¹ ^f(x ¹ ⁾

, ∂e ⁻ ^y ^m ^f(x ^m ⁾

− y 1 e ⁻ ^y ¹ ^f(x ¹ ⁾ ,

, − y m e ⁻ ^y ^m ^f(x ^m ⁾

h(x i ) y i e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

Si on suppose que h est un classifieur binaire donnant une réponse dans { − 1, + 1}, on peut réécrire h(x i )y i = 1 − 2 δ y _i h(x i ) , où δ représente la fonction indicatrice, donc

(1 − 2 δ y _i

h(x i ) ) e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

δ y _i

h(x i ) e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

δ y _i

h(x i ) e ⁻ ^y ⁱ ^f ^t ^(x ⁱ ⁾

δ y _i

avec D t+1 (i) = ^e ^−yift _Z ⁽ ^xi ⁾

On peut donc trouver h _t en entraînant un classifieur faible sur l’ensemble d’entraînement repondéré {(x 1, y 1 , D t+1 (1)),

, (x m, y _m , D t+1 (m))}.

Z _t ^′

ce qui correspond à la formule (récurrente) de repondération de l’algorithme AdaBoost classique, en posant D 1 (i) = _m ¹ et avec les Z t des facteurs de normalisation tels que D t+1 soit une distribu- tion (c.a.d. que les D t (i) somment à 1) et on a alors Z t ′ = m Q

Comment trouver α _t+1