• Aucun résultat trouvé

4.4 Une nouvelle fonction de coˆ ut r´egularisante

4.4.1 Pr´esentation

Motivation

Le choix de la capacit´e d’un r´eseau de neurones est primordial pour ses ca-pacit´es d’apprentissage et de g´en´eralisation. Si le mod`ele est trop simple, il sera incapable d’apprendre la fonction souhait´ee, s’il est trop complexe, il sera inca-pable de g´en´eraliser, (bien que cainca-pable sans peine de passer par tous les points de l’ensemble d’apprentissage). En fait, dans le second cas, l’espace des solutions

4.4. Une nouvelle fonction de coˆut r´egularisante 79 admissibles est beaucoup trop grand. La fonction de coˆut est aussi l’un des plus importants facteurs contrˆolant les performances d’un perceptron multicouche.

La fonction de coˆut la plus utilis´ee est la fonction quadratique [Rumelhart, D. E. et al., 1986] avec pour crit`ere d’arrˆet le passage `a un seuil de l’erreur qua-dratique moyenne obtenue sur l’ensemble de validation. Nous appellerons cette m´ethode “MSE” dans tout ce qui suit.

De nombreux algorithmes ont ´et´e propos´es pour acc´el´erer l’apprentissage, pour trouver le “bon” pas d’apprentissage, ou trouver la bonne m´ethode d’arrˆet de l’apprentissage, mais ils sont tr`es souvent destin´es `a la minimisation de cette fonction de coˆut MSE. On peut noter cependant que bien qu’elle vise `a r´eduire la norme des erreurs commises par le r´eseau, elle n’a aucun pouvoir de contrˆole sur la distribution de ces derni`eres au cours de l’apprentissage. Or, contrˆoler la “forme”

de la distribution des erreurs lors de la phase d’apprentissage nous a sembl´e ˆetre un probl`eme de grande importance notamment dans le cas des probl`emes de classification o`u la notion de marge de classification s’impose d’elle-mˆeme.

En d’autres termes, est-il possible de contrˆoler la convergence de l’algorithme d’apprentissage de mani`ere `a contrˆoler la forme de la distribution des erreurs et ainsi d’am´eliorer la robustesse de l’apprentissage? Un contrˆole de la forme de la distribution des erreurs permet-il un contrˆole de la capacit´e du r´eseau de neurones et donc une meilleure g´en´eralisation ? Dans ce qui suit une nouvelle fonction de coˆut est propos´ee dans ce but.

Cette nouvelle fonction de coˆut et ses conditions d’utilisation sont d´ecrites dans la pr´esente section. La section 4.4.2 est une comparaison entre la nouvelle fonction de coˆut et la fonction de coˆut MSE, dans le cadre d’un probl`eme de d´etection de visages `a l’aide d’un unique perceptron multicouche.

Dans la section 4.4.3 on s’attachera `a r´ealiser une autre comparaison entre les deux fonctions de coˆut sur un autre probl`eme de classification qualifi´e de benchmark. Le but sera de comparer les r´esultats obtenus par la technique de Bagging mise au point par Breiman [Breiman, 1994] [Bishop, 1997] et plus parti-culi`erement les r´esultats affich´es dans [Quilan, 1998] obtenus avec la fonction de coˆut MSE avec ceux obtenus par la nouvelle fonction de coˆut. Enfin une derni`ere comparaison sera r´ealis´ee sur un probl`eme de pr´ediction de s´erie temporelle au cours de la section 4.4.4.

Description

Une mani`ere de contrˆoler la forme de la distribution des erreurs au cours de l’apprentissage est la prise en compte d’un moment d’ordre 4 des erreurs : la va-riance des erreurs quadratiques, en plus de l’erreur quadratique classique.

La fonction de coˆut `a minimiser devient :

Cx =X qui peut s’´ecrire sous la forme de l’addition de deux coˆuts :

Cx =X

i∈O

Cquadx +X

i∈O

Cvarx (4.20)

o`u P est l’ensemble des exemples d’apprentissage, O est l’ensemble des neu-rones de sortie, sxi est la valeur du neurone de sortie i apr`es la pr´esentation de l’exemple x etdxi est la valeur d´esir´ee pour le neurone correspondant.

Nous avons utilis´e la m´ethode stochastique et dans ce cas le gradient attach´e

`a un neurone de sortie i pour une pr´esentation d’un exemple x est :

Gxi = ∂Cix

donc, sif est la fonction de transfert d’un neurone :

Gxi = ∂Cix Le gradient peut ˆetre ´ecrit sous la forme :

Gxi = −2f0(axi)(dxi −sxi)

− 4

Pf0(axi)(dxi −sxi)(dxi −sxi)2−M SE (4.25) ou encore :

4.4. Une nouvelle fonction de coˆut r´egularisante 81

Gxi =Gxiquad(1 +γ) (4.26)

avec

γ = 2 P

(dxi −sxi)2−M SE (4.27) ou MSE repr´esente l’erreur quadratique moyenne obtenue sur tous les exemples avant la pr´esentation de l’exemplex.

On s’aper¸coit que ce gradient peut ˆetre vu comme le gradient utilis´e habi-tuellement, dˆu `a l’erreur quadratique, mais corrig´e, pond´er´e, parγ qui repr´esente une mesure entre l’erreur quadratique commise sur l’exemple x et l’erreur qua-dratique moyenne commise sur l’ensemble des exemples. Dans tout ce qui suivra nous appellerons cette m´ethode d’apprentissage “VMSE” pour “Variance and Mean Squared Error”. Le principe du calcul du gradient d’un neurone cach´e est

`a l’identique de la r´etro-propagation de l’erreur quadratique (m´ethode MSE).

La loi de modification des poids En reprenant l’´equation 4.25 on pose :

Gxi =Gxiquad +Gxivar (4.28) avec

Gxiquad =−2f0(axi)(dxi −sxi) (4.29)

Gxivar =−4

Pf0(axi)(dxi −sxi)(dxi −sxi)2−M SE (4.30) La loi de modification des poids devient alors :

∆wt+1ijquadGxiquadsjvarGxivarsj +β∆wijt (4.31) avec αquad le pas d’apprentissage sur l’erreur quadratique, αvar le pas d’ap-prentissage sur la variance de l’erreur quadratique etβl’inertie (terme qui permet d’acc´el´erer la convergence [Plaut et al., 1986]).

Impl´ementation de la r´etropropagation

Du fait de la n´ecessit´e de calculer l’erreur quadratique moyenne et la variance de l’erreur quadratique moyenne apr`es chaque modification des poids, le temps de calcul peut devenir tr`es important. En effet pour chaque pr´esentation d’un exemple il faut r´ealiser P propagations et 1 r´etro-propagation. Aussi, afin de r´eduire les temps de calcul nous utiliserons l’algorithme suivant qui, comme nous le verrons plus loin, permet d’introduire une contrainte plus forte sur le contrˆole de la forme de la distribution des erreurs et d’ajouter de la stabilit´e au processus d’apprentissage :

? pour toutes les it´erations – pour tous les exemples x

– calcul de fw(x)

– calcul de Gxquad etGxvar pour les neurones de sorties – calcul de Gxquad etGxvar pour les neurones cach´es – modifications des poids

– calcul de l’erreur quadratique moyenne et de la variance de l’erreur quadratique moyenne

Normalisation des pas d’apprentissage

Dans les diff´erentes ´etudes comparatives que nous allons pr´esenter ci-apr`es et pour ´etudier l’influence du terme ajout´e dans la fonction de coˆut on d´efinit la variable ν par :

ν = αvarP αquad

= αvar0 αquad

(4.32) ou P repr´esente la taille de l’ensemble utilis´e dans le calcul de la MSE (le nombre d’exemples d’apprentissage).