• Aucun résultat trouvé

Entraînement avec la rétro-propagation

f0(an

j)en

j lorsque j est un neurone de la couche de sortie

f0(an

j)(P

jδn

jyn

iwji) lorsque j est un neurone de la couche cachée, (A.22) pour toute couche de réseau de neurones adjacente i, j, y compris la couche de sortie où les sorties sont considérées comme ayant un indice j. La sensibilité est alors,

∂En

∂wji = δn

jyi. (A.23)

A.2 Entraînement avec la rétro-propagation

L’entraînement avec rétro-propagation ressemble beaucoup à la règle du delta ; les sensibilités sont utilisées pour corriger les poids proportionnels à un taux d’apprentissage constant ou à un paramètre de taille de pas γ.

Bien que la correction soit proportionnelle à la sensibilité, nous souhaitons réduire l’erreur En, et nous déplaçons donc le poids dans la direction opposée du gradient. Notons que, plutôt que d’optimiser directement la fonction d’erreur, on utilise généralement une perte de substitution qui est plus facile à optimiser. Formellement, la règle de changement de poids est donnée par,

∆wn

ij = −γ∂En

∂wji = −γδn

Figure A.3: Une illustration de l’effet du taux d’apprentissage et de la politique d’entraînement sur la convergence avec la rétro-propagation. Cet exemple est celui d’une surface d’erreur 2D symétrique, où les paramètres sont initialisés à l’un des points de la surface symétriquement identiques xi, où i = 0 . . . 4. Pour chacun des différents taux d’apprentissage initiaux γi, le taux d’apprentissage est diminué de 10% à chaque itération.

où δn

j est tel que défini dans Eq. A.22, et yi est la sortie du neurone i. La rétro-propagation est une méthode de descente la plus rapide. Ceci est illustré dans la figure A.3, où la règle d’entraînement de la rétro-propagation, Eq. A.24, spécifie une taille de pas sous la forme de taux d’apprentissage. Le paramètre de taux d’apprentissage met à l’échelle la taille de pas, ou l’ampleur du vecteur de changement de poids. La figure A.3 illustre également l’effet de la vitesse d’apprentissage sur la descente du gradient. Un taux d’apprentissage trop faible peut entraîner un apprentissage très lent, comme pour γ0, tandis qu’une taille de pas trop importante peut entraîner un rebondissement autour des minima (γ2, γ3), ou le fait de les manquer complètement.

Afin de s’installer dans un minima local, le taux d’apprentissage doit également être réduit au fur et à mesure de la progression de l’entraînement. Cependant, un taux de diminution trop rapide peut ne jamais atteindre le bassin d’attraction des minima locaux, comme avec γ0, tandis que si le taux de diminution est trop lent, il faudra beaucoup de temps pour entrer dans le bassin d’attraction, comme avec γ3.

L’équilibre entre la recherche d’un taux d’apprentissage approprié et une politique d’entraînement fait malheureusement partie de la "magie noire" de l’entraînement des DNN qui découle de l’expérience, mais [63, 122] sont d’excellentes références sur certaines des approches communes adoptées pour simplifier cette tâche.

A.2.1 Problème de l’optimisation du premier ordre

La raison pour laquelle le taux d’apprentissage et la politique d’entraînement ont un effet aussi important repose sur le fait que la descente de gradient est une méthode d’optimisation du premier ordre, et ne prend en compte que les dérivées partielles du premier ordre, c’est-à-dire que pour une surface d’erreur 2D E(x, y), la descente de gradient se déplace dans la direction opposée au gradient,

∇E(x, y) = (∂E

∂x, ∂E

∂y). (A.25) Ce gradient nous indique la direction de la croissance maximale en un point donné de la surface d’erreur, mais il ne nous donne aucune information sur la courbure de la surface à ce point. La courbure de la surface est décrite par des dérivées d’ordre supérieur telles que les dérivées partielles du second ordre, par exemple 2E

∂x2, et

les dérivées partielles mixtes, par exemple 2E

∂x2∂y2. Ces partielles du second ordre donnent des informations importantes sur la courbure de la surface d’erreur E. Par exemple, dans la figure A.3, la surface d’erreur prend une forme elliptique, ce qui pose des problèmes lorsque l’on considère uniquement la direction de la décroissance maximale −∇E. L’exemple classique d’une telle surface d’erreur pathologique pour les méthodes du premier ordre est une surface d’erreur qui ressemble à une vallée étroite, comme le montre la figure A.4 (a). Avec une initialisation à l’extérieur du fond de la vallée, la descente de la pente rebondit le long des parois de la vallée, ce qui entraîne une convergence d’apprentissage très lente.

Pour les surfaces bien comportées où l’échelle des paramètres est similaire, les bassins d’attraction autour d’un minimum sont à peu près circulaires, et évitent donc ce problème, puisque les gradients de premier ordre pointeront presque directement sur les minima pour tout endroit de la surface d’erreur.

Il existe des méthodes d’optimisation de second ordre basées sur la méthode de Newton, mais le problème est qu’elles ne s’adaptent pas à la taille d’un DNN pratique. La matrice des dérivés partiels du second ordre pour une fonction à valeurs scalaires, le Hessien H, est nécessaire pour toute méthode d’optimisation complète du second ordre, cependant le Hessien est carré dans le nombre de paramètres du réseau. Pour les réseaux de millions de paramètres, cela signifie que le stockage du Hessien est impossible.

Il existe toute une série d’astuces d’optimisation pour la descente de gradient, en essayant souvent de compenser les défauts de l’optimisation de premier ordre sans utiliser le Hessien, ou en utilisant une approximation de celui-ci. Un historique complet des problèmes d’optimisation dans les DNN est hors de la portée de cette

Figure A.4: Courbure pathologique. Une surface d’erreur E(x, y) présentant une vallée étroite, et le chemin optimal du point de départ jusqu’aux minima indiqués par la flèche rouge. Dans une surface d’erreur pathologique comme celle-ci, les méthodes de premier ordre ne peuvent pas utiliser les informations fournies par le Hessian sur la courbure de la surface pour éviter de rebondir le long des parois de la vallée, ce qui ralentirait la descente. La méthode des moments atténue quelque peu ce problème en amortissant le changement de direction, en préservant les informations sur les gradients précédents, ce qui permet une descente plus rapide.

thèse, cependant les lecteurs intéressés devraient se référer à [63] pour en savoir plus sur ces méthodes, et à [123] pour une excellente introduction aux problèmes de l’optimisation du premier et du second ordre dans les DNN.