La r´etropropagation de l’erreur - "Une nouvelle fonction de coût régularisante dans les réseau

4.2 Apprentissage

4.2.2 La r´etropropagation de l’erreur

Pour l’apprentissage supervisé d’un perceptron multicouche, par correction d’erreur, l’algorithme le plus utilisé est l’algorithme de descente de gradient. Le calcul du gradient se fait en utilisant l’algorithme de la rétro-propagation de l’erreur. L’algorithme d’apprentissage utilisant ce procédé a été découvert par [Rumelhart, D. E. et al., 1986; Le Cun, 1987] et reste encore aujourd’hui la méthode d’apprentissage la plus largement utilisée.

Les algorithmes d’optimisation de fonction efficaces utilisent en général la dif-férentielle de la fonction considérée (c’est-à-dire son gradient quand elle est à valeurs réelles). Quand les fonctions de transfert utilisées dans les neurones et la fonction distance sont différentiables, alors l’erreur commise par un MLP est une fonction différentiable des coefficients synaptiques du réseau de neurones. L’al-gorithme de rétro-propagation permet justement de calculer le gradient de cette erreur de fa¸con efficace : le nombre d’opérations (multiplications et additions) à faire est en effet proportionnel au nombre de connexions du réseau, comme dans le cas du calcul de la sortie de celui-ci. Cet algorithme rend ainsi possible

l’ap-prentissage d’un MLP et permet d’apporter une réponse à l’apl’ap-prentissage qui devient complexe dans les réseaux multi-couches.

Un algorithme de descente de gradient repose sur une fonction de coût C, que l’on doit minimiser au cours d’une session d’apprentissage. Lors de cette der-nière les couples de vecteurs d’entrée et de sorties désirées (x_i,d_i) sont présentés séquentiellement au réseau au cours d’un cycle. A chaque neurone de sortie du réseau,i, on associe une valeur de sortie désirée di. Posons ici la fonction de coût quadratique C, comme étant :

C = ^X

x∈P

i∈O

(d^x_i −s^x_i)², (4.4) oùP est l’ensemble des exemples d’apprentissage,Oest l’ensemble des cellules de sortie,s^x_i est la valeur du neurone de sortieiaprès la présentation de l’exemple xetd^x_i est la valeur désirée pour le neurone correspondant. Il est à noter que cette fonction de coût quadratique n’est pas la seule possible mais que toute fonction dérivable en s et d peut être utilisée.

La modification des poids du réseau de neurones est réalisée à l’aide d’un algorithme de gradient qui est de la forme :

W^t+1 =W^t−α∇C(W^t) (4.5)

où la matrice W représente les poids du réseau,∇représente le gradient de la fonction de coût par rapport aux poids W et α représente un coefficient de modification des poids, appelé pas d’apprentissage.

Il existe deux méthodes principales de modification des poids du réseau liées

`a la mani`ere de calculer le gradient, soit en utilisant un gradient total : C = ^X

x∈P

i∈O

(d^x_i −s^x_i)² (4.6)

qui est une m´ethode globale encore appel´ee “batch”, soit en utilisant un gra-dient partiel :

C^x =^X

i∈O

(d^x_i −s^x_i)² (4.7)

qui est appelée méthode stochastique. Bottou présente dans [Bottou, 1991]

une comparaison des deux méthodes et il montre que la méthode stochastique est plus “rapide” que la méthode globale. Les propriétés de convergence de la rétro-propagation “standard” (telle que proposée dans [Rumelhart, D. E. et al., 1986; Le Cun, 1987]), en version stochastique et en version “batch” sont discutées

4.2. Apprentissage 71 dans [Bertsekas et Tsitsiklis, 1996].

Dans le cas stochastique, l’algorithme de r´etro-propagation du gradient de l’erreur se d´ecompose en trois phases :

– Présentation d’un vecteur d’entrée, x_i, aux neurones de la couche d’entrée puis calcul des sorties de tous les neurones du réseau de couche en couche jusqu’à obtenir les sorties des neurones de la couche de sortie. Sachant que la sortie d’un neuronei, quel qu’il soit, est :

si =f(ai) = f(

j=0

(w^t_ijsj)) (4.8)

oùai est l’activité présente à l’entrée du neurone,w_ij^t la connexion reliant le neuroneià un neuronej de la couche précédente¹,sj la sortie du neuronej de la couche précédente,f la fonction d’activation du neurone, t le numéro du cycle d’apprentissage etn le nombre d’entrées du neurone.

– Présentation du vecteur de sortie d_i associé à x_i sur les neurones de la couche de sortie de manière à calculer l’erreur commise par le réseau.

– Application de la procédure du calcul de gradient qui permet de modifier les poids du réseau en fonction de l’erreur commise (l’algorithme de rétro-propagation lui-même). Cependant, plutôt que de calculer les gradients par rapport aux poids, on préfère calculer les gradients par rapport à la valeur de l’activation de chaque neurone ai. En effet, elles sont en nombre plus faible et permettent de retrouver les gradients par rapport aux poids de la fa¸con suivante :

On utilise dans la suite pour le gradient la notation : G^x_i = ∂C^x

∂a^x_i (4.10)

Le calcul qui suit diffère selon que le neurone concerné appartient à une couche cachée ou à la couche de sortie :

– Pour un neuronei de la couche de sortie, O, et un exemple x:

1Rappelons que l’on se place dans le cas du perceptron multicouche sans connexion r´ecurrente.

G^x_i = ∂

La règle de modification des poids, quel que soit le poids concerné est alors : w_ij^t⁺¹ =w_ij^t −αG^x_is^x_j (4.17) aveciappartenant à la coucheN,j appartenant à la couche suivante dans le sens de la propagation,xl’exemple présenté etαun nombre réel positif, de faible valeur, qui représente le pas de déplacement en direction de la pente maximum. On peut résumer l’algorithme de rétropropagation à l’aide du schéma de la figure 4.2 où le sens du mot rétroprogation est bien perceptible.

La fonction de coût utilisée dans l’algorithme présenté ci-dessus possède un certain nombre de propriétés. Elle possède des minima locaux car le minimum global n’est pas forcément unique et elle peut être parsemée de plateaux qui ren-dent la convergence dans ces régions lente. Le choix du pas d’apprentissage est alors difficile. En effet, dans la rétro-propagation “standard” à pas fixe, avec un

Dans le document "Une nouvelle fonction de coût régularisante dans les réseaux de neurones artificiels : Application à l'estimation des temps de blocage dans un noeud ATM (Page 69-73)