8. 3 .Apprentissage du perceptron par la Rétro- propagation du Gradient…78

Une fois l'architecture d'un réseau de neurones est choisie, il est nécessaire d'effectuer un appren-tissage pour déterminer les valeurs des poids permettant à la sortie du réseau de neurones d'être aussi proche que possible de l'objectif fixé. Dans le cas d'un problème de régression, il s'agit d'approcher une fonction continue, dans le cas d'un problème de classification, il s'agit de déter-miner une surface de séparation .Cet apprentissage s'effectue grâce à la minimisation d'une fonc-tion, appelée fonction de coût, calculée à partir des exemples de la base d‟apprentissage et de la sortie du réseau de neurones [33][35].

Nous allons effectuer cet apprentissage en deux temps : une rétro-propagation de l‟erreur quadra-tique et une minimisation de cette erreur en utilisant l‟algorithme de descente du gradient [36].

IV.8. 3 .1.Règle des moindres carrés pour un perceptron monocouche linéaire

Étudions le cas d'une couche (N = 1) ayant une fonction de transfert linéaire. Pour commencer on va s'intéresser à une couche ne contenant qu'un seul neurone (𝑠₁ = 1). Notre modélisation du réseau étant linéaire, on passera facilement au cas de plusieurs neurones en appliquant nos résul-tats [26] [34].

À chaque stimulus qu'on applique en entrée du réseau (sous la forme d'un vecteur), on obtient une sortie 𝑦 qui est a priori différente de la sortie désirée 𝑦𝑑 . On peut donc définir l'erreur pour chaque stimulus :

𝐸 = 𝑦 − 𝑦𝑑 (IV. 10)

L'erreur quadratique étant le carré de cette erreur

𝜀 = 𝐸2 (IV. 11) La règle de moindre carré consiste à modifier les coefficients (poids et biais) de la couche de manière à réduire l'erreur quadratique.

Pour cela on va "descendre le gradient", c'est-à-dire modifier les coefficients de 𝑊 et 𝑏 dans la direction de diminution de l'erreur quadratique.

IV.8. 3 .2.Algorithme de descente du gradient

Le calcul du vecteur gradient de l'erreur quadratique 𝛻𝜀 se fait en mettant : 𝑊 = [𝑤𝑖𝑗 ] et 𝑋 = [𝑥𝑗 ] (𝑖 = 1 𝑒𝑡 1 ≤ 𝑗 ≤ 𝑒1) ∇𝜀 _𝑗 = ^𝜕𝜀 𝜕𝑤_1𝑗 ⁼ 𝜕𝐸2 𝜕𝑤_1𝑗 ^{= 2𝐸} 𝜕𝐸 𝜕𝑤_1𝑗 ^{= 2𝐸} 𝜕 𝑦 − 𝑦_𝑑 𝜕𝑤_1𝑗 ^{(IV. 12)} ∇𝜀 _𝑗 = 2𝐸^{𝜕 𝑊. 𝑋 − 𝑏 − 𝑦}^𝑑 𝜕𝑤_1𝑗 ^{(IV. 13)} ∇𝜀 _𝑗 = 2𝐸^{𝜕 𝑊. 𝑋} 𝜕𝑤_1𝑗 ^{= 2𝐸} 𝑤_1𝑘𝑥_𝑘 𝑒₁ 𝑘=1 𝜕𝑤_1𝑗 ^{= 2𝑥}^𝑗^{𝐸 (IV. 14)} Et bien que : ∇𝜀 = 2𝐸𝑋 (IV. 15) Et d‟autre part nous avons :

𝜕𝜀 𝜕𝑏^{= 2𝐸}

𝜕 𝑊. 𝑋 − 𝑏 − 𝑦_𝑑

𝜕𝑏 = −2𝐸 (IV. 16) Il devient donc très facile d'obtenir le gradient de l'erreur : il suffit de multiplier l'erreur par le stimulus d'entrée.

Pour diminuer l'erreur, la correction consiste à retrancher aux coefficients les gradients obtenus multipliés par une quantité positive 𝜂 appelée vitesse d‟apprentissage [34].

Le choix de cette constante d'apprentissage, dans l‟intervalle [0,1] est très important pour l‟évolution de l'apprentissage du réseau.

• une valeur de 𝜂 grande assure une convergence rapide de l‟algorithme, mais elle peut déter-miner des oscillations du réseau.

• une constante réduite variant dans l‟intervalle [0.05, 0.25] a comme effet la croissance du temps de convergence et peut conduire plus souvent à blocage dans un minimum local [34]. On affecte ces nouvelles valeurs aux coefficients de la couche :

𝑊 𝑡 + 1 = 𝑊 𝑡 − 𝜂∇𝜀 = 𝑊 𝑡 − 2𝜂EtX (IV. 10)

𝑏 𝑡 + 1 = 𝑏 𝑡 − 𝜂^𝜕𝜀

𝜕𝑏= 𝑏 𝑡 + 2𝜂𝐸 (IV. 11)

Figure (IV.10) La descente du gradient [34]

Dans le cas le plus général où on a un nombre 𝑠1 de neurones dans notre couche, ce qui impose un biais B et une matrice de poids𝑊, l'erreur quadratique est un réel positif qui s'exprime comme le carré de la norme de la vectrice erreur : 𝐸 = 𝑌 − 𝑌_𝑑 soit :

𝜀 = Et. E (IV. 12) Pour chaque neurone i , on modifie la composante du vecteur 𝐵 et la ligne de la matrice 𝑊 cor-respondante de la même manière sous forme matricielle.

1 ≤ 𝑖 ≤ 𝑠₁ 𝑊 𝑡 + 1 = 𝑊 𝑡 − 2𝜂𝐸𝑡𝑋 (IV. 13) 1 ≤ 𝑗 ≤ 𝑒1 𝐵 𝑡 + 1 = 𝐵 + 2𝜂𝐸 (IV. 14) IV.8. 3 .3.Algorithme de la Retro-propagation pour un perceptron simple

Etape1 : Initialisation des poids 𝑊𝑖𝑗^𝑘 et les seuils internes à des petites valeurs aléatoires Etape 2 : Introduction du vecteur d‟entrée et de sortie désirée, correspondant.

Etape 3 : Calcul de la sortie du réseau.

Etape 4 : Calcul de l‟erreur de sortie en utilisant les expressions : 𝐸 = 𝑦 − 𝑦𝑑 𝑒𝑡 𝜀 = 𝐸2. Etape 5 : Calcul du gradient de l‟erreur par rapport aux poids en utilisant l‟expression :

∇𝜀 _𝑗 = ^𝜕𝜀 𝜕𝑤_1𝑗

Etape 6 : Ajustement des poids selon l‟expression : 𝑊 𝑡 + 1 = 𝑊 𝑡 − 𝜂∇𝜀.

Etape 7 : Si la condition sur l‟erreur ou sur le nombre d‟itérations est atteinte, aller à l‟étape 8 sinon aller à l‟étape 2.

Etape 8 : Fin

.

IV.8. 3 .4 Le cas d’un perceptron multicouche

Figure(IV.11) : Perceptron multicouche [34]

Dans le cas d'un perceptron quelconque à N couches, on observe deux différences par rapport à l'étude précédente :

- les fonctions d'activation de chaque couche ne sont pas forcément linéaires.

- les données du "professeur" qui permettent la correction ne concernent que la sortie de la dernière couche (couche de sortie).

Il va alors falloir trouver un moyen de corriger les couches une par une en partant de la dernière et en remontant pas à pas jusqu'à la première. C'est en quoi consiste la méthode de rétro-propagation du gradient.

Dans le cas d‟un perceptron multicouche nous décomposerons l‟ensemble des calculs afin de faire apparaitre toutes les opérations élémentaires ce qui simplifiera la présentation des démons -trations [27][35].

IV.8. 3 .4 .1.L’expression l’erreur 𝜀_𝑟 = 𝑦_{𝑑 𝑘𝑟} − 𝑦_𝑘𝑟 2

𝑘_𝑠

𝑘=1

(IV. 15)

La première étape examine la variation de l‟erreur par rapport aux poids 𝑤_𝑖𝑗^𝑞 qui est une Composition d‟erreur par rapport au potentiel du neurone 𝑖 de la couche 𝑞 mais également

de la variation de ce potentiel en fonction des poids incidents 𝑤_𝑖𝑗^𝑞 Le potentiel 𝑛𝑖 est choisi car il dépend de 𝑤_𝑖𝑗^𝑞 .Donc :

𝜕𝜀_𝑟 𝜕𝑤_𝑖𝑗^𝑞 ⁼ 𝜕𝜀_𝑟 𝜕𝑛_𝑖𝑗^𝑞 𝜕𝑛_𝑖𝑗^𝑞 𝜕𝑤_𝑖𝑗^𝑞^{(IV. 16)}

Figure (IV.12) Propagation à travers les couches [34]

Le premier terme de cette décomposition est appelé signal d’erreur instantané et il se note de la façon suivante :

−𝛿_𝑖𝑟^𝑞= ^𝜕𝜀^𝑟

𝜕𝑛_𝑖𝑗^𝑞^{(IV. 17)} L‟expression (IV. 17) dépend de la couche 𝑞 cela nous permettra de développer une forme ré-currente pour son évaluation sur une couche interne à partir de ce que nous désirons en sortie. Considérons un neurone 𝑖 placé sur une couche interne 𝑞 son potentiel est calculé à partir des sorties de la couche précédente pondérées par les poids incidents (Figure(IV.12)). Cette variation de potentiel par rapport aux poids s‟écrit :

𝜕𝑛_𝑖𝑗^𝑞 𝜕𝑤_𝑖𝑗^𝑞⁼

𝜕 ^𝑘𝑞 𝑤_𝑖𝑘^𝑞𝑥_𝑗𝑟^𝑞 𝑘=1

𝜕𝑤_𝑖𝑘 (IV. 18) Avec 𝑘𝑞 le nombre de neurones sur la couche 𝑞 .

Le calcul de ce terme est immédiat et montre que le niveau d‟activation ne dépend que de l‟entrée des neurones.

𝜕𝑛_𝑖𝑗^𝑞

𝜕𝑤_𝑖𝑗^𝑞^{= 𝑥}^𝑗𝑟

𝑞 (IV. 19)

Par regroupement des deux membres de l‟équation IV. 17 et (IV. 19) nous trouvons une forme simplifiée du gradient de l‟erreur par rapport aux poids :

𝜕𝜀_𝑟

𝜕𝑤_𝑖𝑗^𝑞 ^{= −𝛿}^𝑖𝑟

𝑞 𝑥_𝑗𝑟^𝑞 (IV. 20)

Dans le document Dispatching economique dans un système de puissance electrique par l'intelligence artificielle (Page 95-100)