Réseaux de neurones artificiels - Com man de Prédi ctive Générali sée Neur onale

Com man de Prédi ctive Générali sée Neur onale

3.4 Réseaux de neurones artificiels

Un réseau de neurones artificiels est un processeur parallèle de traitement d’informations distribuées, qui présente une organisation naturelle à la mémorisation et à l’exploitation de connaissances relatives à l’environnement dans lequel il est immergé, connaissances acquises à partir de l’expérience. Sa structure repose sur une interconnexion massive de cellules élémentaires de traitement d’information, appelées neurones formels.

L’intérêt des réseaux de neurones artificiels réside dans le parallélisme de leur structure, leur capacité d’adaptation, leur mémoire distribuée ainsi que leur capacité de généralisation émergeant de l’apprentissage, c.-à-d., l’aptitude à présenter un comportement acceptable en réponse à des stimuli externes de son environnement non rencontrés lors de l’apprentissage (interpolation et extrapolation).

3.5 Architectures des réseaux de neurones

3.5.1 Réseaux non bouclés

 Un réseau de neurones non bouclé (non récurrent) est représenté graphiquement par un ensemble de neurones connectés entre eux, l’information circulant des entrées vers les sorties sans retour en arrière. Le temps n'intervient pas comme variable fonctionnelle, c.-à-d., le réseau n'a pas de mémoire et ses sorties ne dépendent pas de son passé.

 Un réseau non bouclé typique est le perceptron multicouche (PMC), un perceptron étant un neurone formel (Figure 3.2) dont la sortie est calculée par la formule (pour une fonction d’activation seuil):

{ ∑

 Un perceptron multicouche est constitué de plusieurs neurones interconnectés d’une façon similaire au réseau de neurone biologique (Figure 3.3). En général, les signaux se propagent progressivement à travers le réseau seulement entre couches adjacentes. Ces signaux sont modifiés par les poids des connexions entre les neurones utilisant des fonctions d’activation, principalement, des fonctions à seuil ou sigmoïdes.

56 1 1 ˆy 2 ˆy Wi,j wj,l 1 x3 x2 x1 f2 F2 f1 F2 l j i

Figure 3.3 : Réseau PMC à deux couches

[3 entrées, une couche cachée à 2 neurones et 2 sorties] La formule mathématique exprimant un réseau PMC est de la forme :

̂ [ ] [∑ (∑ ) ]

Où spécifie le vecteur paramètre contenant tous les paramètres ajustables du réseau, à savoir poids



_Wi, j , _wj,l



et biais



_Wi,0 , _wj,0



(les biais sont interprétés comme étant des poids provenant d’une entrée réduite à 1). et étant le nombre de neurones des couche d’entrée et cachée respectivement.

3.5.2 Réseaux récurrents

Un système dynamique, S (Figure 3.4), peut être décrit comme une fonction de ses entrées et sorties passées :

[ ]

Où est le multiple de la période d’échantillonnage donnant sortie au temps présent et ) sortie observée au temps d’échantillonnage précédent, etc.

Figure 3.4 : Système dynamique à une entrée et une sortie sortie,y(t)

Un réseau PMC peut être utilisé pour approximer S si les entrées du réseau (x₁, x₂, …) sont choisies comme les sorties passées et les entrées passées :

̂ [ ] ∑ (∑

)

A l’opposé des réseaux non bouclés, les réseaux récurrents sont le siège de contre réactions synchrones ou asynchrones en fonction du temps. Pour ces réseaux le temps intervient et le comportement des cellules du réseau est régi, en général, par des équations différentielles non linéaires.

Pour un réseau non bouclé il existe une relation algébrique entre entrées et sorties, alors qu’un réseau récurrent contient une mémoire : c’est un système dynamique. Les réseaux récurrents représentent une classe d’architectures plus générale car ceux non récurrents en sont un cas spécial. L’expression mathématique du réseau de la figure 3.5 est de la forme :

̂ [ ] , ^[∑ ] [∑ (∑ ∑ ) ](3.5) La récurrence peut être implémentée de différentes manières. Si, en plus, les neurones de sortie sont rétro propagés en arrière, le réseau est dit totalement récurrent.

Figure 3.5 : Exemple d’un réseau récurrent

[Neurones cachés réinjectés comme entrées ; les boucles contiennent un temps de retard]

3.6 Apprentissage des réseaux de neurones:

3.6.1 Définition:

Pour un réseau de neurone, l’apprentissage peut être considéré comme le problème de la mise à jour des poids des connexions au sein du réseau, afin de réussir la tâche qui lui est demandée. L’apprentissage est la caractéristique principale des réseaux de neurones et il peut se faire de différentes manières et selon différentes règles et algorithmes.

j 1 1 ˆy 2 ˆy Wi,j wj,l 1 x3 x₂ x1 f2 F2 f1 F2 l _i

58 3.6.2 Types d’apprentissage :

On distingue trois familles d'apprentissage en fonction de la nature des informations disponibles et du but recherché.

[a] Apprentissage supervisé :

Pour lequel il est nécessaire de disposer d'un ensemble de couples de données (entrées du réseau; sorties désirées correspondantes), appelées exemples ou patrons donnés par un expert. La différence entre la sortie du réseau et la sortie désirée donne ainsi une mesure d'erreur quantitative sur le calcul effectué par le réseau, qui est utilisée pour réaliser l’adaptation.

Figure 3.6 : Illustration de l’apprentissage supervisé [b] Le renforcement :

Sous la forme décrite, l’apprentissage supervisé présente une forte contrainte opératoire : l’intervention d’un expert qui fournit précisément les réponses désirées. Une forme d’apprentissage supervisé moins contraignante consiste à instruire ou entraîner le réseau par tâtonnement en procédant par essais et erreurs. Le réseau est, alors, stimulé par l’environnement et ses réponses sont sanctionnées ou récompensées afin de l’inciter à adopter le bon comportement. Cette variante d’apprentissage supervisé est qualifiée d’apprentissage renforcé (ou semi-supervisé).

Figure 3.7 : Illustration de l’apprentissage non supervisé

Signaux d’erreurs Réponses du réseau + Stimuli Environnement Expert Réseau de Neurones Réponses désirées Stimuli

[c] L’apprentissage non supervisé :

Contrairement à l’apprentissage supervisé effectué sous contrôle d’un expert, l’apprentissage non supervisé est autodidacte. L’ensemble des exemples d’apprentissage ne comprend que des stimuli, et aucune réponse désirée n’est associée. Il est souvent réalisé en ligne : Les poids et les biais sont ajustés à chaque itération en réponse des entrées seules du réseau.

3.6.3 Méthodes d’apprentissage :

Le problème d’apprentissage peut être formulé comme suit [37] : soit un ensemble de données {[ ] } (3.6)

Et soit un ensemble de modèles candidats

̂ [ ] (3.7)

Le but de l’apprentissage est de déterminer une mise en correspondance de l’ensemble de données vers l’ensemble de modèles candidats

Θ (3.8) De telle sorte que le modèle obtenu fournit des prédictions qui sont proches des sorties réelles du système. Une des mesures de cette proximité, en termes d'erreur des moindres carrés, est le critère [20]:

∑[ ̂ ] ∑

Les méthodes d’apprentissage qu’on présentera ci-dessous sont basées sur la méthode erreur de prédiction. Cette méthode consiste à déterminer les poids d’un réseau minimisant le critère :

Θ̂ Θ

Quand le critère est quadratique par rapport à l’erreur de prédiction, comme dans (Eq.3.10), l’apprentissage est le soi-disant problème des moindres carrés non linéaires ordinaire. On rencontre les problèmes des moindres carrés non linéaires dans divers domaines et il existe plusieurs méthodes pour les résoudre.

60 Le développement du second ordre des séries de Taylor du critère (Eq. 3.9) dans Θ est : (Θ ) (Θ ) Θ Θ (Θ ) Θ Θ Θ Θ Θ ) (3.11) Où le gradient est défini par :

et le Hessien par :

⁽ ⁾

Avec

Une condition suffisante pour que *

soit un minimum de VN (θ, ZN

) est que le gradient soit nul ainsi que la matrice Hessienne soit définie positive, c.-à-d.,

(3.14)

Pour tout vecteur non nul La recherche du minimum commence par une supposition sur les paramètres, θ⁽⁰⁾, puis l’ajustement des paramètres se fait généralement par la forme itérative suivante :

Où

Est l’itération actuelle, est la direction de recherche, et est la taille de l’étape. L’itération est effectuée jusqu’à ce que θ(i)

soit suffisamment proche du minimum ˆ. Dans ce qui suit, nous présenterons quelques méthodes considérées comme particulièrement pertinentes pour l’apprentissage des réseaux de neurones.

Dans le document Application de la Commande Prédictive Généralisée Cas- d'un Procédé de l'industrie Pétrochimique (Page 55-60)