Définition formelle des réseaux de neurones

Prédiction de la tension de contournement par les réseaux de neurones

V.2.2. Définition formelle des réseaux de neurones

Dans ce paragraphe nous présentons d'abord la structure des réseaux de neurones, puis leur fonctionnement en termes d'apprentissage.

V.2.2.1. Structure des réseaux de neurones [69]

En général on peut dire que les réseaux de neurones peuvent être caractérisés comme des modèles de calculs apprenant, généralisant et organisant des données.

Neurones cachés

Neurones de sortie Neurones d'entrée

Figure V.1. Schéma simple d'un réseau de neurone

Un réseau de neurone artificiel contient un grand nombre d'unités, les neurones, qui communiquent entre eux en s'envoyant des signaux à travers de liens, appelées connexions synaptiques. En général le système de neurone possède trois types des neurones :

100

 les neurones d'entrée qui reçoivent les données ;

 les neurones de sortie qui envoient les données par la sortie du système ;

 les neurones cachés, dont les signaux d'entrée et de sortie demeurent dans le système. Dans les réseaux de neurones artificiels on utilise une modélisation mathématique du neurone biologique, appelé neurone formel. Chaque neurone reçoit des valeurs d'entrées (ou des signaux d'entrée) par son neurone voisin et les utilise pour calculer le signal de sortie qui se propage par les autres neurones. En concordance avec ce processus on doit ajuster les poids des connexions synaptiques.

Sur la figure suivante on peut voir la structure d'un neurone artificiel. Le neurone calcule la somme de ses entrées puis cette valeur passe à travers la fonction d'activation pour produire sa sortie.

Figure V.2. Structure d'un neurone artificiel [69].

On peut alors caractériser un neurone formel par :

- un ensemble de connexions, appelées les connexions synaptiques qui permettent d'accepter les signaux d'entrée et qui sont définies par des poids synaptiques wnj

déterminant l'effet du signal par le neurone n sur le neurone j .

- une fonction de combinaison ou un additionneur qui réalise la somme pondérée netj. La somme pondérée est égale à :

Où wnjest le poids synaptique et xn est l'entrée. C'est la somme d'activation pondérée qui converge vers le neurone j ;

- une fonction d'activation φ qui anime le neurone en déterminant son activation ; (V-2) (V-1)

101

- une activation oj , équivalente de la sortie de neurone. Elle est égale à :

où Θj est le seuil de neurone j . Le seuil est une sorte de "poids local" qui est employé dans plusieurs types de fonctions d'activation.

Différents types de fonction d'activation peuvent être utilisés : - « hard limit transfert function » qui donne un résultat oj = hard lim(b) = 1 si b>0, sinon 0

- une fonction linéaire « purelin » qui donne un résultat oj= purelin (wnjxn + Θj )= b, ou b = wnjxn + Θ j

- une fonction sigmoïde qui se représente par On présente ces fonctions sur la figure V.3 :

Figure V.3. Différentes fonctions d’a tivatio pou les eu o es.

Parfois la sortie du réseau peut être une fonction probabiliste. Dans ce cas l'activation est déterminée par des neurones d'entrée qui détermine la probabilité p où le neurone peut avoir une valeur d'activation haute :

Où : T est la température qui détermine la pente de la fonction probabiliste. V.2.2.2. Apprentissage des réseaux de neurones [69, 73]

On entend par apprentissage d’un réseau, l’opération qui consiste à modifier les connexions dans le réseau lors de la présentation d’un vecteur d’entrée à celui-ci, la modification des poids se poursuit jusqu'à ce que ces derniers ne varient que d’une façon infirme. En effet, dans cette partie du travail, le réseau est entrainé pour être adapté à un type d’application. Ce travail d’apprentissage est réalisé à l’aide d’algorithmes appropriés qu’on verra par la suite.

(V.3)

102

L’apprentissage d’un réseau se fait généralement dans le contexte d’une tache ou d’un comportement à apprendre. Les informations à traiter sont codées sous la forme d’un vecteur appelé « patron d’entrée », qui est communiqué aux neurones d’entrée du réseau. La réponse du réseau s’interprète à partir de la valeur d’activation de ces neurones de sortie, dont le vecteur s’appelle « patron de sortie ». Lors d’un apprentissage supervisé, on dispose aussi du comportement de référence que doit apprendre le réseau, exprimé sous la forme de « patron de référence », ou « patron de sortie désirées ».

En général, l’apprentissage se fait sur une période relativement longue, durant laquelle les patrons d’entrées (et éventuellement de sorties désirées) peuvent être présentés au réseau un grand nombre de fois chacun. Cet apprentissage comprend quatre étapes de calcul :

1- Initialisation des poids synaptiques du réseau. En général, les poids trouvés par le réseau à la fin de l’apprentissage dépendent en partie de l’ensemble des poids dont il disposait au départ. La pratique courante est d’initialiser les poids du réseau à des petites valeurs aléatoires au début de l’apprentissage.

2-Présentation du patron d’entrée et propagation d’activation.

3-Calcul de l’erreur. Pour chaque neurone du réseau, une valeur d’erreur est calculée à partir de son activation et de celui des neurones qui lui sont reliés. Dans le cas d’un apprentissage supervisé, l’erreur tient aussi compte de la différence entre l’activation des neurones de sortie et de « patron de référence ».

4-Calcul du vecteur de correction. A partir des valeurs d’erreurs, on détermine alors la correction à apporter aux poids synaptiques des connexions et aux seuils des neurones. La correction effective des poids peut se faire après chaque présentation de patron. Le nombre de patrons à présenter au réseau avant d’effectuer la correction s’appelle « fenêtre de mise à jour ». Les étapes β, γ et 4 sont répétées jusqu'à la fin de l’apprentissage.

 Type d’apprentissage

103 a- Apprentissage supervisé

Ou l'apprentissage associatif : le réseau adaptatif W compare le résultat y qu'il a calculé, en fonction f (d, y) des entrées u fournies, et la réponse d attendue en sortie. Ainsi le réseau va se modifier jusqu'à ce qu'il trouve la bonne sortie d, c'est-à-dire celle attendue, correspondante à une entrée u donnée. Les différentes réponses sont connues à priori. On dispose d'une base d'apprentissage qui contient un ensemble d'observation sous forme des couples entrées/sorties associées. Les poids sont modifiés en fonction des sorties désirées.

b- Apprentissage non-supervisé

Ou auto organisation : l'apprentissage est basé sur des probabilités. Le réseau adaptatif W va se modifier en fonction des régularités statistiques de l'entrée u et établir des catégories, en attribuant et en optimisant une valeur de qualité, aux catégories reconnues. On ne sait pas à priori si la sortie y est valable ou non. Les entrées sont projetées sur l'espace de réseau.

Les deux types d'apprentissage ont pour but d'ajuster les poids de connexions entre les neurones, en s'accordant de certaines règles. Plus d’information concernant les règles les plus utilisées dans les différents types des réseaux peuvent être trouvée dans [69]. Nous citons ci-après les règles les plus répandues :

- la règle de Hebb, la règle delta, la règle d'apprentissage compétitive ,la règle de corrélation en cascade , la règle de correction d'erreurs et la règle de rétro-propagation.

- la règle de rétro-propagation inventée par Rumelhart, Hinton et Williams en1986 [Rumelhart, Hinton, et Williams, 1986]. Elle s'utilise pour ajuster les poids de la couche d'entrée à la couche cachée. Cette règle peut aussi être considérée comme une généralisation de la règle delta pour des fonctions d'activation non linéaire et pour des réseaux multicouches. Les poids dans le réseau de neurones sont au préalable initialisés avec des valeurs aléatoires. On considère ensuite un ensemble de données qui vont servir à l'apprentissage. Chaque échantillon possède ses valeurs cibles qui sont celles que le réseau de neurones doit à terme prédire lorsqu’on lui présente le même échantillon.

Dans le document Modélisation du contournement sur isolateur réel pollué. (Page 112-116)