Fondements des réseaux connexionnistes - Les réseaux connexionnistes en RAP

Chapitre III: Les réseaux connexionnistes en RAP

2. Fondements des réseaux connexionnistes

Un réseau connexionniste est composé d’un grand nombre d’unités de calcul qui sont simples, et qui procèdent simultanément au calcul de leurs sorties, ce qui induit un haut degré de parallélisme. A tout moment chaque neurone calcule une fonction scalaire de ses entrées et transmet le résultat à ses voisins.

2. 1. Le neurone formel

2. 1. 1. Le modèle de McCulloch et Pitts

Ce premier modèle formel est un automate booléen, c’est à dire que ses entrées et sa sortie sont booléennes.

Soient :

• ei (i=1..n), les entrées du neurone,

• S sa sortie, • θ son seuil,

• wi les paramètres de pondération,

• f, la fonction de seuillage avec : f(x)=1 si x>θ et f(x)=0 si x≤θ

La sortie S du neurone est alors activée si la somme des entrées ei pondérée par les

poids wi dépasse le seuil θ. Soit ( ) (III. 1)

∑

= = n i i ie w f S

Figure III. 3. Structure du neurone de MacCulloch et Pitts

2. 1. 2. Le modèle général

De manière générale, un neurone formel peut être définit par :

• La nature de ses entrées : ei (i = 1..n), ces entrées peuvent être binaires ou

réelles.

• La fonction d’entrée totale notée h, qui définit le pré-traitement effectué sur les entrées. Cette fonction peut être booléenne, linéaire, affine ou polynomiale. • La fonction d’activation du neurone notée f, qui définit son état interne en

fonction de son entrée. f peut être une fonction binaire à seuil, une fonction linéaire à seuil ou multi-seuils, une fonction sigmoide, ou une fonction stochastique. On retiendra que toute autre fonction croissante et impaire peut être choisie.

• La fonction de sortie notée g, qui calcule la sortie en fonction de l’état interne. On notera que très souvent la fonction de sortie, est identique à la fonction d’activation.

0 1 h(x) x 0 1 Sg(x) x a) b) -1 -a 0 +a f(x) x d) x 0 v f(x) u c)

Figure III. 4. Différentes fonctions d’activation

a) fonction Heaveside b) fonction signe c) fonction linéaire à seuil

d) fonction sigmoïde f(x) = a(ekx-1) / (ekx+1)

Sur le plan fonctionnel, un neurone induit deux étapes de traitement, d’abord il s’agit de calculer l’entrée du neurone, ensuite sa sortie ou activation en tant que fonction des entrées. Communément pour un neurone j l’entrée est

∑

= i ji i j yw x (III. 2)

où yi est la sortie des neurones émetteurs et wji le poids de la connexion du neurone i

vers le neurone j.

Dans le cas général, un biais θ est ajouté à cette somme d’où : j i ji i j yw x=

∑

+θ (III. 3)

Ce biais est généralement considéré comme le poids d’un autre neurone fictif dont l’activation est y0=1, il est automatiquement inclus dans l’équation précédente. Une fois

2. 2. Les connexions

Les connexions entre neurones sont porteuses de poids qui peuvent varier de -∞ à +∞, la valeur d’un poids représente l’influence du neurone par rapport à son voisin, ainsi un poids positif traduit un lien excitateur tandis qu’un poids négatif représente un lien inhibiteur. Ces poids sont généralement unidirectionnels (d’un neurone entrée vers un neurone sortie). Les valeurs des poids du réseau déterminent la réaction du réseau à toute forme en entrée du réseau connexionniste ; ainsi ces poids représentent la mémoire à long terme ou les connaissances du réseau. Ces poids changent de valeurs sous l’effet de l’apprentissage, mais ce changement tend à être de plus en plus lent du fait de l’accumulation des connaissances.

2. 3. Topologies des réseaux connexionnistes

Un réseau connexionniste est constitué d’un nombre important de connexions entre les éléments de calcul simples que sont les neurones. Mais, c’est le comportement émergeant du réseau qui présente une grande complexité. Les structures qui peuvent être utilisées pour agencer les neurones dans un réseau sont très variées. Les topologies les plus représentatives étant les réseaux non structurés, multicouches, récurrents et modulaires (figure III. 5).

(a) réseau non structuré (b) réseau à couches

( c) réseau récurrent

(d) réseau modulaire

• Les réseaux non structurés sont très utilisés pour retrouver une forme stockée en invoquant n’importe quelle partie de la forme,

• Les réseaux à couches sont très utilisés dans les problèmes d’association,

• Les réseaux récurrents sont utilisés pour le séquencement de formes (i.e., suivre des séquences d’activation du réseau au travers du temps),

• Les réseaux modulaires sont utilisés pour la construction de systèmes complexes à partir de composants plus simples. Ces réseaux peuvent intégrer différentes topologies.

On retiendra également que des chercheurs ont montré que le cortex est divisé en plusieurs couches. Les connexions entre les neurones d’une même couche sont très grandes, mais les neurones sont également reliés aux autres couches, ce qui induit une grande complexité du réseau. De ce fait, l’une des structures classiques les plus utilisées est le réseau multicouches.

2. 4. Taxonomie des réseaux connexionnistes

Dans leur traitement de l’information les réseaux connexionnistes invoquent deux phases: une phase d’apprentissage et une phase d’exploitation. En phase d’apprentissage les données d’apprentissage sont utilisées pour déterminer les poids du réseau. Le réseau entraîné sera utilisé ultérieurement pour produire les résultats escomptés. C’est en référence au type d’apprentissage qu’est établie en général la taxonomie des réseaux connexionnistes. Il existe trois classes de procédure d’apprentissage [Tebelski, 95] :

Apprentissage supervisé : Dans ce style d’apprentissage, on fournit au réseau la sortie désirée pour chaque forme en entrée, ce qui permet de corriger explicitement l’erreur commise lors de l’activation.

Apprentissage semi-supervisé : dans ce type d’apprentissage, on ne donne pas au réseau les sorties désirées mais une évaluation de celles-ci en terme de bonne ou mauvaise approximation.

Apprentissage non supervisé : dans ce cas le réseau doit détecter par lui même les régularités dans les données en entrée. De tels réseaux auto-organisateurs sont utilisés en compression, quantification ou classification des données en entrée.

La plupart des réseaux appartiennent à l’une de ces catégories, mais il existe des réseaux hybrides, et des réseaux dynamiques dont l’architecture change au travers du temps.

Dans le document NESSR : Un système neuro-expert pour la reconnaissance de la parole (Neural Expert System for Speech Recognition) (Page 55-60)