• Aucun résultat trouvé

CONNEXIONNISTES RÉCURRENTS

6.2/ Réseaux connexionnistes à récurrence forte

6.2.5/ Modèle d’apprentissage par sélection

Certaines modifications des concepts de base des neurones apparaissent avec le modèle présenté par Dehæne et Changeux [dehæne87], [changeux89], [dehæne89]. Plusieurs idées ont été regroupées dans ce modèle pour faire émerger un modèle disposant de bonnes capacités d’apprentissage et de reconnaissance de séquences temporelles. Parmi toutes les caractéristiques regroupées ici se trouve la notion d’agrégat d’unités. Une partie des neurones du réseau sont regroupés dans différents

neurone clique sortie R score L entrée D cliques K cachée H

6.2/ Réseaux connexionnistes à récurrence forte

agrégats, chacun de ces agrégats ayant pour but de réaliser une tâche particulière. Il s’agit donc moins d’une mise en parallèle ou d’une répartition de neurones que d’un début de structuration des neurones en groupes distincts. Les neurones ne sont cependant pas tous réunis au sein de structures, baptisées ici grappes de neurones en synergie (voir la figure 6.7.a). D’autres structures élémentaires apparaissent. Le réseau comporte bien évidemment une couche d’entrée et une couche de sortie mais, en plus de celles-ci et de la couche des agrégats d’unités permettant la mémorisation, il existe une couche d’unités de codage de règles. Ces unités permettent de faire varier la prise en compte des entrées du réseau par la couche des unités de mémorisation. La prise en compte variable des entrées est assurée par le mécanisme de la triade synaptique (cf. figure 6.7.b) Ce mécanisme effectue une modulation du poids synaptique porté par une connexion de manière identique à un mécanisme dans le cerveau (cf. chapitre 2, figure 2.4). La figure 6.7.b montre ainsi une connexion allant d’un neurone A vers un neurone B dont l’efficacité est modulée par la valeur de l’unité C. Ce mécanisme, la triade synaptique, peut être vu comme une modification contextuelle, ou temporelle, des coefficients d’apprentissage.

Figure 6.7 :Schémas de concepts utilisés par Dehæne et Changeux

(d’après [changeux96]).

Les deux mécanismes principaux du modèle ayant été exposés, nous pouvons maintenant présenter le modèle en lui-même. Dans cette architecture, les unités de mémorisation assurent le codage des différentes séquences qui peuvent être observées en entrée. L’entrée est masquée par les unités de codage de règles qui pondèrent les valeurs des connexions allant des neurones d’entrée aux unités de mémorisation en fonction du codage interne des objets à un instant donné. Ce masquage permet de renforcer ou d’inhiber les traitements effectués dans les unités de mémorisation, les traitements étant répercutés en sortie du réseau (figure 6.8). La formalisation du processus d’apprentissage nécessaire à cette architecture pourra être trouvée dans [dehæne87]. Ce processus utilise la règle de Hebb pour diminuer ou renforcer les connexions au sein du réseau, ces connexions étant initialisées aléatoirement lors de la définition du réseau.

Le modèle d’apprentissage par sélection peut être appliqué à des tâches où se retrouve la notion d’arrivée séquentielle de l’information. Ce modèle a été principalement appliqué à une tâche de reconnaissance de chants d’oiseaux puisque l’étude neurobiologique de ce problème est à l’origine même du modèle [dehæne87]. Cette dernière tâche laisse entrevoir la possibilité d’appliquer ce modèle au domaine de la reconnaissance automatique de la parole ou à des domaines connexes mais ces études n’ont pas encore, à notre connaissance, été effectuées. D’autres tâches peuvent être résolues à l’aide de ce modèle. [dehæne96] présente ainsi des exemples d’apprentissage de règles comportementales ou d’apprentissage du test du Wisconsin sur le tri de cartes suivant des règles en constante évolution, test d’origine psychosociologique qui permet de détecter les lésions frontales. L’architecture du réseau utilisé dans ce dernier cas est cependant quelque peu différente de celle que nous avons présenté.

+ -+ + + + + + + + + + + + + + + + + - - - -- -A B C

a) groupes de neurones en synergie

Chapitre 6 : Réseaux connexionnistes récurrents

Ce type d’architecture fait explicitement référence au modèle de la colonne corticale [mountcastle78] ou au modèle similaire des groupe de neurones [edelman78]. La structure de colonne corticale a servi de base d’étude à des modèles connexionnistes s’en réclamant encore plus, comme nous allons le voir maintenant.

Figure 6.8 :Schéma du réseau de Dehæne et Changeux

(d’après [changeux96]). 6.2.6/ Colonne corticale

On voit émerger, dans le modèle des réseaux duaux et plus encore dans le modèle d’apprentissage par sélection, une notion de segmentation de la totalité des neurones en sous-groupes distincts, les cliques synthétisant à un niveau local des activités neuronales du réseau. Cette notion de segmentation de la connaissance en petits groupes distincts de neurones peut être vue comme étant inspirée de la neurobiologie bien que les réseaux duaux aient, eux, été initialement élaborés dans un souci de stabilité de la dynamique.

Les neurones, au niveau individuel, stockent de l’information sous une forme qu’il est généralement difficile à comprendre et qui est très peu exploitable. Cette remarque est vraie quelle que soit la définition architecturale du neurone, que le champ d’étude soit la neurobiologie ou la modélisation neuromimétique. Les réseaux de neurones artificiels sont ainsi qualifiés de boites noires par certains. À l’inverse et grâce aux observations cliniques, la médecine générale puis la neurobiologie ont su distinguer dans le cerveau les différentes aires fonctionnelles et sensorielles existantes (cf. chapitre 2, paragraphe 2.2.3). Il est ainsi possible de localiser dans le cerveau les aires sensorimotrices, les aires associatives et les aires frontales.

À la croisée de ces différentes segmentations, microscopique pour le neurone et macroscopique pour les aires, il existe un niveau mésoscopique décrivant les interactions d’entités, baptisées colonnes corticales, au sein d’une même aire. Les colonnes corticales sont des regroupement de neurones concourrant à la réalisation d’une même tâche ou effectuant la reconnaissance d’un type restreint de phénomènes sensoriels. C’est à ce niveau que peut être retrouvé le principe de sonotopie pour la parole, ou de rétinotopie pour la vision qui est surtout modélisé, mathématiquement parlant, par l’intermédiaire des cartes de Kohonen [kohonen87], [kohonen88] et des modèles qui en découlent.

Le modèle de Kohonen n’est cependant pas un modèle de colonne corticale mais plutôt un modèle d’aire. La colonne corticale peut être formalisée, pour sa part, par définition d’une unité de traitement complexe, cette unité pouvant être agrégée avec d’autres pour former une aire. Nous allons maintenant décrire deux modèles de colonne corticale.

OBJETS

couche d’entrée couche de sortie

ACTIONS

RENFORCEMENT

unités de codage de règles unités de codage interne des objets

6.2/ Réseaux connexionnistes à récurrence forte 6.2.6.1/ Modèle de la colonne corticale de Burnod

Le modèle de la colonne corticale de Burnod [burnod88] définit formellement la colonne corticale. Ce modèle a été utilisé dans [alexandre90] et [guyot90] pour modéliser les aspects auditifs, visuels et moteurs du cortex.

Le modèle de la colonne corticale formalise les fonctions des différents neurones qui la composent. Ainsi, les neurones pyramidaux, en panier, en chandelier, en étoile, bipolaire et à double bouquet voient leurs fonctions regroupées et modélisées en liens lointains (liens avec des unités d’autres aires), liens locaux (liens avec des unités de la même aire), liens externes (liens avec le monde extérieur) et liens voisins (liens avec les unités voisines) [alexandre90]. Cette formalisation est décrite dans la figure 6.9 qui résume les différents types de connexions afférentes à un colonne en fonction de trois échelons formalisant, eux, les six niveaux de la colonne biologique (cf. chapitre 2,

figure 2.11).

Figure 6.9 :Schématisation d’une colonne corticale (d’après [alexandre90]).

L’apprentissage dans ce modèle de la colonne permet de définir les valeurs des liens et, donc, du comportement de la colonne vis-à-vis de son entourage proche ou éloigné [alexandre90].

Ces colonnes se regroupent en aires. À l’intérieur de ces aires, chaque colonne effectue un traitement particulier qui peut correspondre, dans une tâche de la classification, à la reconnaissance d’un type particulier de formes d’entrée. Ce regroupement de colonnes est présenté en figure 6.10.

Figure 6.10 :Schéma d’une aire corticale et des liens internes et externes à l’aire

(d’après [alexandre90]).

Des résultats présentés dans [alexandre90] permettent de constater que chaque colonne code un masque, correspondant à une forme ou à une partie d’une forme. Ces résultats peuvent être jugés meilleurs que ceux obtenus avec un modèle de Kohonen où la connaissance n’est pas représentée de manière hiérarchisée. Dans ce dernier type de modèle, le manque de hiérarchie et l’apprentissage non supervisé peuvent, en outre, interdire une exploitation correcte de la connaissance finalement représentée de manière parfois anarchique [buniet91].

D’autres modèles de colonnes corticales existent. Au rang de ceux-ci se trouve le modèle formel proposé par Ingber.

entrées/sorties lointaines entrées/sorties locales entrées externes sorties externes entrées/sorties voisines aire corticale lien

Chapitre 6 : Réseaux connexionnistes récurrents

6.2.6.2/ Statistical Mechanics for Neocortical Interactions

Le modèle SMNI, acronyme de Statistical Mechanics for Neocortical Interactions, a pour la première fois été présenté dans [ingber81]. Il schématise également les liens entre différentes colonnes corticales d’aires du cerveau mais se veut être d’une approche beaucoup plus expérimentale puisqu’il a été établi à l’origine pour modéliser les phénomènes corticaux observables par électro-encéphalogramme (EEG). Ce modèle fait un usage très large de notions tirées de la mécanique statistique [ingber82].

Ce modèle formalise les interactions se déroulant dans le cerveau sur trois niveaux. Un premier niveau, le niveau microscopique, modélise ainsi le neurone de manière statistique en dégageant les probabilités de décharge des neurones, ceux-ci dépendant de processus gaussiens ou de processus de Poisson lors de la phase de réception de l’information.

Un deuxième niveau, les domaines mésoscopiques, formalisent les colonnes corticales. Ce niveau se caractérise par une utilisation de probabilités de bas niveau pour calculer une activité “mésocolonnique” et définir une probabilité d’interaction avec les colonnes voisines considérées selon la méthode des plus proches voisins.

Le niveau macroscopique, dernier niveau, représente les aires par agglomération de 10 à 30 colonnes au travers desquelles se propage une activité à court terme selon un processus markovien et donc probabiliste. Ce processus markovien est également supposé modéliser les interactions à long terme dans les aires.

Le modèle de la colonne de Ingber a été principalement appliqué à des tâches de simulation d’électro-encéphalogrammes [ingber95] mais reste cependant très peu utilisé par ailleurs bien que les résultats paraissent intéressants.