Activation et Apprentissage de la pr´ esence

5.2 Activation et Apprentissage de la pr´esence

5.2.1 Activation corticale dans Bijama

Dans le modèle Bijama, les unités d’une carte, comme présenté au chapitre 3, re¸coivent en entrée l’état d’activation de bandes d’unités appartenant à d’autres cartes corticales. Une unité Bijama u appartenant à une carte connectée à la carte i per¸coit donc des configurations d’activation d’unités de i (cf. figure 5.1(b)). Elle fournit une activité corticale, notée A^c_i(u), qui correspond à la «proximité» entre la configuration d’activation per¸cue et la configuration d’activation qu’elle favorise, appelée prototype cortical de l’unitéu pour la connexion à la carte

i. (a) faible faible forte Reponse A Entree (b) (c) Bande percue par l’unite u

Configuration preferee de l’unite u C i (u) u carte i

Fig.5.1 – Activation corticale d’une unitéu.(a) Bande corticale per¸cue par l’unitéu. (b) Proto-type cortical de l’unitéu. (c) Activation corticale de l’unitéusuivant les configurations d’activité présentes en entrée.

Cette notion ne correspond pas à une distance, au sens mathématique du terme. Prenons le cas d’une unitéuspécialisée dans la reconnaissance de l’activation d’une bulle d’unités spécifiques dans la carte distantei. Quand une telle bulle est per¸cue, l’unitéudoit fournir une activitéA^c_i(u) importante. En l’absence de bulle dans la bande per¸cue par u, u doit fournir une Ac

i(u) nulle (cf. figure 5.1(c)).

Plus précisément, il s’agit dans notre modèle, pour ce qui est de la reconnaissance des entrées corticales, de comparer une configuration d’activation, qui exprime la présence d’une bulle à une certaine position dans la bande (cf. figure 5.1(a)), à la répartition des activités A^? des unités qui composent la bande. Cette configuration de référence est matérialisée par les poids des liens corticaux (cf. figure 5.1(b)) : ces poids sont forts là où la bulle doit se trouver, dans la bande, pour activer l’unité u. Ainsi, si tous ces poids sont nuls, l’unité u ne s’active jamais. Les poids nuls ne signifient pas «s’activer en l’absence d’activité dans la bande». Nous utilisons dans notre modèle la règle d’apprentissage suivante pour le poids cortical reliant une unité à l’unité distantei:

∆w_i=ν(A^?+ω)(A^?−A^c)A^?(i) (5.1) Dans cette équation,ν est la vitesse d’apprentissage,ω est un terme de fuite,A^c est l’activité corticale de l’unité qui prend en compte la connexion de poids wi, et les A^? représentent les activités globales des unités, obtenus après la compétition décrite au chapitre 4.

Nous détaillons dans les sections suivantes les raisons qui nous ont amenées à choisir cette règle d’apprentissage, mais nous insistons ici sur le fait que les activations distantes des unités per¸cues sont traitées comme des valeurs booléennes «présence/absence», ce qui est différent du traitement de reconnaissance thalamique du modèle, où un prototype égal au vecteur nul signifie que l’unité a une forte activité de reconnaissance quand l’entrée est nulle, comme c’est le cas pour les cartes de Kohonen, lorsque la distance euclidienne est utilisée pour comparer les prototypes à l’entrée.

5.2.2 Pr´esence et valeur

L’activation corticale, dans le modèle Bijama, se fait donc suivant la présence d’activité, dans les unités distantes. Cela correspond à l’apprentissage d’un booléen. Par opposition, les cartes auto-organisatrices de Kohonen apprennent des valeurs réelles, mécanisme, ce que nous réservons comme nous l’avons dit à l’apprentissage des données extérieures au modèle Bijama, dit apprentissage de données thalamiques (cf. chapitre 6). Étudions maintenant des exemples simples afin de mieux différencier ces deux apprentissages.

Un cas simple de valeur réelle à apprendre est celui d’un code couleur, par exemple un code RGB. Prenons donc le cas d’une couleur définie par trois valeurs R(rouge), V(vert) et B(bleu), situées entre 0 et 255. La valeur 0 signifie que la composante est entièrement absente, tandis que la valeur 255 signifie que la composante est saturée. Un réseau de neurones chargé de reconnaˆıtre et de classifier les différentes couleurs compte des neurones spécialisés dans la reconnaissance de chaque couleur présentée au réseau.

Ainsi, si on présente régulièrement la couleur noire (R :0,G :0,B :0) au réseau, un neurone se spécialise sur cette couleur, donc s’active en sa présence. L’absence d’une composante est ainsi tout autant susceptible de provoquer l’activation d’un neurone du réseau que sa présence : les neurones du réseau apprennent ici à s’activer suivant la valeur des composantes, et non pas suivant leur présence. Si le prototype d’un neurone I est formé par le vecteur (w_R, w_G, w_B), alors, en pondérant la distance entre prototype et entrée par σ, l’activité de I en présence de l’entrée (R, G, B) peut être calculée par :

A_I = exp −⁽^w^R⁻^R⁾

2+ (w_G−G)²+ (w_B−B)²

(5.2)

A l’opposé, prenons le cas d’un pari. On place devant des joueurs trois gobelets retournés, notés G₁, G₂ et G₃, qui peuvent ou non recouvrir des jetons. Un gobelet peut recouvrir au maximum 10 jetons. Lorsqu’un gobeletG_irecouvrenjetons, on lui affecte la valeurG_i= 0,1×n. On considère alors les joueurs, que l’on représente par des unités. Chaque joueur peut parier plus ou moins fortement sur la présence de jetons sous chacun des gobelets. Un joueur J voit ses paris résumés dans trois valeursw₁^J,w^J₂ etw^J₃.w_i^J représente le pari que fait le joueurJ sur le gobelet Gi. Chacune de ces valeurs est comprise entre 0 (pari nul) et 1 (pari maximal). De plus, à chaque fois qu’un pari est réalisé, on affecte à chaque joueur J une valeur A_J, appelée activité de J, représentant le gain que J a réalisé. Cette valeur est saturée à 1. Elle peut être calculé par : AJ = 3 X i=1 w_i^J×Gi (5.3)

Ainsi, un joueur J pariant à moitié sur le premier gobelet (w^J_i = 0.5) aura au plus une activité A_J de 0.5 si seul le premier gobelet recouvre des pièces. L’activité d’un joueur est

5.2. Activation et Apprentissage de la pr´esence

d’autant plus forte qu’il joue lorsque les gobelets sur lesquels il a parié recouvrent beaucoup de jetons. Lorsqu’un joueur obtient une activité non nulle, on dit que l’unité correspondant est activée.

Considérons maintenant un ensemble de joueurs, qui effectuent des paris différents. Si ils jouent lorsque aucun gobelet ne recouvre de jetons (G₁ = G₂ = G₃ = 0), l’activité de tous les joueurs est nulle : en l’absence de jetons, il est impossible d’obtenir un gain. En revanche, si tous les gobelets recouvrent un maximum de jetons (G1 = G2 = G3 = 1), tous les joueurs obtiennent un maximum de gains. Cela montre que les unités (représentées ici par les joueurs) ne considèrent pas la valeur 0 de la même manière que la valeur 1. En effet, elles sont sensibles, non pas à lavaleur des composantes d’entréeG1, G2 etG3, mais à leurprésence.

Ainsi, l’activation des unités diffère suivant qu’elles sont sensibles à la présence ou à la valeur des composantes étudiées. Il en va de même de leur apprentissage : des unités sensibles à la valeur des composantes peuvent apprendre à s’activer pour des valeurs nulles de ces composantes, alors que ce n’est pas la cas si les unités sont sensibles à la présence des composantes.

La différence essentielle est que, lorsqu’on est sensible à la présence des composantes de l’entrée, aucune unité n’a tendance à s’activer du fait de l’absence d’un élément. Pour en revenir `

a notre exemple de pari, un joueur qui parie sur le premier gobelet n’augmente pas son gain lorsque le second gobelet se révèle vide. En revanche, dans le cas d’unités sensibles à la valeur des composantes de l’entrée, une unité peut avoir tendance à s’activer du fait de l’absence de composantes. Ainsi, une unité spécialisée dans la détection de la couleur rouge a tendance à s’activer lorsque les composantes de couleur G et B sont nulles.

L’état d’activation des unités corticales distantes, dans le modèle Bijama, que nous étudions dans la section précédente, est traité suivant la présence, et non suivant la valeur : une unité ne peut être sensible qu’à la présence d’activité dans les bandes d’unités distantes qu’elle per¸coit, et non pas à l’absence d’activité.

5.2.3 Utilisation de l’apprentissage Hebbien

R`egle de Hebb

Le psychologue Hebb a proposé en 1949 un modèle permettant d’expliquer comment les poids synaptiques entre neurones évoluaient [Hebb, 1949]. Selon lui, le poids synaptique w_i entre un neurone u et une de ses entrées i change proportionnellement à la co-activation des neurones

iet u. En considérant que l’activation y(u) d’un neurone u recevant en entrée l’activation des neuronesj s’écrity(u) =P

jw_jy(j), la formulation math´ematique de cette r`egle est :

∆w_i=y(u)y(i) (5.4) Dans cette formulation, >0 est un paramètre réglant la vitesse d’apprentissage du poids synaptiquewi. Cette règle est, encore aujourd’hui fréquemment utilisée pour modéliser l’appren-tissage des connexions inter-neuronales. Après apprentissage, siu et i sont souvent co-activés, alors l’activation deipermet celle deu, et est donc prédictrice de celle-ci. En effet, la valeur de

wi est alors élevée. Par conséquent, lorsque y(i) est élevé,y(u) l’est aussi.

Emploi de l’apprentissage Hebbien pour d´etecter la pr´esence

L’apprentissage Hebbien est adapté pour détecter la présence des composantes d’entrée. En effet, cet apprentissage amène à augmenter le poidswilorsqueuetisont actifs. Par conséquent,

le neurone u va, par la suite, avoir plus tendance à s’activer en présence de l’activation de i. Ainsi, il se spécialise dans la détection de la présence d’une activitéy(i).

Par ailleurs, la règle d’activation employée assure que u ne s’active pas plus du fait de l’absence d’un desy(j), pourvu que les poidswj soient positifs. De plus, la règle d’apprentissage ne permet que d’augmenter ces poids, donc pourvu que les poidsw_j soient initialisés à des valeurs positives, l’unitéuse comporte comme un détecteur de présence des activitésy(j). Ce détecteur devient plus sensible aux entréesjqui sont activée fréquemment en même temps que lui, du fait de l’apprentissage.

Limitation de la croissance des poids Hebbien

La règle de Hebb a l’inconvénient de permettre une croissance illimitée des poids associés aux liens aboutissant à un neurone. Une manière de limiter cette croissance est de garder constante la somme de ces poids. On a alors une règle de Hebb normalisée. Cette règle, comme celles présentées par la suite, fournit une méthode de calcul des poids à un pas de tempst+ 1 à partir de données valides au pas de temps précédentt. Celle-ci s’écrit comme suit :

w_i(t+ 1) = _P^wⁱ⁽^t^{) +}^y⁽^u⁾^y⁽ⁱ⁾

j(wj(t) +y(u)y(j)) ^(5.5) Cette règle demeure adaptée pour la détection de présence, puisque la règle d’apprentissage ne modifie pas le signe des poidsw_j. Ainsi, en gardant la même règle d’activationy(u) pour un neurone u, les unités ne peuvent s’activer du fait de l’absence d’une activitéy(j).

Une autre variante de la r`egle de Hebb, qui permet de limiter la valeur des poids est celle dite de Hebb/anti-Hebb. Dans cette variante, l’apprentissage se fait par :

wi(t+ 1) =wi(t) +y(i)(y(i)−wi(t)) (5.6) Cette règle permet elle aussi l’apprentissage de présence, pour autant que <1. En effet, le signe des poids w est alors constant, puisque un poidsw_i ne peut diminuer, en valeur absolue, que de wi au plus durant un pas de temps. Pour des poids initiaux positifs, l’activation d’une entréeine peut donc pas inhiber l’activation deu.

Exemple d’utilisation des r`egles de Hebb

Nous allons maintenant illustrer l’emploi des différentes règles d’apprentissage hebbiennes. Pour cela, nous reprenons notre exemple de pari sur des gobelets. Nous supposons que, dans deux cas sur cinq, tous les jetons sont dans le premier gobelet, et dans les autres cas, tous les jetons sont dans le second gobelet. Nous initialisons les poids associés aux gobelets à ¹₃. Nous réalisons alors l’apprentissage avec la règle de Hebb (cf. figure 5.2(a)), avec la règle de Hebb normalisée (cf. figure 5.2(b)), et avec la règle de Hebb/anti-Hebb (cf. figure 5.2(c)), et nous observons l’évolution des poidswi dans les trois cas.

On observe que la règle de Hebb fournit des poids immenses, qui ne se stabilisent pas, et continuent d’augmenter. Les valeurs étant limitées en informatique, cette règle n’est donc pas directement employable. Les règles de Hebb normalisée et de Hebb/anti-Hebb, en revanche, limitent les poids, et fournissent des résultats semblables. Le signe des poids reste toujours positif, ce qui assure que l’activation de l’unité ne peut êtres due à l’absence d’une entrée, mais seulement du fait d’une présence.

5.2. Activation et Apprentissage de la pr´esence

(b)

(a)

(c)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 weight value time(steps) w1 w2 w3 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 20 40 60 80 100 weight value time(steps) w1 w2 w3 0 20 40 60 80 100 120 0 20 40 60 80 100 weight value time(steps) w1 w2 w3

Fig.5.2 – Valeur des poids w1,w2 etw3 en fonction du temps, exprimé en pas de temps. (a)règle de Hebb (b)règle de Hebb normalisée (c)règle de Hebb/anti-Hebb

Dans le document Mécanismes d'inspiration corticale pour l'apprentissage et la représentation d'asservissements sensori-moteurs en robotique (Page 92-97)