Relation entre les valeurs du type : distance entre patterns

2 1 Représenter les réseau

Définition 2.6 On appelle type de l’activation d’une population ou simple ment type, le pattern des neurones activés, ceux-ci étant considérés comme

2.2.2.4 Relation entre les valeurs du type : distance entre patterns

La représentation des différents patterns par une liste de symboles présente un inconvénient majeur : il n’est plus possible de dire si deux patterns sont similaires en ce qui concerne les neurones qu’ils impliquent. En effet, si considérer les neurones comme binaires ne permet plus de passer continûment d’un pattern à un autre, il est possible d’établir une relation de similarité entre eux en évaluant la fraction des neurones d’un pattern déchargeant à la fois pour les stimuli d’un pattern et de l’autre. Ces neurones sont donc partagés par les deux patterns et l’activation de l’un entraîne «mécaniquement» l’activation partielle de l’autre. En fonction de cette fraction, il est possible de conclure à une certaine similarité entre ces patterns et, par extension, entre les stimuli qui provoquent leur activation res- pective.

Mais les neurones communs ne sont pas l’unique manière d’affirmer que deux patterns représentent des informations similaires : les connexions reliant les neurones qui les composent peuvent impliquer que l’activation de l’un se propage à l’autre. Là encore, caractériser toutes les connexions pour calculer précisément cette propagation est impossible. Cependant, on sait que la probabilité pour deux neurones d’être connectés diminue avec la distance. En considérant le comportement moyen à l’échelle d’un pattern suffisamment grand de neurones, l’hypothèse suivante peut être faite : l’activation d’un pattern se diffuse autour de lui en

diminuant avec la distance. Si d’autres patterns se trouvent à proximité (ou le che-

vauchent), ils seront activés indirectement (voir fig.2.4). En résumé, la proximité entre des patterns à la surface du cortex est une bonne indication de la proximité entre les informations qu’ils représentent. Par exemple, si on considère une organisation rétinotopique des neurones, les neurones sont organisés en fonction de la zone du champ visuel à laquelle ils sont sensibles (voir fig.2.5 ). En considérant une population les englobant, une stimulation visuelle localisée génère un pattern d’activation qui dépend de la position dans le champ du stimulus. Il y a donc une projection de la distance existant entre deux points du champ visuel sur la surface (approximativement en deux dimensions) du cortex. «Mettre à plat» cette organisation avec une liste de symboles fait perdre beaucoup d’informations. Pour y remédier, à chaque symbole de pattern est associé une liste des patterns proches, où chaque élément est pondéré par une évaluation qualitative de sa similarité au pattern de référence.

P2 P1 Neurones P3

=⇒

Patterns P2 P1 P3 Magnitude Forte Faible

Fig. 2.4 – Illustration de la diffusion de l’activation d’un pattern vers un autre : l’activation de P1

diffuse vers les deux autres patterns P2et P3, en fonction de leur distance à P1.

0 1 2 3 4 0 1 2 3 4

=⇒

{pos

, pos

, . . . , pos

}

Fig. 2.5 – Exemple de transformation d’un espace 2D «discrétisé» en une suite de positions symbo- liques. La grille représente de manière très schématique une organisation rétinotopique des neurones. Chaque carré symbolise un groupe de neurones dont les champs récepteurs correspondent à une position dans l’espace à deux dimension constitué par le champ visuel entier. La distance entre les différentes positions est a priori perdue dans la «mise à plat».

2.2.3 Formalisation

Soit une information I, composée d’une magnitude mI et d’un type TI. mI est

une variable numérique, positive et non nécessairement bornée. En pratique, dans la réalité biologique, les mécanismes de génération et de transmission des PA ga- rantissent qu’elle ne prend pas des valeurs trop importantes. En effet, (i) générer des PA demande de l’énergie aux neurones, qui est apportée par l’oxygène du sang et est donc disponible en quantité limitée, et (ii) la dynamique d’activation des neurones implique qu’ils ne peuvent pas décharger avec une fréquence arbitrairement haute. Comme dans la réalité, la magnitude dans nos modèles sera maintenue bornée par l’action des mécanismes et par les interactions entre les différentes populations. Idéalement, seules les interactions devraient suffire à assurer cela, mais l’échelle de modélisation est ici trop variable et les interactions entre neurones ne sont pas prises en compte assez finement pour le permettre.

2.2.3.1 Représentation par ensembles flous

TI est formalisé de manière compacte par un ensemble flou défini sur le do-

maine de définition du type, DI. Le noyau de cet ensemble constitue le pattern

effectivement représenté tandis que le support contient les patterns connus pour être similaires à celui-ci, les degrés d’appartenance étant une évaluation qualitative des similarités (voir fig.2.6).

Cette relation entre similarité et degré d’appartenance1

repose sur l’ordre par- tiel, et implicite, entre les différents patterns, ordre induit par l’organisation to- pique de la population considérée. Cette définition implique que le noyau doit être réduit à un singleton. Il s’agit là d’une contrainte liée à l’interprétation en termes de similarité des degrés d’appartenance. En effet, si le degré d’appartenance est une évaluation qualitative de la similarité des autres patterns avec le pattern re- présenté par l’ensemble, seul le pattern lui-même est complètement similaire avec lui-même. Cela implique en particulier, qu’il n’y a pas d’ambiguïté possible dans la représentation d’une information sous forme de pattern neuronal. Il s’agit là d’une hypothèse importante du formalisme et qui s’appuie sur un recouvrement

non redondant, au sein d’une population fonctionnelle, du domaine de définition du

qui est sous-entendue dans le cas d’un ensemble défini sur un domaine continu (et donc or- donné).

A

p1 p2 p3

B

0 p1 p2 p3 1

Fig. 2.6 – Représentation du type sous forme d’ensemble flou. La population A est activée avec le pattern p1 et envoie cette information à la population B. p1est donc le noyau de l’ensemble flou, et

le support est{p₁, p2, p3}

type par les patterns. Les implications de cette hypothèse sont facilement visibles sur la figure 2.5 : nous considérons qu’il existe un et un seul pattern correspondant à une position dans l’espace et si la position se trouve être juste à la frontière entre deux patterns (c’est-à-dire entre deux – ou même quatre – carrés sur la figure), un seul pattern sera toujours considéré comme plus représentatif (même si les autres patterns candidats feront parties de la représentation floue avec une forte simila- rité). Nous verrons que par le biais du bruit dans le traitement de l’information, il est toujours possible de faire basculer vers un pattern unique la représentation. Il faut cependant bien insister sur le fait que ce recouvrement non redondant est limité à une population fonctionnelle. En effet, la redondance fait partie des carac- téristiques majeures du cerveau et une même information peut être représentée par un grand nombre de neurones ou de groupes de neurones. L’idée est de considé- rer que le recouvrement non redondant n’est valable que dans un rôle fonctionnel bien défini. Deux populations fonctionnelles différentes recevant les mêmes informations coderont chacune une information donnée avec un pattern unique et donc, collectivement, elles opèrent un recouvrement redondant du domaine. Cette caractéristique permet d’établir une première limite au rôle fonctionnel qu’une population peut remplir : si une population doit représenter des entrées avec des patterns redondants, elle doit être décomposée en plusieurs populations fonction-

nelles en interaction jusqu’à ce que la redondance disparaisse. Cette possibilité de représenter la même information dans plusieurs populations fonctionnelles et donc potentiellement dans plusieurs régions cérébrales différentes est tout à fait consistante avec les arguments de Pulvermüller (Hauk et coll. 2004, Pulvermul- ler et Hauk 2006) en faveur d’une représentation en de multiples endroits d’un même concept. Mais, là où Pulvermüller ne parle que de la représentation d’un mot du langage en de multiples endroits, nous considérons l’encodage du mot comme étant une représentation de l’information correspondante parmi d’autres. Ainsi, l’action d’observer une personne fléchir le bras sera encodée dans les zones du langage en tant que verbe «fléchir» mais elle sera aussi encodée dans les cortex prémoteur et moteur en tant que répétition mentale de l’action. Une même information sous-tend ces deux représentations et c’est l’activation des deux qui permet de lier les représentations. En revanche, le problème de la manière dont s’effectue la liaison des représentations est un problème complexe, appelé le binding problem, qui sera discuté au chapitre 4.

Un autre aspect important de la définition est le fait que le support d’un ensemble flou représentant un type est constitué par les patterns dont on sait qu’ils sont similaires au pattern représenté. L’absence d’un pattern de ce support peut donc vouloir dire qu’il n’est pas du tout similaire au pattern considéré ou qu’on ne sait rien de sa similarité. Ceci s’explique par le fait qu’en général, le référentiel sur lequel l’ensemble est défini n’est pas connu et donc qu’on ne peut rien dire des relations d’un pattern avec tous les autres imaginables. Cela a pour conséquence que la similarité d’un pattern avec ses voisins, telle que représentée par l’ensemble flou dont il est le noyau, est une information centrée sur ce pattern. Cette similarité n’est, bien entendu, pas transitive.

La représentation sous forme d’ensemble flou sert plusieurs buts. D’une part, elle permet d’exprimer de manière conjointe la valeur du type (le noyau de l’ensemble) et les patterns proches. D’autre part, elle a un sens en termes de théorie des possibilités. En effet, dire que deux patterns sont très similaires c’est dire qu’il est

possiblequ’en raison des imprécisions et du bruit, la valeur réelle du type soit un

des patterns proches. Une seule représentation permet ainsi de prendre en compte l’imprécision de la représentation et les relations de similarité entre les patterns. La nature même des degrés d’appartenance, qui sont des évaluations qualitatives des similarités entre les patterns, renforce encore l’interprétation floue.

tir des similarités, une distribution de probabilités sur les valeurs du type peut être construite. Mais la nature peu précise des similarités s’accommode mal d’une distribution de probabilités, par essence plus quantitative. De plus, l’interpréta- tion diffère : l’interprétation probabiliste implique que le type possède une valeur précise inconnue mais qui, si elle venait à être connue, rendrait toutes les autres valeurs fausses, ou, en d’autres termes, qu’il n’y a qu’un pattern responsable de la totalité de l’activation et que si une méthode nous permettait d’affiner le modèle, la distribution se réduirait à un point. Dans l’interprétation possibiliste, en revanche, l’information représentée par un pattern précis peut tout aussi possiblement être représentée par un pattern proche, et même si le pattern codant l’information est connu avec précision, les patterns proches n’en restent pas moins valables.

Il faut ici bien faire la différence entre le symbole qui étiquette les patterns et l’ensemble flou associé à un pattern qui inclut cette étiquette mais y ajoute les similarités avec les autres patterns. Cependant dans la suite, par abus de langage, on confondra souvent les deux.

2.2.3.2 Comparaison entre types

Les outils issus de la théorie des possibilités offrent un moyen simple de compa- rer entre eux des types définis sur un même domaineD. La compatibilité c(T1, T2)

entre deux types T1 et T2 est donnée par le degré de recouvrement (on utilise la

notation classique qui consiste à noter T(x) le degré d’appartenance de l’élément x à l’ensemble T) :

c(T1, T2) = sup

x∈Dmin

(T1(x), T2(x)) (2.1)

Deux types de même noyau sont donc parfaitement compatibles, ce qui est normal puisqu’ils représentent le même pattern. La figure 2.7 illustre cette comparaison. D’après la définition que nous avons donnée des ensembles flous représentant les types, et sachant que si l’évaluation de la similarité entre deux patterns est correcte, elle est symétrique, le calcul de c(T1, T2)revient à regarder directement sur un des

deux ensembles sa similarité à l’autre, comme c’est le cas dans la figure 2.7, et dans ce cas la compatibilité entre T1 et T2 se confond avec la similarité entre les

deux patterns qu’ils représentent. Le calcul devient nécessaire si les similarités sous-jacentes aux deux ensembles ne sont pas les mêmes. L’utilisation du degré de recouvrement (et la non-utilisation du degré d’inclusion, cf. section 1.3.2.3) trouve

0 e1 e2 e3 e4 e5 1 0.8 T1 0 e1 e2 e3 e4 e5 0.8 1 T2

=⇒

c(T1, T2) = 0.8

Fig. 2.7 – Comparaison de deux ensembles flous T1et T2. Ils représentent respectivement les patterns

e1et e2et la similarité entre ces deux patterns est de 0.8. La similarité entre les deux ensembles flous

est donc logiquement de 0.8.

alors une explication simple. En effet, le degré de recouvrement mesure à quel point les deux ensembles représentent des informations compatibles tandis que le degré d’inclusion mesure plutôt à quel point une information est une spécialisation de l’autre, ce qui n’est pas ce qui est désiré ici. Dans l’exemple des ensembles représentés figure 2.8, si on compare T1à T2, le degré d’inclusion de T2 dans T1est

égal à 0. Or T2, qui représente e2, code le fait que l’élément e1 a une similarité de

0.6 avec e2, et comme T1représente e1, la similarité de T1 avec T2devrait être égale

à 0.6. 0 e1 1 T1 0 e1 e2 0.6 1 T2

Fig. 2.8 – Deux ensembles flous illustrant l’intérêt dans le modèle du degré de recouvrement face au degré d’inclusion. c(T1, T2) =0.6, alors que le degré d’inclusion de T1 dans T2 est égal à 0 et que

2.2.4 Exemple

Reprenons l’exemple de la stimulation visuelle représentant une forme géomé- trique de couleur. Soit une population fonctionnelle hypothétique reconnaissant ces formes. Une de ces entrées, notée Ef, encode la forme du stimulus, tandis que

l’autre, notée Ec, encode la couleur. L’interprétation de la magnitude et du type

de ces entrées a été faite précédemment. La population s’active avec la même fré- quence de décharge qu’on lui présente un carré rouge ou un triangle bleu, ce qui veut dire qu’elle reconnaît aussi bien les deux informations. Cependant le pattern d’activité n’est pas le même (voir fig.2.9, A). De la même manière, deux carrés rouges de contrastes et saturations différents déclenchent le même pattern d’acti- vité mais des fréquences de décharge différentes (voir fig.2.9, B). De manière plus intéressante, on observe aussi qu’à contraste et saturation égals, un carré rouge et un carré orange déclenchent des patterns d’activités différents pour une même magnitude, mais que ces patterns sont proches et impliquent des neurones en commun (voir fig.2.9, C). Les similarités entre les patterns d’activités générés par chaque stimulation permettent de les représenter sous forme d’ensembles flous.

2.3 Traiter l’information

Cette section présente la manière dont l’information est traitée au sein d’une population neuronale fonctionnelle, notée X. Lorsqu’on parlera d’une information

A

B R

B

R+ R-

C

R O

Fig. 2.9 – Représentations schématiques des différents patterns activés en fonction de la stimulation (les nuances de gris symbolisent la magnitude, de noir – pour activité maximale – à blanc – pour pas d’activité). La forme géométrique est représentée comme telle et la couleur est donnée au centre (R – rouge, B – bleu, O – orange, R+R- réprésentent des rouges de saturations différentes).

présente I en entrée de X, il sera sous-entendu que cette information varie au cours du temps et devrait en toute exactitude être notée I(t). Cependant, sauf en cas d’ambiguïté, nous ne mentionnerons pas la dépendance au temps, et ce pour garder les notations claires.

Le traitement effectué par une population fonctionnelle peut être très variable, d’autant plus que les populations peuvent être de tailles (et donc de complexi- tés) différentes. Néanmoins, il est possible d’isoler des aspects communs dans la manière dont le type et la magnitude de l’information interagissent, et dans la dynamique gouvernant l’émission d’une sortie.

2.3.1 Contraintes

Les formalismes qui ont précédé ce travail, et en particulier BioCaEn, caracté- risent le traitement ayant lieu au sein d’une population en termes de fonctions de transfert. Cette manière de voir est très générale et c’est le point de vue que nous allons adopter dans la suite : des informations arrivent aux différentes entrées de la population, et une fonction leur est appliquée pour générer l’information en sortie. Ceci soulève un certain nombre de points qui demandent à être détaillés :

a) Information duale. A la différence des fonctions de transfert «classiques» qui

manipulent uniquement des quantités numériques, ici l’information est duale, qui plus est, avec une composante symbolique. Il faut donc déterminer de quelle ma- nière les deux composantes s’influent l’une l’autre au cours du traitement et comment elles influent sur la fonction de transfert.

b) Intégration des entrées. Une population fonctionnelle possède potentielle-

ment de multiples entrées. Au niveau du neurone individuel, la plupart des mo- dèles de neurone considèrent que les entrées sont intégrées linéairement. Si cer- taines populations intègrent linéairement leurs entrées, dans le cas général, dans la mesure où une population peut être de nature très variable, il n’est pas raisonnable de se limiter à ce seul cas.

La manière dont la population intègre ses entrées fait partie des opérations qui caractérisent son comportement et donc sa fonction au sein du réseau. Elle est

donc potentiellement grandement variable d’une population à l’autre et sera peu contrainte par le formalisme.

c) Dynamique neuronale et fonction de transfert. Les magnitudes des entrées re-

présentent des fréquences de décharge de populations en amont du traitement, et la magnitude en sortie représente la fréquence de décharge de cette population. Il y a des contraintes biologiques quant à la dynamique avec laquelle cette fréquence évolue en fonction des entrées. Ces contraintes sont modélisées partiellement par les équation 1.4 et 1.5. Nous nous appuyons donc naturellement sur elles pour calculer la magnitude de l’information émise. Cependant, les types des informations et leur adéquation avec la sélectivité de la population modulent cette fréquence. Les équations impliquent deux étapes dans le traitement : (i) la transformation de fréquences de décharge incidentes en un courant synaptique, puis (ii) la conversion du courant synaptique en une fréquence de décharge.

Ces équations définissent aussi une fonction d’activation qui caractérise comment la population décharge en fonction du courant synaptique total. Cette fonction est, tout comme l’intégration des entrées, caractéristique de la fonction globale de la population dans le réseau. Elle devra donc être peu contrainte par le formalisme général, pour pouvoir accommoder des populations aux fonctions variées.

d) Émission de la sortie. Le type de chaque entrée est défini sur un domaine

spécifique. Il en est de même pour le type de la sortie. Il y a donc nécessité de passer des domaines en entrée à un domaine de sortie qui représente les patterns d’activité potentiels de la population.

Deux approches successives ont été développées pour répondre à ces contraintes. La première, s’appuyant sur une base de règles d’inférence a per- mis de prendre en compte la sélectivité des populations, tout en permettant d’interpoler de manière continue entre les différentes valeurs du type de sortie. Des limites liées à la plausibilité biologique, ainsi qu’à un nombre trop important de paramètres, ont conduit au développement d’un second formalisme plus adapté.

2.3.2 Une première approche utilisant des règles d’inférence

Dans le document Modélisation du traitement de l'information cérébrale dans les réseaux à grande échelle : une approche fondée sur la similarité et la logique floue (Page 102-112)