Une première approche utilisant des règles d’inférence floues

2 1 Représenter les réseau

Définition 2.6 On appelle type de l’activation d’une population ou simple ment type, le pattern des neurones activés, ceux-ci étant considérés comme

2.3.2 Une première approche utilisant des règles d’inférence floues

La première solution que nous avons explorée pour prendre en compte ces contraintes s’appuie sur une base de règles d’inférence permettant de modéliser la sélectivité de la population et sur une décomposition de la population fonctionnelle en plusieurs sous-populations chargées de la réception de l’information entrante et de l’émission de la sortie (Erny et coll. 2006c;a).

2.3.2.1 Décomposition de la population

Une population fonctionnelle se découpe en autant de sous-populations ré- ceptrices qu’il y a d’entrées. D’un point de vue biologique, ces sous-populations représentent les neurones recevant directement l’influx provenant des faisceaux d’axones correspondant à ces entrées. Aux populations réceptrices s’ajoute une sous-population émettrice regroupant les neurones qui déchargent vers l’extérieur de la population. Au sein des sous-populations réceptrices se trouvent des patterns récepteurs (PR) qui s’activent pour un certain type d’information incidente. Ces patterns récepteurs sont reliés à des patterns émetteurs (PE) qui représentent les configurations spatiales des neurones déchargeant. Les relations entre les PR et PE sont modélisées par des règles d’inférence qui les lient en tant que prémisses et conclusion (voir figure 2.10). Notons qu’il existe une règle d’inférence par valeur possible du type de sortie.

2.3.2.2 Activation des patterns et principe d’inférence

Comme présenté précédemment, à chaque pattern est associé un ensemble flou. Lorsqu’une information se présente, pour chaque PR, la compatibilité entre le type de l’information et celui-ci est calculée au moyen de l’équation 2.1. En fonction de cette compatibilité et de la magnitude de l’entrée, une activation du pattern est calculée. Lorsqu’elle dépasse un certain seuil, le pattern est considéré comme déchargeant. Cette activation est dynamique, c’est-à-dire qu’elle dépend de l’information entrante mais aussi de l’activation au temps précédent. Lorsque tous les PR associés à une règle déchargent, la règle est considérée comme active et l’activation du PE correspondant est calculée en fonction de l’activation de ses PR. La manière

Fig. 2.10 – Schéma fonctionnel illustrant la décomposition d’une population en sous-populations réceptrices et émettrice.

dont les activations des PR est combinée pour calculer l’activation du PE est par combinaison linéaire pondérée. Les poids de chaque PR dans cette combinaison sont dépendants de l’entrée et non de chaque règle, c’est-à-dire que pour toutes les règles, les PR d’une même entrée auront le même poids. Enfin, la prise en compte du seuil de décharge étant faite au niveau des PR, les PE ne possèdent pas de seuil de décharge, c’est-à-dire qu’ils déchargent dès qu’ils sont activés.

2.3.2.3 Formalisation

Soit un nœud fonctionnel X à n entrées. Une information propagée est un couple(M, T)où M est la magnitude de l’information et T, son type. La magnitude M est un réel positif et le type T est un ensemble flou défini sur un domaine D_T discret. On note(M_iin, T_iin)l’information arrivant sur l’attribut i et(Mout, Tout) l’information émise par le nœud. Pour alléger les notations, le domaine de définition de T_iin est notéDi et celui de Tout,Dout.

Soit la base de règles d’inférence BR = {Ri}i∈[1,p]. On note PR

i l’ensemble

flou modélisant le pattern récepteur correspondant à l’attribut i pour la règle Rj, et

de la règle Rj. On note aussi na_ij (resp. saj_i) le niveau d’activation (resp. le seuil

d’activation) du pattern récepteur PRj_i. dec_ij est le niveau de déclenchement, c’est- à-dire la marge de dépassement du seuil, pour le pattern PRj_i, et qui est égal à max(0, na_ij−saj_i). Enfin, decj est le niveau d’activation (et donc de déclenchement) du pattern émetteur PEj et on suppose que decj(t) = fj(dec₁j(t−1),· · · , decnj(t−

1)).

Activation en réception. A chaque pas de temps, pour chaque règle Rj et pour

chaque attribut i, le degré de compatibilité cij de T_iin est calculé, avec PRj_i (cf. équation 2.1). Cela permet de mettre à jour le niveau d’activation à l’instant t :

na_ij(t) =relax_X(1).na_ij(t−1) +k. fact(cj_i, ˜Mi(t)). fre f ract(dec j

i(t−1)) (2.2)

où,

– factest croissante, définie de [0, 1] × [0, 1] dans[0, 1], et elle permet de modu-

ler l’activation en fonction de la magnitude. En effet, lorsque la magnitude est trop faible, même si l’information est bien reconnue par la règle, elle a moins d’impact. Pour manipuler de manière transparente la magnitude dans le modèle, quelque soit la nature de l’information (la magnitude peut en effet prendre des valeurs très diverses), une magnitude normalisée ˜M = fnorm(M)

est utilisée, où fnorm est une fonction définie sur les réels dans [0, 1] et qui

dépend de la nature de l’information qualifiée par la magnitude M. En clair, il peut y avoir une fonction normalisatrice différente par attribut. Pour ne pas systématiquement réduire l’activation, même lorsque la magnitude (norma- lisée) est proche de 1, la réduction devrait être sensible à partir d’un certain seuil. Nous proposons la fonction suivante qui utilise une sigmoïde comme fonction seuil, mais d’autres sont possibles :

fact =

cj_i

1+e−a(M˜i−b) (2.3)

– fre f ract est une fonction définie sur [0, 1] à valeurs dans [0, 1] et décroissante,

qui modélise la période de réfraction du pattern. Il s’agit d’un mécanisme neuronal qui empêche un neurone qui a déchargé de s’activer pendant un certain laps de temps. Il est transposé à l’échelle du pattern neuronal. Par exemple, une réfraction linéaire ( fre f rac(dec) =1−dec) est possible, ou encore,

une sigmoïde décroissante. Elle doit répondre néanmoins aux contraintes sui- vantes : fre f rac(0) = 1 et fre f rac(1) =0.

– relax(_X1) est appelé paramètre de relaxation et modélise à quel point le pattern intègre temporellement. C’est un réel appartenant à [0, 1]. Si sa valeur est 0, il n’y aucune intégration temporelle alors que s’il est égal à 1, le niveau d’activation ne pourra que progresser sans redescendre jusqu’à atteindre son maximum.

Activation en émission. Il s’agit ensuite de calculer decj pour chaque règle Rj,

et il faut donc caractériser fj. En premier lieu, les populations émettrices intègrent

temporellement l’information. Cela se traduit par une mise à jour incrémentale similaire à l’activation en réception :

decj(t) = relax_X(2).decj(t−1) +val(dec₁j(t−1),· · · , decjn(t−1)) (2.4)

où val traduit la nature des connexions neuronales qui existent entre les patterns récepteurs et le pattern émetteur, liés par la règle Rj. En l’absence d’information sur

ces connexions, des hypothèses de modélisation sont faites. En premier lieu, val est supposée linéaire en fonction de chacune de ses variables (il s’agit d’une extrapo- lation à partir du comportement des neurones qui font une intégration pondérée de leurs entrées) :

decj(t) =relax_X(2).decj(t−1) +

∑

i=1

µ_ij.decj_i(t−1) (2.5)

Donc il reste n.p paramètres à évaluer (les µ_ij). D’où la deuxième hypothèse : une fonction de combinaison dépend du nœud et non d’une règle. Nous considérons en effet que la contribution d’un PR à l’activation d’un PE dépend uniquement de l’entrée à laquelle il appartient, et non de la relation entre ce PR particulier et le PE. Cette hypothèse est bien plus forte que la première mais il s’agit d’une simplification nécessaire pour rendre la modélisation sous cette forme possible (en termes de paramètres à évaluer). Formellement, cela se traduit par∀j∈ [1, p], µ_ij =

µi. Il reste donc n nouveaux paramètres à déterminer qui correspondent aux poids

des attributs dans la combinaison. Ces paramètres dépendent du nœud et de la nature de celui-ci. Ils seront déterminés par des essais successifs en vue d’obtenir la simulation la plus proche possible de la réalité.

Combinaison des émissions. Si une seule règle est déclenchée, il n’y a rien à faire : Tout = PEk, où k est l’indice de la règle active. En revanche, lorsque plusieurs règles Rk1,· · · , Rkq sont déclenchées simultanément, il y a concurrence entre les réponses possibles. Il faut donc déterminer quel pattern émetteur remporte le conflit. L’idée est que les activations se cumulent. En effet, chaque règle contribue principalement à l’émission d’une valeur du type (celle qui lui est associée), mais par similarité, elle contribue aussi partiellement à l’activation des patterns proches. Il est donc possible de calculer, pour toutes les valeurs possibles du type de sortie C ∈D_k₁ ∪ · · · ∪D_k_q, le niveau d’activation de C en sommant les activations provenant des règles activées. Formellement, cela se traduit de la manière suivante : si regle(C) désigne la règle associée à la valeur de sortie C, alors :

decregle(C) =

∑

i∈{k1,···,kq}

PEi(C).deci (2.6)

Une fois les niveaux d’activation calculés, deux situations sont possibles : soit un seul pattern est plus activé que tous les autres, et dans ce cas, la réponse est trou- vée : si Cmax est le pattern le plus activé, Tout = PEregle(Cmax). Soit il y a plusieurs

patterns également activés qui dominent les autres. Cette dernière situation bien que très peu probable est théoriquement possible. Dans ce cas, c’est un véritable conflit et aucun pattern émetteur ne décharge. Au pas de temps suivant, le nœud se sera modifié et le conflit sera probablement résolu.

Calcul de la magnitude de sortie. La magnitude de sortie dépend de deux fac-

teurs. D’une part, elle dépend de la nature du nœud lui-même qui effectue un traitement particulier en fonction de son rôle dans le réseau fonctionnel, et d’autre part elle dépend du niveau de reconnaissance de l’information en entrée, c’est-à- dire du niveau de déclenchement du pattern émetteur déchargeant. Formellement, Mout(t) = f_X(1)(decmax(t)). f_X(2)(Min(t−1), u) (2.7)

où Min₍_t₋₁₎ _{est la moyenne sur l’ensemble des attributs des magnitudes en en-}

trée à l’instant t−1, u est une variable aléatoire modélisant le bruit et les données non-modélisées, et decmax le taux d’activation du pattern émetteur déchargeant en

sortie à l’instant t. La fonction f(1) est définie de [0, 1] dans[0, 1], et est croissante. Elle permet d’exprimer l’idée que moins un type est reconnu, moins la magnitude de l’information émise est grande. Là encore, la notion de seuil critique peut inter-

venir, faisant de la sigmoïde un bon candidat pour f(1). f(2) est définie sur les réels et peut être linéaire ou non-linéaire.

2.3.2.4 Critique de ce premier formalisme.

Cette première tentative de formalisation souffre d’un certain nombre de pro- blèmes. En premier lieu, il ne satisfait pas la contrainte b) (cf. section 2.3.1) qui dit qu’il faut éviter de forcer les entrées à être intégrées de manière linéaire, ce qui est pourtant le cas ici. Ensuite, le traitement très séparé de la magnitude et du type est assez gênant dans la mesure où ces deux quantités sont fortement liées. L’introduction de l’équation 2.7 est en fait liée à la première critique puisque le traitement uniquement linéaire sur les entrées contraint à devoir introduire un traitement, non-linéaire celui-ci, pour prendre en compte la grande variété de com- portements possibles des nœuds fonctionnels. La prise en compte de la dynamique n’est pas non plus satisfaisante, et ce, pour deux raisons. Les équations 2.2 et 2.5, obtenues de manière empirique, ne sont finalement pas très éloignées de versions discrètes de l’équation de fréquence de décharge 1.5 et gagneraient probablement à être modifiée pour y correspondre tout à fait, gagnant de la sorte en plausibilité biologique. Un autre problème, qui n’est pas listé dans les contraintes mais qui s’avère important, réside dans la manière dont le type de sortie est calculé. Que ce soit dans la modélisation des processus de catégorisation inspirés de la biologie, comme les cartes de Kohonen (Kohonen 1982), où dans les observations expéri- mentales de populations de neurones (Gierer et Meinhardt 1974), la compétition induite par les inhibitions latérales est un aspect important. Or, dans ce modèle, il n’y aucune inhibition latérale entre les différentes valeurs du type de sortie, ce qui induit une quantité d’activation incompatible avec les observations expérimen- tales. La dernière critique est plus d’ordre général quant à la décomposition en sous-populations. Cette décomposition résulte de l’hypothèse faite que des informations différentes vont être traitées par des sous-populations différentes. Il est, dès lors, légitime de se demander pourquoi un tel nœud fonctionnel ne serait pas décomposé en des populations fonctionnelles plus simples, avec chacune un ensemble de patterns associés qui détermine sa sélectivité. Les relations entre ces populations deviendraient des paramètres de connexion entre ces nœuds.

En revanche, l’association de pattern d’information en entrée à un pattern de sortie est un aspect fondamental du modèle sur lequel repose toute la notion de sélectivité d’une population. Il faut aussi noter le grand intérêt de cette représenta-

tion par règles floues, qui ressemble à un SFC de type Mamdani avec entrées floues (dans la mesure où les règles ont des parties conditions et conclusions floues), où les valeurs des entrées permettent d’obtenir la valeur de sortie par une interpola- tion entre différentes valeurs typiques. C’est là un apport majeur par rapport aux formalismes dont nous nous sommes inspirés (RAGE en particulier) qui sont in- capables d’interpoler entre les différents prototypes de sortie, faute de prendre en compte les relations entre eux, comme nous le faisons avec les similarités.

C’est donc avec l’objectif de conserver cette avancée que nous avons entrepris de redéfinir un formalisme plus adapté à nos contraintes. Au travers d’évolutions successives (Erny et coll. 2006b; 2007), le nouveau formalisme s’appuie, non plus sur une base de règles, mais sur une base de prototypes, chacun associé à une valeur unique du type de sortie. La décomposition en sous-populations a aussi été abandonnée.

2.3.3 Un nouveau point de départ : propagation des fréquences de

décharge

Les équations de traitement de l’information présentées dans le reste de le section sont dérivées des équations de propagation des fréquences de décharge 1.4 et 1.5, introduites à la section 1.2.3.5. Elles sont rappelées ici :

τsdS

dt = −S+w·u (2.8)

τrdr

dt = −r+F(S(t)) (2.9)

où S est le courant synaptique total entrant dans la population et τs caractérise la

vitesse avec laquelle il atteint un état stationnaire après une fluctuation des cou- rants extérieurs u (la notation en caractère gras indiquant qu’il s’agit d’un vecteur).

w dénote le vecteur des poids accordés à chacun des courants en entrée. r est la fréquence de décharge, qui atteint un état stationnaire en τr suite à une fluctuation

de S. F est la fonction d’activation qui caractérise la réaction de la population à un courant en entrée.

Le reste de la section considère chacun des termes de ces équations et les adapte aux contraintes de ce modèle. En particulier, de manière analogue au tra-

vail de Ben-Yishai et collaborateurs (1995), la sélectivité des populations est prise en compte en modifiant le terme w·u pour définir ce qui sera appelée la fonction d’agrégation (voir section 2.3.4). La seconde équation sera modifiée pour prendre en compte le caractère stochastique de la décharge neuronale (voir section 2.3.6).

2.3.4 La sélectivité d’une population

2.3.4.1 Prototypes

Deux stimuli de même type mais de magnitudes différentes entraînent deux activations de même type mais de magnitudes différentes. L’inverse n’est en re- vanche vrai que si les deux types sont également reconnus par la population. Déjà à l’échelle du neurone individuel, la fréquence de décharge dépend aussi bien de l’intensité de la stimulation que du type de la stimulation (courbe de sé- lectivité). Si un type de stimulation n’est pas reconnu par la population, elle ne s’activera pas ou peu. Cela implique un mécanisme qui permet d’associer à certains types d’informations en entrée, des patterns d’activité spécifiques en sortie. Ainsi, au même titre qu’un neurone est sélectif à certaines valeurs de ses entrées, la population sera sélective à certains types. Ces types reconnus par la population sont appelés prototypes. De plus, à chaque prototype est associé un pattern d’acti- vité qui représente l’activation de la population lorsque le prototype est reconnu en entrée. Cette association répond à la contrainte d) concernant le type de l’infor- mation émise en sortie puisqu’elle permet de coupler des domaines d’entrées (les prototypes) à un domaine de sortie (les patterns d’activité en sortie). Le mécanisme de la sélectivité est ensuite assez simple : on compare le type de l’information en entrée aux différents prototypes au moyen de l’équation 2.1, et cette compatibilité est utilisée ensuite pour calculer l’activation du pattern associé à chaque prototype au moyen des équations 2.8 et 2.9. Notons enfin que, comme la population peut avoir plusieurs entrées, un prototype prend en compte nécessairement toutes les entrées, c’est-à-dire que pour une population possédant n entrées, le prototype sera un vecteur d’ensembles flous de dimension n, chaque composante du vecteur étant reliée à une entrée et une seule. Plus formellemenent, un prototype P d’une population X, ayant n entrées E1, E2, . . . , En, est le vecteur (P(1), P(2), . . . , P(n)), où

chaque composante P(i) représente le type reconnu par ce prototype pour l’entrée Ei. P(i) est défini sur le même domaine de définition Di que le type Ti de Ei. Par

ter plusieurs types à la fois, voire une plage de valeurs du type, tout comme un neurone seul peut être sélectif à plusieurs valeurs de ses entrées. A ce titre, les ensembles flous (P(1), P(2), . . . , P(n)) ne sont pas soumis à la même contrainte d’avoir un noyau réduit à un singleton. De fait, ces ensembles correspondent à une dis- jonction pondérée des entrées correspondant à ce prototype et donc ne remettent pas en cause la consistance de la similarité évaluée en amont de la population. En revanche, l’hypothèse de non redondance du recouvrement s’applique aux ensembles flous associés à ces prototypes et qui représentent les relations entre les différentes valeurs possibles du type de sortie.

2.3.4.2 Intégration des entrées

La multiplicité des entrées a aussi pour conséquence que la similarité entre les entrées et le prototype va impliquer une forme de combinaison. Au même titre que dans l’équation 2.8, les entrées sont combinées (avec leur poids associé), au moyen d’un produit scalaire. Nous avons aussi évoqué en section 1.2.3.5, p.39, les travaux de Ben-Yishai et collaborateurs (1995) dans lesquels la sélectivité des neurones est utilisée pour modifier les poids des entrées dans l’équation 2.8. La solution adoptée est inspirée de cette approche puisque la combinaison pour un prototype P implique le vecteur des magnitudes incidentes, noté m (qui corres- pond au vecteur u dans l’eq.2.8), et le vecteur c = ci∈[1,...,n] des similarités entre

les entrées et le prototype : ∀i ∈ [1, . . . , n], ci = c(Ti, P(i)). En revanche, comme

précisé dans la deuxième contrainte sur l’intégration des entrées, la combinaison n’est pas nécessairement linéaire et est effectuée par une fonction d’agrégation, notée G. Elle permet la conversion des fréquences de décharge incidentes en courants synaptiques pour chaque prototype de la population. Elle caractérise en partie la fonction de la population et fait donc partie des points critiques à déterminer lors de la construction d’un modèle. La conversion de fréquences en courants impose comme contrainte sur G d’être à valeurs réelles relatives car à la différence des fréquences de décharge, les courants peuvent être négatifs. Suivent deux exemples d’agrégation d’entrées.

Agrégation «disjonctive». Une première manière de combiner les entrées est li- néaire et est exactement le pendant du produit scalaire de l’équation 2.8.

G(m, c) =

∑

i∈[1,...,n]

mi.ci (2.10)

Nous appelons cette agrégation disjonctive car il suffit qu’une des entrées soit reconnue et ait une magnitude non nulle pour que la valeur de la combinaison aug- mente, et plus il y a d’entrées reconnues, plus elle augmentera. Une telle combinaison est utile pour fusionner des entrées transportant des informations de même nature mais provenant de sources différentes (de différentes modalités sensorielles par exemple) : une seule source peut générer une activité mais si plusieurs sources concordent, l’activité en sera augmentée. Notons aussi que sous cette forme, la même importance est accordée à chacune des entrées dans la combinaison. L’ap- pellation «disjonctive» dans un contexte d’ensembles flous peut légitimement faire penser à une combinaison utilisant l’opérateur max. Dans cette situation, si on peut tout à fait envisager ce type d’agrégation, une forme plus «numérique» lui a été préférée de manière à obtenir des activations qui soient plus continues, et non sac- cadées comme cela aurait été le cas avec un max. Le max ne sélectionne, de plus, que la plus grande entrée, négligeant l’aspect d’accumulation des entrées qui est désiré en général.

Agrégation «conjonctive». Une seconde manière de combiner est la suivante :

G(m, c) = min

i∈[1,...,n](mi.ci) (2.11)

Une telle combinaison interviendra pour une population réalisant, par exemple,

Dans le document Modélisation du traitement de l'information cérébrale dans les réseaux à grande échelle : une approche fondée sur la similarité et la logique floue (Page 112-122)