• Aucun résultat trouvé

Critères de performance pour un NAM

2.5 Mémoires associatives

2.5.3 Critères de performance pour un NAM

Une mesure de performance populaire d’une mémoire associative est sa capacité de sto- ckage des informations, qui est définie par la quantité d’informations contenues dans la mémoire rapportée au nombre de neurones. Cependant cette mesure ignore une propriété importante d’un modèle, le nombre de bits requis pour représenter le poids d’un neurone. Par conséquent, une autre proposition consiste à mesurer l’efficacité du réseau en divisant sa capacité par le nombre minimal de bits requis par synapse [107] [122]. Autrement dit, puisque la mémoire est représentée par une matrice d’adjacence, un premier critère de per- formance est calculé à partir du nombre de bits d’information contenus dans une entrée de cette matrice.

2.5.3.1 Efficacité du stockage de l’information

L’efficacité s’appuie sur où et comment stocker l’information au sein du réseau. En effet, en fonction de la règle d’apprentissage utilisée, avec seuillage (équation 2.37) ou additive (équation 2.35), l’information contenue dans chaque synapse sera différente. Déterminée par Willshaw sur son réseau seuillé, la capacité optimale pour chaque neurone est asymptotique en augmentant la taille de la matrice de poids W [138]. A travers un encodage binaire des messages parcimonieux, la synapse contiendra jusqu’à C=log(2)≈0,69 bit par synapse ac- tive (bps) [110]. En revanche, en utilisant la règle additive (équation 2.35), la capacité monte à C =1/(2log(2))≈0,72 bps [108]. Ces capacités sont calculées pour des mémoires de type hétéro-associatives, et sont aussi valables pour des réseaux bidirectionnels [121]. Quant aux

mémoires de type auto-associative, la capacité d’information est divisée par deux du fait de la symétrie de la matrice de poids associée à ces réseaux.

La valeur d’information pour une synapse active est relative à celles des autres, et par conséquent est inhérente aux types de données à apprendre. En effet, l’apprentissage de motifs non parcimonieux décroît la quantité d’information synaptique à C=0,14 bps ou C = 0,33 bps si le réseau est de type hétéro-associatif [84]. Au-delà du souhait qu’une mémoire puisse stocker un maximum de bits d’information par synapse, l’intérêt reste de pouvoir récupérer un message de la mémoire idéalement sans dégradation. Le critère primordial d’une mémoire associative est donc sa capacité critique.

2.5.3.2 Capacité critique

Un problème des mémoires associatives est lié à la limite d’information que le réseau peut apprendre. En effet, si la mémoire est saturée, elle peut conduire à la création de fausses informations (ou spurious memories). On parle ici d’ambiguïté, puisque le réseau n’est pas en mesure de sélectionner les neurones afin de récupérer avec succès un message. Une explica- tion plus détaillée de la problématique d’ambiguïté est présentée dans la chapitre suivant.

On parle de capacité critique quand un modèle n’est plus en mesure d’apprendre des messages supplémentaires sans ajouter des erreurs durant la phase de décodage. Ces er- reurs ont été largement étudiées dans le cas du modèle de Hopfield. Bien que le modèle de Hopfield converge sûrement vers un état stable, cet extremum n’est pas nécessairement global. La stabilisation de l’état du réseau vers un minimum local peut alors être considéré comme un piège [83] et ce d’autant plus que le seuil critique du réseau est atteint. La capa- cité critique du réseau de Hopfield à été posée à 0,138n [7] avec n le nombre de neurones. Elle est listée dans le tableau 2.2 et comparée à celle des autres mémoires associatives étu- diées. Les valeurs des capacités critiques représentent les bornes maximales, puisque l’étude rigoureuse de ces dernières d’un point de vue mathématique reste très rare. Une approche rigoureuse de la capacité critique du réseau de Hopfield réduit sa capacité à 0,113n [41]. Au- trement dit, si pour le modèle de Hopfield, qui reste le réseau de mémoire associative le plus étudié, déterminer sa capacité critique optimale est difficile, alors celles des autres réseaux que nous étudions ne peuvent être posées que comme bornes supérieures théoriques.

L’associateur linéaire stocke un nombre maximal de messages égal à la plus petite des dimensions de sa matrice de poids. Son nombre de bits d’information stockable est d’ordre n log10(n)/(2 log10(2))[101], avec log10le logarithme de la base décimale.

En termes de capacité et d’efficacité à récupérer une information dans la mémoire, le CbNN possède de meilleures performances que le modèle de Hopfield [52] ou celui de Willshaw [53]. En effet, la capacité critique de stockage du modèle de Hopfield est d’ordre n/(2 log10(n)) [100] tandis que celui de Willshaw d’ordre supérieur est équivalent à celui

2.5 – Mémoires associatives 31 Nombre de neurones 0 50 100 150 200 250 300 350 400 Capacite critique 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Lineaire Willshaw Hopfield BAM CbNN

FIGURE2.6 –Capacité critique des NAM en fonction du nombre de neurones dans le réseau.

du CbNN soit n2/(log n)2, avec log la fonction du logarithme naturel. Bien que l’ordre des

capacités critiques soit le même pour le modèle de Willshaw et le CbNN, ce dernier possède un avantage puisqu’il peut apprendre des messages de manière parcimonieuse avec l’acti- vation d’un neurone par cluster. La figure 2.6 illustre les bornes supérieure de la capacité critique des mémoires associatives étudiées en fonction de leur nombre de neurones.

Type Linéaire Willshaw Hopfield BAM CbNN

Mmax n log2 log10(n)

10(2) −n2 log(n)2log(1− ( log(n) n )1/log(n)) 0,14n< 2 logn10(n) 0,1998n n 2 log(n)2

TABLEAU 2.2 –Capacité critique des mémoires associatives

2.5.3.3 Avantage de la parcimonie

Afin d’augmenter la capacité critique, il est possible de réduire la densité des messages à apprendre à travers un codage parcimonieux comme identifié dans le cortex cérébral [44] [106]. Le codage parcimonieux est une minimisation du nombre de neurones mobilisés pour représenter une information. Par conséquent, le réseau opère une meilleure distinction entre deux éléments au sein de sa mémoire, tolérant ainsi l’apprentissage supplémentaire de mes- sages. Autrement dit, la parcimonie encourage la diversité.

En traitement du signal, la notion de parcimonie correspond à maximiser le signal tout en minimisant le nombre de variables nécessaires, regroupées dans un dictionnaire, pour repré- senter le signal sous forme de combinaison linéaire [25] [32] [39] [40] [89]. Certains réseaux de neurones comme l’auto-encodeur parcimonieux [105] créent ces dictionnaires en regrou-

pant les caractéristiques nécessaires au codage parcimonieux de l’information. Cependant, la réduction de dimension est effectuée par minimisation, contraignant alors l’apprentissage à passer par un pré-traitement.

En revanche, avec le CbNN, la parcimonie provient de la connectivité au sein du réseau contraignant uniquement un sous-ensemble de neurones parmi ceux disponibles à être ac- tifs (et ainsi à représenter l’information). De plus, comme avec le réseau de Willshaw [139], le CbNN est plus à même de produire un message sans erreur en se basant sur des entrées encodées de manière parcimonieuse. Ce codage réduit la complexité et le temps d’apprentis- sage en plus d’être biologiquement vraisemblable. En outre, le contrôle de la parcimonie [67] [68] [70] au sein du réseau gère le taux de redondance dans celui-ci et par conséquent amène une plus haute tolérance vis-à-vis des erreurs survenant durant le décodage. Autrement dit, la défaillance d’un sous-ensemble de neurones ne rend pas la représentation indécodable.

La résultante d’un tel type de codage est une forme d’orthogonalisation permettant une distinction entre diverses informations au sein du réseau. Cet effet peut être renforcé dans le cas des CbNN par l’utilisation d’un codage de Huffman [19]. D’autres réseaux se basent uni- quement sur le codage parcimonieux afin de pallier les faiblesses des mémoires associatives natives [82] [98].

L’utilisation d’un codage parcimonieux avec le modèle de Hopfield repousse d’un fac- teur −((k/n)log(k/n)−1 le seuil de sa capacité critique d’information [48]. En contrai-

gnant l’activation de k neurones parmi n, son nombre de messages maximal devient −n2/(k log(k/n)). Le ratio k/n devient optimal à l’ordre 10−7[23].

Documents relatifs