• Aucun résultat trouvé

1. Contraintes biologiques:

Les données présentées au chapitre précédent démontrent que, à partir du moment où une image est présentée à la rétine, il faut environ 150 ms au système visuel humain pour accéder à une représentation de haut niveau (i.e. sémantique) de cette entrée. Les implications théoriques de ce résultat (présentées au chapitre I section 3.3) sont fondamentales. Nous revenons ici plus en détail sur ces implications, qui constitueront le fondement de la théorie du traitement visuel rapide que nous allons développer dans ce chapitre.

1.1 Traitement feed-forward

Compte-tenu de l'architecture hiérarchique du système visuel, impliquant au moins une dizaine d'étapes synaptiques de la rétine au cortex inféro-temporal où a lieu la reconnaissance des objets, une durée de traitement de 150 ms ne laisse que peu de place à des mécanismes feed-back, i.e. connexions en retour, récurrentes, connexions latérales extensives.

Ceci ne signifie pas que ce type de connexion est inutile pour le traitement visuel. Comme nous l'avons rappelé au chapitre I section 1.3, ces connexions existent bel et bien et constituent une part de la connectivité corticale au moins aussi importante que les connexions feed-forward. Leur rôle est donc indiscutable. Cependant, pour le type de traitement visuel rapide mis en évidence au chapitre II, ces connexions n'ont tout simplement pas le temps d'être mises en jeu. Plus précisément, l'activité neuronale dans le cortex inférotemporal à 150 ms après la présentation du stimulus n'est vraisemblablement pas ou peu influencée par ce type de mécanisme. Par contre, il est très probable que l'information circulant dans ces connexions en retour puisse venir influencer, renforcer ou modifier les réponses neuronales après quelques dizaines de millisecondes. Ce renforcement pourrait même être nécessaire à certains processus tels que la mise en mémoire, l'activation d'une représentation visuelle consciente, ou la modification des poids synaptiques (i.e. l'apprentissage). Une théorie récente (Subramaniam et al. 2000) suggère par exemple que, bien que les 50 premières millisecondes d'activité neuronale dans IT portent la majeure

supplémentaires qui permettra la mémorisation du stimulus.

Ainsi, nous ne mettons pas ici en doute l'importance des connexions corticales en retour. Nous pensons simplement qu'un modèle biologiquement plausible du traitement visuel devra pouvoir implémenter un mécanisme de reconnaissance ou de catégorisation rapide d'objets où l'information circulera principalement en avant. La mise en jeu de connexions récurrentes ne devra pas être un élément déterminant pour ce traitement rapide. Elle pourra par contre sous-tendre d'autres mécanismes de traitement, plus tardifs, que nous n'aborderons pas ici.

1.2 Un spike par neurone

Bien que nécessaire, une propagation feed-forward de l'information visuelle n'est pas suffisante pour expliquer la remarquable rapidité du système visuel humain. En effet, ce type de propagation permet uniquement de minimiser le nombre d'étapes de traitement que l'information devra traverser. Ce nombre minimal étant fixé (plus d'une dizaine d'étapes synaptiques), il apparaît qu'un neurone participant à ce traitement dispose de 10 à 15 ms seulement (le temps d'intégration rétinienne, de l'ordre de 20-30 ms doit être pris en compte) pour recevoir l'information de ses afférents, intégrer cette information de ses synapses dendritiques distantes vers son soma, générer éventuellement une réponse (spike), et transmettre cette réponse le long de son axone. La seule variable dans ce processus est le nombre de spikes qui constituera la réponse du neurone. Or, la fréquence maximale d'émission de potentiels d'action enregistrée pour les neurones du cortex visuel est de l'ordre de 100 Hz. Chaque neurone ne peut donc générer au maximum qu'un seul spike en réponse à une stimulation. La possibilité d'un codage par fréquence de décharge est donc exclue pour ce traitement visuel rapide, et avec elle la plupart des modèles classiques du traitement visuel (chapitre I section 2), y compris ceux qui faisaient appel uniquement à des connexions feed-forward (par exemple le Néocognitron de Fukushima, 1982).

Ici encore, nous ne mettons pas en doute le fait que les neurones du cortex visuel émettent en général plusieurs spikes en réponse à une stimulation. Le rôle de ces spikes supplémentaires est indiscutable, ne serait-ce que parce que, dans des conditions "écologiques", la stimulation visuelle de notre rétine est quasiment constante. Cependant, pour le type de traitement visuel rapide présenté au chapitre II, seulement un spike pour chaque neurone pourra éventuellement participer à l'activité des neurones temporaux à 150 ms. Un modèle biologiquement plausible du traitement visuel devra donc pouvoir implémenter un mécanisme de reconnaissance ou de catégorisation rapide d'objets où l'information est portée par un seul spike pour chaque neurone. L'utilisation de spikes

Dans un premier temps, nous essaierons de définir le type de computation qu'il est possible de réaliser avec un seul spike par neurone. Nous verrons que cette contrainte n'empêche aucunement d'encoder, transmettre et décoder une grande quantité d'information entre 2 populations de neurones. Nous nous attacherons ensuite à définir les possibilités d'un modèle du traitement visuel impliquant uniquement une architecture feed-forward. Enfin, nous intègrerons ces 2 idées dans un modèle biologiquement plausible de la reconnaissance visuelle: un modèle qui permet de réaliser une catégorisation rapide de l'entrée visuelle, tout en respectant les contraintes temporelles des systèmes visuels réels.

2. Coder l'information avec un spike par neurone

L'idée d'utiliser uniquement un spike par neurone à chaque étape semble à première vue extrêmement limitante. Si un neurone ne peut générer que zéro ou un spike, l'information qu'il transmet est a priori binaire (neurone actif/inactif). Cependant, les neurones corticaux ne sont pas des unités de traitement isolées et indépendantes. Chaque neurone appartient à une population, à une aire visuelle, à une colonne corticale, etc… Les propriétés physiologiques des neurones réels (intégration d'un potentiel électrique jusqu'à atteindre un seuil; décharge de potentiel d'action si le seuil est dépassé) impliquent qu'à l'intérieur d'une telle population, les neurones les plus activés auront tendance à atteindre leur seuil plus tôt, et donc à émettre un spike plus tôt également (voir figure 9A).

Le moment auquel un neurone donné émet un potentiel d'action porte donc bien plus d'information qu'une simple variable binaire. Dans des conditions où aucun bruit ne viendrait perturber le système, chaque neurone pourrait d'ailleurs encoder précisément son niveau d'activation, valeur analogique, dans sa latence de décharge. Cependant, les systèmes réels sont soumis à une certaine quantité de bruit non négligeable, qui rend l'utilisation de telles méthodes de codage peu probables. De plus, comme mentionné au chapitre I section 4, le décodage de telles valeurs ne peut se faire simplement, et doit par exemple mettre en jeu des lignes à délai, dont la plausibilité biologique laisse à désirer.

Une alternative est de s'intéresser au pattern spatio-temporel des spikes émis par une population de neurones (figure 9B). L'ordre dans lequel les neurones d'une population déchargent reflète leurs niveaux d'activation respectifs. De plus, un neurone peut décoder simplement l'ordre de décharge de ses afférents par un mécanisme de désensibilisation: les spikes reçus se voient attribuer de moins en moins d'importance; le premier participe plus à la réponse du neurone efférent que le suivant, etc… (Thorpe et Gautrais, 1997; 1998).

s'intéressant à une des premières étapes du traitement visuel, où la rapidité et l'efficacité sont particulièrement critiques: la transmission de l'information rétinienne au cortex visuel. Plus précisément, nous comparons dans ce contexte les performances obtenues par un codage par l'ordre d'activation tel que nous venons de le décrire, et celles obtenues par des codes plus classiques, basés sur la fréquence de décharge des cellules ganglionnaires de la rétine.

2.1 Article 3 :

VanRullen & Thorpe, 2000. Rate coding vs. Temporal Order Coding: What the retinal ganglion cells tell the visual cortex. Neural Computation.