• Aucun résultat trouvé

QUEL CODAGE NEURONAL POUR EXPLIQUER LE TRAITEMENT VISUEL RAPIDE ?

Dans le document en fr (Page 192-195)

le traitement visuel rapide

1 QUEL CODAGE NEURONAL POUR EXPLIQUER LE TRAITEMENT VISUEL RAPIDE ?

L’information se propage dans le cerveau sous la forme d’impulsions. Générées et reçues par les neurones, elles sont les unités indivisibles à partir desquelles sont codés aussi bien les gestes que les pensées et les perceptions. Mais si l’information est représentée par les impulsions, ces dernières peuvent être lues de différentes manières. Si la plupart des travaux de Neurosciences s’attachent à fournir une description fine et détaillée des mécanismes de production de ces impulsions, nous avons préféré dans cette thèse nous concentrer sur une définition simple de ces décharges, basées uniquement sur leur dates d’émission. Quelles que soient les sources de bruit qui viennent en perturber l’émission, les impulsions restent en effet des phénomènes extrêmement brefs et caractérisables du point de vue temporel. En conséquence, les codes neuronaux peuvent être distingués selon que les dates de décharges soient suffisamment précises pour coder l’information (codage temporel, quand typiquement un même stimulus évoque des décharges à des dates reproductibles d’un essai à l’autre) ; ou non, auquel cas leur seul nombre fournira une mesure valide de l’information transmise (codage atemporel de l’information, quand typiquement un même stimulus provoque l’émission d’un même nombre de décharges). Différents codes peuvent alors être évoqués pour expliquer différents phénomènes neuronaux et il s’agira de définir le type de langage neuronal le plus adapté, de manière simple et efficace, au phénomène considéré.

Dans le cadre de cette thèse, nous nous sommes intéressés à un phénomène en particulier, celui du traitement visuel rapide. Ce terme désigne la capacité du système visuel, notamment chez le primate, à traiter l’information à la fois rapidement et efficacement (Thorpe, Fize & Marlot, 1996 ; Wallis & Rolls, 1997 ; Keysers, Xiao, Foldiak & Perret, 2001). Pour illustration, l’électrophysiologie a démontré dans différentes parties du cerveau que des réponses sélectives à des stimuli visuels complexes, tels que des visages, de la nourriture ou encore des objets familiers, apparaissaient 100 à 150 ms après la présentation du stimulus (Perrett, Rolls & Caan, 1982 ; Rolls, Sanghera & Roper-Hall, 1979 ; Rolls, Perrett, Caan & Wilson, 1982). De manière similaire, les expériences de catégorisation ultra-rapide d’objets montrent qu’une scène naturelle complexe peut être catégorisée, selon qu’elle contient ou non un objet cible (animal ou véhicule), en approximativement 150 ms (Thorpe, Fize & Marlot, 1996 ; VanRullen & Thorpe, 2001b),

voire encore moins chez le singe (Fabre-Thorpe, Richard & Thorpe, 1998). Et très récemment, il a été montré, dans une tâche de détection ultra-rapide d’objets, qu’un sujet humain pouvait indiquer, à l’aide d’une saccade oculaire, la présence d’un animal d’un côté ou de l’autre du champ visuel dès 120 ms après la présentation du stimulus (Kirchner & Thorpe, 2005). En particulier, nous retiendrons que les tâches de catégorisation et détection ultra-rapides impliquent que les sujets ont à prendre une décision quant à la catégorie de l’objet et produire la réponse adéquate le plus rapidement possible. Ce phénomène visuel très spécifique reposerait sur un traitement ascendant de l’information, parallèle et automatique (Fabre-Thorpe, Delorme, Marlot & Thorpe, 2001).

De telles performances imposent des contraintes temporelles fortes sur la forme de codage à employer pour expliquer le traitement visuel rapide. En effet, pour atteindre, en 100 ms, le cortex inférotemporal (IT) où sont stockées les représentations de haut-niveau, l’information permettant de décrire le stimulus doit traverser une dizaine d’étapes de traitement. Sachant que les taux de décharge dans le système visuel ne vont pas dépasser les 100 Hz, peu de cellules vont avoir le temps d’émettre plus d’une seule impulsion dans la fenêtre critique des 10 ms de traitement. En conséquence, les neurones n’ont le temps de ne décharger qu’une seule fois pour effectuer des tâches de traitement visuel rapide, ce qui écarte toute possibilité de recourir à un codage se basant sur plus d’une seule impulsion (Thorpe & Imbert, 1989).

Dans ces conditions, le recours à un codage temporel pour expliquer le traitement visuel rapide devient primordial (bien qu’il ne constitue pas l’unique possibilité, comme nous l’avons discuté dans l’Introduction). En ce sens, il a été proposé un codage par latence où les neurones refléteraient l’intensité de leurs stimulations dans leurs latences de décharges, ce qui donnerait lieu, au niveau des populations, à l’émission de vagues asynchrones d’impulsions dont le rang encoderait l’information présente dans le stimulus (Gautrais & Thorpe, 1998 ; Thorpe, Delorme & VanRullen, 2001). Cette proposition a permis d’établir une théorie pour expliquer comment la voie ventrale pouvait traiter les scènes naturelles et en extraire l’information, à la fois rapidement et efficacement : suite à une stimulation visuelle, la rétine générerait une vague initiale dont les premières décharges représenteraient l’information la plus importante ; propagée à travers une hiérarchie d’aires visuelles, cette vague d’impulsions serait régénérée à chaque étape, sa structure spatio-temporelle étant modifiée par, notamment, la sélectivité des neurones

locaux (VanRullen & Thorpe, 2002 ; VanRullen, 2003). Si cette théorie originale, qui se base sur une forme de codage temporel particulier, n’a pas encore reçu de preuves expérimentales fortes en sa faveur dans le système visuel, l’observation de temps de décharges reproductibles est un fait avéré pour nombres de zones cérébrales, en particulier sensorielles (revue dans VanRullen, Guyonneau & Thorpe, 2005, en annexe). Et il a même été rapporté très récemment que le codage par latence était à l’œuvre, chez l’humain, dans les fibres afférentes tactiles (Johansson & Birznieks, 2004).

Cette théorie se voit appliquée dans SpikeNet, un système de traitement de l’image basé sur l’utilisation de réseaux de neurones impulsionnels asynchrones. Les premières simulations menées avec SpikeNet ont ainsi permis de montrer qu’une architecture simple de traitement ascendant de l’information visuelle était capable d’exécuter des tâches difficiles telles que la détection de visages dans des images naturelles (VanRullen, Gautrais, Delorme & Thorpe, 1998) ou l’identification de visages de manière indépendante au point de vue (Delorme & Thorpe, 2001). Développé depuis par SpikeNet Technology SARL sous licence du CNRS, SpikeNet exploite toujours les mêmes principes computationnels. Et puisque dans le système nerveux il est impossible d’empêcher les neurones de décharger plus d’une seule fois, son intérêt réside dans sa capacité, en tant que système artificiel, à déterminer les limites du traitement visuel dans ces conditions de décharge unique (Thorpe, Guyonneau, Guilbaud, Allegraud & VanRullen, 2004 ; en annexe).

Pour résumer le contexte dans lequel se déroule la présente thèse, nous retiendrons donc ces 3 points :

i. Expérimental : le système visuel est capable de produire des réponses à la fois

rapides et sélectives;

ii. Théorique : de telles performances s’expliquent par la propagation à travers la

voie ventrale d’une vague asynchrone d’impulsions, régénérée à chaque étape en fonction des sélectivités locales, et dont une des particularités est de porter l’information la plus importante dans ses toutes premières afférences;

iii. Computationnel : SpikeNet, un simulateur de réseaux de neurones impulsionnels

asynchrones inspiré du traitement visuel rapide, applique le principe d’un codage par rang, avec une impulsion par neurone, pour en déterminer les limites.

Nos travaux ont fait en sorte d’adresser ces 3 points pour d’une part, vérifier que le traitement visuel rapide s’appuyait bien sur une architecture hiérarchique et d’autre part, répondre à la question principale de cette thèse, celle de l’apprentissage dans un contexte de codage par latence respectant les contraintes imposées par le traitement visuel rapide. Nous récapitulerons donc nos résultats dans la deuxième partie de cette conclusion avant, dans la troisième et dernière section, de terminer sur l’utilité de stratégies temporelles pour expliquer le traitement visuel rapide.

Dans le document en fr (Page 192-195)