• Aucun résultat trouvé

Nous avons vu aux sections précédentes que le décours temporel d’activation des aires visuelles, et donc la durée du traitement visuel estimée à 150 ms chez l’homme (par exemple pour une tâche de détection d’animaux), avait remis en cause les modèles neuronaux du traitement de l’information visuelle, et donné lieu à une sorte de révolution théorique. Les seuls modèles pouvant respecter ces contraintes biologiques semblent être ceux qui transmettent l’information de façon feed-forward, et prennent en compte la structure temporelle précise des réponses neuronales.

faudrait seulement 50 ms pour accéder à une représentation "sémantique" de l’information visuelle, comme la catégorie de l’objet, ou son genre (masculin ou féminin) dans le cas des visages. Nous présenterons ici brièvement ces résultats, puis leurs implications potentielles pour les modèles du traitement de l’information visuelle.

5.1 Résultats expérimentaux

La première expérience à reporter des activations neuronales précoces (i.e. avant 150 ms) reflétant des propriétés de "haut niveau" des objets de la scène visuelle a été réalisée par Seeck et al. (1997). Ces auteurs ont enregistré l'activité électrique de surface chez des sujets sains (potentiels évoqués) et l'activité intracraniale dans le lobe temporal (inférotemporal et hippocampe) et dans le lobe frontal chez des patients épileptiques, lors d'une tâche de "reconnaissance de visages". Il s'agit en fait de répondre dès qu'un des visages présentés a déjà été vu lors de la même série d'images (ce qui correspond plutôt à la détection d'une répétition, ou d'une familiarité). Les visages sont présentés par paires, séparés de seulement 150 ms. L'intervalle entre 2 paires est d'environ 2 secondes. La paire peut (avec une probabilité d'environ 3/11) contenir un (seul) visage répété (c'est-à-dire qui a déjà été présenté durant la série): le sujet doit alors répondre en appuyant sur un bouton; dans le cas contraire il appuie sur un autre bouton. Lorsque les auteurs comparent les potentiels évoqués par les visages répétés et les visages non répétés (nouveaux), ils s'aperçoivent que les activités pour les 2 catégories divergent avant même 50 ms, que ce soit avec les enregistrements de surface ou intracraniaux, notamment pour ces derniers au niveau des électrodes temporales, hippocampales et orbito-frontales. Les auteurs concluent donc que des aspects de "haut niveau" du traitement visuel, comme la reconnaissance d'un visage vu auparavant, surviennent seulement 50 ms après la présentation du stimulus, et que le lobe temporal doit être impliqué dans ce type de traitement.

La même année, George et al. (1997) enregistrent les potentiels évoqués visuels lors d'une tâche de détection de visages dont les stimuli sont des "Mooney faces", qui peuvent être soit à l'endroit, soit inclinés de 180° (à l'envers). Ce type de stimulus ressemblant à une photographie de très fort contraste, est composé de 2 parties (par exemple une partie blanche et l'autre noire). Lorsqu'un "Mooney face" est à l'endroit, un visage peut être détecté. Lorsqu'il est à l'envers, la détection devient très difficile, et le sujet perçoit la plupart du temps 2 formes sans aucune structure. Dans cette expérience, les sujets devaient répondre s'ils détectaient un visage, dans 8 séries de 40 images. Les 4 dernières séries étaient l'exacte répétition des 4 premières. Ainsi, les auteurs ont pu comparer les potentiels évoqués par la première et la deuxième présentation d'un même stimulus. Ces 2 potentiels

perçues comme des visages (Mooney faces à l'envers). Cette différence semble être générée dans les régions inférotemporales. Elle est interprétée comme un effet de répétition ou de familiarité, qui n'est pas spécifique à la reconnaissance des visages.

L'année suivante, Debruille et al. (1998) mettent en place un paradigme expérimental pour tester le temps que met réellement le système visuel à reconnaître un visage familier (et non une simple répétition d'image). Les images cibles sont des photographies de personnes populaires en France (où est réalisée l'expérience), les distracteurs des photographies de personnes populaires dans d'autres pays occidentaux (qui ne sont donc pas connues à priori des sujets français). Aucune différence n'est observée entre ces 2 catégories sur la période 50-70 ms après la présentation du stimulus (à l'encontre des résultats de Seeck et al. 1997), mais une différence significative est présente entre 76 et 130 ms. Les visages seraient donc reconnus en moins de 100 ms.

Une autre étude toute récente s'est intéressée au traitement du genre sur des images de visages ou de mains humaines. Mouchetant-Rostaing et al. (2000a) ont présenté à des sujets des photographies de visages et de mains dans 3 conditions: dans la condition 1, les sujets ne doivent pas et ne peuvent pas catégoriser les images selon le genre (ils doivent répondre lorsque les visages portent des lunettes, ou lorsqu'un torse humain est présenté parmi des mains humaines, et toutes les images d'une même série représentent des personnes de même sexe); dans la condition 2, ils peuvent de façon "incidentelle" catégoriser les images selon le genre, mais sont impliqués dans une autre tâche (la même que précedemment, mais les deux genres sont mélangés dans chaque série); dans la 3ème condition, les sujets doivent explicitement ("intentionnellement") catégoriser les images selon le genre. Seuls les distracteurs de chaque condition sont comparés. Une différence d'activité électrique (EEG) entre les conditions 1 et 2 est observée entre 40 et 90 ms après la présentation du stimulus, pour les visages comme pour les mains humaines. Ceci est interprété comme un reflet d'une catégorisation rapide et automatique de l'information visuelle. Curieusement, cette différence précoce n'est pas observée entre les conditions 2 et 3. Ce type de "catégorisation précoce" a été retrouvé par les mêmes auteurs avec des stimuli "non-biologiques" (i.e. formes hachurées; Mouchetant-Rostaing et al, 2000b).

Des résultats similaires ont également été obtenus par Magnéto-Encéphalographie (MEG). Halgren et al. (2000) ont montré qu'une source d'activité (située cette fois dans le cortex occipital) pouvait différentier dès 110 ms les images de visages d'autres stimuli, ainsi qu'entre les visages d'expression neutre et les visages tristes ou joyeux.

Enfin, Johnson, Guirao-Garcia et Olshausen (1999) ont reproduit l'expérience de catégorisation "animal/non-animal" de Thorpe et al. (1996), en incluant une troisième catégorie d'images contenant des fleurs. La moitié des sujets devaient répondre sur les

présentation du stimulus. De plus, cette différence est aussi présente entre les 2 catégories non-cibles. Elle reflèterait donc une catégorisation implicite.

Cette série de résultats expérimentaux semble donc suggérer que des traitements de haut niveau comme la catégorisation d'objets, la reconnaissance de visages ou la discrimination de leur genre pourraient se faire en moins de 100 ms, voire avant 50 ms post- stimulus. Si tel était le cas, les modèles du traitement de l'information visuelle seraient probablement tous remis en question, y compris ceux qui font appel aux spiking neurons.

5.2 Implications théoriques fondamentales

La catégorisation ou l'identification des stimuli en 150 ms constitue déjà pour le système visuel une contrainte "maximale": elle implique que l'information ne peut circuler que vers l'avant, et que pas plus d'un spike par neurone ne peut être pris en compte. Contraindre encore cette durée semble presque impossible.

Il n'est pas raisonnablement envisageable que l'information puisse être encodée avec moins d'un spike par neurone! Ce n'est donc pas dans le code de l'information qu'il faut chercher le gain de temps nécessaire. Pratiquement, le seul moyen de raccourcir le temps de traitement serait de "sauter" des étapes neuronales: compte-tenu de la fréquence de décharge des neurones corticaux, du temps d'intégration de l'information visuelle dans la rétine, des constantes de temps synaptiques et des vitesses de conduction des fibres axonales, un objet serait identifié après seulement 1 (voire 2) étapes de traitement après la rétine! Concrètement, la reconnaissance d'objets aurait donc lieu dans V1 (l'activité électrique visuelle à des latences de 50-70 ms a en effet été identifiée avec l'activité du cortex visuel primaire; Clark et al. 1995; Clark et Hillyard 1996), ou alors la rétine serait directement connectée (avec éventuellement un relais sous-cortical) au cortex inférotemporal! Et dans ce cas, quelle serait la véritable utilité de la hiérarchie des aires visuelles extrastriées, que les chercheurs en neurosciences visuelles ont accepté comme un postulat de départ pendant plus de 30 ans?

D'un point de vue théorique, il est donc fondamental de connaître la durée exacte du traitement visuel minimal nécessaire pour accéder à une représentation de l'entrée visuelle suffisamment abstraite (par exemple, sa catégorie). S'il s'avérait que 50 ms sont suffisantes, les modèles du traitement visuel connaîtraient une nouvelle révolution. Par contre, il est possible que les résultats expérimentaux présentés à la section précédente ne soient pas valides dans l'absolu, qu'ils soient simplement le reflet d'une erreur conceptuelle dans le paradigme expérimental.

Si l'on s'intéresse plus précisément au protocole expérimental utilisé par Seeck et al. (1997), il apparaît que les conclusions de cette étude ne sont pas théoriquement valides.

Les auteurs basent leurs résultats sur la comparaison des potentiels évoqués par les visages répétés (notés "cibles") et les visages nouveaux (notés "distracteurs"). Un prérequis pour pouvoir effectuer ce type de comparaison est que les 2 signaux comparés doivent être obtenus dans les mêmes conditions expérimentales. Or, dans cette étude, une image "cible" est précédée dans 50% des cas par une autre image (présentée 150 ms auparavant), qui est forcément un distracteur, de par le protocole choisi. Le signal "cible" est donc composé de:

• 50% de cibles précédées d'un distracteur

• 50% de cibles "non précédées" (i.e. premières de la paire d'images).

82 paires d'images sur 112 sont composées de 2 distracteurs; les 30 paires restantes sont composées d'une cible et d'un distracteur, soit dans cet ordre (15 paires), soit dans l'ordre inverse (15 paires). Le signal obtenu pour les distracteurs est donc composé de:

• 82 images soit 42.3% de distracteurs précédés d'un distracteur • 82+15=97 images soit 50% de distracteurs "non précédés"

• 15 images soit 7.7% de distracteurs précédés d'une cible.

7.7% des images de ces 2 catégories ont donc été obtenues dans des conditions différentes: soit précédées d'un distracteur, soit d'une cible 150 ms plus tôt. Si l'on considère que le signal induit par les distracteurs diffère réellement du signal induit par les cibles entre 150 ms et 200 ms (résultats de Thorpe et al. 1996 et d'autres études citées à la section 3.2), alors les moyennes "cible" et "distracteur" effectuées par Seeck et al devraient différer... entre 0 et 50 ms après la présentation du stimulus! Puisque les 2 catégories comparées ne diffèrent dans leurs conditions que pour 7.7% des images, cette différence ne s'observe de façon statistiquement significative qu'à partir de 50 ms, c'est-à-dire 200 ms après la présentation du premier stimulus de la paire pour ces 7.7% d'images.

Seeck et al. ont donc commis une erreur conceptuelle de 1er ordre: comparer des potentiels évoqués qui ne reflètent pas uniquement les catégories d'images (visage familier/nouveau) pour lesquels ils ont été enregistrés. Leurs conclusions sont donc erronées, et ne remettent pas du tout en question l'idée d'un traitement visuel en 150 ms; au contraire, les résultats supportent même cette idée.

Ce type d'erreur conceptuelle n'a pas (a priori) été commis dans les autres expériences présentées à la section 5.1. S'il est vrai que les 2 conditions comparées par George et al (1997), i.e. la première et la deuxième présentation d'une même image, ont été obtenues respectivement au début et à la fin de la séance pour chaque sujet (écart entre première et deuxième présentation 8 minutes et 30 secondes), s'il est vrai que les sujets étaient impliqués dans différentes tâches pour les différentes conditions comparées par Mouchetant-Rostaing et al. (2000a,b), il n'en reste pas moins vrai que ces différences précoces d'activité électrique peuvent aussi être le reflet de différences de "haut niveau" (i.e. catégorie, familiarité, genre...) entre scènes visuelles. En particulier, le protocole expérimental de Johnson et al (1999) est similaire à celui utilisé par Thorpe et al. (1996), et les résultats obtenus sont pourtant très différents: catégorisation en 150 ms ou en moins de 100 ms?

Il semble donc que pour réconcilier ces différents résultats, il soit nécessaire de pouvoir séparer les activités électriques correspondant à des différences de bas niveau ou de haut niveau entre différentes catégories d'images. Par exemple, quel type d'activité (et à quel moment?) est spécifique du caractère "cible" ou "distracteur" d'une image, indépendemment du type d'image utilisé? Quel type d'activité (de bas niveau) est caractéristique d'une catégorie d'images, et ne dépend pas de la tâche effectuée?