• Aucun résultat trouvé

VITESSE DU TRAITEMENT VISUEL

1 quelques indices de mesure

1.2 potentiels évoqués de surface

a) visages

Chez l’homme, l’existence d’activités neuronales liées au traitement des entrées sensorielles est facilement mise en évidence par les potentiels électriques enregistrés à la surface du scalp ; évoqués par des présentations d’images, ils sont appelés potentiels évoqués visuels. L’existence de potentiels visuels évoqués spécifiquement par des présentations de visages est bien connue (Jeffreys et al. 1992 ; Seeck et Grüsser 1992). Des études plus précises utilisant des électrodes implantées ont permis de préciser leurs bases cérébrales (essentiellement le gyrus fusiforme) (Allison et al. 1994 ; Halgren et al. 1994 ; Kanwisher et al. 1997). Ces potentiels ‘visages’ peuvent couvrir un domaine temporel très large.

Dans une expérience visant à déterminer quels paramètres de ces stimuli peuvent être encodés par ces potentiels évoqués visuels, Bobes et al. 1994 rapportent trois expériences dans lesquelles les sujets doivent déclarer si des visages connus sont corrects ou non. Les photographies utilisées sont manipulées de telle sorte que les traits composant les visages (1) n’appartiennent pas tous à la même personne, (2) sont mélangés, (3) sont légèrement déplacés. Les effets de ces distorsions par rapport aux visages de référence sont visibles sur les potentiels évoqués à partir de 250 ms (N374) pour les traits incongrus, 370 ms (P435) pour les traits mélangés et 300 ms (P486) pour les traits déplacés. Les auteurs suggèrent qu’un processus de reconnaissance de visages familiers (la description des traits en mémoire, leur contenu) provoque le premier effet à 250 ms, tandis que le second serait lié à un encodage et une analyse de la structure du visage (la configuration, d’après la théorie d’encodage structurel de Bruce et al. 1992).

D’autres études ont montré qu’il existait des potentiels ‘visages’ à des latences bien plus courtes : 130-170 ms (Botzel et Grusser 1989; George et al. 1996 ; Jeffreys 1989). Mais il n’est pas encore établi que ces potentiels ‘visages’ se différencient de ceux répondant à la présentation de mots, de pseudo-mots ou pseudo-fontes, en comparaison à d’autres formes d’objets (Shimoyama et al. 1992 ; Schendan et al. 1998). Pour ces derniers auteurs, un effet de familiarité à ces formes spécifiques peut expliquer ces traitements rapides. Même si ces potentiels sont particuliers aux visages, il est possible que ces traitements puissent recruter des voies spécialisées dans des reconnaissances de formes aux

configurations particulières et typiques ; il n’est pas sûr que ces latences puissent se généraliser à la reconnaissance d’autres objets.

b) autres catégories

Les tâches dans lesquelles des sujets doivent décider si l’image affichée représente ou non un objet (object decision task) ont été utilisées dans des contextes d’études de la mémoire (évoquant des potentiels aux latences de l’ordre de 400 ms), et plus généralement au cours d’études sur les effets d’amorçage. A notre connaissance, aucune étude de décision d’objets n’a été menée pour caractériser des potentiels évoqués visuels à d’autres catégories que les visages. Dans une étude de potentiels évoqués par les visages comparés à d’autres catégories comme des personnages, outils et fleurs, Seeck et Grüsser 1992 ont montré des différences entre 130 et 160 ms pour les visages et personnes comparées aux autres catégories, ces autres catégories étant indissociables. D’après Jeffreys et al. 1992 ou Shimoyama et al. 1992, de nombreuses catégories d’objets évoquent une onde positive au vertex entre 130-170 ms, similaire à celle évoquée par les visages mais moins ample. Une autre étude (Jeffreys 1996) montre que la latence de ce potentiel varie en fonction de la pertinence de la forme (structure possible ou impossible). On peut inférer de ces résultats que les processus cérébraux à la base de la reconnaissance des visages se déroulent dans des aires proches de celles activées dans la reconnaissance des objets ; cependant ces activités peuvent refléter un encodage visuel intermédiaire avant une perception et une reconnaissance complète.

Une étude plus parlante a été menée par Rudell 1992 mettant en évidence ce qu’il appelle le ‘potentiel de reconnaissance’ : une onde positive occipitale s’initiant à 170 ms jusqu’à 350 ms observable pour les mots écrits et les images signifiantes pour les sujets. Les stimuli contrôles étant des caractères chinois ou arabes, ou des amas de traits, il est malheureusement impossible sur ces expériences de savoir si cette activité est aussi évoquée par des non-mots ou objet inconnu : si c’était le cas, ce potentiel pourrait aussi bien refléter une analyse visuelle intermédiaire précédant une reconnaissance complète. Les études dans lesquelles les sujets décident si les lettres affichées représentent ou non un mot de leur langue (décision lexicale) montrent des activités corrélées à leur réponse vers 400 et 600 ms, sans que cette activité soit motrice (Bentin et Peled 1990 ; Karayanidis et al. 1991 ; Holcomb 1993 ; Kounios et Holcomb 1994). Par exemple, Rugg 1983 attribue cet effet à un processus d’évaluation du stimulus ; ses résultats montrent aussi que les potentiels évoqués à 100 et 180 ms peuvent refléter une reconnaissance des lettres, aussi bien dans le cas des mots que des non-mots. Comme pour les objets et les visages, ces potentiels évoqués par des lettres correspondent aux données d’enregistrements corticaux chez l’homme dans les gyri fusiforme et temporal inférieur vers 200 ms (Allison et al. 1994 ; Nobre et al. 1994).

c) effets d’amorce

Un champ de recherche a été exploré dans le cadre de l’étude des processus et des représentations impliqués dans la compréhension des scènes visuelles et du langage. Ces études, en mettant en jeu le mécanisme d’amorçage (priming), cherchent à savoir si les processus verbaux et visuels partagent les mêmes représentations (un « système conceptuel commun »). Si ces études ne sont pas d’un intérêt direct pour notre propos, elles utilisent des tâches visuelles dans lesquelles le sujet doit choisir entre deux réponses ; d’autre part, depuis Barrett et al. 1988 l’ensemble des recherches du domaine utilisent les potentiels évoqués visuels comme variables d’études – la neuroimagerie fonctionnelle très récemment.

Les effets mesurés dans de tels processus visuels ont des latences tardives : Barrett et Rugg 1990 montrent des effets à partir de 400 ms, mais une tâche phonologique vient s’ajouter à la tâche visuelle. S’affranchissant de cette contrainte, les mêmes auteurs Barrett et Rugg 1990 montrent que des différences sont visibles entre potentiels évoqués par des dessins reliés à l’amorce et des dessins non reliés, à partir de 300 ms lors d’un amorçage sémantique (i.e. dessins reliés par une association sémantique de type couteau-fourchette ou clef-serrure). Une expérience similaire est relatée par Pratarelli 1994 dans laquelle les sujets doivent décider si les deux stimuli sont appariés (deux boutons-réponses). L’amorce est constituée de mots entendus par le sujet environ 1.5 s auparavant ; le deuxième stimulus est constitué par un dessin de l’objet nommé lui correspondant, s’il est apparié. Dans ce type de tâche, les auteurs mettent en évidence un effet de l’amorçage du premier sur le second stimulus à partir de 250 ms. Cependant, comme dans les tâches précédentes, cette différence de traitement est due à l’effet d’amorce et non uniquement au traitement visuel du second stimulus.

Dans le même contexte, Holcomb et McPherson 1994 rapportent une tâche dans laquelle le sujet doit décider si le dessin présenté est ou non un objet (deux boutons- réponses). Comme les autres études du domaine, ils mettent en évidence un effet d’amorçage causé par une autre vue de l’objet, présentée environ 1s avant. Plus précisément, il y a trois types de stimuli dans cette tâche : objet apparié à l’amorce, objet non-apparié, non-objet (non-reliés à l’amorce). Du point de vue de la rapidité de traitement, il est intéressant de comparer ici les potentiels évoqués par les objets non-reliés à l’amorce et par les non-objets. Cette comparaison montre une différence significative entre ces deux potentiels visible à deux moments, à 200 et 550 ms. Cette différence de potentiels est caractérisée comme étant plus négative sur les électrodes frontales pour les non-objets. Ce résultat n’est malheureusement pas discuté ; il est cependant un indice de reconnaissance à 200 ms de dessins d’objets en comparaison de dessins aléatoires (possédant les mêmes propriétés visuelles que les dessins d’objets en termes de contrastes, fréquences spatiales etc.), cette reconnaissance pouvant refléter une configuration visuelle connue des sujets, comme observé dans le cas des décisions lexicales.

d) attention visuelle

Les théories psychologiques de l’attention ont très tôt caractérisé ses effets dans l’espace, c’est-à-dire décrit le statut spécifique de la zone du champ visuel privilégiée, comme nous l’avons évoqué en première partie. Les expériences en potentiels évoqués reflètent cette prédominance des études sur l’attention spatiale ; de nombreux exemples peuvent être cités, mais nous nous limiterons ici à énoncer les principaux résultats pouvant être utiles à nos préoccupations (pour une revue, voir par exemple Heinze et Mangun 1995 ou Hillyard et al. 1998).

Les effets de l’attention spatiale peuvent être très précoces : dès 75 ms, latence correspondant aux premiers potentiels corticaux enregistrés chez l’homme (ex. Halgren et al. 1994), de nombreuses expériences montrent une modification des réponses neuronales lorsqu’un stimulus visuel est détecté dans une zone du champ visuel privilégiée. Cet effet ne peut être attribué qu’à la correspondance entre l’état d’attention préparatoire des sujets et la présence d’un stimulus visuel, dont l’effet supprime probablement les réponses neuronales aux autres stimuli présentés dans le reste du champ (Posner et Dehaene 1994 ; Anllo Vento 1995 ; Luck et Hillyard 1995). Le second effet de l’attention spatiale est mis en évidence à partir de 140 ms ; si son interprétation est encore controversée, les études récentes s’accordent à l’interpréter en termes de gain et de facilitation de l’entrée visuelle (Luck et al. 1994 ; Heinze et Mangun 1995; Hillyard et AnlloVento 1998 ; Hillyard et al. 1998 ). Ces deux effets attentionnels ne semblent donc avoir aucun rapport avec une reconnaissance du contenu des entrées visuelles.

Les études expérimentales visant à caractériser les processus de l’attention non- spatiale sont plus récentes, ou difficilement dissociables de l’attention spatiale : de nombreuses expériences ont cherché à spécifier le rôle de l’attention dans le problème du liage, ou dans l’émergence de représentations en mémoire à court terme. Elles sont généralement de peu de recours pour la question posée ici ; cependant certains résultats dans des protocoles de recherche visuelle (visual search) permettent d’obtenir quelques indices sur la rapidité du traitement visuel (voir Sperling et Melchner 1978; Treisman et Gelade 1980; Kahneman et al. 1983; Treisman et al. 1983; Klein 1988; Tallon-Baudry et al. 1997).

En potentiels évoqués, une expérience de Sugita (Sugita 1995) met ainsi en œuvre des stimuli composés de cercles barrés ou non barrés, ainsi que de cercles incomplets et d’ellipses, pour tenter de caractériser les recherches visuelles parallèles et sérielles. Lors de la tâche à double choix, les résultats montrent que les stimuli faisant l’objet d’une recherche parallèle (entraînant un ‘pop-out’) évoquent une différence entre cibles et distracteurs à partir de 150 ms, plus négative pour les cibles sur le site occipital d’enregistrement (4 électrodes au total). Dans le cas des recherches sérielles, le même phénomène se produit plus tard (débute vers 200 ms, pic vers 250 ms). Cet effet possède la caractéristique d’accroître sa latence en fonction directe du nombre de distracteurs : les

auteurs proposent de l’interpréter comme un corrélat de la tâche de recherche. Si cet effet se vérifie, il est probable que ces latences soient caractéristiques de la durée du traitement visuel nécessaire dans ces tâches.

Les études associant potentiels évoqués visuels et comportement, portant spécifiquement sur l’attention non-spatiale, peuvent se grouper en trois sous-ensembles : les plus nombreuses sont les études sur l’attention à la couleur (Hillyard et Munte 1984 ; Wijers et al. 1989; Anllo Vento et Hillyard 1996 ; Karayanidis et Michie 1996 ; Smid et al. 1997 ; Anllo-Vento et al. 1998 ) ; puis viennent les études sur l’attention à la fréquence spatiale (Harter et Previc 1978 ; Previc et Harter 1982 ; Kenemans et al. 1993 ; Zani et Proverbio 1995), enfin à l’orientation (Harter et Guido 1980 ; Rugg et al. 1987; Kenemans et al. 1993 ). Les résultats de ces études montrent tous que l’effet de sélection attentionnelle de traits non spatiaux est caractérisé par une première onde négative postérieure suivie d’une onde frontale positive (SN et SP), observables à partir de 150 ms jusqu’à 350 ms. La SN est probablement à mettre en correspondance avec la déflexion décrite par Sugita 1995. Pour l’ensemble de ces attributs visuels simples, ce reflet de la sélection attentionnelle indique que le traitement visuel a déjà pu être suffisant pour la reconnaissance.