• Aucun résultat trouvé

2.3 Les visages : de la théorie à la perception

2.3.5 Les composantes de perception

Percevoir un visage induit, au niveau cérébral, une réponse précoce que l’on peut mesurer au niveau du scalp par enregistrements EEG. C’est ainsi, que des chercheurs ont mis en évidence l’apparition d’un pic positif entre 150 et 210 ms après la présenta-

tion d’un visage qu’ils ont appelés la P2 vertex2 ou VPP (Vertex Positive Potential).

Cette onde est plus fortement induite (amplitude plus forte et latence plus courte) en réponse à la présentation de visages qu’à n’importe quelle autre catégorie d’objets. Des travaux ultérieurs ont tenté de définir à quels processus du traitement des visages cette VPP correspondait. Les auteurs ont ainsi pu mettre en évidence que la VPP répondait préférentiellement aux visages et qu’elle reflèterait notre capacité à percevoir un stimu- lus visuel en tant que visage, en présentation canonique à l’endroit. En d’autres termes, la VPP est une réponse cérébrale, à une étape relativement précoce (seulement 150ms après l’apparition du stimulus), mais déjà complexe, de la perception de configurations faciales globales, voire d’encodage structural des visages [184]. Enfin, contrairement à d’autres composantes EEG, la VPP n’est pas toujours modulée pas des transforma- tions diverses apportées aux visages. Enfin, elle n’est pas sensibl à la familiarité des visages, ni à leurs expressions émotionnelles [18]. Néanmoins, sa latence est retardée par l’inversion des stimuli qu’ils soient des visages ou des voitures. De plus, l’amplitude de la VPP est identique entre la présentation d’un visage ou d’un mot. Ceci a conduit certains auteurs à définir la VPP comme un reflet de notre expérience pour certains types de stimuli visuels et que son amplitude sera d’autant plus importante que notre expérience sera grande [296].

Figure 2.11 – Tracé EEG des différentes composantes liées aux visages. On y retrouve en haut la VPP qui a un pic plus élevé en réponse à des images de visages que de voitures. En bas, la P1 et la N170 y sont présentées, toutes deux également plus importantes en réponse à des visages. Tiré des travaux de Rossion et al [296].

La P1 ou P100 est une composante positive qui voit son pic entre 90-100 ms après la présentation du stimulus au niveau des électrodes centrales et latérales (postérieures) et qui serait causée par l’activation des aires visuelles extrastiées ventrales [291]. Son amplitude serait maximale au niveau des sites occipitaux latéraux. Contrairement à la N170 qui est maximale sur les électrodes de l’hémisphère droit, la P1 semble bilatérale (Figure 2.13). Au même titre que le N170, la P1 est plus large en réponse à des visages qu’à tout autre type d’objets, des voitures par exemple.

La P1 serait le reflet du traitement de bas niveau (spectre d’amplitude, fréquence spa- tiale) propres aux visages, et leurs changements moduleraient en réponse la P1. Cette activité très rapide pourrait expliquer que nous sommes capables de détecter de façon rapide et précise des visages dans un environnement visuel à des latences de seulement 100 à 120 ms [84]. Alors, la P1 permettrait par la ensuite d’accéder à des représentations plus complexes d’un visage comme le fait que ce soit un visage familier, ou encore le traitement de l’émotion qui apparaît plus tardivement. En d’autres termes, de par son action précoce et sa modulation par des effets d’inversion, la P1 pourrait être le reflet du traitement holistique des visages.

En élargissant la zone d’analyse, il a été trouvé associée à la VPP (à la même latence soit environ 150 ms après la présentation du stimulus) et localisée au niveau occipito- temporal une déflexion négative, la plus connue dans le traitement des visages : la N170. Il s’agit d’une onde négative au niveau du tracé EEG aux alentours des 150-200ms et qui est caractéristique de l’identification du stimulus comme un visage.

Lorsque les visages sont transformés, par exemple en isolant, en masquant ou en sup- primant certaines parties faciales (les yeux par exemple), l’amplitude de la N170 reste identique à celle en réponse à un visage normal. Elle peut même augmenter et ce tant que le stimulus est perçu comme un visage. Cet effet est également présent lorsque l’organisation globale des caractéristiques faciales est totalement changée (Figure 2.12). Cette observation suggère que l’apparition de la N170 reflète la représentation d’un sti- mulus en tant que "visage" au niveau du cerveau humain. Cependant, même si la N170 est présente en réponse à des visages transformés, sa latence est légèrement décalée (d’environ 10-20 ms) que ce soit par modification des caractéristiques faciales (les yeux, la bouche) ou par modification de la configuration globale (position des parties faciales les unes par rapport aux autres) [295]. Il est possible de voir sur la Figure 2.12 les types de stimuli induisant une large amplitude de la N170 (une réponse typique). Parmi ces stimuli on retrouve bien évidemment les photographies de visages. Néanmoins, curieu- sement, l’amplitude de la N170 semble être typique (bien que décalée temporellement) pour des images de visages ayant des parties manquantes, ou encore sur des schémas très basiques d’un visage, ou juste à la présentation de parties faciales isolées.

Il est possible qu’en l’absence de représentation normale globale d’un visage, nous puissions mentalement recréer un visage dans sa globalité. Par exemple, si on nous pré- sente seulement les yeux, puisque nous connaissons parfaitement le prototype visage, alors nous sommes capables de replacer ces yeux en une représentation mentale com-

Figure 2.12 – Exemples de stimuli qui entraînent une réponse cérébrale marquée par une N170 à faible amplitude (panel de gauche) et une N170 à forte ou large amplitude (panel de droite) [295].

plète, ce qui se traduirait par une N170 d’amplitude comparable à celle d’un visage entier [291].

Par ailleurs, nous pouvons considérer la N170 comme une signature des visages. En effet, en utilisant d’autres types de stimuli (par exemple des voitures, ou des animaux), son amplitude est moindre et sa latence retardée. De plus, lorsqu’on présente des Moo- ney Face à l’endroit, la N170 est classique, ce qui n’est plus le cas lorsque ces mêmes Mooney Faces sont présentées à l’envers (Figure 2.12) [294]. Ces résultats peuvent être remarqués sur la Figure 2.13. Les tracés en pointillés qui correspondent aux images scrambled des visages et des voitures, n’entraînent quasiment aucune réponse au ni- veau cérébral (pour la composante N170). Les voitures induisent une réponse qui est moindre que celle d’un visage que l’on peut considérer comme maximale (visible au niveau du cercle rouge). Ceci renforce la notion que la N170 est liée à la perception des visages et des représentations de type "visage".

Cependant, quelle est l’aire cérébrale à l’origine de cette réponse ? Cette question est aujourd’hui encore sujette à débats. Certaines études ont avancé que la N170 serait le reflet de l’activité de la OFA plus que de la FFA alors que d’autres travaux ont prouvé le contraire. Par ailleurs, le STS selon certains auteurs, serait le candidat potentiel à l’origine de la N170. Du fait de son action et de son rôle dans l’analyse et le traite- ment des aspects changeants des visages (regard, mouvements labiaux, émotions), il a été associé à la production de la N170. Cette hypothèse provient du fait que la N170 est sensible à la direction du regard. Alors la N170 serait le reflet du fonctionnement d’un module spécifique dans la détection des yeux et dans le traitement de la direction du regard [18] comme par exemple le STS. Si l’on considère le traitement des visages

comme hiérarchique, alors les premières étapes de traitement de l’information serait pour la OFA et correspondrait à la P1, et qu’ensuite l’étape ultérieure atteindrait la FFA, qui engendrerait la N170 et ainsi de suite. Tout ceci reste purement spéculatif. Pour conclure, la proximité des ces aires les unes par rapport aux autres ainsi que la faible résolution spatiale en EEG doivent en partie expliquer ces résultats contradic- toires [295].

Figure 2.13 – Enregistrements moyens des potentiels évoqués en fonction des différents types de stimuli. À gauche, nous avons les réponses des électrodes occipito-temporales gauche, et à droite, dans l’encadré rouge, celles des mêmes électrodes côté droit. En noir, le tracé en réponse aux visages, en ligne noire pointillées, celui pour les images scrambled issues des visages, en gris, celui pour des images de voitures et en gris pointillé, les images "scrambled" issues de l’ensemble des images de voiture. Il est visible ici une modulation importante de la N170, qui est maximale à droite en réponse à des visages. Issu des travaux de Rossion et al [291].

Enfin, intéressons-nous aux composantes tardives du traitement des visages. La pre- mière, la N250, porte la notion de familiarité et apparait vers 300ms. La N250 pariéto- occipitale, pourrait déjà indexer des étapes liées à la reconnaissance individuelle des visages. D’une façon plus communément admise, des activités de type N2 occipito- temporales, observées entre 200 et 300 ms ont été associées à l’activation des représen- tations en mémoire visuelle à long terme des visages connus. Il faut toutefois différencier cette N250 de la N250r, qui reflète la familiarité d’un visage suite à une répétition de ce visage. On ne peut pas parler de reconnaissance de visage familier pour cette N250r. Elle serait alors considérée comme faisant partie d’une mémoire incidente (implicite) des visages induite par la répétition de présentation d’un même visage. La reconnaissance

est considérée comme incidente lorsque le sujet n’est pas engagé activement dans une tâche de reconnaissance des visages déjà vus par rapport aux visages nouveaux. Alors, quand ce visage répété apparaît, il entraîne une réponse au niveau cérébral marquée par la N250r.

Dans le cadre du traitement des visages, les effets de longue durée observés, incluant des activités de type N400 et P600, pourraient refléter la mise en jeu des processus liés à la récupération d’informations sémantiques lors de l’identification de visages familiers. Ces activités pourraient être le reflet des processus liés à l’appariement entre les stimuli présentés et les représentations des visages connus ou déjà vus en mémoire visuelle. En effet, la N400 est une mesure que l’on retrouve dans un large réseau d’aires, qui incluent le langage, le traitement des objets, des visages, des actions et des mouvements mais également dans les habiletés en mathématiques et la mémoire sémantique [209]. Initialement décrite dans le cadre du traitement du langage, la N400 est modulée par la manipulation de phrases grammaticales incorrectes et semblent moins importante en réponse à des mots aberrants [209].

La N400 serait en lien avec les mécanismes de la familiarité. En effet, que soit en mé- moire incidente ou en réponse à des visages de célébrités, les réponses de la N400 sont plus amples que celles observées pour des visages inconnus dans les régions centro- pariétales [251]. L’effet d’inversion diminue drastiquement l’amplitude de cette onde, puisque l’identification précise d’un visage est sensiblement plus ardue lorsque le visage est présenté à l’envers. En résumé, le décours temporel du traitement de l’information (visage) débute par la N170, puis la N250r et enfin la N400 qui correspondent respec- tivement à l’encode structurel, puis à la reconnaissance faciale pour se terminer par le traitement sémantique associé à un visage [251].

Enfin, en lien également avec la familiarité, nous retrouvons une onde positive aux alentours de 600 ms après la présentation d’un stimulus, il s’agit de la P600. Cette dernière, semble correspondre à l’accès aux informations contextuelles sur le visage et plus largement sur l’objet présenté. En outre, la N400 et la P600 ne sont pas spécifiques aux visages, mais reflètent des processus importants dans le traitement de ceux-ci. Ces composantes rentreraient en jeu lorsque des informations sémantiques verbales ou non doivent être traitées au niveau cérébral et sont accessibles via la présentation visuelle d’un visage particulier (Figure 2.14). Si l’on considère le modèle de Bruce et Young sur la reconnaissance des visages, le fait de reconnaître un visage familier active un module plus large d’informations sur la personne. On pourrait supposer que la vue d’un visage connu active également un large réseau d’informations sémantiques (le nom : Mylene Famer, la profession : chanteuse) et contextuelles (je me souviens l’avoir vu en concert en 2013...) qui sont associées au visage de la personne présentée. Les deux composantes tardives du traitement des visages seraient davantage associées à des niveau de traite- ment plus élevés en lien avec les processus de la mémoire.

Figure 2.14 – A : Composantes EEG liées à la notion de familiarité. Dans cet exemple, les auteurs faisaient varier certaines caractéristiques faciales de François Mittrérand, et ils montraient qu’en condition congruente (visage classique), les ondes N400 et P600 étaeint plus importantes. B : réponses tardives liées au traitement des émotions. On retrouve une augmentation de l’amplitude de la LPC en réponse à des visages effrayés, supérieure à celle observée pour des visages joyeux. Adapté du livre de Barbeau et al [18].

sions faciales. De ce fait, qu’en est-il du traitement des émotions au niveau cérebral ? Il a été retrouvé une augmentation de la positivité centrale qui a été renommée par la suite par certains auteurs en P300, en LPP (Late Positive Potential) ou encore en LPC (Late Positive Component). Cette onde a été observée en réponse à des visages exprimant une émotion comparée à une présentation de visages neutres. Par ailleurs, la présence de la P300 n’est pas retrouvée uniquement après la présentation de visages émotionnels. En effet, certaines études ont démontré que d’autres présentations char- gées émotionnellement telles que des scènes ne comprenant pas de visages, ou encore des mots pouvaient induire une réponse similaire à celle produite par un visage émotion- nel [359]. Il semblerait alors que les modulations de la P300 ne soient pas uniquement liées aux visages mais plus généralement à la perception d’un contenu émotionnel dans les stimuli de l’environnement [18]. De plus, si l’on regarde la Figure 2.14b, on peut s’apercevoir que l’amplitude de la LPC est plus importante pour les visages effrayés. Il a également été montré que la N170 pouvait être modifiée par l’émotion portée par un visage. Une émotion positive va faire apparaître la N170 plus précocement alors que des émotions négatives (surtout la peur) vont augmenter son amplitude [25]. Ce résultat montre que les émotions influencent notre traitement des visages ainsi que leur stockage en mémoire [359].

des activités distribuées dans le temps, à partir de 250 ms environ. Ces activités refléte- raient les différents processus liés à la reconnaissance de visages connus, mettant en jeu les représentations en mémoire visuelle des visages, ainsi que les mémoires épisodique et sémantique éventuellement disponibles sur les personnes. Cette distribution temporelle des activités corticales est parallèle à la distribution des régions cérébrales impliquées dans la reconnaissance des visages. Elle implique à la fois des régions temporales et des régions frontales.

Les composantes électrophysiologiques chez l’enfant

Pour conclure cette section, nous allons nous intéresser aux réponses corticales chez les enfants. L’ensemble des composantes électrophysiologiques présentées précédemment étaient chez l’adulte sain. Il a été démontré que des analogies étaient présentes chez l’enfant. Dès le plus jeune âge, il a été retrouvé une onde négative qui représenterait le précurseur de la N170 adulte : la N290. Cette déflexion négative apparait sur les électrodes postérieures et la latence de son pic variera entre 290 et 350 ms après la présentation du stimulus. Cette latence aura tendance à diminuer à mesure que l’en- fant grandit [91]. Son amplitude est plus importante pour des visages au regard direct qu’au regard indirect, observée sur des nourrissons de 3 mois [126]. De façon similaire à l’adulte chez qui la N170 est modulée par la perception du regard, la N290 des enfants semble être également influencée par la direction du regard.

Par la suite, vers l’âge de 4 ans, la N170 peut s’observer, cependant à des amplitudes plus faibles et des latences plus importantes que celle observées chez les adultes [91].

Par ailleurs, la maturation complète de la N170 est un processus lent. En effet, des études récentes ont montré que les composantes "N170-like" d’enfants de 12 mois sont moins spécifiques aux visages et se retrouvent modulées par d’autres type de stimuli [91]. Plusieurs résultats d’études d’ERP chez l’enfant (moins de 12 mois) ont ainsi révélé que les composantes électrophysiolgiques durant le traitement des visages sont moins spé- cifiques pour les visages humains en présentation canonique que celles observables à l’âge adulte [91]. De plus, la réponse de la N170 à la présentation des yeux isolés, n’est observable qu’à partir de 11 ans. Une réponse similaire à celle d’un adulte pour les visages complets ne s’observe que très tard durant le développement (quasiment à l’âge adulte, vers 18 ans). Une autre observation atteste de l’évolution et de la maturation des processus de traitement. Il est souvent retrouvé chez les enfants une "N170-like" bifide. La première déflexion correspondrait à la N290 décrite chez les nourrissons de 12 mois, et la seconde serait la résultante de la N400. Ainsi, des auteurs ont proposé que la N170 adulte serait la fusion des deux composantes présentes dans l’enfance [340].

Ce développement lent et constant au cours de l’enfance jusqu’à l’âge adulte nous renseigne sur les processus liés à la perception des visages. L’émergence graduelle de la spécificité de réponse de la N170 est cohérente avec le fait que l’expérience induite

Figure 2.15 – Evolution des 2 principales composantes électrophysiologiques du traitement des visages au cours du développement. La latence et l’amplitude de la P1 et de la N170 ont été étudiées pour chaque tranche d’âge en utilisant 4 tâches différentes. La première est une tâche implicite ne nécessitant pas d’attention pour les visages. La seconde, appelée ici n-back task est une tâche de reconnaissance des visages. La troisième est une tâche de mémoire et la dernière est liée aux processus émotionnels. On remarque dans ces 4 graphiques, qu’au cours du développement, les latences de la P1 et de la N170 diminuent. Pour l’amplitude, celle de la P1 diminue au cours du temps alors que celle de la N170 subit d’abord une forte diminution jusqu’à l’âge de 9 ans avant de brusquement ré-augmenter. Les plus fortes chutes sont observées avant l’âge de 11 ans. Adapté des travaux de Taylor et al [340].

par la grande variabilité des visages joue un rôle primordial dans le développement adéquate des systèmes de traitement adultes [91]. Ces processus complexes ont besoin de maturer et la réponse optimale adulte ne vient qu’avec l’expertise des visages. La Figure 2.15 nous montre l’évolution des amplitudes et des latences des deux principales composantes de la perception des visages. Il est possible de remarquer que les latences sont très importantes chez les plus jeunes enfants (4 ans minimum dans cette étude) que ce soit pour la P1 que pour la N170. Les amplitudes, elles aussi, subissent de grands changements, avec une forte diminution pour la P1. L’évolution au cours du temps de la N170 augmente dans un premier temps jusqu’à l’âge de 11 ans avant de subir une chute brutale [340]. De plus, dans cette étude, il est souligné que la difficulté de la tâche chez les plus jeunes enfants, semble influencer grandement les latences et les amplitudes. Ces auteurs ont ainsi pu mettre en exergue trois principaux facteurs qui influent sur la latence du traitement précoce des visages dans l’enfance : un effet de l’âge (sous-

tendu par le développement et la maturation cérébrale), un effet de la demande de la tâche (difficulté, reconnaissance, émotion) et un effet du type de stimuli (canonique vs inversé) [340]. Enfin, les plus importants changements sont observés avant l’âge de 11 ans ce qui signifie qu’avant cet âge, nous serions dans une période critique pour les processus de traitement des visages.

La P1, serait observable à partir de 4 ans, avec des latences plus courtes en réponse à des visages comparés à des objets, également sensible à l’inversion des visages (bien