Le traitement et la reconnaissance d’un visage

reconnaissance des expressions faciales

1. Le traitement et la reconnaissance d’un visage

Le traitement d’un visage va en partie dépendre de l’expérience sensorielle précoce (Le Grand, Mondloch, Maurer, & Brent, 2001), du type de visages présents dans l’environnement (Kelly et al., 2007) ou du contexte linguistique (Kandel et al., 2016), autant de raisons de penser que la surdité précoce pourrait impacter les différents processus de traitement des visages. Il est possible qu’en l’absence d’informations sonores pour comprendre son interlocuteur, une personne sourde se repose de manière plus importante sur les indices visuels donnés par le visage et son expression et sur la lecture labiale. Cette plus grande dépendance au visage pourrait ainsi affecter certains mécanismes de traitement des visages. Mais il est également possible que la place centrale des expressions faciales dans la communication en langue des signes avec la nécessité de comprendre rapidement les changements fins dans la configuration des parties internes du visage puisse être un facteur de modulation des processus du traitement des visages.

i. Contexte théorique général

Le visage n’est pas un signal visuel comme les autres pour l’être humain. C’est un signal social porteur d’un grand nombre d’informations sur l’identité de la personne (e.g., genre, âge, origine culturelle) et d’indices permettant d’inférer sur son état mental (e.g., humeur, émotion, attirance ou aversion). Toutes ces informations nous permettent de juger de la familiarité de la personne et d’ajuster notre comportement de manière à avoir des réactions les plus adaptées possible. Percevoir un visage est un processus faisant appel à notre représentation mentale prototypique du visage possédant une configuration spatiale spécifique et des éléments invariants (Gosselin, Schyns, 2003; Smith, Gosselin, & Schyns,

2012). Ce prototype doit en même temps avoir suffisamment de degrés de liberté pour reconnaître une grande variété de visages ou différents exemplaires d’un même visage.

L’un des principaux modèles pour la reconnaissance des visages a été proposé par Bruce et Young en 1986. Ce modèle s’inscrit dans la même idée que le modèle de perception des objets de Marr (1982) et postule que la reconnaissance des visages est hiérarchique avec une extraction d’informations visuelles à différents niveaux de complexité. Ainsi grâce à l’encodage structural de l’image, il est possible de catégoriser le stimulus comme étant un visage humain, un visage non-humain, un mot, ou toute autre grande catégorie. Une fois catégorisé comme visage, différents types d’informations plus complexes vont être extraites comme l’expression faciale, l’âge, le sexe, l’ethnicité, la configuration interne des éléments du visage ou encore les éventuelles caractéristiques du visage (e.g., cicatrice, yeux vairons). Si les invariants du visage perçus sont suffisamment proches d’une de nos représentations internes, un sentiment de familiarité va émerger. La dernière étape va alors consister à caractériser ce sentiment de familiarité en activant les informations sémantiques et personnelles qui y sont liées afin de pouvoir identifier ou nommer ce visage.

Figure 3.1: Illustration du Thatcher Effect d’après Thompson (1980). Sur la ligne du haut le visage de M. Thatcher n’a pas été modifié alors que dans la ligne du bas les yeux et la bouche ont été retourné. Lorsque le visage modifié est présenté à l’envers, il est difficile pour un observateur naïf de remarquer les transformations alors que ces dernières « sautent aux yeux » lorsque le visage est présenté à l’endroit.

Le visage a une orientation canonique et sa présentation inversée (i.e., la tête en bas) perturbe fortement nos capacités de traitement et de reconnaissance. Par exemple, le

Thatcher Effect (Thompson, 1980) illustre les limites de notre traitement des visages lorsque ce dernier est présenté à l’envers, et ce notamment pour percevoir les détails internes du visage (voir figure 3.1). Cet effet viendrait de la difficulté à extraire les informations pertinentes d’un visage présenté à l’envers et donc à créer des relations cohérentes entre les caractéristiques internes du visage. On parle alors de l’effet d’inversion ou face inversion effect (Rossion & Gauthier, 2002). Ce processus d’extraction des relations et des configurations spatiales internes d’un visage (e.g., l’espace entre les sourcils ou la taille du nez par rapport à celle de la bouche) est un traitement dit configural du visage. D’un point de vue expérimental, l’effet d’inversion est généralement testé par des tâches de reconnaissance ou d’appariement de visages présentés à l’endroit et à l’envers et a pour conséquence des temps de réponse plus longs et un plus fort taux d’erreurs. Il est important de noter que cet effet est propre au visage c’est-à-dire que la présentation inversée d’objet avec une orientation canonique (e.g., maison, arbre, voiture) n’entraine que peu de baisse de performance de reconnaissance.

Le traitement du visage serait holistique, c’est-à-dire que le tout serait supérieur à la somme de ses parties (théorie de la Gestalt) et l’effet composite illustre cette intégration holistique des informations du visage. Cet effet consiste à présenter un visage composé de deux moitiés de visages connus ou célèbres (e.g., moitié supérieure de Brad Pitt et moitié inférieure de Tom Cruise). Ainsi assemblées en un nouveau visage (figure 3.2), il est très difficile de discerner les deux parties indépendantes et de les identifier. Le visage est alors perçu comme étant celui d’une tierce personne inconnue.

Figure 3.2: Illustration de l’effet composition (inspiré de Lee, Anzures, Quinn, Pascalis, & Slater, 2011). Les images A et B sont les visages de B. Pitt et de T. Cruise. L’image C représente le visage composite constitué de la partie supérieure du visage de B. Pitt et de la partie inférieure du visage de T. Cruise. L’image D représente les mêmes demi-visages, mais non-alignés.

Cet effet composite se réduit de manière considérable dès que les deux moitiés ne sont plus alignées, quand il n’y a plus de traitement holistique (i.e., il devient alors possible de dissocier les deux parties du visage). Un visage peut donc être traité de différentes façons. Le traitement configural permet d’établir des relations entre les différents éléments internes du visage et le traitement holistique intègre toutes les caractéristiques du visage en un tout cohérent. Ces processus permettent in fine la reconnaissance d’un visage, c’est-à-dire d’émettre un jugement de familiarité, de discriminer deux visages entre eux ou encore d’identifier et nommer un visage.

Le visage possède des régions et des dynamiques d’activations cérébrales qui lui sont principalement dédiées. Concernant les régions cérébrales, percevoir et traiter un visage ferait appel à un système central et à un système étendu (Haxby, Hoffman, & Gobbini, 2000). Selon le modèle de Haxby et al. (2000) le système central du traitement des visages est bilatéral et se situe dans la voie ventrale parvocéllulaire. Ce système comprend l’aire occipitale des visages (OFA), l’aire fusiforme des visages (FFA) et, le sulcus temporal supérieur (STS). Le visage est par la suite traité par le système étendu dont la distribution cérébrale est plus vaste et dont les activations sont moins spécifiques aux visages (figure 3.3).

Figure 3.3 : Modèle de la distribution du système cérébral humain du traitement des visages. Le core

system ou système central est composé d’aires spécifiques au traitement des visages alors que le extended system ou système étendu est composé d’aires moins spécifiques (Haxby et al., 2000).

Dans le système central l’OFA (figure 3.4-A) constituerait une des premières étapes du traitement des visages. Cette région permettrait la classification du stimulus visuel comme

étant un visage par l’extraction de ses caractéristiques élémentaires et de sa structure (Kanwisher & Barton, 2011; Pitcher, Walsh, & Duchaine, 2011). La FFA (figure 3.4-B) servirait à reconnaître ou à mettre une identité sur un visage grâce au traitement de ses aspects invariants (Kanwisher & Barton, 2011; Gauthier et al., 2000; Kanwisher, Mcdermott, & Chun, 1997). Enfin, le STS et notamment sa partie postérieure (figure 3.4-C) serait principalement impliqué dans le traitement les aspects variants et dynamiques du visage comme les expressions ou les émotions (Lidaka, 2014; Kanwisher & Barton, 2011). Au niveau de la dynamique temporelle, le traitement des visages entraine également une spécificité dans la composante N170 et est particulièrement observable dans les régions occipito-temporales. Cette négativité est plus importante et plus rapide après la présentation d’un visage que d’un autre stimulus suggérant une fois encore un traitement privilégié des visages (Bentin, Allison, Puce, Perez, & McCarthy, 1996; Eimer, 2012) .

Figure 3.4 : Coupe sagittale de l’hémisphère droit de l’activation système central du traitement des visages. À : aire occipitale des visages, B : aire fusiforme des visages et C : sulcus temporal supérieur postérieur. Les activations sont représentées après le contraste visage-objet (d'après Pitcher et al., 2011)

ii. Le traitement des visages chez les sourds signeurs

La littérature sur le traitement des visages et des émotions chez les personnes adultes sourdes et ou signeuses n’est pas très conséquente et peu d’études ont pu tester l’hypothèse d’un rôle particulier de la pratique de la langue des signes indépendamment de la surdité précoce. Cette limite méthodologique et expérimentale s’explique en très grande partie par la difficulté à recruter des entendants signeurs. L’hypothèse de la plasticité fonctionnelle du traitement des visages induite par la pratique de la langue des signes de Emmorey (2001) est par conséquent difficile à étayer ou non. Cette hypothèse postule que les signeurs seraient plus efficaces que les non-signeurs pour traiter un visage, mais

uniquement sur les aspects du traitement du visage impliqués dans la communication signée.

Dans le document Rôle de la surdité précoce et de la langue des signes dans la plasticité fonctionnelle du champ visuel (Page 151-156)