• Aucun résultat trouvé

Chapitre 4 LA VISION, UN MODELE D’ETUDE

2. Vision et visages

2.1 Le visage : un objet complexe

Un visage véhicule un très grand nombre d’informations. Très tôt, l’enfant comprend que cet objet visuel est particulier et utile à la communication. D’ailleurs, les nouveaux nés âgés de moins d’une semaine montrent une préférence pour les stimuli présentant une configuration similaire à celle d’un visage humain (Farroni et al., 2005; M. H. Johnson, Dziurawiec, Ellis, & Morton, 1991).

Les informations recueillies à partir d’un visage sont d’ordre social : elles nous permettent d’identifier une personne, de réagir et de prendre une initiative face à l’expression faciale d’un interlocuteur, ou de simplement s’informer concernant par exemple son âge ou son genre. L’extraction de ces informations est cruciale à la mise en place d’interactions sociales adaptées.

Un déficit de reconnaissance des visages, comme cela est le cas par exemple pour les personnes atteintes de prosopagnosie (agnosie sélective au visage, Barton & Corrow, 2016; Damasio, Damasio, & Van Hoesen, 1982) est très handicapant socialement (Yardley, McDermott, Pisarski, Duchaine, & Nakayama, 2008). De plus, ce trouble souligne la spécificité de traitement du visage dans le sens où il peut être le seul stimulus visuel dont le traitement serait altéré, isolément des autres objets visuels (Riddoch, Johnston, Bracewell, Boutsen, & Humphreys, 2008). Afin de pouvoir proposer un comportement adapté au cours des interactions en face à face, il est donc nécessaire de pouvoir traiter efficacement un visage.

Or, les visages ont une configuration commune entre tous. Ainsi, sur le plan perceptif, reconnaître un visage revient à identifier un exemplaire unique au sein d’une catégorie où tous les exemplaires sont extremement semblables. Le système visuel est d’ailleurs si entraîné au traitement de cette configuration particulière que cela nous amène à percevoir des visages où il ne s’agit parfois que de coincidences configurales (Jiangang Liu et al., 2014; Takahashi & Watanabe, 2013) (voir Figure 8).

Figure 8. Exemples d’objets non-visage pouvant être perçus comme des visages. Extrait du livre de Francois & Jean Robert FACES, cité dans Hadjikhani, Kveraga, Naik, & Ahlfors (2009)

L’importance du stimulus du visage et son fort impact social ont incité un grand nombre d’études visant à comprendre son traitement. Ces études ont amené la création de modèles explicatifs. Les modèles de Bruce & Young (1986) et de Haxby, Hoffman, et Gobbini (2000, 2002), particulièrement étudiés seront ceux développés ici.

2.1.1 Modèle de traitement des visages de Bruce et Young (1986)

Le modèle de Bruce et Young (1986) a été élaboré à partir d’une synthèse des données cliniques et expérimentales disponibles à l’époque. Ce modèle séquentiel permet de

comprendre comment l’identité d’un visage est extraite à partir d’un stimulus pourtant complexe. Ainsi, les auteurs proposent quatre étapes majeures.

La première étape, perceptive est dite d’ « encodage structural ». Cet encodage permet l’élaboration successive de deux types de représentation. La première extraite serait

dépendante des conditions de visualisation (point de vue de l’observateur, de l’éclairage, expressions faciales émotionnelles par exemple). A ce stade, la représentation de type « code pictural » permet l’extraction des informations sur l’âge, le genre, le groupe ethnique,

Ensuite, de ce premier codage sont extraits les invariants du visage, ne prenant donc plus en compte le point de vue, l’éclairage ni les expressions faciales émotionnelles. La représentation obtenue est de type « structural ». Cette étape d’encodage structural indique que le système visuel a détecté et traité un visage.

Une fois la représentation structurale extraite, celle-ci est comparée aux représentations faciales stockées en mémoire (nommées « Unités de Reconnaissance

Faciale », URF). Lorsqu’il y a appariement entre la représentation structurale issue de l’étape précédente et une Unité de Reconnaissance Faciale, le système cognitif reconnaît le visage comme familier et les informations sémantiques (nommées « Nœuds d’Identité de la Personne », NIP) liées à l’identité d’une personne sont alors activées. Ces informations donnent par exemple accès au métier, au statut marital, au lieu d’habitation, aux préférences de la personne. C’est seulement au cours d’une dernière étape que l’accès au nom de la personne est possible, engendrant ainsi l’identication compléte d’une personne.

Ce modèle suggère notamment, dès sa première étape, des mécanismes distincts entre ceux impliqués dans la reconnaissance et l’identification de visages et ceux impliqués dans le traitement des expressions par exemple. Bien que cette théorie de traitements indépendants et réalisés en parrallèle soit soutenue expérimentalement (V. Bruce, Dench, & Burton, 1993; A. J. Calder, Young, Perrett, Etcoff, & Rowland, 1996), il semble que les traitements réalisés à partir du visage d’une personne puissent être plus interdépendants (A. J. Calder & Young, 2005; Fitousi & Wenger, 2013; Harris & Ciaramitaro, 2016).

2.1.2 Modèle de traitement des visages de Haxby, Hoffman, et Gobbini (2000, 2002)

Un second modèle influant dans la recherche sur le traitement visuel des visages est celui de Haxby, Hoffman, et Gobbini (2000). Ce modèle, qui présente quelques similitudes avec celui de Bruce et Young (1986), a été élaboré à partir de données récentes en imagerie cérébrale et en électrophysiologie. Selon ce modèle, le traitement visuel d’un visage serait hiérarchique, avec un « système central », dédié aux analyses visuelles réalisées sur un visage et un « système étendu », capable de traiter la signification des informations véhiculées par un visage.

Le premier système impliquerait trois grandes régions localisées dans les aires occipito-temporales du cortex visuel extrastrié. Le gyrus occipital serait impliqué dans la perception précoce des traits faciaux et fournirait des informations au gyrus fusiforme et au sulcus temporal supérieur. Reprenant le modèle de Bruce et Young (1986), les aspects changeants (variants) d’un visage (expression, direction du regard, lecture labiale) seraient analysées au niveau du sulcus temporal supérieur (STS) et de l’aire occipitale des visages (occipital face area, OFA) alors que les aspects invariants (identité du visage) seraient analysés au niveau du gyrus fusiforme (Haxby et al., 2000).

L’activation de ce système noyau est observé par IRMf avec une activation,

comparativement au STS et à l’OFA, plus robuste et plus spécifique aux visages qu’à d’autres stimulus de l’aire fusiforme des visages droite dans le gyrus fusiforme (rFFA ; Kanwisher, McDermott, & Chun, 1997; Kanwisher & Yovel, 2006; Puce, Allison, Asgari, Gore, & McCarthy, 1996; Yovel & Kanwisher, 2004; étude par tomographie à émission de positrons, TEP : Sergent, Ohta, & MacDonald, 1992) (voir Figure 9). Toutefois, bien que la FFA semble spécifique aux stimuli de visages, elle ne serait pas responsable d’un type de traitement puisque l’inversion n’avait aucun effet sur son activation (Yovel & Kanwisher, 2004).

Le système étendu mobiliserait des aires corticales dédiées à d’autres fonctions cognitives, permettant ainsi un traitement plus intégré des informations extraites par le système central (Haxby, et al., 2002). Par exemple, le traitement de l’expression faciale de dégoût demanderait l’activation du système limbique et de l’insula, de concert avec le sulcus temporal supérieur du système central (Phillips et al., 1997).

Figure 9. Régions d’activation préférentielles pour les visages : le sulcus temporal supérieur (STS), l’aire occipitale des visages (OFA) et l’aire fusiform des visages (FFA). Haut gauche : vue latérale hémisphère droit;

haut droit : vue latérale hémisphère gauche; bas : vue ventrale. Image gonflée sur cerveau d’un participant (Kanwisher & Yovel, 2006)

D’après le modèle de Bruce et Young (1986) ou bien de celui de Haxby et ses collègues (2000, 2002), les mécanismes de reconnaissance des visages reposent sur l’encodage de sa structure et de la configuration des éléments qui le composent. Plusieurs modes de traitement vont permettre d’encoder cette représentation intégrée d’un visage.