• Aucun résultat trouvé

2.5 Interactions Voix-Visages : les voix ou "an auditory face"

2.5.3 Interactions entre voix et visages

Dans la vie quotidienne, lorsque nous interagissons avec une personne, nous ne per- cevons pas de façon séparée les informations visuelles et auditives. Ainsi, notre connais- sance de cette personne se fait par l’interaction entre les traits de son visages et les caractéristiques de sa voix. Les nombreuses similitudes qui existent entre la représen- tation neurale et cognitive des visages et des voix suggèrent un mécanisme de codage uniforme. Celui-ci aurait évolué pour traiter les informations très riches et diverses que ces classes uniques de stimuli véhiculent sur une personne [376]. Cette grande similitude entre le types d’informations portées par un visage et par une voix, ont conduit l’équipe de Belin et collaborateurs à proposer un modèle de traitement (reconnaissance) de la voix, en synergie avec le traitement facial dans le cadre de la reconnaissance indivi- duelle [32]. Ce modèle, basé sur celui de Bruce et Young (1986) de la reconnaissance des visages, est illustré par la Figure 2.24.

Ce modèle propose qu’après une première analyse de bas niveaux des caractéris- tiques auditives (vocales) dans les noyaux sous-corticaux et le cortex auditif primaire (A1), les stimuli vocaux seront ensuite traités lors d’une étape de codage structurel. Ce codage structurel s’effectuerait probablement dans des régions cérébrales bilatérales proches de A1 au sein du STS. Sur les visages cette étape ressemblerait au codage holis- tique des caractéristiques faciales de premier et de second ordre. Ensuite, le traitement de l’information vocale pourrait alors être dissocié en trois systèmes fonctionnellement indépendants. Le premier serait en charge de l’analyse des informations langagières (la parole) et impliquerait le STS antérieur et postérieur ainsi que les régions préfrontales inférieures principalement dans l’hémisphère gauche. Le second prendrait en charge l’analyse de l’information affective vocale (contenu émotionnel), impliquant des régions comme l’insula, l’amygdale et les régions préfrontales inférieures de façon prédomi- nantes dans l’hémisphère droit. Enfin, le troisième système se focaliserait sur l’analyse de l’identité vocale impliquant des "unités de reconnaissance vocale" (ou URV qui serait le pendant auditif des URF des visages du modèle de Bruce et Young). Ces unités se- raient probablement initiées dans les régions du STS antérieur droit, activées chacune par l’une des voix connues de la personne. Les informations identitaires vocales et fa- ciales vont enfin converger vers un niveau supra-modal représentant l’ensemble de nos connaissances sur une personne et appelé Nœud d’identité de la personne (ou Person Identity Nodes, PIN). Ce traitement hiérarchique en 3 étapes se ferait de façon similaire pour les visages, et serait en interaction directe avec eux. Ceci aboutit à l’élaboration des nœuds d’identité propre à chaque personne pour lesquelles toutes ces informations sont disponibles. Ainsi, la voix participe également à la reconnaissance des personnes

Figure 2.24 – Modèle d’interaction voix/visages dans le cadre de la reconnaissance identi- taire. La partie gauche en rose/violet renvoie aux différentes étapes de traitement des voix. La partie à droite en vert, est elle spécifique au traitement des visages. Dans ce modèle de nombreuses interactions sont présentes entre aire faciales et aires vocales, permettant la construction approfondie du nœud identitaire, important pour la reconnaissance d’une per- sonne. Adapté des travaux de Belin et al [32].

en apportant des informations supplémentaires que seul les visages ne pourraient per- mettre.

Les travaux de l’équipe d’Al Giraud et K.Von Kriegstein (2003) ont contribué à la validation de ce modèle puisqu’ils ont montré une connectivité fonctionnelle entre des aires cérébrales impliquées dans le traitement de la voix et celle du traitement des visages. Ainsi, ces auteures ont montré en utilisant l’IRM de tension de diffusion, une connectivité entre la région centrale et antérieure du STS avec la FFA. Cette relation entre ces deux régions serait impliquée dans les processus de reconnaissance des per- sonnes, que ce soit par la voix ou par le visage, créant ainsi une synergie visuo-auditive permettant d’optimiser la reconnaissance des personnes [208].

Ce modèle se base sur le fait que les aires du traitement de la voix et des visages soient connectées et puissent interagir à différentes étapes du traitement. Ceci impliquerait qu’au delà de la reconnaissance individuelle, les voix puissent avoir un impact sur le traitement des visages et inversement. De nombreuses études se sont ainsi intéressées à démontrer les possibles liens qu’il pouvait y avoir entre le traitement et/ou la perception des voix et des visages.

voix-noms, sons-bips), von Kriegstein et al ont apporté quelques informations sur un couplage fonctionnel entre des aires cérébrales normalement unimodales. Ils ont ainsi pu mettre en évidence, durant un rappel d’apprentissage de paires voix-visages unique- ment, une augmentation de la connectivité fonctionnelle entre les modules corticaux spécialisés dans le traitement de chaque catégorie de stimulus (FFA et TVA) [358]. Cette étude de neuro-imagerie fonctionnelle chez l’Homme a donc pu mettre en évidence que les voix familières activaient le gyrus fusiforme (FFA) via des zones corticales du traitement de la voix (principalement la TVA). Il faut également noter que l’inverse a été décrit, à savoir que l’observation de visages dynamiques active des zones du cortex auditif, même en l’absence de stimulation du canal auditif [305].

De plus, dans les travaux de von Kriegstein et al, ils ont décrit un effet du couplage voix-visages au niveau comportemental. En effet, les performances de reconnaissance étaient meilleures pour des paires voix-visages que pour les autres paires et les condi- tions unimodales. Néanmoins pour que cet effet soit observé, les auteurs précisent qu’il est important que les paires de stimuli véhiculent des informations redondantes, conte- nant des caractéristiques similaires. Ce dernier point a été évoqué dans une autre étude qui a montré que les performances des participants (que ce soit les temps de réaction ou la proportion de réponses correctes) étaient sensiblement augmentées uniquement pour des conditions congruentes (la voix associée au bon visage familier) [305]. De plus, on sait également que les visages ont un effet de priming important dans la rétention des voix de personne célèbre en mémoire, et ce malgré des intervalles de temps entre apprentissage et récollection parfois longs. Cet effet disparait, ou est moins important avec des noms au moment de l’apprentissage [305]. Il semblerait que les visages soient bénéfiques pour notre faculté à retenir facilement des voix en mémoire, et permet de renforcer la trace mnésique sur l’identité d’une personne.

Or, en condition d’incongruence, l’effet facilitateur d’une présentation synchrone d’une voix et d’un visage disparait. La perception d’un visage peut alors perturber ou influencer celle de la voix et inversement. Lors d’une tâche de discrimination du genre, on présentait aux participants des visages androgynes avec des sons purs extraits de voix masculines ou féminines. Ces sons en condition purement auditive n’étaient pas reconnus comme de la voix et la catégorisation du genre très difficile. Lorsque ces sons étaient présentés en même temps que le visage androgyne, ils biaisaient la perception de celui-ci vers un visage masculin ou féminin selon le genre du son. La conclusion apportée à cette étude est que les sons purs, qui sont traités dans des zones cérébrales auditives de faible niveau et qui ne possèdent aucune caractéristique spectrale permettant une identification en tant que voix humaine, influencent considérablement la perception vi- suelle du genre du visage [320, 376].

En outre, l’influence de la voix sur la perception des visages est présente aussi sur la catégorisation des émotions. Lorsqu’un visage triste était accompagné d’une voix heu- reuse, les participants avaient un biais à rapporter plus facilement que le visage présenté était heureux (ou du moins plus heureux qu’il ne l’est en réalité). Cela reste vrai même

lorsque les participants sont invités à ne pas tenir compte de la voix, ce qui signifie que cet effet n’est pas uniquement dépendant de l’attention portée sur les voix [135]. Au niveau cérébral, on retrouve une influence de l’incongruence visuo-auditive, puisqu’une diminution de l’activité de l’amygdale gauche est retrouvée en situation incongruente, c’est à dire quand on présentait un visage joyeux avec une voix apeurée [248].

Toutes ces études exposées précédemment, nous renseignent de la présence d’une connexion, au moins fonctionnelle, entre les aires du traitement de la voix (TVA par exemple) et celles du traitement du visage (FFA) à différents niveaux de traitement (des aires primaires vers des aires associatives). Ces interactions sont importantes dans le cadre de l’apprentissage et l’élaboration de connaissances sur une personne, c’est à dire au développement de ce que Bruce et Young puis Belin ont définit comme les nœuds d’identité de la personne (PIN). Ces connexions cérébrales restent, dans le cadre des interactions sociales journalières nécessaires, mais peuvent parfois conduire, en situation incongruente, à des modifications involontaires de notre perception des voix et des visages.