• Aucun résultat trouvé

2.5 Interactions Voix-Visages : les voix ou "an auditory face"

2.5.1 Informations véhiculées par les voix

L’intégralité de ce qui a été présenté précédemment portait sur le traitement des vi- sages et des notions associées comme la théorie de l’esprit. Nous allons voir maintenant un autre élément important dans la cognition sociale, il s’agit de la voix humaine. La voix, au même titre que les visages, nous renseigne sur un individu par un grand nombre d’informations. Au delà de l’aspect linguistique, les voix permettent de discri- miner le genre d’une personne, son âge, son identité, parfois sa corpulence. Grâce à la prosodie, nous avons aussi accès aussi aux émotions et aux états d’esprits d’un indi- vidu [376].

Chez l’être humain, et particulièrement dans la société moderne, les voix sont pré- sentes en permanence, que ce soit lors d’échanges avec une personne physique, ou vir- tuellement avec l’éclosion d’Internet, de la télévision et de la radio. De ce fait, nous pouvons donc considérer que comme pour les visages, nous sommes des "experts" du traitement de la voix. Par conséquent, les voix sont-elles traitées de la même façon que d’autres types de sons ? Avons-nous, au niveau cérébral, une spécificité neuronale ? En d’autres termes, est-ce que les voix sont spéciales ? Que sommes nous capables d’ex- traire de la voix humaine ?

La première information à laquelle nous avons accès et ce, très rapidement et fa- cilement, est le genre d’un individu. Nous sommes capables d’identifier le genre grâce au pitch et au timbre de la voix [263]. Dans une étude de Belin et al, ils ont fait va- rier le pitch (ou fréquence fondamentale f0) et le timbre afin de passer d’une voix très masculine à une voix très féminine. La consigne demandée aux participants était tout

simplement d’indiquer si le son qu’ils entendaient était masculin ou féminin (plusieurs catégories de sons étaient présentés, des instruments et des voix). Ils ont ainsi pu démon- trer que nous nous basons essentiellement sur le timbre pour effectuer la catégorisation du genre. Néanmoins, lorsque les stimuli deviennent ambigus, nous utilisons l’informa- tion portée par le pitch et le timbre pour discriminer le genre. Il semblerait que lorsque la catégorisation soit difficile nous utilisions une combinaison des informations appor- tées par le pitch et le timbre, puisqu’à lui seul, le timbre ne permet pas d’obtenir de bonnes performances de discrimination [263]. Ce choix de l’utilisation inconsciente de ces caractéristiques vocales tirerait son origine des différences anatomiques des cordes vocales et de l’appareil vocal. En effet, les femmes ont des voix plus aiguës et de plus hautes fréquences de formants [380] du fait de cordes vocales plus courtes.

Par ailleurs, nous pouvons aussi estimer l’âge d’une personne au son de sa voix. Nous nous basons sur des indices de perception de l’âge chez les adultes qui comprennent la réduction du débit de parole et l’augmentation de la variabilité de la fréquence fonda- mentale (f0) [380]. Grâce à ces indices nous pouvons alors estimer l’âge d’une personne mais la précision est souvent assez médiocre, avec des estimations faussées et sous- évaluées d’environ une décennie en moyenne. Il en va de même de l’estimation de la taille d’un individu [30]. Les estimations de la taille corporelle se sont révélées très imprécises et réposent sur des stéréotypes vocaux bien souvent erronés. Par exemple, une voix grave va plutôt être associée à un homme de grande taille alors qu’à l’inverse, une voix plus fluette va être associée à un homme de plus petite taille et corpulence [30].

Ainsi il semblerait que nous basions nos mécanismes de perception des voix sur des prototypes, comme les visages [213]. Des expériences ont permis de mettre en évidence un effet d’apprentissage des visages : "l’aftereffect". Cet effet vient d’une théorie selon laquelle nous codons les visages suivant un axe. Sur cet axe, au centre, figure le visage moyen, et tout autour sont représentés des visages qui divergent plus ou moins du vi- sage moyen (Figure 2.21) [344]. Puisque les visages sont codés suivant une trajectoire rectiligne, alors pour chaque visage il existe un anti-visage (par exemple si Jim à des yeux plus espacés par rapport au prototype, alors anti-Jim aura des yeux moins espa- cés). Lorsqu’on demande à des participants sains d’apprendre un visage (par exemple Jim) avant une phase de reconnaissance, cet apprentissage va entraîner un changement de perception du visage prototypique. Quant celui-ci apparaîtra, les sujets auront l’im- pression qu’il s’agit du visage anti-Jim, ce qui défini "l’aftereffect" [344]. Par analogie, il est possible de prendre en exemple les couleurs. Le visage moyen correspond au blanc et les autres visages à toutes les différentes couleurs. Lorsque un point blanc est pré- senté après une adaptation à la couleur rouge, alors on aura la sensation que ce point blanc est bleu. Tout ceci aboutit alors à la définition de la théorie dite du "norm-based coding", qui indique que nous codons au niveau neuronal, les visages suivant un espace 3D par rapport à un visage prototypique [277].

Qu’en est-il des voix ? Suivent-elles cette théorie ? C’est afin de répondre à cette question que l’équipe de Latinus et collègues ont créé des voix prototypiques situées

dans un espace 2D comme illustré sur la Figure 2.21. Ainsi, ils ont pu créer une voix "moyenne", ainsi que plusieurs identités vocales avec leurs opposés (suivant le même principe des anti-face) [215]. Après un apprentissage de plusieurs voix distinctes (3 dans cette expérience), l’équipe de Latinus a pu démontrer un effet similaire à celui obtenu pour les visages. En effet, après la phase d’adaptation (par exemple la voix de Tom), les stimuli étaient perçus plus souvent comme avec l’identité opposée à la voix d’adaptation (anti-Tom). La voix moyenne, quant à elle, était perçue après l’adaptation, plus souvent comme l’anti-voix adaptative [213].

Figure 2.21 – Principe du "norm-based coding" pour la perception des visages et des voix. Les voix et les visages seraient codés par notre cerveau dans un espace 2D, au centre duquel se trouverait notre visage/voix moyenne, notre prototype. Ainsi la reconnaissance des voix et des visages serait d’autant plus simple que nous nous éloignons du prototype. Afin de tester cette hypothèse des expériences d’effet de présentation ont été mises au point, durant lesquelles la présentation d’un visage (dit target) va influencer notre perception du visage/voix moyenne, que nous allons juger comme identique à l’anti-visages/voix de la cible (anti-target, diamé- tralement opposée à la cible). Issu pour les voix de Latinus et al [213] et pour les visages de Tsao et al [344].

Grâce à ces expériences, ils ont pu valider l’hypothèse selon laquelle les voix seraient elles-aussi perçues suivant une voix prototypique. Ils mentionnent également dans ces travaux, que la notion de "norm-based coding", pour les voix, avait été proposée des années auparavant, lorsque des travaux avaient montré que certaines voix étaient plus facilement mémorisées que d’autres. Ce résultat pourrait provenir du fait que ces voix plus facilement mémorisées, étaient plus distantes de la voix moyenne prototypique que les autres voix plus difficilement retenues en mémoire [213].

Au delà de l’accès aux caractéristiques physiques, il est également possible de ressen- tir et reconnaître les émotions uniquement par la voix. Dans une étude qui a enregistré les réponses ERP suite à des présentations de voix neutres ou émotionnelles, il a été

démontré une modulation des réponses neuronales par les stimuli émotionnels des 200 ms. Les émotions vocales induisent alors une amplitude plus faible de la P200 que les voix neutres, et qui n’est pas dépendante de la valence de l’émotion (positive ou né- gative) [261]. Ce traitement précoce des émotions vocales peut être pris comme une preuve que le traitement initial des expressions émotionnelles vocales est lié à la détec- tion de la saillance émotionnelle (neutre vs émotion), alors que la différenciation et/ou la discrimination des émotions (joie vs tristesse) pourrait se produire à un moment ul- térieur comme ce qui a pu être décrit pour le traitement des expressions faciales [261]. Cependant, les caractéristiques utilisées pour différencier les émotions nécessitent en- core des nombreux approfondissements. Certains auteurs ont proposé que la saillance émotionnelle n’est pas déduite d’un seul signal acoustique (comme par exemple la f0), mais d’un modèle de configurations acoustiques spécifiques qui forme un objet auditif émotionnel dès 200 ms après le début du stimulus [261].

En conclusion, les voix et les visages semblent partager un grand nombre de simili- tudes dans le type d’informations qu’ils contiennent (genre, âge, émotions). Nous allons voir dans la prochaine partie, que ces similitudes se retrouvent également au niveau du traitement neuronal et qu’un lien étroit peut se tisser entre réseau du traitement des visages et réseau du traitement des voix.