La voix, un visage auditif ? - : L’AUDITION, LES SONS ET LA VOIX

CHAPITRE 1 : L’AUDITION, LES SONS ET LA VOIX

3.5 La voix, un visage auditif ?

L’ensemble des études sur les dissociations de traitement d’information de la voix a été cruciale pour établir un traitement hiérarchique de celui-ci. Dans l’ensemble, ces études se sont inspirées du le modèle de la perception des visages de Bruce et Young (Bruce & Young, 1986). Dans ce modèle, les auteurs décrivent plusieurs niveaux d’analyse du visage: une analyse initiale de bas niveau purement perceptuelle, reconnaissant le stimulus visage, suivie par un encodage de la structure globale du visage permettant l’analyse intégrée des éléments invariants propres à l’identité (couleur des cheveux, forme visage) et des éléments dynamiques tels que l’expressivité ou l’émotion. Sur la base de ce modèle, Ellis et al. en 1997, suggéraient que l’information caractéristique de la voix était d’abord encodée à un niveau très basique (auditory structured

encoding), après quoi elle était analysée en unité de reconnaissance de la voix (voice recognition units) (Ellis, Jones, & Mosdell, 1997). Ce dernier module de traitement de la voix serait en lien avec

un module multimodal du traitement de l’identité, person identity nodes, et finalement des informations sémantiques serait associées avec le stimulus.

Figure 3.7 : Modèle de perception de la voix proposé par Belin et al. La partie de droite est adaptée d’après le modèle de perception des visages de Bruce et Young (Bruce & Young, 1986), tandis que la partie de gauche propose une organisation fonctionnelle similaire pour le traitement de la voix. Les flèches pointillées indiquent les interactions multimodales. Adapté d’après Belin et al. 2004.

En 2004, Belin et al. ont proposé un modèle de la perception de la voix plus abouti, considérant à la fois la façon dont la reconnaissance du locuteur est faite au travers de la voix, mais aussi la façon dont les autres informations vocales étaient traitées (Belin, Fecteau, & Bedard, 2004). Les auteurs parlaient donc de la voix comme d’un visage auditif. Selon ce modèle, la voix est tout d’abord analysée à un bas-niveau assez générique, commun aux autres stimuli auditifs, puis analysée

et encodée de façon structurelle. A partir de là, la voix serait ensuite analysée parallèlement par différents modules spécifiques : le premier serait sensible aux informations linguistiques, le deuxième aux informations affectives vocales, et le dernier aux informations d’identité vocale (voir Figure 3.7). Parce qu’il implique des voies de traitement séparées, ce modèle prédit des dissociations neurofonctionnelles entre les trois types de traitement. De plus pour les auteurs, les structures neuronales impliquées dans le traitement de chacune de ces informations seraient en interactions avec les traitements du visage lui correspondant. Nous allons détailler le traitement neurofonctionnel de ces 3 types d’informations vocales.

3.5.1 PERCEPTION DE L’INFORMATION LANGAGIERE

Comme nous l’avons déjà évoqué précédemment, la voix est le support de la parole. De nombreuses études de neuroimagerie dans le domaine de la voix ont étudié les aspects de l’organisation fonctionnelle impliqués dans la perception du langage.

Plusieurs revues de la littérature ont mis en avant l’implication bilatérale des aires secondaires du cortex temporal supérieur bilatéral (Hickok & Poeppel, 2000; Y. Samson et al., 2001; Scott & Johnsrude, 2003; Zatorre & Binder, 2000). Plusieurs de ces études ont également suggéré une dissociation entre les régions du STS médian, qui répondraient davantage au langage qu’au message linguistique, et les régions antérieures du STS gauche et du plan temporal supérieur, qui seraient plus impliquées dans la compréhension du langage, même sous formes de structures acoustiques dégradées. Le modèle classique d’anatomie fonctionnelle de compréhension du langage postule que le tiers postérieur du gyrus temporal supérieur gauche (aire de Wernicke) soit la zone anatomique d’interface entre signal acoustique et représentations mentales, c'est-à-dire la compréhension du langage. Toutefois, la diversité des formes cliniques d’aphasie a conduit à envisager une hétérogénéité fonctionnelle de l’aire de Wernicke (Demonet, Thierry, & Cardebat, 2005). Cette région interviendrait en effet dans des tâches distinctes, telles que la perception phonologique ou encore la récupération du mot en mémoire sémantique. Cette différenciation des fonctions de l’aire de Wernicke a favorisé l’émergence d’un nouveau modèle d’anatomie fonctionnelle du langage. Ce modèle est basé sur l’organisation du système visuel ; une voie ventrale d’identification de l’objet (what) et une voie dorsale de localisation (where). En ce qui concerne le langage, ces deux voies ont été notamment étudiées par Hicock et Poppel (Hickok & Poeppel, 2004) puis par Saur (Saur et al., 2008). La voie dorsale et la voie ventrale seraient convergentes en leur origine, la jonction temporo-occipitale gauche, et à leur terminaison, au niveau frontal inférieur. Elles seraient anatomiquement et fonctionnellement associées. Dans ce modèle, le faisceau dorsal correspondrait au traitement du « comment » du langage (how en anglais), c’est-à-dire aux représentations phonémiques, à la mémoire de travail verbale (par la répétition subarticulatoire) et l’interface auditivo-motrice impliquée dans la répétition orale des mots. La voie ventrale correspondrait au traitement du « quoi » du langage (what en anglais) et comprendrait des faisceaux

plus inférieurs (temporaux moyens et temporaux inférieurs) et permettrait l’accès aux représentations lexico sémantiques et conceptuelles, stockées dans les régions temporales moyennes.

3.5.2 PERCEPTION DE L’INFORMATION AFFECTIVE

La voix comporte beaucoup d’informations affectives. En effet, comme nous l’avons déjà évoqué, les informations acoustiques de la voix sont modulées par l’état émotionnel du locuteur. La perception de ces informations a été très étudiée dans le contexte du langage. La prosodie émotionnelle, supportée par les variations d’amplitude, la durée des pauses et la fréquence fondamentale et sa variation, permet à l’auditeur d’inférer beaucoup d’informations concernant l’état affectif du locuteur. Les signaux vocaux non langagiers, tels que les rires, les cris, les pleurs, etc., contiennent également beaucoup d’informations affectives.

En termes de support neuronal, quelques études se sont intéressées au traitement de l’information affective de la voix. Des études ayant utilisé l’IRMf ou le PET, ont permis de montrer la plus grande activation du lobe temporal droit et du cortex préfrontal inférieur droit (Buchanan et al., 2000; George et al., 1996; Mitchell, Elliott, Barry, Cruttenden, & Woodruff, 2003; Wildgruber, Pihan, Ackermann, Erb, & Grodd, 2002). Par la suite, les bases neuronales de la perception émotionnelle de la voix ont été étudiées en dehors du contexte du langage en utilisant des vocalisations non verbales, telles que des rires, des cris, etc. Les études PET et IRMf ont suggéré l’importance de l’amygdale et de l’insula antérieure dans le traitement de l’émotion vocale (Fecteau, Belin, Joanette, & Armony, 2007; J. S. Morris, Scott, & Dolan, 1999; Phillips et al., 1998; Sander & Scheich, 2001). Ces résultats apparaissent cohérents avec les données électrophysiologiques selon lesquelles le traitement de l’affect dans la voix serait un processus neuronal précoce, impliquant les aires auditives secondaires, intervenant en moyenne 200 ms après le stimulus (Spreckelmeyer, Kutas, Urbach, Altenmuller, & Munte, 2009). Une étude EEG de 2009, suggère que le traitement de l’information affective vocale soit plus postérieure que le traitement de l’information de l’identité vocale (Toivonen & Rama, 2009).

3.5.3 PERCEPTION DE L’INFORMATION D’IDENTITE

Nous avons déjà développé les différentes informations acoustiques de la voix qui sont modulés en fonction de l’identité (voir « Caractéristiques physiques de la voix », p77), qu’il s’agisse des informations de timbre ou de pitch, et ce dans sa dimension temporelle également (accent, intonation spécifique à une zone géographie et socioculturelle)

En termes de traitement neuronal, la perception de l’identité de la voix est une des premières informations paralinguistiques dont le traitement ait été dissocié de celui du langage. En premier lieu, furent les études sur la phonagnosie que nous avons déjà évoquées précédemment (voir « La phonagnosie : un argument en faveur d’un traitement cérébral spécifique pour la voix », p87). Plus

tard, plusieurs études ayant servie de support à la mise en évidence de la TVA dans le STS, portait sur une dissociation entre traitement verbal et traitement de l’identité du locuteur (voir « Une aire spécifique à la voix, la TVA (Temporal voice area) », p87). Pour mémoire, Imaimuzi et al. en 1997, avaient déjà montré que le lobe temporal antérieur bilatéral était davantage activé lors d’une tâche d’identification du locuteur que lors de la tâche d’identification de l’émotion de la voix (Imaizumi et al., 1997). En 2001, ce groupe d’auteurs a trouvé des résultats allant dans le même sens ; le cortex enthorinal et la partie antérieur du lobe temporal droit était plus activé dans une tâche de décision de la familiarité de la voix que dans une tâche de décision phonétique (Nakamura et al., 2001). Des études IRMf avaient également confirmé ce résultat. Von Kriegstein et al. ont montré qu’une tâche d’identification du locuteur activait davantage le STS antérieur droit et une partie du precuneus droit, qu’une tâche d’identification du contenu verbal (K. von Kriegstein et al., 2003). Puis dans un paradigme d’adaptation au locuteur, Belin et Zatorre ont montré l’implication du STS antérieur droit pour le traitement acoustique des caractéristiques de la voix liées au locuteur (Belin & Zatorre, 2003). Enfin, en 2007, une étude IRMf a également retrouvé que l’implication d’une aire auditive située sur la berge inférieure du STS était préférentiellement activée par les voix familières versus non familières (Birkett et al., 2007). Il y a donc un certain nombre d’arguments en faveur de l’implication des régions temporales antérieures de l’hémisphère droit et particulièrement du STS antérieur droit dans le traitement de l’identité. Toutefois, une étude plus récente sur la perception du changement de la taille au travers de la voix humaine a montré une activité spécifique dans gyrus temporal postérieur (STG) gauche (K. von Kriegstein, Smith, Patterson, Ives, & Griffiths, 2007). De plus cette aire n’était pas activée lors du traitement de la perception de la taille au travers d’autres sources sonores. La perception de la taille du locuteur fait partie de la perception de l’identité, le résultat de cette étude est donc surprenant, mais n’invalide pas les résultats précédents puisqu’il porte sur un attribut spécifique de l’identité.

Dans l’ensemble, ces différentes études de perception de la voix, montrent que les différentes activations du STS qui ont été observées, correspondent probablement à des régions fonctionnellement distinctes, et soutient l’idée que le traitement neuronal des informations linguistiques, émotionnelles et identitaires de la voix peut être dissocié. Ce traitement hiérarchique de l’information vocale a été confirmé dans des études plus récentes (Engel, Frum, Puce, Walker, & Lewis, 2009; Lattner, Meyer, & Friederici, 2005; Staeren, Renvall, De Martino, Goebel, & Formisano, 2009; J. D. Warren, Scott, Price, & Griffiths, 2006; D. Wong, Miyamoto, Pisoni, Sehgal, & Hutchins, 1999), montrant notamment que différents traitements et/ou différentes catégories de sons activaient différentes régions corticales.

CHAPITRE 2 : LA

Dans le document Etude de la perception de la voix chez le patient sourd post lingual implanté cochléaire unilatéral et le sujet normo-entendant en condition de simulation d'implant : psychophysique et imagerie (Page 96-101)