• Aucun résultat trouvé

Traitement de la voix au niveau cérébral

Dans le document en fr (Page 125-129)

2.5 Interactions Voix-Visages : les voix ou "an auditory face"

2.5.2 Traitement de la voix au niveau cérébral

Alors que pour les visages, nous parlons de prosopragnosie, le déficit de reconnais- sance des personnes uniquement par leur voix est appellé par analogie la phonagnosie. Ce trouble décrit les personnes souffrant d’un déficit de reconnaissance uniquement vocale alors que leur compréhension du langage demeure intacte [213]. Bien souvent, cette altération provient d’une lésion cérébrale localisée au sein du lobe temporal de l’hémisphère droit. Des lésions dans l’hémisphère gauche ne conduira pas à une pho- nagnosie, mais induira généralement une aphasie avec des capacités de reconnaissance préservées [31]. Ainsi, ces lésions dans la région du gyrus temporal supérieur postérieur gauche conduisent au syndrome connu sous le nom d’aphasie de Wernicke, caractérisé entre autres par un profond déficit de compréhension de la parole. Cependant, dans ce syndrome, la perception et la reconnaissance d’autres sons tels que la musique ou les sons de l’environnement apparaissent essentiellement préservés. Ceci suggère que les déficits sont limités à la parole humaine, ce qui constitue un argument solide en faveur de la spécificité de la voix et de la parole dans le traitement auditif chez l’Homme [30]. De plus, la perception de la parole et celle de la voix semblent être dissociées, l’un faisant intervenir l’hémisphère gauche, alors que l’autre plutôt l’hémisphère droit.

Le développement de techniques récentes en neuroimagerie a permis d’améliorer notre compréhension du traitement cérébral de la voix humaine. Ainsi en 2000, l’équipe de Belin et collaborateurs a mis au point une expérience en IMRf durant laquelle ils pré- sentaient à des personnes saines des sons humains et des sons de l’environnement [34].

Les sons vocaux étaient divisés en deux catégories : langagiers (des mots, des syllabes voire des phrases) et non langagiers (rires, des cris, de la toux et des interjections). En contraste, ils ont utilisé un groupe de sons non-vocaux qu’ils ont égalisé en nombre, en durée et en énergie. Il omprenait des sons instrumentaux, mécaniques, environne- mentaux et des vocalisations animales [34]. Avec ce paradigme expérimental, ils ont retrouvé une aire temporale du cortex auditif plus fortement activée en réponse à ces stimuli vocaux, qu’à d’autres types de stimuli sonores. Cette aire définie pour la pre- mière fois dans cette étude a été désignée sous le terme de "Temporal Voice Area ou TVA" [32]. Cette aire cérébrale, illustrée par la Figure 2.22 se situe bilatéralement le long des parties médiane et antérieure du gyrus temporal supérieur (STS/STG) avec une prédominance hémisphérique droite [31].

Figure 2.22 – Figure qui montre les zones cérébrales préférentiellement activées lorsque l’on présente des sons de la voix humaine à des participants (comparativement à des sons de l’environnement). Au sein de l’encadré rouge nous retrouvons la Temporal Voice Area, impliquée dans le traitement de la voix humaine. Issue de la revue de Yovel et al [376].

Par ailleurs des études ultérieures ont apporté quelques données sur la spécificité de la TVA. Tout d’abord, son activation est spécifique aux vocalisations humaines puisqu’elle est plus fortement activée en réponse à des sons vocaux humains que non- humains. Ensuite, le contenu émotionnel va également avoir un impact. La prosodie contenue dans la voix va augmenter l’intensité de la réponse de la TVA par rapport à des stimuli neutres [120]. L’augmentation de la réponse de la TVA est d’autant plus marquée pour des émotions négatives et principalement la peur et la colère.

En fonction du contenu analysé, l’hémisphère droit ou gauche sera préférentiellement avantagé. En utilisant les mêmes sons vocaux, lorsque l’on va étudier la réponse céré- brale aux informations langagières, l’hémisphère gauche prédominera (ce qui est vrai

chez des sujets droitiers). Cependant, lorsque l’on étudiera la réponse à la voix (par exemple le traitement du picth ou de l’idendité), alors, elle sera prédominante au sein de l’hémisphère droit. Les différentes caractéristiques d’un même son pourraient alors être traitées en utilisant des réseaux de neurones latéralisés, partiellement distincts et probablement interconnectés [30].

Nous pouvons également noter que la spécificité cérébrale vis à vis des vocalisations de conspécifiques se retrouvent dans d’autres espèces de singes humains et non-humains comme les macaques ou encore les marmousets [30]. La haute spécificité de cette aire cérébrale semble être conservée au cours de l’évolution et nous renseigne de l’impor- tance de cette spécificité dans la survie d’une espèce.

Enfin, quelques études en EEG ont apporté des données sur le décours temporel du traitement de la voix. Il est bien connu que pour les visages, la N170 est le reflet du traitement particulier de ces derniers par notre cerveau. Qu’en est-il des voix ? Il a été retrouvé, de façon comparable à la N170, une onde à approximativement 200 ms après la présentation du stimulus plus prononcée pour les voix que pour les autres types de sons (Figure 2.23). Cette onde est retrouvée sous le terme de FTPV pour "Fronto- Temporal Positivity to Voice" et a aussi été observée par MEG. Le décours temporel du traitement de la voix semble assez proche de celui des visages.

Figure 2.23 – En rouge le tracé en réponse à des stimulations de voix humaine, en vert en réponse à des chants d’oiseaux et en bleu en réponse à des sons de l’environnement. On remarque au niveau des électrodes temporales une augmentation de l’amplitude de la réponse aux voix par rapport aux autres stimuli à environ 200 ms. Issue des travaux de Charest et al [65].

Cette onde peut être modulée par des facteurs annexes comme la présence d’un contenu émotionnel dans la voix, qui atténue l’amplitude de la P200 [261].

Deux études ont montré une plus grande réponse aux voix chantées par rapport aux sons instrumentaux à une latence de 320 ms après le début du stimulus, avec une distribution fronto-centrale, appelée "Voice Specific Response" ou VSR [65]. Pour les auteurs cette augmentation de la positivité reflèterait l’allocation attentionnelle envers les stimuli

vocaux. Cette différence de latence entre ces études (120 ms les séparent) pourrait pro- venir du type de stimuli utilisés et également du paradigme expérimental. Par ailleurs elle pourrait aussi mettre en lumière deux processus distincts, la P200 comme étant le reflet d’un traitement structurel, alors et la P300, des processus attentionnels. De ce fait d’autres études sont nécessaires afin de clarifier les réponses neuronales à la voix humaine.

Chez les enfants et les nourrissons certaines spécificités liées à la voix humaine sont déjà présentes. Tout d’abord, seulement quelques jours après leur naissance, les nour- rissons sont sensibles la voix de leur mère qu’ils préfèrent à d’autres voix (Pascalis). Ils sont aussi sensibles à leurs langues maternelles, puisqu’ils vont préférer celle-ci à un langage étranger [67]. Ces résultats nous indiquent que déjà à la naissance, nous avons des facultés nous permettant de traiter spécifiquement la voix et de différencier la voix de notre mère à celle d’autres individus. Chez des enfants de 4 à 7 mois, dans une étude en NIRS (Near InfraRed Spectroscopy) Grossmann et al ont rapporté, en réponse à des présentations de voix, une augmentation de la réponse hémodynamique au niveau du cortex temporal postérieur de l’hémisphère droit (au niveau de la TVA). Cette modulation hémodynamique est présente sur des enfants de 7 mois, mais absente sur des enfants de 4 mois [157]. La sélectivité pour les voix semble apparaître avec le développement et à une date critique qui se situerait entre 4 et 7 mois. Cependant une autre étude en EEG, qui enregistrait la MMN (MisMatch Negativity) lors d’un paradigme d’oddball sur des nourrissons de 5 jours, révèle aussi une modulation des aires fronto-temporales en réponse aux voix comparé à d’autre types de sons. À l’heure actuelle, nous ne savons pas si, à l’instar des visages, à la naissance, les caractéristiques vocales de bas niveau (fréquences fondamentale) sont importantes dans l’orientation at- tentionnelle et dans l’activation des certaines aires cérébrales. Il serait possible alors de penser que les nourrissons répondent à ces caractéristiques de bas niveau de la voix et non à la voix en elle-même. Ce ne serait qu’à mesure de la répétition de la présentation et de la perception des voix (qui portent ses caractéristiques), que l’enfant spécialiserait certaines aires cérébrales [33].

Toutefois, ces deux études s’accordent à dire que la prosodie émotionnelle a un impact sur les réponses neuronales des aires sélectives de la voix et ce, dès le plus jeune âge. De plus, ils démontrent qu’un stimulus contenant une menace (colère ou peur) va plus fortement activer ces aires que des stimuli neutres et des stimuli joyeux. Cette sélectivité pourrait provenir des composantes intrinsèques du son (notamment la différence de f0 entre la joie et la colère/peur) de bas niveau [33] mais qui se révèlent importante du point de vue de l’évolution et de la survie. Elle permettrait de diriger automatiquement notre attention vers ce qui peut représenter une menace afin d’adapter nos comporte- ments.

Dans l’ensemble, il existe des preuves convergentes d’une variété de techniques expé- rimentales selon lesquelles un cerveau humain normal contient plusieurs zones corticales activées de manière sélective par des sons de la voix humaine. Ce résultat est très si-

milaire aux observations selon lesquelles plusieurs régions sélectives du visage peuvent être observées dans le cortex visuel et suggère que le traitement du visage et de la voix pourrait être organisé selon des principes et des organisations corticales similaires [30].

Dans le document en fr (Page 125-129)