• Aucun résultat trouvé

4 Théorie de l'imitation vocale

4.4 Imitation vocale volontaire et involontaire

L’imitation vocale se caractérise par un nombre de facteurs agissant parfois simultanément. Il peut s’agir notamment de : l’intelligibilité (l’effort de se faire comprendre par son interlocuteur) ; la

105

relation (amitié, admiration, etc.) ; l’identité et le style (volonté de s’identifier à une communauté de locuteurs, exemples : le Uptalk85

ou le creaky voicing86

, etc.) ou encore l’origine géographique. Ces facteurs sont aussi gouvernés par la notion de différence individuelle observée chez les humains (Pardo et al., 2012 ; Reiterer et al., 2013). Contrairement à certains chercheurs (notamment des années 1960), pour qui l’imitation est un acte conscient et intentionnel, nous tenons à rappeler qu’elle est également inconsciente (D’Imperio, Cavone & Petrone, 2014). Ainsi, pour Evans (2002, p. 96), « […] imitation refers to the conscious use of a variety which is not the speaker’s usual

vernacular ». Notons dans cette citation que l’auteur considère l’imitation comme un fait

conscient. Pour sa part, Markham (1997) utilise les termes d’impersonation et d’adaptation pour désigner respectivement la convergence inconsciente et consciente :

Adaptation occurs when the phonetic/phonological mechanism is directed to behave in accordance with the phonetic characteristics of the input. This is at times called ‘accent convergence’ […] Impersonation occurs where a speaker uses a speech-style, speaker-style, dialect, accent, or language for entertainment or expressive effect (Markham, 1997, p. 50).

Nous approfondissons la convergence vocale volontaire et involontaire dans les paragraphes suivants.

Figure 8 : les deux sous-catégories d’imitation vocale (phonétique et phonologique).

4.4.1 Imitation vocale volontaire

L’imitation volontaire est un acte délibéré et requiert des efforts de conscience (Zając, 2015). Il convient de noter que la plupart des études sur l’imitation (phonétique et phonologique) en laboratoire s’inscrivent dans ce cadre, car il y a présence de stimuli et des consignes explicites d’imitation vocale sont présentées aux participants. L’imitateur devrait volontairement parler comme une autre personne, comme dans le cas des imitateurs professionnels (certains comédiens)

85 Terminal à haute montée : caractéristique de certains accents anglais qui consiste à prononcer une phrase déclarative comme s’il s’agissait d’une question (Voir Di Gioacchino & Jessop, 2011 ; Shokeir, 2008).

86 Voix craquée : caractéristique d’une voix causée par des vibrations apériodiques des cordes vocales (Grivicic & Nilep, 2004 ; Mendoza-Denton, 2011 ; Yuasa, 2010).

Imitation vocale

106

qui reproduisent les manières, y compris la voix de personnes modèles (Garnier, Lamalle & Sato, 2013). Nous pensons notamment aux humoristes et chanteurs imitateurs français les plus connus : Michaël Gregorio, Laurent Gerra, Gérald Dahan, Yves Lecoq, Thierry Garcia, Sébastien Cauet, Patrick Sébastien, Jean-Baptiste Guégan, Stéphane Benjelloun87

, etc. Nous nous attardons sur ce métier assez particulier et qui capte notre attention par les efforts particuliers, non seulement cognitifs (cela demande énormément d’attention, d’écoute et de capacités fines de perception auditive, permettant de discriminer les sons de la parole), mais aussi articulatoires, (production de la parole) réalisés par les imitateurs. Sous un angle physiologique, ces personnes, également qualifiées d’athlètes ou de contorsionnistes88

de la voix89

, possèderaient une corde vocale plus longue que l’autre et seraient capables de modifier et de manier tout leur système de résonance (glotte, épiglotte, bouche), ainsi que leur système musculaire (larynx, pharynx, cou et visage). Le travail des imitateurs consisterait à reproduire des éléments de voix de personnes, indépendamment du timbre : ils sont capables de rentrer dans les aigus comme dans les graves. Le travail d’imitateur vocal demande beaucoup de travail, d’effort et de temps. Il constitue un système complexe dans lequel plusieurs facteurs (coordination de gestes articulatoires, attention, perception, préparation, etc.) entrent en jeu pour faire émerger le résultat que nous entendons. De même, dans le contexte des imitateurs professionnels, le processus d'imitation vocale ne fonctionne pas parfaitement : l’imitation « exacte » serait donc impossible. En vue d’illustrer nos propos, nous présentons deux exemples d’études sur l’imitation phonétique volontaire.

Schlichter (1995) a réalisé une expérience d’imitation vocale, portant sur l’analyse de la prosodie et du timbre vocalique, dans laquelle elle a comparé les productions d’Yves Lecoq90

, imitant deux figures politiques (Jacques Delors et Édouard Balladur). L’exercice consistait à écouter des extraits91 d’enregistrements de ces derniers et à les reproduire, aussi fidèlement que possible. L’auteur a constaté que même si l’imitateur a reproduit des discours se rapprochant énormément de ceux des individus imités, quelques points des deux facteurs étudiés divergent toutefois : les triangles vocaliques, ainsi que certains éléments prosodiques ne coïncident pas avec ceux des personnages

87 Extrait sur Youtube : https://www.youtube.com/watch?v=ZmqDNkl1P2A (consulté le 21/10/2018). 88 C’est aussi le cas des ventriloques.

89 Lorsqu’ils écoutent leur voix enregistrée, ils la percevraient sans déformation, contrairement à la plupart des personnes (Homeovox, s. d.).

90 Imitateur professionnel (voir Imitation vocale volontaire, page 10).

107

politiques imités. Il y avait chez l’imitateur des phénomènes de sous- et de sur-articulation concernant le débit de parole et les gestes articulatoires, ce qui aurait entrainé une modification des cavités de résonances, principales responsables du timbre, et donc des différences de fréquences émises sur le plan acoustique (p. 2). D’un point de vue prosodique, Yves Lecoq distinguerait bien les indices indispensables à l’identification de chaque imité. Il contrôle habilement les pauses, les liaisons, la vitesse d’élocution ainsi que la courbe mélodique. Pour imiter Jacques Delors, Yves Lecoq modélise son discours en exagérant les écarts de fréquences vers le haut et en parlant un peu plus vite que d’habitude. Pour imiter Édouard Balladur, il adapte sa vitesse d’élocution en parlant lentement et accentue l’aspect monotone (p. 74). Nous précisons qu’il n’est guère évident de disposer dans une imitation de tous les éléments nécessaires à une identification, qui de toute manière n’est possible que lorsque l’on connait le modèle. Il est alors primordial pour l’imitateur d’avoir une capacité auditive exceptionnelle l’aidant à détecter la qualité exacte du timbre (clair, enroué), la mélodie (modulée, monotone), la hauteur de la voix (grave, aigue), etc. Les imitateurs professionnels peuvent prêter attention à ces facteurs mais n’arriveraient jamais à produire une imitation exacte (p. 75). L’auteure, partant de ces différences anatomiques (cavités) propres à chaque individu, parle alors d’empreinte vocale92

(vocal print) en référence aux empreintes digitales (finger print). Elle conclut son travail en ces termes :

Une fois de plus, nous constatons que les fréquences vocaliques des imitations divergent de celles obtenues pour la voix naturelle de l’imitateur. Cette constatation prouve qu’il y a un changement dans la configuration du conduit vocal d’Yves Lecoq lorsqu’il imite. Modifiant inconsciemment ses cavités de résonance, il privilégie ainsi d’autres harmoniques qui donnent naissance à des variations de fréquences des deux premiers formants. L’adaptation sera différente selon le locuteur (Schlichter, 1995, p. 71).

92 Ce terme est vivement contesté aujourd’hui par nombre de chercheurs, car aucune étude scientifique n’a encore démontré son existence.

108

Figure 9 : points de convergence et de divergence dans les contours intonatifs de l’imité (Balladur) et de l’imitateur (Yves Lecoq-LB).

Figure 10 : points de convergence et de divergence dans la superposition des triangles vocaliques de l’imité (Delors) et de l’imitateur (Lecoq = voix naturelle, Lecoq-Delors = imitation).

Dans ce deuxième exemple, il ne s’agit pas de l’imitation vocale d’une personne par un professionnel, mais celle de caractéristiques phonétique et phonologique propres à un ensemble de personnes, d’une communauté linguistique entière. C’est également cet aspect qui nous intéresse et que nous cherchons à mettre en avant dans notre étude : l’imitation d’accent. Ayant travaillé sur les caractéristiques des consonnes voisées (/b/, /d/ et /g/) et non voisées (/p/, /t/ et

109

/k/) de l’alsacien, Steiblé (2014) a mis en place une expérimentation d’imitation volontaire d’accent, dans laquelle des locuteurs français93

non alsaciens (7 femmes et 7 hommes de 20 à 30 ans) ont imité leurs homologues alsaciens. Ils devaient reproduire telles qu’ils le percevaient, des phrases (18 phrases répétées 12 fois) en français contenant des consonnes de l’alsacien. Trois conditions distinctes de productions étaient utilisées : initiale de mot, intervocalique et finale de mot (exemples : la date est juste, l’abattoir est fermé le matin, le crabe a des pinces). Rappelons au passage que l’alsacien est une langue alémanique (germanique) dans laquelle l’opposition consonnes voisées-non/voisées n’existe pas ou peu visiblement contrairement au français. Les Alsaciens prononceraient les consonnes /b/, /d/ et /g/ comme /p/, /t/ et /k/94

en jouant sur les paramètres lenis et fortis. Les résultats de l’expérimentation ont montré que les imitateurs étaient capables de percevoir et produire le dévoisement, caractéristique de l’accent alsacien. Certains locuteurs ont « parfaitement » imité les schémas propres à l’alsacien, en reproduisant des trajectoires articulatoires adéquates (les bons lenis et fortis). D’autres n’avaient pas adopté les gestes articulatoires qui conditionnent les patterns95

temporels du dévoisement (VOT, silence acoustique, VTT) en alsacien (Steiblé, 2014, p. 229). Au-delà des nombreuses différences individuelles notées, des cas d’exagérations ont également été observés : les VOT et les silences consonantiques sont plus longs que ceux produits par les Alsaciens. L’auteure remarque que :

[…] si on ne peut juger de la perception de locuteurs qui imiteraient « mal » l’accent alsacien en français, il est au moins certain que ce qui est produit a été perçu, à tout le moins suffisamment pour conduire à la reproduction de certains paramètres articulatori- acoustiques. En effet, les locuteurs les plus performants sont également ceux qui sont en contact depuis longtemps avec le dialecte ou le français d’Alsace, ou ceux qui ont un contact récent mais quotidien avec ces langues ou variantes phonétiques (Steiblé, 2014, p. 228).

Cette citation nous parait d’une grande importance, car elle évoque la notion de l’input bien connue en didactique des langues. En effet, les travaux des chercheurs Krashen & Terrel (1983) misent sur la quantité de l’input : le temps d’exposition (contact long) et la fréquence (contact quotidien) seraient déterminants pour un apprentissage de langues « réussi ». Les auteurs

93 Ils ont déclaré connaitre l’alsacien et savent l’imiter.

94 La thèse de Steiblé a montré que le trait de dévoisement des consonnes en alsacien n’est pas seulement lié aux vibrations des cordes vocales mais concernent aussi les éléments intersegmentaux comme le VOT (Voice Onset Time ou délai d’établissement du voisement), la durée du silence acoustiqueet le VTT (Voice Termination Time ou délai d’arrêt du voisement).

110

développent un modèle appelé Input hypothesis dans lequel ils placent la compréhension de l’input au centre de toute acqusition. Selon leur postulat, l’exposition massive à de l’input compréhensif conduirait systématiquement l’apprenant de langue vers une appropriation de la langue. Pourtant, Ellis (2002) a montré que la quantité de l’input n’est pas une condition suffisante. La fréquence d’utilisation de la langue et l’attention portée aux inputs seraient également nécéssaires. Pour sa part, Swain (2018) propose l’argument inverse en soutenant le modèle de l’output hypothesis, dans lequel la production par l’apprenant (output) serait plutôt un facteur déterminant pour l’acquisition.

Les résultats de Schlichter (1995) et Steiblé (2014) confirment le fait que l’imitation d’accents ne peut être exacte. Le phénomène de l’imitation vocale se manifeste à plusieurs niveaux : certains sons/traits seraient plus facilement imitables que d’autres. Cela dépendrait aussi de plusieurs facteurs tels que la proximité des langues, le « don » qu’ont certaines personnes à imiter les sons, etc. Des études ont aussi montré que les locuteurs « perdent » leurs acquis et reviennent sur leur production naturelle (originelle) en condition perturbée lors des tâches d’imitation vocale volontaire (Markham, 1997). D’ailleurs, l’imitation vocale consciente peut avoir les mêmes caractéristiques que le mimétisme96

observé chez les animaux : se faire passer pour une personne afin d'échapper aux dangers, bénéficier de faveurs, cacher son identité, être bien perçu, etc. Pour finir, nous rappelons que vouloir imiter consciemment la voix d’une personne n’est pas un acte facile à reproduire et qu’il requiert des capacités fines de perception et de production. Cela nécessite des efforts d’attention à des éléments vocaux et tout un appareillage de couplage en vue de « sonner » comme cette personne. À cause de tous ces facteurs, nous avons également vu que l’imitation vocale volontaire n’est jamais parfaite. Voyons dans la section suivante, ce qui caractérise l’imitation vocale inconsciente.

4.4.2 Imitation vocale involontaire

Quant à l’imitation vocale involontaire ou inconsciente, elle représente une situation dans laquelle un individu « parle » comme un autre, sans le savoir, ni le vouloir, surtout après un « contact » de durée variable (Pardo, 2006 ; Pardo, Gibbons, Suppes, & Krauss, 2012 ; Pardo, Jay, &

96 Nous utilisons ce terme pour désigner les stratégies volontaires ou involontaires, naturelles ou artificielles qu’emploient certains animaux pour échapper aux dangers ou pour attraper leurs proies. Le Larousse le définit également comme la « Reproduction machinale, inconsciente, de gestes et d'attitudes des gens de l'entourage ».

111

Krauss, 2010). L’adage qui dit « qui se ressemble s’assemble » serait inversé dans le cas de l’imitation ? C’est-à-dire, qui s’assemble se ressemble ? Ce type d’imitation vocale peut également advenir dans des conditions expérimentales (en laboratoire), mais en l’absence de toute consigne explicite. Dans ce cas, l’objectif de l’étude est initialement inconnu, c’est-à-dire que les participants ignorent complètement qu’ils participent à une étude sur l’imitation vocale. Ainsi, pour Steiblé (2014, p. 41), l’imitation involontaire « est un phénomène que l’on constate en situation normale de parole : dans le cadre d’interactions spontanées, la présence d’une imitation d’accent semble assez naturelle, et émerge sans aucune consigne particulière ». Dans la majorité des cas, ce phénomène se manifeste naturellement, sans aucun effort de reproduction, et serait le résultat de la fréquence et du temps d’exposition aux exemplaires97

. L’imitation vocale involontaire est difficilement quantifiable par nature car il est difficile de savoir à quel moment elle se produit et à quelle fréquence d’exposition ; cela se déroule à l’insu de l’observation du chercheur (Sato, Grabski, Granjon, Schwartz, & Nguyen, 2010). Seuls les résultats de l’imitation vocale involontaire sont mesurables, à condition d’avoir des données de pré-test. Kappes et collaborateurs (2009) ont également mis en évidence des degrés d'imitation involontaire au travers des répétitions des non- mots (nonword). Une fois établie, l’imitation involontaire devient difficilement contrôlable, et s’ancre dans les manières de parler. L’une des principales caractéristiques de l’imitation involontaire est que, lorsque les conditions de discours sont perturbées, les éléments étudiés restent stables. En production de parole, suite à une augmentation de la vitesse d’élocution par exemple, la durée de certaines voyelles et consonnes se réduit. Les phénomènes sont robustes à la perturbation et entrainent des effets compensatoires, en fonction de la résistivité des gestes articulatoires (Vaxelaire, 2007).

Parallèlement, afin de répondre à l’interrogation « Does listening to and observing the speaking

interlocutor influence phoneme production ? », Gentilucci & Bernardis (2007) ont mené une étude

dans laquelle des participantes devaient reconnaitre et, ensuite, répéter la chaine de phonèmes /aba/ présentée visuellement, acoustiquement et audiovisuellement par des acteurs. L’étude consiste en deux tests d’imitation vocale involontaire. Dans l'expérience 1, un acteur a présenté la chaine de phonèmes. La cinématique des lèvres et les spectres vocaux des participantes (14 femmes volontaires de 22 à 25 ans) ont été comparés à ceux d'une condition contrôle de lecture.

112

L’expérience 2 était menée auprès d’un nouvel échantillon composé de 10 femmes volontaires âgées de 21 à 23 ans. Des actrices et acteurs ont présenté la chaine de phonèmes. La cinématique des lèvres et le spectre vocal des réponses des participantes aux acteurs (et non des actrices) ont été comparés à ceux des actrices (condition contrôle), puis à ceux des acteurs. Dans les deux expériences, toutes les participantes étaient naïves quant au but de l'expérience. Parmi les chaines de phonèmes utilisés (/aga/, /ada/ et /aba/98

), seul le logatome /aba/ faisait l’objet de traitement, car il permet d’obtenir des mouvements de lèvres plus visibles et donc plus aisément enregistrables par la caméra. Les autres logatomes (/aga/ et /ada/) servaient uniquement de distractions afin d’éviter tout automatisme. Gentilucci & Bernardis (2007) ont utilisé la notion bien connue selon laquelle les mouvements labiaux des hommes sont habituellement plus grands et que leurs formants de voix sont plus bas que ceux des femmes. Ils ont posé l’hypothèse que les femmes percevraient et imiteraient des acteurs masculins présentant visuellement et acoustiquement des chaines de phonèmes. Par conséquent, les auteurs s’attendaient à une augmentation des paramètres cinématiques des lèvres et à une diminution des formants de la voix chez les participantes : une hypothèse qui a été validée puisque c’est exactement ce qui s’est produit. Les résultats des deux expériences montrent que la cinématique des lèvres dans les présentations visuelles et les spectres vocaux dans les présentations acoustiques ont changé par rapport aux conditions de contrôle, ces derniers s'approchant plus des valeurs des acteurs que des actrices. La variation de la cinématique des lèvres a également induit des changements dans les formants de la voix, mais seulement dans la présentation visuelle. Les deux caractéristiques de la cinématique des lèvres et des spectres vocaux auraient tendance à être machinalement imitées, lors de la répétition d'une chaine de phonèmes présentée par un interlocuteur qui parle de façon visible et/ou audible. L'utilisation de l'imitation conduirait à une tendance automatique et inconsciente de l’audituer à interagir étroitement avec son interlocuteur (p. 5). Ces chercheurs concluent que les résultats sont conformes à l'idée que les circuits résonants sont activés par le système miroir, qui relie l'observation à l'exécution des gestes du bras et de la bouche : « […] imitation is related to an automatic process of resonance, which expresses an automatic and

unconscious tendency of the perceiver to interact closely with a visible and audible interlocutor » (p.

98 Aussi utilisés pour des expériences portant sur l’effet McGurk (voir chapitre précédent : Perturbation non écologique ou « artificielle »).

113

7). Nous pouvons d’ores et déjà retenir de cette étude que l’imitation vocale involontaire est bien possible au travers des moyens audio-visuels et que l’interaction est importante pour qu’elle puisse se mettre en place.

S’appuyant sur la théorie de l’accommodation de la parole ([speech] communicative

accomodation theory – Giles & Ogay, 2007), Pardo et collaborateurs (2012) ont montré que les

étudiants qui partageaient la même « chambre » (colocation) s’imitent phonétiquement mutuellement, de manière involontaire au fil du temps. Selon la théorie invoquée par ces auteurs, il y a convergence ou divergence lorsque deux personnes s’engagent dans une conversation : « convergence refers to the ways in which a talker adjusts speaking style to become more similar to an

interacting partner, whereas divergence refers to changes in speaking style that result in reduced similarity to a partner » (Pardo et al., 2012, p. 190).

Deux tests ont été élaborés et ont permis de collecter les données de ce travail : un test de production (lecture de mots) et autre de perception. Pour le test de production, cinq couples d’élèves américains et coréens (N=10) venus de différents États (New York, New Jersey, Tennessee, Floride, et Séoul) ont été enregistrés, à des intervalles étalés sur une année académique : la première fois dès leur inscription en août au Columbia College et avant leur installation en chambre universitaire, la seconde en octobre, la troisième en décembre et la dernière à la fin de l’année académique en janvier. Le test de perception implique un jugement de prononciation des productions des locuteurs par 30 étudiants du même établissement. Aucun participant ne présente de troubles auditifs ou de parole. Les voyelles étudiées se trouvent dans des mots-cibles (hV99

t/d, exemple : hot) placés dans des phrases porteuses (say X100

again). Ils ont également dû prononcer deux fois deux phrases contenant des mots (dark suit, greasy, oily rag, and wash water) avec les mêmes voyelles cibles et dont la prononciation varie selon les dialectes des différentes régions des États-Unis. Les résultats ont montré qu’il y a eu convergence phonétique mais à différents degrés selon les quatre étapes : « The degree and patterns of convergence varied across pairs, phrases, and measures. » (p. 196). Grâce aux informations fournies par un questionnaire rempli par les locuteurs,

les auteurs ont également observé une corrélation entre le degré d’amitié et la convergence. Les

99 V = voyelle. 100 X = mot étudié.

114

résultats du test de perception sont venus corroborer ceux issus de l’analyse acoustique. Ces uniques analyses n'ont pas permis aux auteurs d'en tirer des conclusions suffisantes :

At this point, the most effective way to assess these relationships is to rely on the judgments of ordinary listeners. Because ordinary perception integrates multiple dimensions simultaneously, a carefully designed perceptual similarity test provides a global assessment of