5. Méthodologie de recueil de données
5.2. Capture de corpus d’expressions émotionnelles
5.2.3 Les expressions actées des émotions
En dépit des réserves pouvant être soulevées quant à la validité de la parole actée pour la modélisation de phénomènes relatifs à la parole expressive spontanée, le recours à des locuteurs simulant l’expression vocale d’émotions en fonction des instructions données par les expérimentateurs a été de loin la méthode la plus utilisée, en raison de sa mise en œuvre plus aisée. En effet, si le contrôle de la qualité d’enregistrement et du contenu phonétique des énoncés dans le cas du recueil de productions spontanées d’expression émotionnelles peuvent s’avérer extrêmement problématique (Campbell, 2000), le recours à des acteurs permet de mettre en œuvre de façon beaucoup plus aisée des enregistrements en chambre sourde, avec du matériel d’enregistrement de haute qualité.
De plus l’enregistrement de parole actée permet de contrôler le contenu phonétique des énoncés en vue d’analyses acoustiques et perceptives ultérieures. Ce type de corpus permet ainsi de faire varier l’émotion indépendamment de l’énoncé, selon le paradigme du contenu standard.
Les corpus de parole émotionnelle actée se sont pour la plupart appuyés sur un protocole d’enregistrement simple. Le ou les locuteurs avaient pour instruction de lire la ou les phrases présentées en « mettant le ton » d’un certain nombre d’émotions, les laissant libre du choix de la méthode d’acteur. Des exemples représentatifs de tels protocoles d’enregistrement peuvent être trouvés dans Dellaert et al. (1996) ou encore Petrushin (2000). La capacité des locuteurs à catégoriser correctement ce type de corpus a généralement été retenue comme un critère suffisant pour que les énoncés recueillis soient considérés comme des expressions émotionnelles valides. Or, la parole expressive actée est réputée stéréotypique voire caricaturale (Campbell, 2003), ce qui explique qu’elle soit bien reconnue, généralement bien au‐delà des taux de reconnaissance qui peuvent être observés pour la parole expressive spontanée.
L’hypothèse d’une tendance moindre à l’exagération des expressions produites dans le cas de corpus produits par des locuteurs non‐acteurs pourrait être émise, comme le
suggèrent par exemple Burkhardt et al. (2005). Néanmoins, dans leurs travaux, Wilting et al. (2006) puis Shahid et al. (2008), ont comparé en condition visuelle l’intensité émotionnelle véhiculée par les productions spontanées et actées de locuteurs (respectivement néerlandais et pakistanais) ne possédant pas d’expérience particulière du jeu d’acteur. Leurs conclusions ne vont pas dans le sens de productions actées moins stéréotypées lorsque les locuteurs n’ont pas de formation d’acteur, ceux ci auraient en effet, à l’inverse, tendance à surjouer.
Campbell (2005, p. 115) se montre particulièrement sceptique quant à l’authenticité de tels corpus de parole émotionnelle :
« Lorsque [une prosodie « émotionnelle » de ce type] est actée ou produite à la demande, elle n’est pas exprimée comme un énoncé contextualisé ou situé, mais simplement générée en tant qu’échantillon. Cela peut fournir de bonnes données, mais il ne s’agit pas d’un corpus dont on peut tirer des connaissances. [Ces données] ne sont pas authentiques, n’adviennent pas naturellement, ne sont probablement même pas représentatives d’une parole située normale, et ne nous aident pas à étudier le « langage dans son usage » puisqu’elles n’ont jamais été
« utilisées ». »6
Néanmoins, un nombre très élevé d’études dédiées aux expressions d’émotions dans la parole continuent à se fonder sur des productions actées. Les auteurs s’efforcent alors de contourner les limites inhérentes aux émotions actées, afin de s’approcher de l’écologie de l’acteur, en ayant recours de façon plus ou moins explicite à des méthodes d’acteurs
« réalistes » comme celle développée par l’Actor’s Studio (voir également Stanislavski (1963, 1966)).
Bänziger & Scherer (2007) reviennent ainsi sur les principales critiques émises à l’encontre des expressions actées des émotions. La plus fréquemment émise de ces critiques est que ces expressions reflèteraient des stéréotypes plutôt des émotions authentiques. De plus, les acteurs ne reproduiraient que les indices les plus saillants associés à l’expression d’une émotion donnée sans parvenir à en reproduire toute la subtilité.
6 Traduction personnelle de la citation originale : “When [this type of ‘emotional’ prosody] is acted
or produced at a prompt, it is not expressed as a contextualised or situated utterance, but simply generated as a sample. It may be good data, but it is not part of a corpus that we can learn from. It is not authentic, not naturally occurring, probably not even representative of normal situated speech, and does not help us to study
Selon Bänziger & Scherer (2007), le fait d’encourager les acteurs à réactiver des expériences émotionnelles passées leur permettrait plus facilement de produire des expressions similaires à des expressions spontanées. Les auteurs préconisent une évaluation de la crédibilité des expressions produites plutôt qu’une validation fondée sur la catégorisation correcte des émotions exprimées.
Les auteurs insistent en outre sur le fait que, bien que les expressions actées soient tenues pour hypercontrôlées et insuffisamment spontanées par leurs détracteurs, les expressions émotionnelles observables dans la vie de tous les jours sont également fortement contrôlées, notamment par des stratégies de présentation de soi. Ainsi Banse &
Scherer (1996) considèrent que seuls les « éclats d’affects » (affect bursts) relèvent de façon exclusive d’une externalisation d’états internes (effets push). Ces éclats d’affects sont définis par Scherer (1994, p. 170) comme « des expressions non verbales d’affects à la fois dans la face et la voix, déclenchées par des événements clairement identifiables »7.
Toute vocalisation d’affect reflétant une émotion authentique résulterait alors, conjointement, de ces effets push et de contraintes normatives sur l’expression des affects spécifiques à la culture du sujet parlant (effets pull). Banse & Scherer (1996) considèrent en conséquence que la plupart des expressions d’affects réputées naturelles sont aussi en partie actées, et que les expressions actées sont en partie naturelles, le degré de naturalité dépendant des stratégies de production du locuteur.
Bänziger & Scherer (2007) estiment également que la critique portant sur le supposé manque de représentativité des expressions émotionnelles actées peut être contournée en ne se focalisant pas exclusivement sur le sous‐ensemble que constitue les émotions supposées basiques (et notamment les Big Six), exprimées de plus uniquement sous leur forme la plus intense. Ils suggèrent ainsi d’étendre les corpus d’expressions émotionnelles actées à des émotions moins intenses et non limitées aux émotions
« basiques », choisies notamment en fonction du contexte de recherche. Enfin, ils insistent sur la nécessité de placer l’acteur dans un contexte propice à l’apparition des émotions visées à l’aide d’un scénario crédible, incluant, dans la mesure du possible, une interaction de l’acteur avec d’autres personnages.
La technique de l’élicitation, issue des méthodes d’acteurs, consiste à activer chez le locuteur la mémoire d’une expérience émotionnelle passée proche de celle à reproduire, afin qu’il puisse la simuler de la manière la plus naturelle possible. Parmi les techniques d’élicitation, une distinction peut être opérée entre l’élicitation grâce au corps et
7 Traduction personnelle de la citation originale ‘‘very brief, discrete, nonverbal expressions of affect in both face and voice as triggered by clearly identifiable events’’.
l’élicitation grâce à la mémoire émotive. Dans la première, fondée sur les travaux de Stanislavsky (1966), l’acteur adopte des postures destinées à l’aider à ressentir l’émotion souhaitée. La seconde technique se fonde sur un processus de remémorisation par les acteurs d’un événement ayant suscité chez eux une émotion très proche de celle qu’ils doivent exprimée.
Parmi les premiers corpus à se réclamer du recours à l’élicitation, citons tout dʹabord celui enregistré par Mozziconacci (1998). Cette dernière a demandé à 3 acteurs néerlandais d’exprimer 13 émotions différentes sur 8 phrases sémantiquement neutres, en prononçant au préalable des phrases dont le contenu verbal émotionnellement chargé était supposé induire chez les locuteurs l’état émotionnel recherché. Par la suite, Burkhardt et al. (2005) sont allés légèrement plus loin dans l’utilisation de techniques d’élicitation. Ils ont donné aux acteurs quelques indications quant au contexte de l’émotion à exprimer, ainsi que l’instruction explicite de s’appuyer sur le souvenir d’épisodes émotionnels passés avec la possibilité de recourir à des gestes et postures à même de faciliter le ressenti de l’émotion à exprimer.
Enos & Hirschberg (2006) dressent un état de l’art des méthodes utilisées par les acteurs professionnels. Ils proposent un cadre méthodologique pour l’élicitation des émotions et le recueil de leurs expressions vocales. Ils suggérent deux approches distinctes en accordant une place centrale aux intentions et aux buts du personnage joué par l’acteur, lʹapproche par script et lʹapproche par scénario.
La première consiste à s’appuyer sur des pièces de théâtre éprouvées et bien connues des acteurs, afin de tirer parti de la familiarité des acteurs avec le contexte et les buts poursuivis par les personnages impliqués.
La seconde revisite des méthodes déjà utilisées auparavant pour la collecte de corpus de parole émotionnelle. Elle met en œuvre des descriptions détaillées de la situation, qui incluent les possibles obstacles à la réalisation du but poursuivi par le personnage incarné par l’acteur, ainsi que de l’ensemble des personnages impliqués. Dans une telle approche, le personnage joué par l’acteur doit tendre vers un but particulier spécifié de façon précise par le scénario. Le texte lui permettant dʹatteindre ce but doit également être prédéfini. Ces différents éléments sont ici vus comme les composantes d’une équation qui doivent être réglées méticuleusement par le chercheur assisté d’un metteur en scène compétent, pour aboutir à l’expression par l’acteur de l’émotion souhaitée.
Cependant les auteurs insistent sur le fait que dans cette approche, l’émotion souhaitée ne doit pas être indiquée à l’acteur. Ce dernier doit se concentrer sur l’action à effectuer pour accomplir le but défini par le scénario et non sur une émotion à exprimer. Enos &
au moyen d’une approche par scénario. Il sʹagit dʹune part de l’évaluation par un panel de juges de l’émotion qu’ils éprouveraient à la place du personnage dans une telle situation, ou de la construction du scénario à partir de véritables expériences, rapportées de façon convergentes avec leur contexte, par un groupe de sujets.
Des méthodes semblables aux approches proposées par Enos & Hirschberg (2006) ont été adoptées par certains auteurs. Bien que les auteurs ne donnent que peu de détails sur le protocole retenu, on peut considérer Williams et Stevens (1972) comme des pionniers de l’approche par script. Ces derniers ont en effet eu recours à un metteur en scène et à trois acteurs, anciens membres de l’Actor’s Studio, dans de courtes pièces mettant en scène trois personnages masculins. Ces pièces étaient spécifiquement écrites pour permettre l’expression de peur, de colère et de tristesse par les acteurs, en incluant des répliques de contrôle commune aux différentes pièces.
Banse & Scherer (1996) ont élaboré, à partir de rapports individuels d’expériences émotionnelles récoltés au préalable, 14 scénarios détaillés destinés chacun à éliciter une émotion particulière. Ces scénarios étaient communiqués aux acteurs germanophones avec le texte‐cible composé d’énoncés pseudo‐linguistiques trois à sept jours avant la session d’enregistrement. Dans cette expérience, la durée d’enregistrement n’était pas contrainte, les acteurs étant libres de prendre le temps nécessaire pour parvenir à ressentir l’émotion visée. La différence majeure avec la méthodologie proposée par Enos
& Hirschberg (2006) est que les scénarios proposés aux acteurs étaient, dans ce cas, explicitement liés aux émotions visées.
Bänziger & Scherer (2007) ont affiné, pour la conception et l’enregistrement du corpus audiovisuel GEMEP, la méthodologie mise en œuvre par Banse & Scherer (1996). Ce corpus, dans lequel les phrases‐cibles pseudo‐linguistiques ont été complétées par des séquences improvisées, a ainsi été élaboré à partir de scénarios faisant autant que possible référence à des partenaires en interaction avec l’acteur. Les acteurs professionnels francophones recrutés pour l’enregistrement de ce corpus ont, de plus, été encadrés par un metteur en scène expérimenté.
Busso & Naranayan (2008) ont enregistré 10 acteurs professionnels pour constituer le corpus audiovisuel USC IEMOCAP, en mettant l’accent sur la contextualisation des expressions produites. Les acteurs enregistrés se trouvaient toujours en situation d’interaction avec un autre acteur. Pour chacun des acteurs, deux approches ont été adoptées, semblables aux approches par scénario et par script proposées par Enos &
Hirschberg (2006). Néanmoins dans les enregistrements correspondant à l’approche par scénario, que les auteurs ont qualifié de partie « spontanée » du corpus, le choix des
auteurs a été de définir des contraintes scénaristiques souples afin de permettre aux acteurs d’improviser.
La quasi‐totalité des corpus d’expressions émotionnelles actées ont été évalués sur la base d’une catégorisation supérieure au niveau du hasard par des juges naïfs, ou alternativement, à partir de jugements experts de la capacité des acteurs à exprimer l’émotion visée, comme par exemple dans le cas du corpus GEMEP (Bänziger & Scherer, 2007). Or, la tendance des expressions émotionnelles actées à être plus intenses et stéréotypiques que les expressions spontanées (Campbell, 2003) a pour conséquence de produire des scores plus élevés dans les tâches perceptives de catégorisation ou d’identification des émotions exprimées comparativement à ceux obtenus dans le cas d’expressions spontanées. Ceci explique d’ailleurs, pour partie, l’utilisation fréquente qui est faite de corpus d’expressions émotionnelles actées. Des doutes quant à l’authenticité de ces émotions peuvent toutefois être émis, quand bien même le cas d’un hypothétique
« acteur parfait » placé en situation optimale à l’aide d’un scénario approprié et préparé, d’une mise en contexte adéquate et d’une élicitation réussie, serait considéré. En effet, rien ne nous permet de nous assurer avec certitude que l’acteur simule l’émotion et non certaines caractéristiques de son expression, et encore moins que le même locuteur en situation de ressentir et exprimer la même émotion l’aurait exprimée de manière en tous points similaire.