• Aucun résultat trouvé

5. Méthodologie de recueil de données

5.2. Capture de corpus d’expressions émotionnelles

5.2.3 Les expressions actées des émotions

En dépit des réserves pouvant être soulevées quant à la validité de la parole actée pour la  modélisation de phénomènes relatifs à la parole expressive spontanée, le recours à des  locuteurs simulant l’expression vocale d’émotions en fonction des instructions données  par les expérimentateurs a été de loin la méthode la plus utilisée, en raison de sa mise en  œuvre plus aisée. En effet, si le contrôle de la qualité d’enregistrement et du contenu  phonétique des énoncés dans le cas du recueil de productions spontanées d’expression  émotionnelles peuvent s’avérer extrêmement problématique (Campbell, 2000), le recours  à  des  acteurs  permet  de  mettre  en  œuvre  de  façon  beaucoup  plus  aisée  des  enregistrements en chambre sourde, avec du matériel d’enregistrement de haute qualité. 

De plus l’enregistrement de parole actée permet de contrôler le contenu phonétique des  énoncés en vue d’analyses acoustiques et perceptives ultérieures. Ce type de corpus  permet ainsi de faire varier l’émotion indépendamment de l’énoncé, selon le paradigme  du contenu standard. 

Les  corpus  de  parole  émotionnelle  actée  se  sont  pour  la  plupart  appuyés  sur  un  protocole d’enregistrement simple. Le ou les locuteurs avaient pour instruction de lire la  ou les phrases présentées en « mettant le ton » d’un certain nombre d’émotions, les  laissant libre du choix de la  méthode d’acteur. Des exemples représentatifs de tels  protocoles d’enregistrement peuvent être trouvés dans Dellaert et al. (1996) ou encore  Petrushin (2000). La capacité des locuteurs à catégoriser correctement ce type de corpus a  généralement été retenue comme un critère suffisant pour que les énoncés recueillis  soient considérés comme des expressions émotionnelles valides. Or, la parole expressive  actée est  réputée stéréotypique voire  caricaturale (Campbell, 2003), ce qui  explique  qu’elle soit bien reconnue, généralement bien au‐delà des taux de reconnaissance qui  peuvent être observés pour la parole expressive spontanée. 

L’hypothèse d’une tendance moindre à l’exagération des expressions produites dans le  cas de corpus produits par des locuteurs non‐acteurs pourrait être émise, comme le 

suggèrent par exemple Burkhardt et al. (2005). Néanmoins, dans leurs travaux, Wilting et  al.  (2006)  puis  Shahid  et  al.  (2008),  ont  comparé  en  condition  visuelle  l’intensité  émotionnelle  véhiculée  par  les  productions  spontanées  et  actées  de  locuteurs  (respectivement néerlandais et pakistanais) ne possédant pas d’expérience particulière  du jeu d’acteur. Leurs conclusions ne vont pas dans le sens de productions actées moins  stéréotypées lorsque les locuteurs n’ont pas de formation d’acteur, ceux ci auraient en  effet, à l’inverse, tendance à surjouer. 

Campbell (2005, p. 115) se montre particulièrement sceptique quant à l’authenticité de  tels corpus de parole émotionnelle : 

« Lorsque [une prosodie « émotionnelle » de ce type] est actée ou produite à la demande, elle  n’est pas exprimée comme un énoncé contextualisé ou situé, mais simplement générée en tant  qu’échantillon. Cela peut fournir de bonnes données, mais il ne s’agit pas d’un corpus dont on  peut tirer des connaissances. [Ces données] ne sont pas authentiques, n’adviennent pas  naturellement, ne sont probablement même pas représentatives d’une parole située normale, et  ne nous aident pas à étudier le « langage dans son usage » puisqu’elles n’ont jamais été 

« utilisées ». »6 

Néanmoins, un nombre très élevé d’études dédiées aux expressions d’émotions dans la  parole continuent à se fonder sur des productions actées. Les auteurs s’efforcent alors de  contourner les limites inhérentes aux émotions actées, afin de s’approcher de l’écologie  de l’acteur, en ayant recours de façon plus ou moins explicite à des méthodes d’acteurs 

« réalistes » comme celle développée par l’Actor’s Studio (voir également Stanislavski  (1963, 1966)). 

Bänziger  &  Scherer  (2007)  reviennent  ainsi  sur  les  principales  critiques  émises  à  l’encontre des expressions actées des émotions. La plus fréquemment émise de ces  critiques  est  que  ces  expressions  reflèteraient  des  stéréotypes  plutôt  des  émotions  authentiques. De plus, les acteurs ne reproduiraient que les indices les plus saillants  associés à l’expression d’une émotion donnée sans parvenir à en reproduire toute la  subtilité. 

       

6   Traduction personnelle de la citation originale : “When [this type of ‘emotional’ prosody] is acted 

or produced at a prompt, it is not expressed as a contextualised or situated utterance, but simply generated as a  sample. It may be good data, but it is not part of corpus that we can learn from. It is not authentic, not  naturally occurring, probably not even representative of normal situated speech, and does not help us to study 

Selon  Bänziger  &  Scherer  (2007),  le  fait  d’encourager  les  acteurs  à  réactiver  des  expériences émotionnelles passées leur permettrait  plus facilement de  produire  des  expressions  similaires  à  des  expressions  spontanées.  Les  auteurs  préconisent  une  évaluation de la crédibilité des expressions produites plutôt qu’une validation fondée  sur la catégorisation correcte des émotions exprimées. 

Les auteurs insistent en outre sur le fait que, bien que les expressions actées soient tenues  pour  hypercontrôlées  et  insuffisamment  spontanées  par  leurs  détracteurs,  les  expressions émotionnelles observables dans la vie de tous les jours sont également  fortement contrôlées, notamment par des stratégies de présentation de soi. Ainsi Banse & 

Scherer (1996) considèrent que seuls les « éclats d’affects » (affect bursts) relèvent de façon  exclusive d’une externalisation d’états internes (effets push). Ces éclats d’affects sont  définis par Scherer (1994, p. 170) comme « des expressions non verbales d’affects à la fois  dans la face et la voix, déclenchées par des événements clairement identifiables »7

Toute  vocalisation  d’affect  reflétant  une  émotion  authentique  résulterait  alors,  conjointement, de ces effets push et de contraintes normatives sur l’expression des affects  spécifiques à la culture du sujet parlant (effets pull). Banse & Scherer (1996) considèrent  en conséquence que la plupart des expressions d’affects réputées naturelles sont aussi en  partie actées, et que les expressions actées sont en partie naturelles, le degré de naturalité  dépendant des stratégies de production du locuteur. 

Bänziger & Scherer (2007) estiment également que la critique portant sur le supposé  manque de représentativité des expressions émotionnelles actées peut être contournée en  ne se focalisant pas exclusivement sur le sous‐ensemble que constitue les émotions  supposées basiques (et notamment les Big Six), exprimées de plus uniquement sous leur  forme  la  plus  intense.  Ils  suggèrent  ainsi  d’étendre  les  corpus  d’expressions  émotionnelles  actées  à  des  émotions  moins  intenses  et  non  limitées  aux  émotions 

« basiques »,  choisies  notamment  en  fonction  du  contexte  de  recherche.  Enfin,  ils  insistent sur la nécessité de placer l’acteur dans un contexte propice à l’apparition des  émotions visées à l’aide d’un scénario crédible, incluant, dans la mesure du possible, une  interaction de l’acteur avec d’autres personnages. 

La technique de l’élicitation, issue des méthodes d’acteurs, consiste à activer chez le  locuteur la mémoire d’une expérience émotionnelle passée proche de celle à reproduire,  afin qu’il puisse la simuler de la manière la plus naturelle possible. Parmi les techniques  d’élicitation,  une  distinction  peut  être  opérée  entre  l’élicitation  grâce  au  corps  et         

7 Traduction personnelle de la citation originale ‘‘very brief, discrete, nonverbal expressions of affect in both  face and voice as triggered by clearly identifiable events’’. 

l’élicitation grâce à la mémoire émotive. Dans la première, fondée sur les travaux de  Stanislavsky (1966), l’acteur adopte des postures destinées à l’aider à ressentir l’émotion  souhaitée. La seconde technique se fonde sur un processus de remémorisation par les  acteurs d’un événement ayant suscité chez eux une émotion très proche de celle qu’ils  doivent exprimée. 

Parmi les premiers corpus à se réclamer du recours à l’élicitation, citons tout dʹabord  celui  enregistré  par  Mozziconacci  (1998).  Cette  dernière  a  demandé  à  3  acteurs  néerlandais d’exprimer 13 émotions différentes sur 8 phrases sémantiquement neutres,  en prononçant au préalable des phrases dont le contenu verbal émotionnellement chargé  était  supposé  induire  chez  les  locuteurs  l’état  émotionnel  recherché.  Par  la  suite,  Burkhardt et al. (2005) sont allés légèrement plus loin dans l’utilisation de techniques  d’élicitation.  Ils  ont  donné  aux  acteurs  quelques  indications  quant  au  contexte  de  l’émotion  à  exprimer, ainsi que l’instruction explicite  de s’appuyer sur  le  souvenir  d’épisodes émotionnels passés avec la possibilité de recourir à des gestes et postures à  même de faciliter le ressenti de l’émotion à exprimer. 

Enos & Hirschberg (2006) dressent un état de l’art des méthodes utilisées par les acteurs  professionnels. Ils proposent un cadre méthodologique pour l’élicitation des émotions et  le  recueil  de  leurs  expressions  vocales.  Ils  suggérent deux approches  distinctes en  accordant une place centrale aux intentions et aux buts du personnage joué par l’acteur,  lʹapproche par script et lʹapproche par scénario. 

La première consiste à s’appuyer sur des pièces de théâtre éprouvées et bien connues des  acteurs, afin de tirer parti de la familiarité des acteurs avec le contexte et les buts  poursuivis par les personnages impliqués. 

La seconde revisite des méthodes déjà utilisées auparavant pour la collecte de corpus de  parole émotionnelle. Elle met en œuvre des descriptions détaillées de la situation, qui  incluent les possibles obstacles à la réalisation du but poursuivi par le personnage  incarné par l’acteur, ainsi que de l’ensemble des personnages impliqués. Dans une telle  approche, le personnage joué par l’acteur doit tendre vers un but particulier spécifié de  façon précise par le scénario. Le texte lui permettant dʹatteindre ce but doit également  être  prédéfini.  Ces  différents  éléments  sont  ici  vus  comme  les  composantes  d’une  équation qui doivent être réglées méticuleusement par le chercheur assisté d’un metteur  en scène compétent, pour aboutir à l’expression par l’acteur de l’émotion souhaitée. 

Cependant les auteurs insistent sur le fait que dans cette approche, l’émotion souhaitée  ne doit pas être indiquée à l’acteur. Ce dernier doit se concentrer sur l’action à effectuer  pour accomplir le but défini par le scénario et non sur une émotion à exprimer. Enos & 

au moyen d’une approche par scénario. Il sʹagit dʹune part de l’évaluation par un panel  de juges de l’émotion qu’ils éprouveraient à la place du personnage dans une telle  situation, ou de la construction du scénario à partir de véritables expériences, rapportées  de façon convergentes avec leur contexte, par un groupe de sujets. 

Des méthodes semblables aux approches proposées par Enos & Hirschberg (2006) ont été  adoptées par certains auteurs. Bien que les auteurs ne donnent que peu de détails sur le  protocole retenu, on peut considérer Williams et Stevens (1972) comme des pionniers de  l’approche par script. Ces derniers ont en effet eu recours à un metteur en scène et à trois  acteurs, anciens membres de l’Actor’s Studio, dans de courtes pièces mettant en scène  trois personnages masculins. Ces pièces étaient spécifiquement écrites pour permettre  l’expression de peur, de colère et de tristesse par les acteurs, en incluant des répliques de  contrôle commune aux différentes pièces. 

Banse  &  Scherer (1996)  ont  élaboré,  à  partir  de rapports individuels  d’expériences  émotionnelles récoltés au préalable, 14 scénarios détaillés destinés chacun à éliciter une  émotion particulière. Ces scénarios étaient communiqués aux acteurs germanophones  avec le texte‐cible composé d’énoncés pseudo‐linguistiques trois à sept jours avant la  session d’enregistrement. Dans cette expérience, la durée d’enregistrement n’était pas  contrainte, les acteurs  étant libres  de prendre  le  temps  nécessaire pour  parvenir  à  ressentir l’émotion visée. La différence majeure avec la méthodologie proposée par Enos 

& Hirschberg (2006) est que les scénarios proposés aux acteurs étaient, dans ce cas,  explicitement liés aux émotions visées. 

Bänziger & Scherer (2007) ont affiné, pour la conception et l’enregistrement du corpus  audiovisuel GEMEP, la méthodologie mise en œuvre par Banse & Scherer (1996). Ce  corpus, dans lequel les phrases‐cibles pseudo‐linguistiques ont été complétées par des  séquences  improvisées, a  ainsi été  élaboré à partir de scénarios faisant  autant que  possible  référence  à  des  partenaires  en  interaction  avec  l’acteur.  Les  acteurs  professionnels francophones recrutés pour l’enregistrement de ce corpus ont, de plus, été  encadrés par un metteur en scène expérimenté. 

Busso & Naranayan (2008) ont enregistré 10 acteurs professionnels pour constituer le  corpus audiovisuel USC IEMOCAP, en mettant l’accent sur la contextualisation des  expressions  produites.  Les  acteurs  enregistrés  se  trouvaient  toujours  en  situation  d’interaction avec un autre acteur. Pour chacun des acteurs, deux approches ont été  adoptées, semblables aux approches par scénario et par script proposées par Enos & 

Hirschberg (2006). Néanmoins dans les enregistrements correspondant à l’approche par  scénario, que les auteurs ont qualifié de partie « spontanée » du corpus, le choix des 

auteurs a été de définir des contraintes scénaristiques souples afin de permettre aux  acteurs d’improviser. 

La quasi‐totalité des corpus d’expressions émotionnelles actées ont été évalués sur la  base  d’une catégorisation  supérieure  au  niveau  du  hasard  par des juges  naïfs, ou  alternativement, à partir de jugements experts de la capacité des acteurs à exprimer  l’émotion visée, comme par exemple dans le cas du corpus GEMEP (Bänziger & Scherer,  2007). Or,  la  tendance des  expressions  émotionnelles  actées à être  plus intenses  et  stéréotypiques que les expressions spontanées (Campbell, 2003) a pour conséquence de  produire  des  scores  plus  élevés  dans  les  tâches  perceptives  de  catégorisation  ou  d’identification des émotions exprimées comparativement à ceux obtenus dans le cas  d’expressions spontanées. Ceci explique d’ailleurs, pour partie, l’utilisation fréquente qui  est faite de corpus d’expressions émotionnelles actées. Des doutes quant à l’authenticité  de ces émotions peuvent toutefois être émis, quand bien même le cas d’un hypothétique 

« acteur parfait » placé en situation optimale à l’aide d’un scénario approprié et préparé,  d’une mise en contexte adéquate et d’une élicitation réussie, serait considéré. En effet,  rien ne nous permet de nous assurer avec certitude que l’acteur simule l’émotion et non  certaines caractéristiques de son expression, et encore moins que le même locuteur en  situation de ressentir et exprimer la même émotion l’aurait exprimée de manière en tous  points similaire.