• Aucun résultat trouvé

5. Méthodologie de recueil de données

5.2. Capture de corpus d’expressions émotionnelles

5.2.2 Les émotions in vivo

Les travaux expérimentaux qui s’appuient sur des corpus collectés en milieu écologique  sont assez peu nombreux. En effet, comme le souligne Campbell (2000), ce type de  protocole présente des limites conséquentes. Dʹune part, il est difficile de recueillir dans  ces conditions des échantillons de qualité suffisante pour une analyse acoustique fine. 

Dʹautre part, un tel protocole ne permet pas de contraindre l’accès lexical du locuteur. Il  est alors moins évident d’effectuer des comparaisons entre locuteurs et entre émotions. 

Quelques  études  se  sont  néanmoins  appuyées  sur  des  expressions  émotionnelles  spontanées recueillies à l’occasion d’événements comme des catastrophes. Williams & 

Stevens (1972) ont ainsi utilisé l’enregistrement radiophonique du commentaire en direct  d’un accident de dirigeable, et ont comparé la version originale de cet enregistrement à  celle produite par un acteur. Protopapas & Lieberman (1997) ont pour leur part utilisé  l’enregistrement  d’un  pilote  d’hélicoptère  sur  le  point  de  s’écraser  afin  d’étudier  l’influence du stress sur la fréquence fondamentale. 

En dépit de la perte de qualité induite par ce média, plusieurs études se sont appuyées  sur des extraits de parole expressive issus de conversations téléphoniques pour des  applications de reconnaissance automatique des  émotions. Une part importante des  enregistrements  étudiés  étaient  notamment  constitués  d’appels  d’usagers  vers  des  centres d’aide et de support. Ainsi Ang et al. (2002) ont utilisé des expressions d’ennui et  de  frustration  obtenues  à  partir  d’interactions  d’usagers  appelant  un  système  de  planification de voyages. Vidrascu & Devillers (2005) ont quant à elles travaillé sur un  corpus  de  10  heures  de  parole  représentant  404  conversations  téléphoniques  entre  usagers et agents d’un centre d’appel spécialisé dans le conseil médical, dont une part  importante a été étiquetée comme des expressions d’anxiété. 

Des extraits de parole émotionnelle radiophonique ou télévisuelle ont également été  utilisés. Trouvain & Barry (2000) ont ainsi analysé des enregistrements radiophoniques  de commentaires de courses de chevaux. Douglas‐Cowie et al. (2000) ont enregistré des  conversations  informelles  et  également  extrait  des séquences  télévisuelles  au  cours  desquelles des membres du public interagissent de façon spontanée. 

Chung (2000) a pour sa part utilisé des enregistrements d’entretiens télévisés au cours  desquels  des  locutrices  coréennes  ainsi  qu’une  locutrice  anglaise,  s’exprimant  initialement sur un ton enjoué, étaient ensuite invitées à parler de leurs problèmes  personnels et exprimaient de la tristesse. En raison du caractère inattendu pour les  locutrices des questions posées par le présentateur, l’auteur a considéré les émotions  exprimées comme authentiques. Des entrevues radiophoniques et télévisuelles similaires  ont été également été recueillies par Greasley et al. (1995). 

Une réserve peut toutefois être émise quant à l’authenticité de la parole expressive  recueillie dans un type de contexte médiatisé. En effet, qu’il y ait eu ou non une  répétition préalable, il est peu vraisemblable que le discours d’un locuteur placé dans ces  conditions soit dénué d’intentions pragmatiques. Ce problème peut s’accentuer encore  selon le thème du discours qu’il doit produire. Se préparer à parler de ses problèmes  personnels, revient indirectement à se préparer à transmettre des émotions négatives  (tristesse, colère, etc.). Dans de telles conditions, la question d’une tendance du locuteur  à devenir acteur amateur peut se poser. 

D’une manière plus générale, l’influence de l’observateur sur la situation observée a été  mise en avant en sociolinguistique, sous le nom de « paradoxe de l’observateur » par  Labov (1970). Lors des campagnes d’enregistrement qu’il a effectuées, il a remarqué que  les locuteurs étudiés, se sachant observés, adoptaient une façon de parler plus formelle. 

Labov a en conséquence énoncé le paradoxe de l’observateur comme la contradiction  entre le fait que l’objet d’étude de la linguistique devrait être la façon dont les gens  parlent lorsqu’ils ne se savent pas systématiquement observés, alors même que la seule  façon d’obtenir ces données soit l’observation systématique. 

Batliner et al. (2003a, p. 10) proposent une relecture de ce paradoxe de l’observateur  adaptée à l’étude des expressions émotionnelles, aux conclusions plutôt pessimistes pour  ce  champ  de  recherche.  Les  auteurs  mettent  ainsi  en  avant  trois  « paradoxes  émotionnels » : 

 « Plus vous pouvez observer d’émotions, moins il est probable que vous ayez le droit  de le faire (problème des données clairsemées) »3. Le problème de la spontanéité qui se  pose en sociolinguistique se superpose dans l’étude des émotions à un problème  éthique  d’intrusion  de  l’observateur  dans  l’intimité  des  sujets.  Les  auteurs         

3 Traduction personnelle de la citation originale : “The more emotions you could observe, the less likely it is that you are allowed to do so (sparse data problem).”. Les auteurs n’explicitent pas le choix, surprenant  puisque le problème ici se situe plus au niveau de l’accès aux données que de leur densité, de désigner 

considèrent néanmoins que, bien que cela revienne à renoncer à recueillir des corpus  d’expressions  émotionnelles  spontanées  de grande  taille,  ce  problème  peut  être  contourné en se concentrant sur des situations particulières susceptibles de favoriser  l’apparition d’émotions et leur expression sans violer l’intimité des locuteurs. 

 « Plus vous êtes autorisé à observer des émotions, moins il est probable qu’elles  soient exprimées de façon claire et simple. (problème de la référence vague) »4. Les  émotions  induites  dans  ces  situations  particulières  seraient,  selon  eux,  peu  susceptibles d’être exprimées de façon aussi manifeste qu’elles le seraient dans la  sphère privée. Les auteurs arrivent alors à différentes conclusions. Dʹune part, il est  nécessaire  de  prendre  en  compte  la  complexité  des  expressions  émotionnelles  recueillies dans ces conditions, plutôt que de tenter de contourner ce problème. 

Dʹautre part, le degré d’accord inter‐annotateurs quant aux émotions exprimées dans  les  données  recueillies  ne  peut  en  conséquence  demeurer  l’unique  critère  d’évaluation de ces expressions. 

 « Plus vous aurez pu modéliser d’émotions pures, moins il est probable que celles‐ci  soient pertinentes dans le cadre d’applications réalistes. (problème de l’acceptabilité) »5.  Au‐delà de la difficulté pour collecter des expressions spontanées de telles émotions  et les modéliser, les auteurs considèrent qu’il n’existe pas de projet convainquant  d’application pour laquelle une telle modélisation serait utile car correspondant à un  besoin ou un désir exprimé par des utilisateurs. 

Ces positions méritent toutefois d’être nuancées. Nous pouvons effectivement considérer  comme peu probable le fait de collecter des expressions intenses de joie, de tristesse ou  encore de colère sans s’immiscer dans l’intimité du sujet, avec les problèmes d’ordre  éthique  que  cela  implique.  Il  est  cependant  peu  vraisemblable  qu’une  quantité  importante d’expressions de ce que Batliner et al. (2003a) nomment « émotions pures » et  qui sont à rapprocher des Big Six puisse être recueillie en observant les interactions de la  vie de tous les jours, indépendamment du débat quant à la pertinence de telles émotions 

« de  base »  (voir  notamment  Sander  (2008)  pour  une  brève  mais  très  informative  discussion  sur  cette  thématique).  Ce  type  d’expression  est  en  effet  rare  dans  les  interactions courantes : c’est notamment l’une des conclusions majeures de Campbell  (2005), qui souligne que  ses corpus d’expressions spontanées  recueillis  à très large         

4 Traduction personnelle de la citation originale : “The more you are allowed to observe emotions, the less  likely it is that they are indicated in a clear and simple way (vague reference problem).” 

5 Traduction personnelle de la citation originale : The more pure emotions you eventually could model, the  less likely it is that these are relevant for realistic applications (acceptability problem).” 

échelle, bien que riches en expressions variées d’affects, comportent remarquablement  peu d’expressions claires des émotions couramment désignées sous le terme de Big Six. 

La rareté de telles expressions dans l’interaction ne remet toutefois pas en question leur  pertinence, et nous pouvons même affirmer que c’est précisément de cette rareté que  découle la valeur informative de ces expressions. De plus, si l’intérêt d’une modélisation  acoustique d’expressions prosodiques des seules Big Six peut être mis en cause pour des  buts applicatifs tels qu’un système de synthèse restreint à un domaine dans lequel le  sujet virtuel parlant n’est pas supposé exprimer de telles émotions (comme ce peut être  le cas par exemple de la vente en ligne), d’autres applications qui bénéficieraient de cette  modélisation peuvent aisément être imaginées sans apparaître comme irrémédiablement  inutiles  ou  irréalistes.  Ainsi  un  système  de  reconnaissance  des  émotions  destiné  à  déclencher  des  alertes,  tel  que  celui  élaboré  par  Clavel  (2007)  pour  la  détection  d’expressions intenses de peur, pourrait directement tirer parti d’une telle modélisation. 

Campbell  (2005)  revient  lui  aussi  sur  le  paradoxe  de  l’observateur  de  Labov  en  considérant que si la simple présence d’un dispositif d’enregistrement modifie la façon  de parler des locuteurs, ce paradoxe peut néanmoins être dépassé. Campbell estime ainsi  qu’il  est  possible  d’imaginer  des  protocoles  pour  recueillir  des  corpus  de  parole  émotionnelle spontanée telle qu’elle peut être observée dans la vie de tous les jours, et  l’illustre en mettant en œuvre à grande échelle de tels protocoles. 

Une large collecte de parole expressive spontanée a ainsi été orchestrée dans le cadre du  projet Expressive Speech Processing (ESP). Parmi les deux corpus de parole expressive  spontanée recueillis (Campbell, 2003, 2004), le plus court consiste en des conversations  téléphoniques (mais enregistrées simultanément en haute qualité) hebdomadaires sur  une période de trois mois entre des locuteurs japonais et des proches, des inconnus de  langue japonaise et des locuteurs chinois et anglais. Le second corpus du projet ESP  consiste en l’enregistrement sur une période de plusieurs années des conversations à la  fois d’ordre privé et professionnel de 12 locuteurs japonais (10 femmes et 2 hommes). 

Ces  enregistrements  ont  été  réalisés  à  l’aide  d’un  dispositif  miniaturisé  porté  en  permanence  par  les  locuteurs  et  permettant  d’obtenir  une  haute  qualité  d’enregistrement. 

Les travaux de Scherer et al. (1984) peuvent également être mentionnés pour leurs études  où ils se sont attachés à collecter des échantillons de parole émotionnelle en milieu  écologique tout en assurant un certain contrôle de la qualité d’enregistrement. Ils ont  enregistré dans un studio d’enregistrement aménagé en bureau les interactions verbales  d’employés de  l’assistance  sociale en entretien  avec des  acteurs  non‐professionnels. 

Scherer et Ceschi (2000) ont également filmé à leur insu 110 passagers déposant une  réclamation à l’aéroport quant à la perte de leur bagage. 

Bien que n’étant pas systématiquement dédiés à l’étude des expressions émotionnelles,  des corpus audiovisuels d’interaction en contexte de réunions professionnelles ont été  recueillis.  Pour  cela,  des  salles  de  réunions  spécialement  équipées  pour  permettre  l’enregistrement synchrone des productions vocales, des expressions faciales et de la  gestualité de l’ensemble des participants, ont été utilisées, notamment par Campbell et al. 

(2006) et par Carletta (2006) avec le corpus AMI.