5. Méthodologie de recueil de données
5.2. Capture de corpus d’expressions émotionnelles
5.2.2 Les émotions in vivo
Les travaux expérimentaux qui s’appuient sur des corpus collectés en milieu écologique sont assez peu nombreux. En effet, comme le souligne Campbell (2000), ce type de protocole présente des limites conséquentes. Dʹune part, il est difficile de recueillir dans ces conditions des échantillons de qualité suffisante pour une analyse acoustique fine.
Dʹautre part, un tel protocole ne permet pas de contraindre l’accès lexical du locuteur. Il est alors moins évident d’effectuer des comparaisons entre locuteurs et entre émotions.
Quelques études se sont néanmoins appuyées sur des expressions émotionnelles spontanées recueillies à l’occasion d’événements comme des catastrophes. Williams &
Stevens (1972) ont ainsi utilisé l’enregistrement radiophonique du commentaire en direct d’un accident de dirigeable, et ont comparé la version originale de cet enregistrement à celle produite par un acteur. Protopapas & Lieberman (1997) ont pour leur part utilisé l’enregistrement d’un pilote d’hélicoptère sur le point de s’écraser afin d’étudier l’influence du stress sur la fréquence fondamentale.
En dépit de la perte de qualité induite par ce média, plusieurs études se sont appuyées sur des extraits de parole expressive issus de conversations téléphoniques pour des applications de reconnaissance automatique des émotions. Une part importante des enregistrements étudiés étaient notamment constitués d’appels d’usagers vers des centres d’aide et de support. Ainsi Ang et al. (2002) ont utilisé des expressions d’ennui et de frustration obtenues à partir d’interactions d’usagers appelant un système de planification de voyages. Vidrascu & Devillers (2005) ont quant à elles travaillé sur un corpus de 10 heures de parole représentant 404 conversations téléphoniques entre usagers et agents d’un centre d’appel spécialisé dans le conseil médical, dont une part importante a été étiquetée comme des expressions d’anxiété.
Des extraits de parole émotionnelle radiophonique ou télévisuelle ont également été utilisés. Trouvain & Barry (2000) ont ainsi analysé des enregistrements radiophoniques de commentaires de courses de chevaux. Douglas‐Cowie et al. (2000) ont enregistré des conversations informelles et également extrait des séquences télévisuelles au cours desquelles des membres du public interagissent de façon spontanée.
Chung (2000) a pour sa part utilisé des enregistrements d’entretiens télévisés au cours desquels des locutrices coréennes ainsi qu’une locutrice anglaise, s’exprimant initialement sur un ton enjoué, étaient ensuite invitées à parler de leurs problèmes personnels et exprimaient de la tristesse. En raison du caractère inattendu pour les locutrices des questions posées par le présentateur, l’auteur a considéré les émotions exprimées comme authentiques. Des entrevues radiophoniques et télévisuelles similaires ont été également été recueillies par Greasley et al. (1995).
Une réserve peut toutefois être émise quant à l’authenticité de la parole expressive recueillie dans un type de contexte médiatisé. En effet, qu’il y ait eu ou non une répétition préalable, il est peu vraisemblable que le discours d’un locuteur placé dans ces conditions soit dénué d’intentions pragmatiques. Ce problème peut s’accentuer encore selon le thème du discours qu’il doit produire. Se préparer à parler de ses problèmes personnels, revient indirectement à se préparer à transmettre des émotions négatives (tristesse, colère, etc.). Dans de telles conditions, la question d’une tendance du locuteur à devenir acteur amateur peut se poser.
D’une manière plus générale, l’influence de l’observateur sur la situation observée a été mise en avant en sociolinguistique, sous le nom de « paradoxe de l’observateur » par Labov (1970). Lors des campagnes d’enregistrement qu’il a effectuées, il a remarqué que les locuteurs étudiés, se sachant observés, adoptaient une façon de parler plus formelle.
Labov a en conséquence énoncé le paradoxe de l’observateur comme la contradiction entre le fait que l’objet d’étude de la linguistique devrait être la façon dont les gens parlent lorsqu’ils ne se savent pas systématiquement observés, alors même que la seule façon d’obtenir ces données soit l’observation systématique.
Batliner et al. (2003a, p. 10) proposent une relecture de ce paradoxe de l’observateur adaptée à l’étude des expressions émotionnelles, aux conclusions plutôt pessimistes pour ce champ de recherche. Les auteurs mettent ainsi en avant trois « paradoxes émotionnels » :
« Plus vous pouvez observer d’émotions, moins il est probable que vous ayez le droit de le faire (problème des données clairsemées) »3. Le problème de la spontanéité qui se pose en sociolinguistique se superpose dans l’étude des émotions à un problème éthique d’intrusion de l’observateur dans l’intimité des sujets. Les auteurs
3 Traduction personnelle de la citation originale : “The more emotions you could observe, the less likely it is that you are allowed to do so (sparse data problem).”. Les auteurs n’explicitent pas le choix, surprenant puisque le problème ici se situe plus au niveau de l’accès aux données que de leur densité, de désigner
considèrent néanmoins que, bien que cela revienne à renoncer à recueillir des corpus d’expressions émotionnelles spontanées de grande taille, ce problème peut être contourné en se concentrant sur des situations particulières susceptibles de favoriser l’apparition d’émotions et leur expression sans violer l’intimité des locuteurs.
« Plus vous êtes autorisé à observer des émotions, moins il est probable qu’elles soient exprimées de façon claire et simple. (problème de la référence vague) »4. Les émotions induites dans ces situations particulières seraient, selon eux, peu susceptibles d’être exprimées de façon aussi manifeste qu’elles le seraient dans la sphère privée. Les auteurs arrivent alors à différentes conclusions. Dʹune part, il est nécessaire de prendre en compte la complexité des expressions émotionnelles recueillies dans ces conditions, plutôt que de tenter de contourner ce problème.
Dʹautre part, le degré d’accord inter‐annotateurs quant aux émotions exprimées dans les données recueillies ne peut en conséquence demeurer l’unique critère d’évaluation de ces expressions.
« Plus vous aurez pu modéliser d’émotions pures, moins il est probable que celles‐ci soient pertinentes dans le cadre d’applications réalistes. (problème de l’acceptabilité) »5. Au‐delà de la difficulté pour collecter des expressions spontanées de telles émotions et les modéliser, les auteurs considèrent qu’il n’existe pas de projet convainquant d’application pour laquelle une telle modélisation serait utile car correspondant à un besoin ou un désir exprimé par des utilisateurs.
Ces positions méritent toutefois d’être nuancées. Nous pouvons effectivement considérer comme peu probable le fait de collecter des expressions intenses de joie, de tristesse ou encore de colère sans s’immiscer dans l’intimité du sujet, avec les problèmes d’ordre éthique que cela implique. Il est cependant peu vraisemblable qu’une quantité importante d’expressions de ce que Batliner et al. (2003a) nomment « émotions pures » et qui sont à rapprocher des Big Six puisse être recueillie en observant les interactions de la vie de tous les jours, indépendamment du débat quant à la pertinence de telles émotions
« de base » (voir notamment Sander (2008) pour une brève mais très informative discussion sur cette thématique). Ce type d’expression est en effet rare dans les interactions courantes : c’est notamment l’une des conclusions majeures de Campbell (2005), qui souligne que ses corpus d’expressions spontanées recueillis à très large
4 Traduction personnelle de la citation originale : “The more you are allowed to observe emotions, the less likely it is that they are indicated in a clear and simple way (vague reference problem).”
5 Traduction personnelle de la citation originale : “The more pure emotions you eventually could model, the less likely it is that these are relevant for realistic applications (acceptability problem).”
échelle, bien que riches en expressions variées d’affects, comportent remarquablement peu d’expressions claires des émotions couramment désignées sous le terme de Big Six.
La rareté de telles expressions dans l’interaction ne remet toutefois pas en question leur pertinence, et nous pouvons même affirmer que c’est précisément de cette rareté que découle la valeur informative de ces expressions. De plus, si l’intérêt d’une modélisation acoustique d’expressions prosodiques des seules Big Six peut être mis en cause pour des buts applicatifs tels qu’un système de synthèse restreint à un domaine dans lequel le sujet virtuel parlant n’est pas supposé exprimer de telles émotions (comme ce peut être le cas par exemple de la vente en ligne), d’autres applications qui bénéficieraient de cette modélisation peuvent aisément être imaginées sans apparaître comme irrémédiablement inutiles ou irréalistes. Ainsi un système de reconnaissance des émotions destiné à déclencher des alertes, tel que celui élaboré par Clavel (2007) pour la détection d’expressions intenses de peur, pourrait directement tirer parti d’une telle modélisation.
Campbell (2005) revient lui aussi sur le paradoxe de l’observateur de Labov en considérant que si la simple présence d’un dispositif d’enregistrement modifie la façon de parler des locuteurs, ce paradoxe peut néanmoins être dépassé. Campbell estime ainsi qu’il est possible d’imaginer des protocoles pour recueillir des corpus de parole émotionnelle spontanée telle qu’elle peut être observée dans la vie de tous les jours, et l’illustre en mettant en œuvre à grande échelle de tels protocoles.
Une large collecte de parole expressive spontanée a ainsi été orchestrée dans le cadre du projet Expressive Speech Processing (ESP). Parmi les deux corpus de parole expressive spontanée recueillis (Campbell, 2003, 2004), le plus court consiste en des conversations téléphoniques (mais enregistrées simultanément en haute qualité) hebdomadaires sur une période de trois mois entre des locuteurs japonais et des proches, des inconnus de langue japonaise et des locuteurs chinois et anglais. Le second corpus du projet ESP consiste en l’enregistrement sur une période de plusieurs années des conversations à la fois d’ordre privé et professionnel de 12 locuteurs japonais (10 femmes et 2 hommes).
Ces enregistrements ont été réalisés à l’aide d’un dispositif miniaturisé porté en permanence par les locuteurs et permettant d’obtenir une haute qualité d’enregistrement.
Les travaux de Scherer et al. (1984) peuvent également être mentionnés pour leurs études où ils se sont attachés à collecter des échantillons de parole émotionnelle en milieu écologique tout en assurant un certain contrôle de la qualité d’enregistrement. Ils ont enregistré dans un studio d’enregistrement aménagé en bureau les interactions verbales d’employés de l’assistance sociale en entretien avec des acteurs non‐professionnels.
Scherer et Ceschi (2000) ont également filmé à leur insu 110 passagers déposant une réclamation à l’aéroport quant à la perte de leur bagage.
Bien que n’étant pas systématiquement dédiés à l’étude des expressions émotionnelles, des corpus audiovisuels d’interaction en contexte de réunions professionnelles ont été recueillis. Pour cela, des salles de réunions spécialement équipées pour permettre l’enregistrement synchrone des productions vocales, des expressions faciales et de la gestualité de l’ensemble des participants, ont été utilisées, notamment par Campbell et al.
(2006) et par Carletta (2006) avec le corpus AMI.