• Aucun résultat trouvé

CHAPITRE 2 THÉORIES DES ÉMOTIONS

2.4 Corpus de parole émotionnelle

2.4.1 Type de corpus des émotions

Nous distinguons essentiellement trois catégories de corpus émotionnel utilisées dans le domaine de la détection automatique des émotions : les émotions naturelles, simulées et induites.

2.4.1.1 Émotions naturelles

Les émotions naturelles sont des enregistrements d’états émotionnels vécus naturellement et spontanément. Ce corpus de données est caractérisé par une très haute validité écologique. L’inconvénient est que ces données sont très limitées en nombre de locuteurs, de courtes durées, souvent de piètre qualité, et en plus d’être très difficiles à collecter et à étiqueter en classes d’émotions (Scherer 2000, Scherer 2003).

2.4.1.2 Émotions simulées

Les émotions simulées sont des émotions produites par des acteurs professionnels ou semi- professionnels en se basant sur le nom de la classe d’émotion et/ou de scénarios typiques. Cette méthode représente le moyen préféré pour constituer les données dans ce domaine étant donné que les émotions naturelles et intenses surviennent de façon imprévisible et loin de l'observation du public (Bänziger et al. 2010a). Cependant, certains griefs sont adressés à cette méthode. Il est soupçonné, par exemple, que l’émotion simulée est stéréotypée et qu’elle soit caractérisée par une plus grande intensité que l’émotion naturelle. Les partisans des émotions simulées minimisent l’impact du caractère d’émotion stéréotypée en arguant que même les émotions naturelles fortes sont aussi fortement sujettes à un contrôle social ou à une autorégulation. Par ailleurs, afin de remédier au problème d’exagération en intensité dans l’expression des émotions simulées, Bänziger et Scherer ont proposé un nouveau

scénario de simulation d’émotions et qui a été appliqué pour la collection du corpus GEMEP (Bänziger et al. 2010a). Dans ce scénario, il a été consigné aux acteurs de simuler certaines émotions avec des intensités supérieures et inférieures à ce qui correspond à l'intensité habituelle pour une émotion donnée. L'hypothèse sous-jacente est que les interprétations (portrayals) produites avec moins d'intensité sont susceptibles de reproduire plus fidèlement les émotions vécues dans nos interactions quotidiennes. Les acteurs ont été également instruits de masquer partiellement quelques émotions afin de reproduire le phénomène d’autorégulation constaté dans certaines émotions réelles i.e. en simulant une tentative ratée de déception. Enfin, Scherer (Scherer et al. 2010c) souligne que le but de l'utilisation des interprétations d’acteurs n'est pas d'étudier les émotions qui se produisent spontanément ou de détecter les émotions ressenties par les acteurs mais plutôt l'identification et la représentation prototypique des émotions dans la communication sociale (code partagé d'expression des émotions).

2.4.1.3 Émotions induites

Les émotions induites ont été utilisées au départ dans le domaine de la psychologie afin de déterminer si la stimulation des états émotionnels du locuteur produit les changements acoustiques correspondants. Les émotions de cette catégorie sont induites expérimentalement dans des laboratoires en utilisant des techniques d’induction. Un nombre impressionnant de techniques d’induction ont été créées par les psychologues et parmi celles-ci on peut citer, les techniques de visualisation d’images ou de films émouvants, l’écoute de la musique, l’imagination et la remémoration, ou l’exposition des sujets à des tâches difficiles à accomplir sous la contrainte de délai.

Scherer (Scherer et al. 2010c), dresse les limitations et obstacles rencontrés avec cette méthode. Ainsi, certaines de ces techniques produisent des effets relativement fiables et l’intensité des états obtenus est généralement basse, avec des expressions peu observables de l’extérieure. Les contraintes d’ordre éthique, coût et pratique (un laboratoire ne permet pas d’action adaptative) empêchent souvent les chercheurs de confronter les participants avec des stimuli d’une importance assez élevée susceptibles de produire de véritables émotions. Par

ailleurs, les artefacts observés dans un contexte d’émotion naturelle ne sont pas à exclure également. Sous l’influence des règles d’apparence sociales ou personnelles, les participants peuvent inhiber ou modifier les expressions naturelles survenues qu’ils considèrent inappropriées ou encore simuler les émotions souhaitées par l’expérimentateur même si celles-ci ne sont en réalité pas ressenties (Scherer et al. 2010c).

Cowie et son équipe se sont intéressé à développer et à améliorer les techniques d’induction afin de fournir des modèles pour la génération des données selon les besoins théoriques et pratiques. Le paradigme nommé « données spaghetti » développé par cette équipe, a permis de produire des enregistrements d’émotions fortes et spontanées de diverses types. Toutes les émotions ont été induites en présence d’un observateur. L’analyse des variables sociales montre que le niveau d'émotion affiché dépend à la fois du genre de l'observateur et de l'intelligence émotionnelle du participant. Cowie et son équipe (2010b) se sont également intéressés à améliorer les méthodes d’induction dans un contexte d’interactions sociales en développant le paradigme SAL (Sensitive Artificial Listener). SAL est un agent artificiel doté de compétence affective et qui peut fonctionner en mode entièrement automatique contrairement au paradigme du magicien d’Oz (Wizard-of-OZ, WOZ). L’introduction du WOZ avait déjà permis d’induire des interactions émotionnelles très riches en comparaison avec une interaction avec un opérateur humain (les utilisateurs interagissent d’une manière plus relâchée face à une machine). Cependant, certains éléments conversationnels clés dans WOZ, contrairement à SAL, étaient limités car l’opérateur humain qui contrôle l’agent automatique à distance à l’insu de l’utilisateur passe énormément de temps à regarder le script et non l’utilisateur. Des paradigmes tel que SAL sont prometteurs dans le sens où ils permettent d’ouvrir de nouvelles perspectives de contrôle qui sont très difficiles à atteindre dans un cadre d’interaction humain-humain. Notons par ailleurs que les travaux préliminaires réalisés par Cowie et son équipe sur les enregistrements issues de l’interaction avec des agents soulèvent de nouveaux enjeux qui leurs sont propres tels que les signes de confusion ou désengagement, susceptibles d'être une caractéristique importante de l'interaction humain- machine.