Traduction de l’information émotionnelle en langage automate

La reconnaissance automatique des émotions nécessite de choisir un modèle de représentation des émotions. Ce modèle doit prend en compte deux éléments ma-jeurs [Schuller 18a] :

— la représentation de l’émotion en tant que telle, — la temporalité de cette émotion.

Le choix du modèle de représentation des émotions est important puisqu’il impacte la recherche et le développement technologique sur l’interface machine. Dans l’in-dustrie, pour des raisons pragmatiques, on réduit au maximum la complexité de l’information concernant la nature émotionnelle d’un signal audio. On ne cherche pas en effet à modéliser parfaitement l’émotion dans la voix mais avant tout à obtenir une prédiction performante et robuste de l’état émotionnel du locuteur. Deux modèles sont actuellement utilisés dans la communauté de la reconnaissance automatique des émotions :

1. modèle à classes discrètes : émotion catégorielle, 2. modèle à valeur continue : émotion dimensionnelle. Nous allons voir ce qui les différencie.

2.3.1 Approche catégorielle

L’approche catégorielle est basée sur un ensemble de catégories d’émotions hu-maines différentes. Les différences entre ces émotions et leurs caractéristiques sont explicitées dans des modèles émotionnels. Leur élaboration permet à la commu-nauté scientifique de les différencier les unes par rapport aux autres et de les organiser schématiquement.

Un siècle après Darwin, nombre de chercheurs ont proposé des modèles de repré-sentation des émotions. Tous ont notamment trouvé une liste d’émotions primaires ou basiques ou discrètes, qui seraient innées et les plus importantes pour la survie de l’espèce (cf Table 2.1). Ce nombre d’émotions varie selon les auteurs (de 4 à 11). De plus, il existe les émotions secondaires ou complexes issues de combinaisons des émotions primaires et seraient plus dépendantes de la culture [Nugier 09].

La théorie des émotions d’Ekman en 1982 est basée sur les expressions des muscles du visage.

2.3 Traduction de l’information émotionnelle en langage automate

Table 2.1 – Les principales catégories d’émotions primaires classées dans l’ordre alphabétique selon les modèles de représentation des émotions. Ver-sion adaptée et augmentée de [Tato 99, Tahon 12].

Chercheurs Année Émotions primaires Nombre

Darwin 1872 colère, dégoût, joie, peur, tristesse 5

James 1884 amour, chagrin, douleur, peur,

rage

Arnold 1960 amour, aversion, colère, courage, découragement, désespoir, désir,

espoir, haine, peur, tristesse

Tomkins 1962 anxiété, colère, dégoût, honte,

intérêt, joie, mépris, surprise

Izard 1971 colère, culpabilité, dégoût,

détresse, intérêt, joie, honte, mépris, peur, surprise

Plutchik 1980 apathie, colère, confiance, dégoût, joie, peur, surprise, tristesse

Ekman 1982 colère, dégoût, joie, peur, tristesse, surprise

Fridja 1986 désir, intérêt, bonheur, surprise 4

Oatley 1989 bonheur, colère, dégoût,

inquiétude, tristesse ⁵

Une caractéristique importante des modèles d’émotions de base est qu’à chaque émotion (par exemple, « joie », « colère », « tristesse ») est associée un mécanisme unique qui crée un état mental unique avec des résultats uniques et mesurables. En outre, les états mentaux et les résultats mesurables (associés à chaque émotion) se manifestent de manière constante chez tous les individus pour cette émotion et uniquement pour cette émotion [Harris 15].

Un exemple de modèle des émotions humaines très connu est la roue des émotions de Robert Plutchik présentée en deux et trois dimensions (cf Figure 2.1.1). Il est composé de 8 émotions de base, opposées deux à deux, et de multiple nuances. Ce circomplexe définit les émotions en thèmes : colère, joie, dégoût, tristesse, surprise, peur, anticipation, confiance.

Figure 2.3.1 – Schéma du modèle en deux et trois dimensions de La roue des émotions de Robert Plutchik (1980). Traduit par scriptol.fr [Août 2019].

2.3.2 Approche dimensionnelle

L’approche catégorielle est donc constituée de classes discrètes avec un nombre de catégories d’émotions qui varie selon les travaux de recherche pris pour référence dans le domaine. Par opposition, selon l’approche dimensionnelle, l’affect peut être décrit en recourant à des dimensions élémentaires indépendantes, qui seraient des propriétés phénoménologiques basiques de l’expérience affective, dimensions qu’il

2.3 Traduction de l’information émotionnelle en langage automate est possible de combiner [Russell 99, Coppin 10]. Selon la théorie de Wundt (1897), l’expérience émotionnelle peut être associée à trois dimensions de base pour décrire le sentiment subjectif de l’émotion :

— caractère plaisant / déplaisant,

— caractère relatif à la tension / relaxation éprouvée, — et caractère excitant / déprimant.

Le sentiment subjectif pourrait ainsi être représenté en permanence par un niveau plus ou moins important sur chacune de ces trois dimensions.

Selon le modèle de Russell (1980), il est possible de représenter les émotions autour d’un cercle dont deux axes uniquement seraient nécessaires [Russell 80, Coppin 10] :

1. Les dimensions de valence et positivité (plaisir / déplaisir) sont connues pour être accessibles par les caractéristiques paralinguistiques.

2. Les dimensions d’éveil et d’activation (faible / forte) sont connues pour être accessibles par les caractéristiques acoustiques.

Ces deux axes représentent l’affect en tant qu’expérience subjective sur un conti-nuum. Ce modèle circulaire est dénommé « circumplex ». La géométrie du cercle symbolise la structure mentale des stimuli. Cette approche est très appréciée au-jourd’hui en reconnaissance automatique des émotions car elle permet de rendre compte plus subtilement que l’approche catégorielle des variations et gradiations présentes dans l’expressivité émotionnelle réelle.

On peut passer de l’approche catégorielle à l’approche dimensionnelle via des traductions assez grossières du type : la colère correspond à valence négative et activation haute.

La Figure montre le schéma le plus utilisé fondé sur deux dimensions percep-tives : la valence et l’activation.

2.3.3 Ce que nous retenons

Les théories catégorielles et dimensionnelles permettent de définir les émotions suivant des étiquettes utilisables en perception. Dans le cadre de cette thèse, nous utilisons en priorité des bases de données pourvues d’étiquettes catégorielles. C’est à dire que leur annotation est considérée comme une variable discrète où on a découpé dans le fichier audio sonore initial des séquences audios et où à chaque séquence audio on associe une classe d’émotion. Les émotions considérées pour les expérimentations présentées dans ce manuscrit sont :

1. Émotion neutre 2. Joie

3. Tristesse 4. Colère

Figure 2.3.2 – Représentation du modèle du circumplex de Russell, avec la di-mension horizontale de valence et la didi-mension verticale d’activa-tion [Russell 99].

Dans le document Apprentissage profond appliqué à la reconnaissance des émotions dans la voix (Page 61-66)