• Aucun résultat trouvé

1.3 Stratégie d'acquisition de nos corpus

1.3.2 Les autres corpus utilisés pour nos études

JEMO : corpus de test et de démonstration Ce corpus [Brendel et al. 10] a été enregistré en laboratoire pour obtenir des émotions réalistes en contexte de jeu dans le cadre du projet ANR Aective Avatar. Le jeu consistait à faire reconnaître à la machine une émotion (colère, joie, tristesse, peur ou un état neutre) sans qu'aucun contexte ne soit indiqué. Les émotions collectées sont alors prototypiques. Le support lexical est totalement libre. Il a été enregistré en décembre 2010 au LIMSI. Sa durée totale est de 29 min. 62 locuteurs ont participé à l'enregistrement (27H et 35F).

Autres corpus Comme nous avons dit en 1.2.1, la collection de données réalistes étant une tâche relativement dicile et très dépendante du contexte et du scénario, les cor-pus peuvent être importants en durée mais pauvres en nombre de locuteurs. Ces corcor-pus atteignent rarement la cinquantaine de locuteurs. Il peut alors être intéressant d'utiliser

Figure 1.5  Dissposition du robot NAO et du matériel pour la collecte du corpus IDV-HR (haut) et participant en interaction avec le robot (bas)

Figure 1.6  Interaction entre deux enfants et NAO lors de la collecte du corpus NAO-HR2

d'autres corpus collectés par d'autres membres de la communauté. Cette opération peut avoir plusieurs objectifs : étudier la robustesse des modèles créés sur un corpus ROMEO en les testant sur un nouveau corpus ; étudier l'inuence de nouvelles caractéristiques (lo-cuteurs, environment, émotions) sur les descripteurs acoustiques ou les performances de la détection ; ou encore les agglomérer pour en faire des modèles robustes à des conditions assez diérentes.

Les autres corpus que nous utiliserons sont :

 CEMO [Devillers et al. 05b, Devillers and Vidrascu 06], corpus call-center enregis-tré dans un centre d'appel d'urgence en français (colère, peur, urgence, soulagement, neutre),

 CINEMO [Rollet et al. 09], corpus semi-acté enregistré à partir de séquences de lms en français (colère, joie, peur, tristesse, neutre),

 AIBO [Steidl et al. 09], corpus de voix d'enfant jouant avec le robot Aibo de Sony en allemand (colère, empathie, neutre),

 SPC [Mohammadi et al. 10], challenge personnalité Interspeech 2012 (personnalité OCEAN),

 Comparse (en cours de traitement, voir section 2.2.4.6), corpus de stress dans la voix lors d'une prise de parole en public (projet ANR Comparse), avec diérents types de stress (voir section 2.2.4.6).

1.4 Conclusion

Dénir une émotion est une tâche extrêmement complexe et pluridisciplinaire. Plu-sieurs théories émotionnelles ont vu le jour, les plus connues étant la dénition des émo-tions suivant des catégories, ou plutôt suivant des dimensions. Aujourd'hui, la plupart des applications utilisent un mélange de ces deux théories. La théorie de l'évaluation dé-veloppée par Scherer dénit le phénomène émotionnel comme une succession temporelle d'événements distincts. L'avantage de cette théorie est de prendre en compte un certain nombre de paramètres notamment la temporalité. Une théorie assez récente, le modèle de lentille, adaptée et développée par Bänziger permet de mettre en relation le locuteur avec le percepteur lors de la dénition d'une émotion. Cette théorie nous semble très in-téressante puisqu'elle met place le phénomène émotionnel au coeur de la communication

plus spéciques et donc dépendantes d'un scénario. Nous avons également présenté des corpus de locuteurs, avec des enregistrements spéciques pour l'âge ou le genre, et des corpus de personalité.

Nous avons collecté quatre corpus émotionnels réalistes dans le cadre du projet RO-MEO. Ces corpus s'inscrivent dans la continuité de la tendance actuelle sur les bases de données émotionnelles. Cependant, ils ont l'avantage de s'appuyer tous sur des scénarios en interaction dans des conditions acoustiques diérentes avec des locuteurs de diérents types. Un cinquième corpus d'émotions prototypiques a été ajouté dans le contexte de RO-MEO an de pouvoir comparer des données réalistes avec des données plus stéréotypées. L'ensemble de cinq corpus forme un tout original et intéressant pour l'étude acoustique des émotions dans un contexte d'interaction humain-machine (voir le récapitulatif en An-nexe A, A.1). Un des atouts de notre travail est d'avoir participé aux enregistrements, ce qui permet d'avoir une connaissance complète du contenu émotionnel, linguistique et paralinguistique des corpus utilisés par la suite.

La plupart de ces corpus (ROMEO et Comparse) seront également étudiés suivant un nouvel angle de recherche dans la thèse à venir d'Agnès Delaborde.

Chapitre 2

Annotation des émotions,

contenu des corpus

Nous avons vu dans le chapitre précédent diérentes théories émotionnelles. Nous avons vu que cette dénition dépendait très fortement du contexte. Revenons à notre l directeur musical, soit la réalisation d'une oeuvre musicale : comment la décrire le plus ob-jectivement possible ? La première étape consiste à dénir un certain nombre d'étiquettes possibles dans le contexte de cette réalisation (virtuosité, timbre, interprétation, etc..). La seconde étape serait de demander à un grand nombre de juges de décrire l'extrait musical avec les étiquettes disponibles et chacun suivant sa propre perception. On peut penser que plus le nombre de juges est grand, plus la subjectivité de chacun disparaît au prot d'une moyenne.

Nous allons procéder de même pour annoter les données émotionelles brutes. Le choix des étiquettes est orienté à la fois par les théories émotionnelles et par les utilisations technologiques qui seront faites de ces annotations. Cette étape d'annotation est primor-diale dans l'analyse des émotions, puisque c'est elle qui dénit l'ensemble des résultats futurs. Les contextes socioculturel et psychologique du récepteur (l'auditeur ou l'anno-tateur) entraînent une sensibilité diérente dans la perception des émotions. La tâche d'annotation des émotions est également rendue dicile par la complexité du message oral communiqué par l'émetteur (le locuteur). Selon Scherer [Scherer et al. 80], la parole émotionnelle est conditionnée par deux eets pouvant donner lieu à des manifestations contradictoires : une excitation physiologique accrue pousse les vocalisations dans une certaine direction (eet push), alors que les tentatives conscientes de contrôle les tirent dans une autre direction et consistent en l'adoption de styles de langage culturellement acceptés (eets pull). Les diérentes théories de la communication [Chung 00] ainsi que le modèle de lentille détaillé au chapitre 1, témoignent également de cette complexité à l'émission et la réception.

Un schéma d'annotation a été déni dans le cadre d'HUMAINE : Multi-level Emotion and Context Annotation Scheme (MECAS) [Devillers et al. 05b], [Devillers and Vidrascu 06], [Vidrascu and Devillers 05]. Il permet de représenter des émotions réalistes et complexes dans l'audio et la vidéo suivant une hiérarchie des annotations en fonction de la précision des informations et sera détaillé en section 2.1.4.2.

Les travaux menés sur l'annotation et le choix des descripteurs émotionnels ont été ma-joritairement réalisés sur le signal audio, mais beaucoup d'entre eux proposent également d'annoter les informations linguistiques [Craggs and Woods 04, Devillers and Vidrascu 06], gestuelles [Kessous et al. 10], faciales [Audibert et al. 08, Devillers et al. 06, Caridakis et al. 10], physiologiques, séparemment ou simultanément. Nous traiterons en détail uniquement les travaux qui ont pour principal support le canal audio.