• Aucun résultat trouvé

1.3 Stratégie d'acquisition de nos corpus

2.2.4 Contenu des corpus utilisés, données caractéristiques

2.2.4.6 Corpus COMPARSE

Dans le cadre du projet ANR Comparse, nous avons collecté un corpus de locuteurs exprimant du stress dans la voix lors d'une tâche de prise de parole en public. Dans une première phase de calibration du protocole 10 participants entraînés ont été enregistrés. Dans une seconde phase, 19 participants naïfs ont accepté de participer à l'expérience.

Lorsque le participant arrive dans la salle d'expérience, il est équipé d'un cardiomètre, d'un appareil mesurant la température cutanée, la sudation, le pouls, d'un micro-cravate. Deux caméras le lment en plan rapproché sur le visage et en plan large. Le participant est également placé au centre d'une plate-forme de force, permettant de mesurer les micro-déplacements de son centre de gravité. Deux personnes sont en face de lui. D'autres expérimentateurs sont dans la salle. Une fois qu'il est équipé, il doit lire un texte à haute voix puis la consigne lui est donnée. La tâche consiste à se présenter pour un entretien

référence commune à tous les participants. Elle peut également servir de référence pour une éventuelle normalisation. Sur chacune de ces phases, une annotation du stress est en cours.

2.3 Conclusion

L'annotation d'une base de donnée audio est souvent fondée sur une appréciation per-ceptive. Plusieurs annotateurs (entre 2 et une dizaine) dénissent un certain nombre de critères sur des unités temporelles choisies. La dénition de ces critères est orientée par les diérentes théories émotionnelles. Le choix des unités temporelles est une question complexe, elle dépend à la fois des applications souhaitées, du type d'émotions collectées, de la théorie choisie (dimensionnelle ou catégorielle) et du contenu de l'interaction. La dénition de l'unité temporelle d'annotation n'est pas toujours étudiée avec précision, elle est pourtant d'une importance capitale si l'on souhaite que les applications en décou-lant soient satisfaisantes. Nous présentons un certain nombre des annotations existantes dans l'état de l'art : annotation du contexte, d'informations sur le locuteur, annotations linguistiques et paralinguistiques. Les annotations paralinguistiques sont celles qui nous intéressent le plus : émotions, personalité, interaction, signal social, etc... mais également informations paravarbales (bruit de bouche, respiration, type de voix, aect bursts).

Les bases de données collectées dans le contexte du projet Romeo ont été annotées perceptivement par deux annotateurs experts. Les indices émotionnels utilisés sont prin-cipalement des catégories d'émotions (émotions nes et macro-classes) mais également des dimensions (notamment valence et activation). L'annotation perceptive peut être ap-préciée grâce à une valeur de mesure d'agréement (ou kappa). Cet agréement peut être amélioré par une dénition précise du segment émotionnel et par une dénition des in-dices à utiliser également. Cette seconde dénition passe par une phase d'entraînement des annotateurs.

La collecte et l'annotation des diérents corpus maison nous ont permis d'étudier les diérentes variabilités présentes lors d'une interaction homme-robot d'un point de vue acoustique (chapitre 3, paragraphe ??). Ils ont également permis de mettre en place des mesures de comparaison entre diérents corpus (chapitre 3, paragraphe ??), comme la mesure de spontanéité. Mais également de pouvoir réaliser des expériences cross-corpus fortes an d'étudier la généralisation des modèles issus de l'apprentissage (chapitre 5, paragraphe 6.2.2.2) et de construire une liste noire de descripteurs qui ne sont pas robustes à certaines variabilités (chapitre 3, paragraphe 4.4).

a)

b)

Figure 2.5  Collecte de données de stress dans la voix, tâche de prise de parole en public (projet ANR Comparse) a) lecture, b) entretien avec les juges

La recherche de descripteurs acoustiques pertinents pour la reconnaissance des émo-tions dans la voix peut être une tâche d'analyse perceptive. En eet, une écoute experte des segments émotionnels permet de dénir des paramètres intéressants pour caractériser les émotions et les voix qui les expriment. Etant moi-même musicienne, j'ai déjà développé une oreille sensible pour l'écoute de la musique (dans les domaines de l'interprétation mu-sicale et de l'analyse mumu-sicale notamment). Cette écoute permet de mettre en relation des perceptions avec des éléments descriptifs comme le timbre, le rythme, la mélodie ou même la structure globale. Une telle capacité d'écoute est très intéressante pour rechercher des descripteurs dans l'audio quels qu'ils soient, en particulier dans la voix émotionnelle.

Cette partie sur l'analyse acoustique de la voix émotionnelle en contexte écologique porte essentiellement sur la description des indices acoustiques (en particulier le rythme et le timbre de la voix) et la proposition de nouveaux indices permettant de caractériser certains aspects émotionnels. Nous aborderons également l'inuence des émotions, des locuteurs, de l'environnement et de la tâche sur certains descripteurs choisis. La mise en évidence de ces variabilités au niveau acoustique peut se faire à l'aide de classements des indices pour un corpus donné. Il sera assez aisé de faire la distinction entre les émotions et les locuteurs, par contre il est bien plus compliqué de montrer la diérence acoustique au niveau de la tâche ou de l'environnement acoustique.

Nous abordons également l'intérêt de plusieurs nouveaux indices que nous proposons (indices de rythme et de timbre). Nous testons la robustesse d'un ensemble d'indices acoustiques sélectionnés pour la reconnaissance des émotions sur les diérents corpus à notre disposition. Et enn nous avons cherché à dénir une liste noire d'indices qui ne sont absolument pas robustes à diérents types de locuteurs, d'émotions, d'environnement ou de tâche.

Après un état de l'art sur l'ensemble des descripteurs acoustiques utilisés pour le traitement de la parole et particulièrement de la parole émotionnelle (chapitre 3), nous présentons plusieurs contributions importantes dans le chapitre 4 : l'ajout de descripteurs issus de domaines diérents (transformation de voix, synthèse de voix ou analyse de si-gnaux musicaux), puis l'apport de nouveaux descripteurs de rythme et de timbre. Ensuite l'utilisation de diérentes méthodes pour sélectionner les descripteurs les moins robustes aux diérentes variabilités liées à l'interaction.

émotionnelle

Les descripteurs acoustiques sont un des éléments fondamentaux pour le traitement informatique de données audio. Ils sont utilisés dans plusieurs domaines du traitement du signal et majoritairement pour les signaux musicaux ou signaux de parole. Ils sont utiles à la fois pour la description des signaux (reconnaissance automatique, perception, etc.), pour la transformation de signal (par exemple la transformation de voix) ou pour leur synthèse (instruments, voix de synthèse). Ce chapitre regroupe un grand nombre de descripteurs utilisés par l'ensemble des chercheurs en traitement du signal, qui sont dénis sur plusieurs niveaux temporels. Il n'a pas vocation cependant à être exhaustif, la quantité d'indices étant phénoménale.

3.1 Le signal de parole et ses modes de production

Dans cette première section, nous nous plaçons du point de vue de la parole et de sa production. Nous entrerons dans les détails des descripteurs acoustiques dans la section suivante.