Les types de corpus - Les corpus émotionnels : base de données et collecte d’information

Chapitre 2 Les corpus émotionnels : base de données et collecte d’information

2.2 Les types de corpus

Lorsque nous nous intéressons aux corpus émotionnels, nous pouvons dégager trois grandes familles:

Les corpus actés : Ce type de corpus représente à l’heure actuelle la majorité des données sur lesquelles les études sont menées. Le cas le plus courant pour avoir des données émotionnelles est le recours à des acteurs qui vont jouer l’émotion demandée que ce soit hors ou en contexte. En 2003 (Juslin and Laukka 2003) montrent que sur 104 études réalisées, 84% d’entre elles étaient basées sur des données actées. Ce constat est également fait plus récemment dans (Batliner et al. 2011) où les auteurs calculent une large proportion de corpus actés dans les études de la communauté et plaident pour une utilisation plus importante de corpus de données naturelles. Dans des travaux réalisés sur les trois types de corpus actés, induits et spontanés, (Batliner et al. 2003) montrent par ailleurs que les modèles obtenus à partir de données actées ou induites ne sont pas utilisables pour des applications réelles ; les scores de détection correctes évoluant de façon inversement proportionnelle à la quantité de données naturelles présentes dans le corpus. D’autres études telles que (Scherer et al. 1991) arrivent également à la conclusion qu’il ne serait pas possible de généraliser des modèles obtenus à partir de données actées sur des données réelles.

- Les corpus avec induction d’émotions : Les données obtenues à partir d’émotions induites se situent à mi chemin entre des données artificielles et des données naturelles. Ce type d’enregistrement permet d’obtenir des comportements plus contrôlés de la part des sujets. Il est en effet proposé à ces derniers un contexte dans lequel se placer. Il est cependant possible d’obtenir, avec ce type de méthodes, des réactions émotionnelles dépendantes du contexte pouvant être relativement naturelles. Plusieurs techniques peuvent être employées dans ce cadre. Nous pouvons par exemple citer l’hypnose comme dans (Grossberg and Wilson 1968), la méthode dite de « rappel », l’utilisation de films, d’images ou de jeux permettant d’induire des émotions (Zara et al. 2007; Devillers and Martin 2008). Les méthodes utilisant l’induction offrent l’avantage de pouvoir recueillir des informations lors de tâches complexes et d’obtenir des données émotionnellement riches.

- Les corpus real-life : Les émotions dites « real-life » sont obtenues à partir d’enregistrements non contrôlés, collectés à partir de situations écologiques pouvant être extrêmement diverses. Même si la tendance actuelle est à l’utilisation, de plus en plus fréquente, de bases de données naturelles comme par exemple dans (Burkhardt et al. 2009; Polzehl et al. 2011), il faut noter que

31 ce type de corpus ne peut que très rarement être distribué et ce pour des raisons évidentes de vie privée. Les contextes dans lesquels sont recueillis ce type de données sont très variés (émission de TV, centre d’appels, interview de consommateurs).

2.2.1Disponibilité et réutilisabilité des corpus

Nous pouvons dater l’apparition des premiers corpus oraux au moment de la démocratisation du magnétophone, soit aux alentours des années 1950. Dans une étude qui retrace l’évolution des corpus depuis leur apparition Luzzati (Luzzati 2005) distingue différents types de corpus, chacun ayant sa spécificité en terme d’accessibilité pour les chercheurs d’une communauté donnée voir pour le grand public :

- Les données librement accessibles : Ce sont des données pouvant être utilisées, modifiées et exploitées librement.

- Les données pouvant être obtenues moyennant finance : En France l’organisme ELDA propose notamment la création de corpus (collecte et annotation) d’après un cahier des charge.

- Les données consultables : Ce sont des données généralement disponibles en ligne, permettant une lecture ou le lancement de requêtes de la part de l’utilisateur.

- Les données solicitables : Les données contenues dans ces corpus sont en généralement accessibles tout ou en partie sur demande au prêt de l’organisme propriétaire des données. - Les données propriétaires : qui sont la propriété d’un laboratoire ou organisme et qui ne sont

pas accessible par un tiers. Ces données sont souvent protégées par un accord de confidentialité ou de non divulgation

Les méthodes et les résultats employés pour la détection d’émotions varient considérablement selon les données sur lesquelles les travaux sont menés. Dès lors, la collecte d’informations et la constitution de corpus adaptés deviennent des éléments cruciaux pour la bonne marche des systèmes de détection, comme le font remarquer (Douglas-Cowie et al. 2003) et (Ververidis and Kotropoulos 2003). Ainsi, pour l’heure, la majorité des corpus contient des émotions actées ou induites comme (Engbert and Hansen 2007) ou (Burkhardt et al. 2005). Les corpus de données naturelles sont rares et souvent difficiles à distribuer pour des raisons de droits sur les données. Indépendamment de la nature des données considérées le volume de celles-ci peut également être problématique. Le traitement des données naturelles (collecte, segmentation, annotation) est souvent une tâche longue et coûteuse ce qui peux fortement limiter le volume de données réellement exploitées lors de la construction des modèles. A noter que ce problème concernant le volume de données disponibles pour un corpus se retrouve également pour les données actées. Ainsi, sur neuf corpus accessibles dans la communauté (Tableau 2-1), un seul propose plus de deux heures de paroles émotionnelles naturelle.

Corpus Content hh:mm Speaker Rec kHz

ABC German fixed 01:15 8 4 f acted stud 16 AVIC English variable 01:47 21 10 f spont norm 44.1 DES Danish fixed 00:28 4 2 f acted norm 20 EMO-DB German fixed 00:22 10 5 f acted stud 16 eNTER English fixed 01:00 42 8 f acted norm 16 SAL English variable 01:41 4 2 f spont norm 16 SmartKom German variable 07:08 79 47 f spont noisy 16 SUSAS English fixed 01:01 7 3 f mixed noisy 8 VAM German variable 00:47 47 32 f spont norm 16

Tableau 2-1 Exemple de corpus émotionnels disponibles (Schuller et al. 2009)

Quelques études comme (Devillers et al. 2005), (Devillers et al. 2006) ou (Vaudable et al. 2009) utilisent des corpus proposant un volume de données plus important. Dans (Devillers et al. 2010) vingt heures de données « Real-Life » sont utilisées, mais ce type d’étude reste relativement rare au sein de la communauté. De plus ces corpus ont souvent la particularité de mettre en œuvre des émotions mélangées ce qui complexifie la tâche de modélisation. En effet, les sujets de ces études ont pour des raisons de désirabilité sociale tendance à masquer leurs émotions (Goffman 1982). A ce sujet, le modèle push/pull de (Scherer 1985) reprend l’hypothèse que les échanges émotionnels sont modifiés, d’un côté par l’effet « push », qui concerne l’effet des changements physiologiques sur l’expression vocale et multimodale, et d’un autre coté par l’effet « pull », qui pour des raisons sociales ou stratégiques, pousse le locuteur à masquer l’émotion qu’il ressent. Ces effets push/pull sont plus caractéristiques des corpus « real-life » où il y a un vrai ressenti de la part des sujets et un contexte d’interaction réelle.

Récemment de grands efforts ont été entrepris pour permettre à la communauté de disposer de corpus librement accessibles et d’un panel suffisamment représentatif de situations pouvant se produire dans un contexte réel. C’est dans cette optique que la base de donnée « HUMAINE » a été conçue (Douglas-Cowie et al. 2011). Ce regroupement comprend 11 corpus basés principalement sur

33 des données réelles ou induites. Un sous ensemble de 48 clips d’une durée comprise entre 3 secondes et 2 minutes a été annoté :

Tableau 2-2 Les types de données rassemblées et annotées pour la base de données HUMAINE (Douglas-Cowie et al. 2011)

Le sous-ensemble sélectionné comprend des situations se déroulant dans plusieurs contextes différents (scènes en intérieur, extérieur, monologue, dialogue, …). Les auteurs ont également veillés à conserver des expressions émotionnelles très variées (émotions positives et négatives pouvant être actives ou passives ; combinaison d’émotions et transition d’une émotion à une autre au cours du temps, …). Des types d’indice très variés pour l’étude des émotions sont finalement disponibles dans cette base de données (gestes, visage, voix) et ce pour des langues et cultures différentes.

L’une des grandes forces de ce corpus réside dans sa capacité à fournir des données clés en mains, annotées de manière fine. Au total, ce sont plus de 20 éléments différents qui ont été annotés (étiquettes émotionnelles, dimensions continues, annotations sur le lexique utilisé, …). Un autre élément important concernant ce-sous ensemble est son accessibilité pour l’ensemble de la communauté, facilitant ainsi une comparaison des résultats obtenus par les différents chercheurs du domaine.

Le point négatif de cette base de données est le faible volume de données disponibles, ces données ne peuvent pas servir à la construction de modèles. En effet, en prenant une valeur moyenne par segment d’une minute environ, c’est moins d’une heure de données qui a été produite.

Dans le document Analyse et reconnaissance des émotions lors de conversations de centres d'appels (Page 31-35)