8. Analyses acoustiques et perceptives du corpus recueilli
8.4. Evaluation perceptive du sous‐corpus sélectionné
8.4.3 Analyse qualitative
Figure 29 : Page de réponse du test utilisé pour l’évaluation perceptive en conditions audio et audiovisuelle de productions actées sélectionnées du locuteur M2.
8.4.3 Analyse qualitative
Afin d’analyser la reconnaissance de chacune des émotions présentées ainsi que les éventuelles confusions avec d’autres émotions, des matrices de confusion ont été extraites pour chacune des conditions de présentation. Les données de ces matrices de confusion sont présentées dans la Table 4 pour la condition AS et dans la Table 5 pour la condition AV.
Comme le souligne Bänziger (2004, p. 33), des données correspondant à l’évaluation perceptive de mélanges d’émotions peuvent difficilement faire l’objet d’un test d’hypothèse statistique. En effet, les méthodes classiques destinées à évaluer des différences de moyennes, comme l’analyse de variance (ANOVA), reposent sur un modèle statistique dans lequel il n’y a qu’une variable dépendante. Il n’est donc pas possible de les appliquer à de telles données sans éliminer une partie de l’information, par exemple en ne tenant compte que des réponses jugées correctes selon un critère donné.
Ainsi, la première étape d’analyse des réponses fournies par les juges a consisté en une analyse qualitative des matrices de confusion pour chacune des conditions de présentation, permettant de conserver toute l’information sur la distribution des réponses dans les différentes catégories proposées aux sujets. Comparativement à des matrices de confusions plus classiques résultant d’une tâche de catégorisation dans lesquelles une réponse unique catégorielle peut être donnée, qui indiquent la proportion de réponses attribuées à chacune des étiquettes proposées aux sujets, les matrices de confusion que nous obtenons indiquent l’intensité moyenne attribuée à chaque étiquette.
amu. anx. att. col. déc. dég. inq. joi. neu. peu. rés. sat. sur tri.
amusement 3.73 0.08 0.04 0.00 0.00 0.00 0.04 3.31 0.08 0.00 0.04 1.35 0.27 0.04 anxiété 0.00 1.96 0.58 0.62 0.35 0.15 2.12 0.04 0.62 1.23 0.54 0.08 0.46 0.23 attente 0.00 0.58 0.69 0.62 0.46 0.08 0.69 0.00 2.62 0.27 1.15 0.08 0.12 0.31 colère 0.00 0.27 0.50 4.69 0.35 0.27 0.12 0.00 0.31 0.12 0.46 0.04 0.08 0.15 déception 0.00 0.00 0.58 0.88 1.96 1.15 0.00 0.00 0.65 0.00 3.54 0.00 0.04 0.77 dégoût 0.42 0.04 0.38 0.27 1.15 2.46 0.04 0.15 0.42 0.00 1.85 0.38 0.15 0.38 inquiétude 0.00 1.04 0.88 0.31 0.69 0.19 1.62 0.00 0.88 0.54 0.96 0.00 0.88 0.23 joie 1.08 0.08 0.27 0.08 0.04 0.04 0.00 1.00 2.38 0.00 0.12 1.50 0.27 0.04 neutre 0.00 0.19 0.58 0.42 0.92 0.58 0.31 0.00 2.92 0.00 1.85 0.04 0.08 0.77 peur 0.00 2.04 0.69 0.19 0.62 0.42 1.65 0.00 0.58 1.04 0.96 0.04 0.23 0.77 résignation 0.00 0.15 0.42 2.08 0.69 0.23 0.19 0.00 2.00 0.00 1.19 0.12 0.27 0.46 satisfaction 1.27 0.12 0.23 0.12 0.27 0.15 0.08 2.65 0.23 0.04 0.15 2.35 0.92 0.00 surprise 0.15 0.27 0.73 0.31 0.50 0.08 0.54 0.04 0.35 0.04 0.73 0.23 3.15 0.27 tristesse 1.12 0.88 0.27 0.00 0.50 0.15 1.12 0.27 1.00 1.04 0.35 0.31 0.12 1.42 Table 4 : Matrice de confusion correspondant aux valeurs d’intensité attribuées en condition audio seule à chacune des étiquettes proposées comme choix de réponse possible pour catégoriser les productions du locuteur M2, moyennées par émotion présentée et sur les 26 sujets ayant participé au test perceptif.
amu. anx. att. col. déc. dég. inq. joi. neu. peu. rés. sat. sur tri.
amusement 4.00 0.00 0.04 0.00 0.04 0.00 0.00 2.73 0.08 0.00 0.00 1.54 0.50 0.00 anxiété 0.00 2.31 0.46 0.46 0.19 0.04 2.27 0.00 0.81 1.31 0.38 0.04 0.42 0.12 attente 0.00 0.69 1.38 0.15 0.23 0.04 1.42 0.00 1.73 0.15 0.50 0.04 1.35 0.08 colère 0.00 0.15 0.65 5.00 0.38 0.12 0.08 0.00 0.00 0.04 0.35 0.00 0.04 0.08 déception 0.00 0.00 1.12 1.04 1.65 1.08 0.00 0.00 0.12 0.00 4.12 0.00 0.00 0.23 dégoût 0.00 0.08 0.15 0.04 0.92 4.96 0.08 0.00 0.12 0.00 0.77 0.00 0.00 0.35 inquiétude 0.00 2.04 0.77 0.31 0.31 0.15 2.54 0.00 0.46 1.15 0.31 0.00 1.12 0.19 joie 1.54 0.04 0.27 0.04 0.00 0.00 0.00 2.58 0.62 0.00 0.12 3.00 0.31 0.00 neutre 0.04 0.19 0.58 0.27 0.54 0.08 0.15 0.00 3.23 0.00 1.65 0.04 0.00 0.85 peur 0.00 2.19 0.42 0.19 0.58 0.19 2.04 0.00 0.62 1.88 0.58 0.00 0.46 0.69 résignation 0.00 0.12 0.85 2.08 1.19 0.50 0.15 0.00 1.12 0.00 2.46 0.00 0.04 0.19 satisfaction 1.88 0.00 0.04 0.12 0.00 0.00 0.00 3.58 0.08 0.00 0.04 3.08 0.46 0.00 surprise 0.04 0.08 0.62 0.27 0.42 0.04 0.38 0.08 0.31 0.00 0.69 0.35 4.04 0.08 tristesse 0.00 1.19 0.23 0.08 0.50 0.23 1.23 0.00 0.54 0.96 0.50 0.08 0.04 3.12 Table 5 : Matrice de confusion correspondant aux valeurs d’intensité attribuées en condition audiovisuelle à chacune des étiquettes proposées comme choix de réponse possible pour catégoriser les productions du locuteur M2, moyennées par émotion présentée et sur les 26 sujets ayant participé au test perceptif.
La première observation qui peut être tirée des données recueillies est que les juges ont tiré parti de la possibilité d’indiquer des mélanges d’émotions. Ils ont ainsi utilisé en moyenne 1.66 étiquettes par réponse en condition AS (écart‐type 0.90), et 1.69 en condition AV (écart‐type 0.82). La variabilité inter‐sujets est relativement importante.
Tandis que 3 des 26 sujets n’ont indiqué aucun mélange d’émotion dans l’ensemble du test, 3 ont utilisé en moyenne plus de 3 étiquettes par réponse. La valeur élevée de l’alpha de Cronbach (=0.95) indique néanmoins une stratégie globalement homogène des juges dans la tâche d’identification qui leur était proposée.
Une première observation, prévisible, est que les résultats en condition audiovisuelle sont toujours égaux ou meilleurs que ceux obtenus en condition audio seul. Néanmoins les résultats observés entre les deux conditions montrent une certaine cohérence. L’étude qualitative des différences entre ces deux conditions permet de tirer les observations suivantes.
Certaines des étiquettes proposées n’ont pas été utilisées par les auditeurs. Ainsi, l’attente est quasi‐systématiquement confondue avec le neutre, et la déception avec la résignation. De plus, pour ces deux catégories, les expressions faciales ne donnent pas d’informations supplémentaires, comme le montre la matrice de confusion pour les stimuli audiovisuels.
En condition audio seul, les auditeurs ont largement utilisé l’étiquette neutre pour catégoriser les expressions émotionnelles qu’ils ne parvenaient pas à identifier. Nous avons pu observer cela en particulier pour les expressions émotionnelles avec une faible activation, telles que l’attente, la joie (l’expression de la joie actée par ce locuteur semble d’après une écoute experte très faiblement activée) ou encore la résignation.
L’anxiété, la peur et l’irritation sont confondus dans les deux conditions proposées, les auditeurs pouvant difficilement faire la différence entre ces expressions. Les expressions d’amusement, de joie et de satisfaction sont également confondues mais ces confusions ne sont pas systématiques. L’amusement est bien reconnu en condition audiovisuelle, tandis que la satisfaction est reconnue tantôt comme de la joie, tantôt comme de la satisfaction. L’expression de la joie, quant à elle, est considérée comme neutre en condition audio seul, mais les réponses sont distribuées entre amusement, joie et satisfaction en condition audiovisuelle.
Les expressions émotionnelles les mieux identifiées à partir des indices acoustiques seuls sont l’amusement (bien que parfois confondu avec la joie), l’anxiété (parfois confondue avec l’irritation et la peur), la colère, le neutre, la satisfaction (parfois confondue avec la joie) et la surprise.
Le dégoût semble difficile à reconnaître en condition audio seul, tandis qu’il est parfaitement bien reconnu en condition audiovisuelle. Ces résultats sont en accord avec les conclusions de Scherer et al. (2003) ainsi qu’avec celles de Juslin & Laukka (2003). En effet, ils observent, à partir de méta‐analyses, que l’expression du dégoût, globalement aussi bien reconnue que les expressions d’autres émotions dites « de base » dans sa modalité faciale, est reconnue en modalité audio avec un taux peu supérieur au niveau du hasard. Johnstone & Scherer (2000) suggèrent que cette reconnaissance plus faible du dégoût dans la parole pourrait s’expliquer en termes évolutionnistes. En considérant les émotions comme des réponses adaptatives à l’environnement, l’avantage adaptatif d’une expression de colère ou de peur pouvant être véhiculée sur une plus longue distance via la parole afin d’alerter les congénères est en effet clair. En revanche dans le cas du dégoût cet avantage adaptatif est plus important si cette expression est dirigée vers des congénères consommant des aliments au même endroit, comme peut le faire l’expression faciale liée au mécanisme de régurgitation24 et de blocage des odeurs déplaisantes, ce qui pourrait expliquer la prépondérance des expressions faciales dans l’expression du dégoût
Toutefois, l’observation à un niveau de granularité plus fin des résultats obtenus sur l’expression du dégoût en condition audio seul vs. audiovisuel suggère une variation importante de la capacité à percevoir le dégoût à partir de seuls indices acoustiques d’un auditeur à l’autre. En effet, parmi les 24 auditeurs ayant reconnu de façon non équivoque au moins 4 des 5 expressions de dégoût présentées en condition AV, 2 ont été aussi performants en condition AS, tandis que 6 n’ont pas reconnu plus d’une expression de dégoût parmi les 5 présentées en condition AS. Une telle variabilité interindividuelle peut être rapprochée de la notion d’intelligence émotionnelle, en particulier dans sa composante de perception des émotions d’autrui (voir par exemple Mayer & Salovey (1997)). Bien que la variabilité des compétences pour la perception de l’expression vocale du dégoût n’ait, à notre connaissance, pas été étudiée, ce résultat est à mettre en parallèle avec l’étude de Rozin et al. (2005). A partir d’expressions faciales et gestuelles, ils ont observé une variabilité plus importante pour la perception du dégoût que pour celle d’autres émotions négatives, avec néanmoins une cohérence importante entre la perception du dégoût à partir de la face et de la gestualité. Les résultats que nous obtenons pour la perception du
24 Le terme utilisé par les auteurs de « régurgitation », qui désigne en physiologie un mécanisme passif
de reflux lié à des causes autres que le rejet d’aliments impropres à la consommation (Pocock &
Richards, 2004), semble ici moins adapté que les mécanismes de haut‐le‐cœur et de vomissement
dégoût dans ce test perceptif ne nous permettent pas de tirer de conclusions générales, mais suggèrent à l’inverse que la capacité à percevoir le dégoût pourrait être dissociée selon les modalités.