• Aucun résultat trouvé

8. Analyses acoustiques et perceptives du corpus recueilli

8.4. Evaluation perceptive du sous‐corpus sélectionné

8.4.3 Analyse qualitative

Figure 29 : Page de réponse du test utilisé pour l’évaluation perceptive en conditions audio et  audiovisuelle de productions actées sélectionnées du locuteur M2. 

8.4.3 Analyse qualitative 

Afin d’analyser la reconnaissance de chacune des émotions présentées ainsi que les  éventuelles  confusions  avec  d’autres  émotions,  des  matrices  de  confusion  ont  été  extraites pour chacune des conditions de présentation. Les données de ces matrices de  confusion sont présentées dans la Table 4 pour la condition AS et dans la Table 5 pour la  condition AV. 

Comme le souligne Bänziger (2004, p. 33), des données correspondant à l’évaluation  perceptive  de  mélanges  d’émotions  peuvent  difficilement  faire  l’objet  d’un  test  d’hypothèse  statistique.  En  effet,  les  méthodes  classiques  destinées  à  évaluer  des  différences de  moyennes,  comme  l’analyse  de  variance (ANOVA),  reposent sur un  modèle statistique dans lequel il n’y a qu’une variable dépendante. Il n’est donc pas  possible de les appliquer à de telles données sans éliminer une partie de l’information,  par exemple en ne tenant compte que des réponses jugées correctes selon un critère  donné. 

Ainsi, la première étape d’analyse des réponses fournies par les juges a consisté en une  analyse  qualitative  des  matrices  de  confusion  pour  chacune  des  conditions  de  présentation,  permettant  de  conserver  toute  l’information  sur  la  distribution  des  réponses dans les différentes catégories proposées aux sujets. Comparativement à des  matrices de confusions plus classiques résultant d’une tâche de catégorisation dans  lesquelles une réponse unique catégorielle peut être donnée, qui indiquent la proportion  de réponses attribuées à chacune des étiquettes proposées aux sujets, les matrices de  confusion que nous obtenons indiquent l’intensité moyenne attribuée à chaque étiquette. 

 

  amu.  anx. att.  col.  déc.  dég. inq.  joi.  neu. peu. rés.  sat.  sur  tri. 

amusement  3.73  0.08 0.04  0.00  0.00  0.00  0.04  3.31  0.08  0.00  0.04  1.35  0.27  0.04  anxiété  0.00  1.96 0.58  0.62  0.35  0.15  2.12  0.04  0.62  1.23  0.54  0.08  0.46  0.23  attente  0.00  0.58 0.69  0.62  0.46  0.08  0.69  0.00  2.62  0.27  1.15  0.08  0.12  0.31  colère  0.00  0.27 0.50  4.69  0.35  0.27  0.12  0.00  0.31  0.12  0.46  0.04  0.08  0.15  déception  0.00  0.00 0.58  0.88  1.96  1.15  0.00  0.00  0.65  0.00  3.54  0.00  0.04  0.77  dégoût  0.42  0.04 0.38  0.27  1.15  2.46  0.04  0.15  0.42  0.00  1.85  0.38  0.15  0.38  inquiétude  0.00  1.04 0.88  0.31  0.69  0.19  1.62  0.00  0.88  0.54  0.96  0.00  0.88  0.23  joie  1.08  0.08 0.27  0.08  0.04  0.04  0.00  1.00  2.38  0.00  0.12  1.50  0.27  0.04  neutre  0.00  0.19 0.58  0.42  0.92  0.58  0.31  0.00  2.92  0.00  1.85  0.04  0.08  0.77  peur  0.00  2.04 0.69  0.19  0.62  0.42  1.65  0.00  0.58  1.04  0.96  0.04  0.23  0.77  résignation  0.00  0.15 0.42  2.08  0.69  0.23  0.19  0.00  2.00  0.00  1.19  0.12  0.27  0.46  satisfaction  1.27  0.12 0.23  0.12  0.27  0.15  0.08  2.65  0.23  0.04  0.15  2.35  0.92  0.00  surprise  0.15  0.27 0.73  0.31  0.50  0.08  0.54  0.04  0.35  0.04  0.73  0.23  3.15  0.27  tristesse  1.12  0.88 0.27  0.00  0.50  0.15  1.12  0.27  1.00  1.04  0.35  0.31  0.12  1.42  Table 4 : Matrice de confusion correspondant aux valeurs d’intensité attribuées en condition audio  seule à chacune des étiquettes proposées comme choix de réponse possible pour catégoriser les  productions du locuteur M2, moyennées par émotion présentée et sur les 26 sujets ayant participé au  test perceptif. 

  amu.  anx.  att.  col.  déc. dég. inq. joi.  neu. peu. rés.  sat.  sur  tri. 

amusement  4.00  0.00  0.04  0.00  0.04 0.00  0.00 2.73 0.08  0.00  0.00  1.54  0.50 0.00 anxiété  0.00  2.31  0.46  0.46  0.19 0.04  2.27 0.00 0.81  1.31  0.38  0.04  0.42 0.12 attente  0.00  0.69  1.38  0.15  0.23 0.04  1.42 0.00 1.73  0.15  0.50  0.04  1.35 0.08 colère  0.00  0.15  0.65  5.00  0.38 0.12  0.08 0.00 0.00  0.04  0.35  0.00  0.04 0.08 déception  0.00  0.00  1.12  1.04  1.65 1.08  0.00 0.00 0.12  0.00  4.12  0.00  0.00 0.23 dégoût  0.00  0.08  0.15  0.04  0.92 4.96  0.08 0.00 0.12  0.00  0.77  0.00  0.00 0.35 inquiétude  0.00  2.04  0.77  0.31  0.31 0.15  2.54 0.00 0.46  1.15  0.31  0.00  1.12 0.19 joie  1.54  0.04  0.27  0.04  0.00 0.00  0.00 2.58 0.62  0.00  0.12  3.00  0.31 0.00 neutre  0.04  0.19  0.58  0.27  0.54 0.08  0.15 0.00 3.23  0.00  1.65  0.04  0.00 0.85 peur  0.00  2.19  0.42  0.19  0.58 0.19  2.04 0.00 0.62  1.88  0.58  0.00  0.46 0.69 résignation  0.00  0.12  0.85  2.08  1.19 0.50  0.15 0.00 1.12  0.00  2.46  0.00  0.04 0.19 satisfaction  1.88  0.00  0.04  0.12  0.00 0.00  0.00 3.58 0.08  0.00  0.04  3.08  0.46 0.00 surprise  0.04  0.08  0.62  0.27  0.42 0.04  0.38 0.08 0.31  0.00  0.69  0.35  4.04 0.08 tristesse  0.00  1.19  0.23  0.08  0.50 0.23  1.23 0.00 0.54  0.96  0.50  0.08  0.04 3.12 Table 5 :  Matrice  de  confusion correspondant  aux  valeurs  d’intensité  attribuées en  condition  audiovisuelle à chacune des étiquettes proposées comme choix de réponse possible pour catégoriser  les productions du locuteur M2, moyennées par émotion présentée et sur les 26 sujets ayant participé  au test perceptif. 

La première observation qui peut être tirée des données recueillies est que les juges ont  tiré parti de la possibilité d’indiquer des mélanges d’émotions. Ils ont ainsi utilisé en  moyenne  1.66  étiquettes  par  réponse  en  condition  AS  (écart‐type  0.90),  et  1.69  en  condition AV (écart‐type 0.82). La variabilité inter‐sujets est relativement importante. 

Tandis que 3 des 26 sujets n’ont indiqué aucun mélange d’émotion dans l’ensemble du  test, 3 ont utilisé en moyenne plus de 3 étiquettes par réponse. La valeur élevée de  l’alpha de Cronbach (=0.95) indique néanmoins une stratégie globalement homogène  des juges dans la tâche d’identification qui leur était proposée. 

Une première observation, prévisible, est que les résultats en condition audiovisuelle  sont toujours égaux ou meilleurs que ceux obtenus en condition audio seul. Néanmoins  les résultats observés entre les deux conditions montrent une certaine cohérence. L’étude  qualitative des différences entre ces deux conditions permet de tirer les observations  suivantes. 

 Certaines des étiquettes proposées n’ont pas été utilisées par les auditeurs. Ainsi,  l’attente est quasi‐systématiquement confondue avec le neutre, et la déception avec la  résignation. De plus, pour ces deux catégories, les expressions faciales ne donnent  pas d’informations supplémentaires, comme le montre la matrice de confusion pour  les stimuli audiovisuels. 

 En condition audio seul, les auditeurs ont largement utilisé l’étiquette neutre pour  catégoriser les expressions émotionnelles qu’ils ne parvenaient pas à identifier. Nous  avons pu observer cela en particulier pour les expressions émotionnelles avec une  faible activation, telles que l’attente, la joie (l’expression de la joie actée par ce locuteur  semble d’après une écoute experte très faiblement activée) ou encore la résignation. 

 L’anxiété, la peur et l’irritation sont confondus dans les deux conditions proposées, les  auditeurs  pouvant  difficilement  faire  la  différence  entre  ces  expressions.  Les  expressions d’amusement, de joie et de satisfaction sont également confondues mais ces  confusions ne sont pas systématiques. L’amusement est bien reconnu en condition  audiovisuelle, tandis que la satisfaction est reconnue tantôt comme de la joie, tantôt  comme de la satisfaction. L’expression de la joie, quant à elle, est considérée comme  neutre en condition audio seul, mais les réponses sont distribuées entre amusement,  joie et satisfaction en condition audiovisuelle. 

 Les expressions émotionnelles les mieux identifiées à partir des indices acoustiques  seuls sont l’amusement (bien que parfois confondu avec la joie), l’anxiété (parfois  confondue  avec  l’irritation  et  la  peur),  la  colère,  le  neutre,  la  satisfaction  (parfois  confondue avec la joie) et la surprise. 

 Le dégoût semble difficile à reconnaître en condition audio seul, tandis qu’il est  parfaitement bien reconnu en condition audiovisuelle. Ces résultats sont en accord  avec les conclusions de Scherer et al. (2003) ainsi qu’avec celles de Juslin & Laukka  (2003). En effet, ils observent, à partir de méta‐analyses, que l’expression du dégoût,  globalement aussi bien reconnue que les expressions d’autres émotions dites « de  base » dans sa modalité faciale, est reconnue en modalité audio avec un taux peu  supérieur au niveau du hasard. Johnstone & Scherer (2000) suggèrent que cette  reconnaissance plus faible du dégoût dans la parole pourrait s’expliquer en termes  évolutionnistes.  En  considérant  les émotions comme des réponses adaptatives à  l’environnement, l’avantage adaptatif d’une expression de colère ou de peur pouvant  être véhiculée sur une plus longue distance via la parole afin d’alerter les congénères  est en effet clair. En revanche dans le cas du dégoût cet avantage adaptatif est plus  important  si  cette  expression  est  dirigée  vers  des  congénères  consommant  des  aliments au même endroit, comme peut le faire l’expression faciale liée au mécanisme  de régurgitation24 et de blocage des odeurs déplaisantes, ce qui pourrait expliquer la  prépondérance des expressions faciales dans l’expression du dégoût 

 Toutefois, l’observation à un niveau de granularité plus fin des résultats obtenus sur  l’expression du dégoût en condition audio seul vs. audiovisuel suggère une variation  importante de la capacité à percevoir le dégoût à partir de seuls indices acoustiques  d’un auditeur à l’autre. En effet, parmi les 24 auditeurs ayant reconnu de façon non  équivoque au moins 4 des 5 expressions de dégoût présentées en condition AV, 2 ont  été aussi performants en condition AS, tandis que 6 n’ont pas reconnu plus d’une  expression de dégoût parmi les 5 présentées en condition AS. Une telle variabilité  interindividuelle peut être rapprochée de la notion d’intelligence émotionnelle, en  particulier  dans  sa  composante  de  perception  des  émotions  d’autrui  (voir  par  exemple Mayer & Salovey (1997)). Bien que la variabilité des compétences pour la  perception de l’expression vocale du dégoût n’ait, à notre connaissance, pas été  étudiée, ce résultat est à mettre en parallèle avec l’étude de Rozin et al. (2005). A  partir  d’expressions  faciales  et  gestuelles,  ils  ont  observé  une  variabilité  plus  importante pour la perception du dégoût que pour celle d’autres émotions négatives,  avec néanmoins une cohérence importante entre la perception du dégoût à partir de  la face et de la gestualité. Les résultats que nous obtenons pour la perception du         

24 Le terme utilisé par les auteurs de « régurgitation », qui désigne en physiologie un mécanisme passif 

de reflux lié à des causes autres que le rejet d’aliments impropres à la consommation (Pocock 

Richards, 2004), semble ici moins adapté que les mécanismes de haut‐le‐cœur et de vomissement 

dégoût  dans  ce  test  perceptif  ne  nous  permettent  pas  de  tirer  de  conclusions  générales, mais suggèrent à l’inverse que la capacité à percevoir le dégoût pourrait  être dissociée selon les modalités.