5. Méthodologie de recueil de données
5.5. La problématique de l’annotation des expressions spontanées
5.5.2 L’annotation experte
Quel que soit l’ensemble d’étiquettes ou de dimensions utilisé pour l’annotation, il est nécessaire de définir la procédure selon laquelle ces étiquettes doivent être associées aux signaux audio, vidéo ou audiovisuels enregistrés. La méthode la plus répandue pour mener à bien cette tâche est de faire appel à des experts humains. Plutôt que de se fier aux annotations réalisées par un seul et même expert, des méthodes plus élaborées mais également plus lourdes à mettre en œuvre sur un volume important de données ont été proposées, dans lesquelles l’étiquetage est réalisé par différents experts en parallèle (Douglas‐Cowie et al., 2000, Abrilian et al., 2005, 2006).
Dans ces méthodes, la cohérence inter‐annotateur de l’étiquetage est ensuite validée au moyen d’indices statistiques tels que le kappa de Cohen (Cohen, 1960) dans le cas de variables catégorielles ou l’alpha de Cronbach (Cronbach, 1931) dans le cas de variables continues. Ces deux indices prennent une valeur d’autant plus proche de 1 que les annotations réalisées par les différents experts sont cohérentes entre elles. En l’absence de fondations théoriques pour l’interprétation des valeurs prises par ces indices, celle‐ci ne peut se faire que par comparaison avec des valeurs repères établies de façon empirique dans la littérature et communément acceptées. Ainsi, Landis et Koch (1977) proposent une grille d’interprétation des valeurs de kappa, selon laquelle la valeur de kappa doit être supérieure à 0.20 pour que le degré d’accord soit considéré comme acceptable, tandis qu’un kappa compris entre 0.41 et 0.60 correspond à un accord modéré, une valeur entre 0.61 et 0.80 à un degré d’accord substantiel et une valeur supérieure à 0.80 à un accord presque parfait. Comme relevé par Peterson (1994) dans sa méta‐analyse des utilisations de l’alpha de Cronbach, les valeurs recommandées sont fixées arbitrairement et varient selon les auteurs, mais il y a un certain consensus à définir 0.70 comme seuil en deçà duquel la cohérence des données doit être considérée comme trop faible. Néanmoins il faut souligner que cet indice a été plus fréquemment
utilisé comme une mesure de cohérence intra‐sujet (notamment entre différentes échelles de type Likert supposées capturer le même concept dans un questionnaire, cas dans lequel l’interprétation des valeurs prises par l’alpha de Cronbach est plus controversée) que pour évaluer la cohérence inter‐sujets comme dans le cas de l’annotation experte.
Les méthodes d’annotation de corpus d’expressions émotionnelles reposant sur le recours à plusieurs experts ont connu un important essor dans le cadre du réseau européen d’excellence HUMAINE. Ainsi, le corpus EmoTV d’expressions émotionnelles dans le cadre d’entrevues télévisées (Abrilian et al., 2005) a été annoté dans un premier temps par 2 experts, à la fois sous forme de texte libre et selon les dimensions de valence et d’intensité. Les annotations données sous forme de texte libre ont ensuite été réinterprétées par les auteurs comme appartenant à une catégorie émotionnelle parmi quatorze. Cette annotation a mis en évidence un faible accord entre locuteurs, avec une valeur de kappa de 0.37 pour les catégories émotionnelles (dénotant selon Landis et Koch (1977) un niveau médiocre d’accord inter‐annotateurs). Cette constatation a ensuite conduit les auteurs à expérimenter, sur un sous‐ensemble plus restreint du corpus EmoTV, une représentation sous forme de mélange pondéré d’émotions afin de tenir compte de la variabilité entre annotateurs, en faisant appel à 40 annotateurs (Abrilian et al., 2006).
De même, Reidsma et al. (2006) ont fait annoter par 3 experts le corpus multimodal AMI, composé d’interactions lors de réunions professionnelles, en leur demandant d’indiquer à la fois une estimation de la valence et de l’activation et une catégorisation à l’aide d’une liste d’étiquettes pouvant être étendue par les annotateurs, selon un protocole dans lequel les annotateurs devaient définir les segments à annoter leur semblant cohérents du point de vue de l’expression émotionnelle. Les auteurs n’indiquent pas de valeur globale d’accord, mais une valeur d’alpha de Cronbach10 pour chaque paire d’annotateurs comprise entre 0.061 et 0.443, soit un niveau nettement inférieur aux différentes recommandations relevées dans la littérature par Peterson (1994). L’alpha de Cronbach mesurant l’accord entre annotateurs sur l’alignement des segments atteint néanmoins une valeur comprise entre 0.672 et 0.781 après regroupement des étiquettes selon leur valence.
Une méthodologie similaire a été appliquée à l’annotation de productions actées dans quelques études. Ainsi Clavel (2007) a fait appel à 3 experts pour annoter le corpus SAFE d’expressions de type peur extraites de films, obtenant une valeur de kappa de 0.49.
10 Les auteurs présentent également des valeurs de kappa mais il s’agit d’un indice calculé sur des
Cette valeur, quoique plus élevée que celles généralement relevées pour l’annotation des affects présents dans des productions spontanées, correspond selon Landis et Koch (1977) à un niveau d’accord modéré entre les annotateurs. De même Busso et Naranayan (2008) ont fait appel à 3 annotateurs pour l’étiquetage du corpus acté USC IEMOCAP.
Les valeurs de kappa obtenues peuvent être interprétées comme correspondant à un niveau d’accord correct à modéré : 0.43 dans le cas des énoncés produits en improvisant à partir d’un scénario choisi comme susceptible d’éliciter la joie, la colère, la tristesse, la frustration ou un état neutre, 0.36 dans le cas de scènes théâtrales apprises et répétées au préalable par les acteurs.
Dans le cas de l’alpha de Cronbach, l’interprétation largement répandue selon laquelle la valeur prise par cet indice dépend directement du nombre d’éléments dans l’échelle (ce qui, dans le cas de l’annotation experte de corpus d’expressions émotionnelles, correspondrait au nombre d’étiquettes utilisées) a été battue en brèche par l’étude de Peterson (1994). Cependant, le niveau d’accord inter‐annotateur obtenu est fortement dépendant du jeu d’étiquettes ou de dimensions proposées, ainsi que de la possibilité ou non de combiner différentes valeurs affectives. Il est donc délicat de prétendre comparer des degrés d’accord entre annotateurs pour différents corpus lorsque les protocoles d’annotation diffèrent. De plus, ce degré d’accord reste généralement relativement faible par rapport aux valeurs de références communément acceptées pour ces mesures statistiques.
Les méthodes d’annotation experte ont néanmoins fait la preuve de leur efficacité dans le cadre de l’annotation de données émotionnelles complexes extraites de situations de la vie courante, permettant d’isoler les portions du corpus pour lesquelles les annotateurs s’accordent le mieux sur une ou plusieurs valeurs d’affects. Cependant de telles méthodes présupposent une compétence de l’expert développée au‐delà de ses capacités communicatives normales. Il doit en effet être capable de se placer dans une situation méta‐communicative d’observation afin de pouvoir légitimement revendiquer la qualité d’expert. Une telle approche est classique lorsqu’il s’agit d’annoter des productions humaines et, plus particulièrement, des productions langagières comme par exemple dans des tâches de transcription ou d’étiquetage phonétique. Il semble en conséquence naturel de l’étendre à l’annotation d’expressions d’affects volontaires, tels que les attitudes dont les expressions sont normalisées par les langues et les cultures. En outre, cette approche se justifie dans le cadre de méthodes d’annotations guidées par des principes théoriques, qui fournissent à l’annotateur à la fois les règles et les outils nécessaires à l’interprétation des affects exprimés dans le corpus, au‐delà de ses compétences d’humain.