• Aucun résultat trouvé

5. Méthodologie de recueil de données

5.5. La problématique de l’annotation des expressions spontanées

5.5.2 L’annotation experte

Quel que soit l’ensemble d’étiquettes ou de dimensions utilisé pour l’annotation, il est  nécessaire de définir la procédure selon laquelle ces étiquettes doivent être associées aux  signaux audio, vidéo ou audiovisuels enregistrés. La méthode la plus répandue pour  mener à bien cette tâche est de faire appel à des experts humains. Plutôt que de se fier  aux annotations réalisées par un seul et même expert, des méthodes plus élaborées mais  également plus lourdes à mettre en œuvre sur un volume important de données ont été  proposées, dans lesquelles l’étiquetage est réalisé par différents experts en parallèle  (Douglas‐Cowie et al., 2000, Abrilian et al., 2005, 2006). 

Dans ces méthodes, la cohérence inter‐annotateur de l’étiquetage est ensuite validée au  moyen d’indices statistiques tels que le kappa de Cohen (Cohen, 1960) dans le cas de  variables catégorielles ou l’alpha de Cronbach (Cronbach, 1931) dans le cas de variables  continues. Ces deux indices prennent une valeur d’autant plus proche de 1 que les  annotations réalisées par les différents experts sont cohérentes entre elles. En l’absence  de fondations théoriques pour l’interprétation des valeurs prises par ces indices, celle‐ci  ne  peut  se  faire  que  par  comparaison  avec  des  valeurs  repères  établies  de  façon  empirique dans la littérature et communément acceptées. Ainsi, Landis et Koch (1977)  proposent une grille d’interprétation des valeurs de kappa, selon laquelle la valeur de  kappa doit être supérieure à 0.20 pour que le degré d’accord soit considéré comme  acceptable,  tandis qu’un kappa compris  entre 0.41 et 0.60 correspond à  un  accord  modéré, une valeur entre 0.61 et 0.80 à un degré d’accord substantiel et une valeur  supérieure à 0.80 à un accord presque parfait. Comme relevé par Peterson (1994) dans sa  méta‐analyse des utilisations de l’alpha de Cronbach, les valeurs recommandées sont  fixées arbitrairement et varient selon les auteurs, mais il y a un certain consensus à  définir 0.70 comme seuil en deçà duquel la cohérence des données doit être considérée  comme trop faible. Néanmoins il faut souligner que cet indice a été plus fréquemment 

utilisé comme une mesure de cohérence intra‐sujet (notamment entre différentes échelles  de type Likert supposées capturer le même concept dans un questionnaire, cas dans  lequel l’interprétation des valeurs prises par l’alpha de Cronbach est plus controversée)  que pour évaluer la cohérence inter‐sujets comme dans le cas de l’annotation experte. 

Les  méthodes  d’annotation  de  corpus  d’expressions  émotionnelles  reposant  sur  le  recours à plusieurs experts ont connu un important essor dans le cadre du réseau  européen d’excellence HUMAINE. Ainsi, le corpus EmoTV d’expressions émotionnelles  dans le cadre d’entrevues télévisées (Abrilian et al., 2005) a été annoté dans un premier  temps par 2 experts, à la fois sous forme de texte libre et selon les dimensions de valence  et  d’intensité.  Les  annotations  données  sous  forme  de  texte  libre  ont  ensuite  été  réinterprétées par les auteurs comme appartenant à une catégorie émotionnelle parmi  quatorze. Cette annotation a mis en évidence un faible accord entre locuteurs, avec une  valeur de kappa de 0.37 pour les catégories émotionnelles (dénotant selon Landis et  Koch (1977) un niveau médiocre d’accord inter‐annotateurs). Cette constatation a ensuite  conduit les auteurs à  expérimenter, sur un  sous‐ensemble plus restreint du  corpus  EmoTV, une représentation sous forme de mélange pondéré d’émotions afin de tenir  compte de la variabilité entre annotateurs, en faisant appel à 40 annotateurs (Abrilian et  al., 2006). 

De même, Reidsma et al. (2006) ont fait annoter par 3 experts le corpus multimodal AMI,  composé d’interactions lors de réunions professionnelles, en leur demandant d’indiquer  à la fois une estimation de la valence et de l’activation et une catégorisation à l’aide d’une  liste d’étiquettes pouvant être étendue par les annotateurs, selon un protocole dans  lequel les annotateurs devaient définir les segments à annoter leur semblant cohérents  du point de vue de l’expression émotionnelle. Les auteurs n’indiquent pas de valeur  globale  d’accord,  mais  une  valeur  d’alpha  de  Cronbach10  pour  chaque  paire  d’annotateurs comprise entre 0.061 et 0.443, soit un niveau nettement inférieur aux  différentes recommandations relevées dans la littérature par Peterson (1994). L’alpha de  Cronbach mesurant l’accord entre annotateurs sur l’alignement des segments atteint  néanmoins une valeur comprise entre 0.672 et 0.781 après regroupement des étiquettes  selon leur valence. 

Une méthodologie similaire a été appliquée à l’annotation de productions actées dans  quelques études. Ainsi Clavel (2007) a fait appel à 3 experts pour annoter le corpus SAFE  d’expressions de type peur extraites de films, obtenant une valeur de kappa de 0.49. 

       

10 Les auteurs présentent également des valeurs de kappa mais il s’agit d’un indice calculé sur des 

Cette valeur, quoique plus élevée que celles généralement relevées pour l’annotation des  affects présents dans des productions spontanées, correspond selon Landis et Koch  (1977) à un niveau d’accord modéré entre les annotateurs. De même Busso et Naranayan  (2008) ont fait appel à 3 annotateurs pour l’étiquetage du corpus acté USC IEMOCAP. 

Les valeurs de kappa obtenues peuvent être interprétées comme correspondant à un  niveau d’accord correct à modéré : 0.43 dans le cas des énoncés produits en improvisant  à partir d’un scénario choisi comme susceptible d’éliciter la joie, la colère, la tristesse, la  frustration ou un état neutre, 0.36 dans le cas de scènes théâtrales apprises et répétées au  préalable par les acteurs. 

Dans le cas de l’alpha de Cronbach, l’interprétation largement répandue selon laquelle la  valeur prise par cet indice dépend directement du nombre d’éléments dans l’échelle (ce  qui,  dans  le  cas  de  l’annotation  experte  de  corpus  d’expressions  émotionnelles,  correspondrait au nombre d’étiquettes utilisées) a été battue en brèche par l’étude de  Peterson (1994). Cependant, le niveau d’accord inter‐annotateur obtenu est fortement  dépendant du jeu d’étiquettes ou de dimensions proposées, ainsi que de la possibilité ou  non de combiner différentes valeurs affectives. Il est donc délicat de prétendre comparer  des degrés d’accord entre annotateurs pour différents corpus lorsque les protocoles  d’annotation diffèrent. De plus, ce degré d’accord reste généralement relativement faible  par  rapport  aux  valeurs  de  références  communément  acceptées  pour  ces  mesures  statistiques. 

Les méthodes d’annotation experte ont néanmoins fait la preuve de leur efficacité dans le  cadre de l’annotation de données émotionnelles complexes extraites de situations de la  vie courante, permettant d’isoler les portions du corpus pour lesquelles les annotateurs  s’accordent  le  mieux  sur  une  ou  plusieurs  valeurs  d’affects.  Cependant  de  telles  méthodes présupposent une compétence de l’expert développée au‐delà de ses capacités  communicatives normales. Il doit en effet être capable de se placer dans une situation  méta‐communicative d’observation afin de pouvoir légitimement revendiquer la qualité  d’expert. Une telle approche est classique lorsqu’il s’agit d’annoter des productions  humaines et, plus particulièrement, des productions langagières comme par exemple  dans des tâches de transcription ou d’étiquetage phonétique. Il semble en conséquence  naturel  de  l’étendre  à  l’annotation  d’expressions  d’affects  volontaires,  tels  que  les  attitudes dont les expressions sont normalisées par les langues et les cultures. En outre,  cette approche se justifie dans le cadre de méthodes d’annotations guidées par des  principes théoriques, qui fournissent à  l’annotateur à la fois les règles et les outils  nécessaires  à  l’interprétation  des  affects  exprimés  dans  le  corpus,  au‐delà  de  ses  compétences d’humain.