• Aucun résultat trouvé

3. Technologies de la parole expressive

3.2. Reconnaissance automatique des affects

Parallèlement à l’accroissement des efforts de recherche visant la synthèse de parole  expressive, l’autre grand domaine d’application du traitement automatique de la parole  qu’est  la  reconnaissance  automatique  s’est  également  intéressé  à  la  reconnaissance  automatique des affects exprimés par un locuteur. 

Deux types principaux dʹapplication coexistent dans le domaine de la reconnaissance  automatique appliquée à des signaux de parole. Dʹune part, la reconnaissance de la  parole a pour objectif la transcription automatique du message prononcé par le locuteur. 

Dʹautre  part,  la  reconnaissance  automatique  du  locuteur  s’intéresse  à  lʹauteur  du  message et cherche à repérer les informations permettant son identification. 

Autant  dans  le  cas  de  la  reconnaissance  automatique  de  la  parole  que  de  la  reconnaissance automatique du locuteur, l’extraction de l’information acoustique se fait  au moyen d’un nombre souvent élevé de paramètres acoustiques. L’appariement des  informations acoustiques et des phonèmes, mots ou locuteurs visés, se fait ensuite au  moyen de modèles probabilistes. 

La reconnaissance des affects consiste en pratique en une catégorisation des affects parmi  un  ensemble  prédéfini,  généralement  d’étendue  limitée,  d’étiquettes  ou  de  classes  considérées (voir section 8 pour une discussion de la problématique de la reconnaissance  vs. la discrimination  d’affects dans le cadre d’évaluations perceptives d’affects). Le  nombre de paramètres acoustiques utilisé dans ce cadre est très élevé, ces paramètres  étant en grande partie redondants. En effet, dans le cas général, la quantité la plus  importante possible de paramètres supposés différents et susceptibles de mesurer une  partie de l’information acoustique est retenue. Le jeu de paramètres est, par la suite,  restreint par des méthodes statistiques de réduction de données à un nombre fixé de 

« meilleurs paramètres » permettant d’expliquer la part la plus importante de la variance  mesurée (par exemple 16 paramètres dans le cas de l’étude menée par Ververidis et al. 

(2004)). 

Le jeu de paramètres initial inclut généralement des mesures diverses de durée, des  caractéristiques des distributions de la fréquence fondamentale et de l’énergie, divers  paramètres spectraux et cepstraux (notamment les coefficients MFCC qui ont fait la  preuve  de  leur  efficacité  dans  les  champs  d’application  plus  classiques  de  la  reconnaissance automatique). Il peut comprendre également des paramètres supposés  capturer plus explicitement des phénomènes liés à la qualité de voix. Lorsque le contenu 

du  message  est inclus  dans  les  données  traitées  dans le but de déterminer l’affect  exprimé par le locuteur, des paramètres relatifs aux informations lexicales, aux actes de  langage  ou  encore à des  interprétations  sémantiques  de plus  haut niveau  peuvent  également être pris en compte. Une description des 4244 paramètres utilisés dans la plus  vaste étude de reconnaissance automatique des affects réalisée à ce jour est présentée par  Schuller et al. (2007). 

3.2.2 Bref état de l’art 

La plupart des études portant sur la classification automatique d’émotions ou autres  affects exprimés dans la parole se sont appuyées sur des corpus actés construits de façon  à faire varier systématiquement les affects sur des énoncés constants (cf. section 5 pour  une  discussion  des  différents  types  de  corpus  de  parole  expressive  et  de  leurs  implications). En particulier, deux corpus de ce type, accessibles librement pour des  utilisation non‐commerciales, ont été utilisés dans ce cadre. Il sʹagit du corpus allemand  Berlin emotional speech database (Burkhardt et al., 2005) et dans une moindre mesure du  corpus danois Danish Emotional Speech (Engberg & Hansen, 1996). Quelques études ont  pris en compte de façon conjointe les informations données par la face et la parole pour  améliorer les performances en classification automatique des affects exprimés (voir par  exemple Busso et al. (2004)). 

Plus proche des données naturelles, l’application de la classification automatique d’états  affectifs à des données tirées de films peut également être mentionnée. Ainsi Clavel  (2007) a proposé une méthode de détection d’états affectifs proches de la peur, étalonnée  sur des données extraites de films d’épouvante. 

Dans le champ de la reconnaissance automatique des affects, de façon plus marquée que  dans celui de la synthèse vocale, l’idée s’est imposée que les corpus d’émotions actées, et  tout  particulièrement  ceux  constitués  d’expressions  prototypiques,  ne  seraient  pas  représentatifs des affects exprimés naturellement et ne permettraient pas d’élaborer des  systèmes  de  reconnaissance  automatiques  efficaces  sur  des  données  réelles  (voir  notamment Batliner (2003a)). Au cours des dernières années, de nombreuses études ont  donc cherché à caractériser les affects exprimés dans des données spontanées, ce qui a  impulsé  un  effort  de  recherche  particulier  en  direction  de  l’annotation  des  affects  exprimés  dans  ce  type  de  données,  afin  de  fournir  une  référence  fiable  pour  l’entraînement des systèmes automatiques de classification comme pour la validation  des  résultats  obtenus  (cf.  section  5  pour  une  discussion  sur  la  problématique  de  l’annotation de données spontanées). 

Ainsi,  Vidrascu & Devillers (2005a) ont mis au point un système de  catégorisation  automatique  des affects  exprimés  en  français  par des  usagers  d’un centre d’appel. 

Constatant que les expressions d’affects exprimés naturellement consistent souvent en  des mélanges de différents affects, elles se sont également efforcées de faire en sorte que  cette catégorisation automatique ne consiste pas obligatoirement en un choix forcé mais  puisse également rendre compte de tels mélanges (Vidrascu & Devillers, 2005b). Batliner  et al. (2005) ont, quant à eux, élaboré un système de classification automatique d’affects  exprimés  par des  enfants germanophones en interaction  avec  un  robot‐jouet  (Sony  AIBO®). Cette étude a été récemment prolongée dans un projet coopératif de grande  ampleur, dans lequel non seulement la classe d’affect exprimée mais également le degré  de prototypicalité ont été étudiés (Seppi et al., 2008). Les auteurs ont conclu que les  expressions  les  plus  prototypiques  parmi  celles  étudiées  n’étaient  pas  en  mesure  d’expliquer l’ensemble de la variance des expressions naturelles d’affects présentes dans  le corpus étudié, tendant à confirmer que les corpus d’expressions actées ne seraient pas  adaptés à la modélisation d’expressions spontanées d’affects dans la parole.