3. Technologies de la parole expressive
3.2. Reconnaissance automatique des affects
Parallèlement à l’accroissement des efforts de recherche visant la synthèse de parole expressive, l’autre grand domaine d’application du traitement automatique de la parole qu’est la reconnaissance automatique s’est également intéressé à la reconnaissance automatique des affects exprimés par un locuteur.
Deux types principaux dʹapplication coexistent dans le domaine de la reconnaissance automatique appliquée à des signaux de parole. Dʹune part, la reconnaissance de la parole a pour objectif la transcription automatique du message prononcé par le locuteur.
Dʹautre part, la reconnaissance automatique du locuteur s’intéresse à lʹauteur du message et cherche à repérer les informations permettant son identification.
Autant dans le cas de la reconnaissance automatique de la parole que de la reconnaissance automatique du locuteur, l’extraction de l’information acoustique se fait au moyen d’un nombre souvent élevé de paramètres acoustiques. L’appariement des informations acoustiques et des phonèmes, mots ou locuteurs visés, se fait ensuite au moyen de modèles probabilistes.
La reconnaissance des affects consiste en pratique en une catégorisation des affects parmi un ensemble prédéfini, généralement d’étendue limitée, d’étiquettes ou de classes considérées (voir section 8 pour une discussion de la problématique de la reconnaissance vs. la discrimination d’affects dans le cadre d’évaluations perceptives d’affects). Le nombre de paramètres acoustiques utilisé dans ce cadre est très élevé, ces paramètres étant en grande partie redondants. En effet, dans le cas général, la quantité la plus importante possible de paramètres supposés différents et susceptibles de mesurer une partie de l’information acoustique est retenue. Le jeu de paramètres est, par la suite, restreint par des méthodes statistiques de réduction de données à un nombre fixé de
« meilleurs paramètres » permettant d’expliquer la part la plus importante de la variance mesurée (par exemple 16 paramètres dans le cas de l’étude menée par Ververidis et al.
(2004)).
Le jeu de paramètres initial inclut généralement des mesures diverses de durée, des caractéristiques des distributions de la fréquence fondamentale et de l’énergie, divers paramètres spectraux et cepstraux (notamment les coefficients MFCC qui ont fait la preuve de leur efficacité dans les champs d’application plus classiques de la reconnaissance automatique). Il peut comprendre également des paramètres supposés capturer plus explicitement des phénomènes liés à la qualité de voix. Lorsque le contenu
du message est inclus dans les données traitées dans le but de déterminer l’affect exprimé par le locuteur, des paramètres relatifs aux informations lexicales, aux actes de langage ou encore à des interprétations sémantiques de plus haut niveau peuvent également être pris en compte. Une description des 4244 paramètres utilisés dans la plus vaste étude de reconnaissance automatique des affects réalisée à ce jour est présentée par Schuller et al. (2007).
3.2.2 Bref état de l’art
La plupart des études portant sur la classification automatique d’émotions ou autres affects exprimés dans la parole se sont appuyées sur des corpus actés construits de façon à faire varier systématiquement les affects sur des énoncés constants (cf. section 5 pour une discussion des différents types de corpus de parole expressive et de leurs implications). En particulier, deux corpus de ce type, accessibles librement pour des utilisation non‐commerciales, ont été utilisés dans ce cadre. Il sʹagit du corpus allemand Berlin emotional speech database (Burkhardt et al., 2005) et dans une moindre mesure du corpus danois Danish Emotional Speech (Engberg & Hansen, 1996). Quelques études ont pris en compte de façon conjointe les informations données par la face et la parole pour améliorer les performances en classification automatique des affects exprimés (voir par exemple Busso et al. (2004)).
Plus proche des données naturelles, l’application de la classification automatique d’états affectifs à des données tirées de films peut également être mentionnée. Ainsi Clavel (2007) a proposé une méthode de détection d’états affectifs proches de la peur, étalonnée sur des données extraites de films d’épouvante.
Dans le champ de la reconnaissance automatique des affects, de façon plus marquée que dans celui de la synthèse vocale, l’idée s’est imposée que les corpus d’émotions actées, et tout particulièrement ceux constitués d’expressions prototypiques, ne seraient pas représentatifs des affects exprimés naturellement et ne permettraient pas d’élaborer des systèmes de reconnaissance automatiques efficaces sur des données réelles (voir notamment Batliner (2003a)). Au cours des dernières années, de nombreuses études ont donc cherché à caractériser les affects exprimés dans des données spontanées, ce qui a impulsé un effort de recherche particulier en direction de l’annotation des affects exprimés dans ce type de données, afin de fournir une référence fiable pour l’entraînement des systèmes automatiques de classification comme pour la validation des résultats obtenus (cf. section 5 pour une discussion sur la problématique de l’annotation de données spontanées).
Ainsi, Vidrascu & Devillers (2005a) ont mis au point un système de catégorisation automatique des affects exprimés en français par des usagers d’un centre d’appel.
Constatant que les expressions d’affects exprimés naturellement consistent souvent en des mélanges de différents affects, elles se sont également efforcées de faire en sorte que cette catégorisation automatique ne consiste pas obligatoirement en un choix forcé mais puisse également rendre compte de tels mélanges (Vidrascu & Devillers, 2005b). Batliner et al. (2005) ont, quant à eux, élaboré un système de classification automatique d’affects exprimés par des enfants germanophones en interaction avec un robot‐jouet (Sony AIBO®). Cette étude a été récemment prolongée dans un projet coopératif de grande ampleur, dans lequel non seulement la classe d’affect exprimée mais également le degré de prototypicalité ont été étudiés (Seppi et al., 2008). Les auteurs ont conclu que les expressions les plus prototypiques parmi celles étudiées n’étaient pas en mesure d’expliquer l’ensemble de la variance des expressions naturelles d’affects présentes dans le corpus étudié, tendant à confirmer que les corpus d’expressions actées ne seraient pas adaptés à la modélisation d’expressions spontanées d’affects dans la parole.