1.1. Les émotions dans la communication
La communication des émotions est considérée comme un fait majeur du discours (Fonagy & Magdics, 1963 ; Rossi et al., 1981 ; Ohala, 1996 ; Hirst & di Cristo, 1999).
Modéliser les performances communicatives des humains durant leurs interactions verbales (Bottineau, 2007), rendre un robot physique ou virtuel à même de simuler ces performances (Cassel, 2000), comprendre les mécanismes cognitifs sous‐jacents (Scherer et al., 2001) sont des enjeux de recherches centraux dans ce domaine. Chacun de ces objectifs scientifiques nous amène, dans le courant d’un remarquable regain d’intérêt pour ces questions, à mettre avec cette thèse les émotions au centre des processus de la communication. Au‐delà du cloisonnement classique entre cognition, affect et conation, des hypothèses fortes plus récentes en psychologie cognitive (voir Scherer (2000) pour un état de l’art) et neuropsychologie (Damasio, 1994) donnent aux émotions un statut central. A l’heure où les « sciences affectives » s’imposent comme un thème de recherche spécifique (un ouvrage de référence, le Handbook on Affective Sciences, leur a d’ailleurs été consacré en 2003, et un cycle de conférences internationales de grande ampleur dont le succès ne s’est pas démenti, Affective Computing and Intelligent Interaction, a vu le jour en 2005), les liens entre affects et cognition se retrouvent à la base des théories de l’émotion.
La perception des affects conditionne en amont le schéma attentionnel de l’humain (Paschler, 1997) ainsi que les mécanismes cognitifs de la prise de décisions. Frijda (1987) utilise la notion de préparation à l’action pour décrire les motivations liées à l’émotion.
Pour Damasio (1994, 2003), émotion et raison fonctionnent comme les deux composantes d’une seule entité psychologique émergente. Il affirme ainsi que la capacité d’exprimer et ressentir des émotions serait indispensable à la mise en œuvre des comportements rationnels. Ainsi l’émotion serait à la base de l’évaluation des processus cognitifs qui fondent ce qui a classiquement été appelé la « raison » : pour déclencher les traitements cognitifs (et donc les actions) appropriés à la situation, le sujet doit se trouver dans un état émotionnel adéquat. Cette hypothèse appliquée aux actes de paroles (Searle, 1969) est déterminante. Non seulement la production d’énoncés langagiers permettrait de véhiculer les émotions ressenties par le locuteur, mais celles‐ci seraient à l’origine même de la production d’un acte de parole plutôt qu’un autre, voire d’aucun acte de parole.
D’un point de vue applicatif, la production et la perception des indices émotionnels par un robot parlant en face‐à‐face avec un humain, peuvent sembler secondaires face aux casse‐têtes théorique et technologique rencontrés. Pourtant, lorsque les systèmes artificiels quittent le cadre confortable des situations courantes du dialogue personne‐
machine et s’inscrivent dans des situations d’interaction sensibles aux prises de décisions, les émotions n’ajoutent pas seulement du « naturel » mais ont un impact direct sur l’efficacité même de la communication. Par conséquent, il paraît légitime de supposer que la composante affective de la communication sera d’autant plus nécessaire que les systèmes artificiels s’inscriront dans des écologies proches du réel. Ainsi les concepteurs de tels systèmes devront s’interroger sur la façon d’éviter de perturber le mécanisme psychologique de l’attention, fortement lié aux émotions. En effet, Pashler (1997) souligne que l’accès à l’information est facilité et motivé par les variations émotionnelles.
De plus, ils devront prendre en compte une autre question toute aussi centrale, celle de la réaction d’un utilisateur humain lorsque son mécanisme d’empathie (dont les bases neurales commencent à être décrites (Harris, 2003)) fait face à un artefact communicant dont il ne peut éviter de traiter les indices émotionnels, même si ceux‐ci sont de simples biais non contrôlés par un système supposé ne produire que des énoncés déclaratifs. En effet, comme le souligne Daneš (1994), qui s’inscrit dans la tradition pragmatique de l’école de Prague, ne pas exprimer d’émotion ou d’attitude est en soi une attitude. Les énoncés présentés donnent donc, volontairement ou non, des informations sur la personnalité du sujet parlant humain ou virtuel, ce qui tendrait à réarticuler les enjeux de recherche autour du concept de «pertinence» du clone parlant, et plus particulièrement de la gestion de l’expressivité de sa parole. Cette dimension expressive est cependant, dans la plupart des systèmes de dialogue existants, considérée comme relevant des problèmes à résoudre lorsque la complexité strictement linguistique sera mieux maîtrisée.
Les avatars et autres chatterbots, en interaction communicative avec l’humain, commencent à être doués de croyances, de désirs et d’intentions (Belief, Desire & Intention (Rao & Georgeff, 1995)). Ainsi sont nés les Affective Agents au Medialab‐MIT (Picard, 1997), les Embodied Conversational Interface Agents (Cassel, 2000) ou encore les Believable Social and Emotional Agents du projet Oz (Bryan Loyall, 1996). Que doit‐on modéliser pour simuler les performances du vendeur qui « sait » vendre, avec des compétences langagières pourtant identiques au vendeur moins efficace ? Tant que la modalité est celle de l’écrit, les affects des agents prennent forme dans leurs stratégies interactionnelles et leur expressivité langagière. Mais ces technologies visent à terme la communication face‐à‐face : les clones parlants seront incarnés dans un corps et un visage. L’expression verbale ou non‐verbale est en premier lieu concernée, avec toute la complexité de la multi‐modalité faciale, gestuelle et parlée de ces expressions (voir par exemple Scherer & Ellgring (2007)).
Comme nous l’avons évoqué ci‐dessus, et malgré les écueils à la fois techniques et
faire passer la gestion des émotions exprimés par le clone virtuel à l’arrière plan serait sans doute contre productif. Ainsi, si l’on s’intéresse à la seule modalité de la parole transmise par le canal acoustique, cette problématique est d’ores et déjà centrale. En effet les récents progrès des technologies de la parole, et plus particulièrement la grande naturalité atteinte par la synthèse par sélection, ont redéfini les enjeux majeurs de la communication. L’intelligibilité du contenu n’est plus le seul vecteur d’information : l’opinion, les attitudes, les intentions, les émotions du sujet humain ou virtuel sont également des informations essentielles interprétées par l’auditeur, qui justifient les efforts de recherche croissants dans cette direction.
1.2. La prosodie expressive : questions de recherche
Les émotions, et de façon plus générale les affects, constituent un objet complexe difficile à définir. La question de leur interrelation avec la parole, et plus spécifiquement avec la prosodie (l’objet qui nous intéresse plus particulièrement dans cette thèse) peut sembler inextricable. En effet, les dimensions acoustiques de la prosodie qui permettent de véhiculer des informations d’ordre linguistique donnent également des informations sur le locuteur lui‐même (genre, âge, etc.), ainsi que sur l’état affectif dans lequel il se trouve au moment auquel il parle, et sur les intentions qu’il exprime consciemment ou non. S’il ne fait aucun doute que le cerveau humain est capable de traiter l’essentiel des nombreuses informations transmises par la prosodie et la voix, aucune des modélisations proposées à l’heure actuelle n’est en mesure de représenter de façon fine le décodage des différents niveaux d’information véhiculés par la prosodie.
Outre l’intérêt que revêt l’étude en tant que telle des mécanismes cognitifs mis en œuvre dans ce décodage, ceci a également des implications d’un point de vue applicatif. En effet, il serait envisageable de construire un système de reconnaissance automatique des affects exprimés dans la parole en ne considérant que les caractéristiques acoustiques les plus saillantes des affects visés, et sans une connaissance fine de la morphologie prosodique de ces affects. Pourtant, il ne semble pas possible de se passer de telles connaissances si l’on poursuit l’objectif de construire un système de synthèse de la parole expressive. Considérer que les indices les plus saillants, potentiellement suffisants en reconnaissance, le sont également en synthèse pour générer des formes expressives écologiquement valides reviendrait à considérer que toute expression d’affect dans la parole pourrait être réduite à une forme normalisée de variation des paramètres acoustiques. Cette variation serait alors paramétrisée par un ensemble de valeurs globales qu’il suffirait de rééchelonner pour obtenir des expressions d’affects bien formées, de valeurs différentes. Or, un tel postulat semble hasardeux. Pour l’illustrer par
une métaphore triviale, ceci serait comparable au fait de considérer que souffler dans une souris permettrait d’obtenir un éléphant.
L’étude des expressions prosodiques des affects, et plus spécifiquement celles des expressions d’émotions, soulève de nombreuses questions, parmi lesquelles nous soulignons celles qui nous semblent cruciales.
L’information affective véhiculée par la prosodie est‐elle portée par des indices gradients (c’est‐à‐dire par des valeurs globales de paramétrisation d’une forme de base) ou par des contours prosodiques (cʹest‐à‐dire par la dynamique de ses variations) ? Cette question implique les trois conséquences suivantes :
(1) Est‐il possible d’assurer la complétude de la modélisation dans l’optique de la synthèse ?
(2) Comment intégrer dans les mêmes dimensions les prosodies émotionnelle et linguistique ?
(3) Comment mesurer ces contours prosodiques alors que la mesure des phénomènes regroupés sous le terme de « qualité de voix » reste un problème non résolu ?
La prosodie émotionnelle est‐elle véhiculée prioritairement par certaines dimensions prosodiques, différentes de celles empruntées par la prosodie linguistique ? Cette question a principalement des conséquences sur la synthèse de la parole expressive.
En effet, l’application serait plus résistante si ces dimensions pouvaient contrôlées indépendamment.
Dans quelles mesures les expressions d’affects contrôlées volontairement sont‐elles équivalentes à celles contrôlées involontairement ? Si elles ne le sont pas, selon quels critères morphologiques sont‐elles discriminées ? Même si elles sont négligées dans la grande majorité des études du domaine, ces questions trouvent un certain écho depuis quelques années. Ce regain d’intérêt est dû à une remise en question plus large de l’idée, selon laquelle la parole émotionnelle produite par des acteurs ou simplement simulée par des locuteurs non entraînés fournirait une référence valide pour modéliser des phénomènes propres à l’expression spontanée d’émotions.
Dans quelle mesure les expressions dans la parole de différents types d’affects sont‐
elles régies par des universaux ? Cette dernière question peut paraître plus simple de prime abord. Cependant, ces différents types d’affects ne sont pas toujours clairement distingués, ni catégorisés de manière similaire selon les langues et les cultures. De plus, étant donné que leurs expressions sont instanciées dans des
la tendance à inhiber ou masquer certaines émotions en fonction de la situation dans laquelle celle‐ci apparaît (Scherer et al., 2001), l’évaluation de l’existence ou non de tels universaux soulève d’importants défis méthodologiques.
1.3. Présentation des travaux réalisés
En section 2, après un rapide aperçu de l’historique de l’étude des émotions, nous passons en revue les principales théories des émotions proposées en psychologie. Nous développons plus particulièrement les postulats établis en neuropsychologie à la suite de Damasio, ainsi que les théories cognitives de l’appraisal et en particulier la théorie de processus composants de Scherer.
En section 3, nous présentons un bref état de l’art des principales technologies de la parole expressive que sont la synthèse expressive et la classification automatique des affects exprimés à partir d’un flux de parole.
Nous abordons en section 4 la problématique de la définition de la prosodie et adoptons une approche fonctionnaliste. Nous présentons de façon détaillée la fonction expressive de la prosodie, les propositions issues de la phonostylistique et leur lien avec l’étude des expressions vocales issue de la psychologie, puis l’hypothèse d’une prosodie en contours superpositionnels dirigée par ses fonctions que propose Aubergé.
En section 5, nous dressons un état de l’art des différentes méthodes de recueil de corpus de parole émotionnelle, en soulignant pour chacune leurs avantages et inconvénients.
Nous présentons la plateforme logicielle E‐Wiz, que nous avons développée afin d’induire et recueillir des expressions authentiques d’affects selon un scénario de Magicien d’Oz. Nous détaillons les deux scénarios successifs mis en place à l’aide de cette plateforme, et plus particulièrement le second, Sound Teacher. Ce scénario imite un logiciel d’aide à l’apprentissage des langues étrangères, dans le but de collecter des expressions émotionnelles produites sur des énoncés pour la plupart monosyllabiques, hors de toute interaction sociale. Puis nous présentons l’extension de ce scénario, proposée pour les sujets acteurs, afin de leur faire rejouer sur les mêmes énoncés les états émotionnels ressentis et exprimés au cour de l’expérience. Nous discutons enfin les différentes approches de l’annotation des affects exprimés dans les corpus spontanés, et proposons, en nous appuyant sur la littérature relative à la mémoire autobiographique, un protocole d’auto‐annotation des affects ressentis et exprimés par les sujets de l’expérience.
En section 6, nous présentons la mise en œuvre du scénario Sound Teacher pour l’enregistrement d’un corpus multimodal de 17 locuteurs (10 femmes, 7 hommes) dont 7 acteurs, corpus sur lequel nous avons fondé les analyses présentées dans la suite de cette
thèse. Nous détaillons les signaux enregistrés ainsi que leur synchronisation et leur prétraitement.
Nous abordons en section 7 la notion de qualité de voix et commençons par présenter sa description phonétique dans la littérature avant de passer en revue les différentes approches proposées pour sa mesure et son étude. Nous présentons également les résultats d’une expérience visant à évaluer, sur les productions spontanées de deux locuteurs masculins, la validité pour des mesures fines de type suivi de contour d’un algorithme d’extraction du paramètre NAQ opérant par filtrage inverse et auparavant validé sur un corpus expressif spontané de très grande taille, en confrontant ces mesures à des mesures électroglottographiques.
En section 8, après avoir présenté les principaux outils d’analyse statistique auxquels nous avons recours dans nos analyses de résultats perceptifs, nous proposons une analyse perceptive et acoustique d’énoncés monosyllabiques sélectionnés à partir des productions de l’un des locuteurs masculins, dans laquelle nous nous efforçons d’évaluer séparément les différentes dimensions prosodiques. Nous étudions tout d’abord les formes de contours d’expressions actées et spontanées produites par ce locuteur, puis présentons les résultats d’une évaluation perceptive d’énoncés actés en conditions audio et audiovisuelle.
En section 9, ous présentons les résultats de deux études d’évaluation perceptive fondées sur une projection séparée de dimensions prosodiques (à l’aide de TD‐PSOLA et de l’algorithme ARX‐LF) d’énoncés actés sélectionnés parmi les productions du même locuteur. Enfin, nous détaillons les résultats d’une étude de dévoilement progressif d’énoncés actés.
Nous nous intéressons en section 10 aux résultats d’une étude perceptive portant sur les déterminants de la typicalité d’expressions émotionnelles actée et spontanées produites par 6 des 7 acteurs enregistrés. Ensuite, nous présentons les résultats d’une étude de discrimination d’expressions actées et spontanées produites par les mêmes locuteurs.
En section 11, nous revenons sur quelques limites de l’étude que nous avons réalisée, avant de conclure en section 12 en récapitulant les principaux résultats que nous obtenons et d’ouvrir en section 13 sur quelques perspectives.