• Aucun résultat trouvé

1.1.  Les émotions dans la communication 

La  communication  des émotions  est considérée comme un fait majeur du discours  (Fonagy & Magdics, 1963 ; Rossi et al., 1981 ; Ohala, 1996 ; Hirst & di Cristo, 1999). 

Modéliser  les  performances  communicatives  des  humains  durant  leurs  interactions  verbales (Bottineau, 2007), rendre un robot physique ou virtuel à même de simuler ces  performances (Cassel, 2000), comprendre les mécanismes cognitifs sous‐jacents (Scherer  et al., 2001) sont des enjeux de recherches centraux dans ce domaine. Chacun de ces  objectifs scientifiques nous amène, dans le courant d’un remarquable regain d’intérêt  pour ces questions, à mettre avec cette thèse les émotions au centre des processus de la  communication. Au‐delà du cloisonnement classique entre cognition, affect et conation,  des hypothèses fortes plus récentes en psychologie cognitive (voir Scherer (2000) pour un  état  de l’art)  et neuropsychologie (Damasio,  1994) donnent  aux émotions  un statut  central. A l’heure où les « sciences affectives » s’imposent comme un thème de recherche  spécifique (un ouvrage de référence, le Handbook on Affective Sciences, leur a d’ailleurs été  consacré en 2003, et un cycle de conférences internationales de grande ampleur dont le  succès ne s’est pas démenti, Affective Computing and Intelligent Interaction, a vu le jour en  2005), les liens entre affects et cognition se retrouvent à la base des théories de l’émotion. 

La perception des affects conditionne en amont le schéma attentionnel de l’humain  (Paschler, 1997) ainsi que les mécanismes cognitifs de la prise de décisions. Frijda (1987)  utilise la notion de préparation à l’action pour décrire les motivations liées à l’émotion. 

Pour Damasio (1994, 2003), émotion et raison fonctionnent comme les deux composantes  d’une seule entité psychologique émergente. Il affirme ainsi que la capacité d’exprimer et  ressentir des émotions serait indispensable à la mise en  œuvre des comportements  rationnels. Ainsi l’émotion serait à la base de l’évaluation des processus cognitifs qui  fondent ce qui a classiquement été appelé la « raison » : pour déclencher les traitements  cognitifs (et donc les actions) appropriés à la situation, le sujet doit se trouver dans un  état émotionnel adéquat. Cette hypothèse appliquée aux actes de paroles (Searle, 1969)  est déterminante. Non seulement la production d’énoncés langagiers permettrait de  véhiculer les émotions ressenties par le locuteur, mais celles‐ci seraient à l’origine même  de la production d’un acte de parole plutôt qu’un autre, voire d’aucun acte de parole. 

D’un point de vue applicatif, la production et la perception des indices émotionnels par  un robot parlant en face‐à‐face avec un humain, peuvent sembler secondaires face aux  casse‐têtes  théorique  et  technologique  rencontrés.  Pourtant,  lorsque  les  systèmes  artificiels quittent le cadre confortable des situations courantes du dialogue personne‐

machine  et  s’inscrivent  dans  des  situations  d’interaction  sensibles  aux  prises  de  décisions, les émotions n’ajoutent pas seulement du « naturel » mais ont un impact direct  sur l’efficacité même de la communication. Par conséquent, il paraît légitime de supposer  que la composante affective de la communication sera d’autant plus nécessaire que les  systèmes artificiels s’inscriront dans des écologies proches du réel. Ainsi les concepteurs  de tels systèmes devront s’interroger sur la façon d’éviter de perturber le mécanisme  psychologique  de  l’attention,  fortement  lié  aux  émotions.  En  effet,  Pashler  (1997)  souligne que l’accès à l’information est facilité et motivé par les variations émotionnelles. 

De plus, ils devront prendre en compte une autre question toute aussi centrale, celle de  la réaction d’un utilisateur humain lorsque son mécanisme d’empathie (dont les bases  neurales commencent à être décrites (Harris, 2003)) fait face à un artefact communicant  dont il ne peut éviter de traiter les indices émotionnels, même si ceux‐ci sont de simples  biais non contrôlés par un système supposé ne produire que des énoncés déclaratifs. En  effet, comme le souligne Daneš (1994), qui s’inscrit dans la tradition pragmatique de  l’école de Prague, ne pas exprimer d’émotion ou d’attitude est en soi une attitude. Les  énoncés  présentés  donnent  donc,  volontairement  ou  non,  des  informations  sur  la  personnalité du sujet parlant humain ou virtuel, ce qui tendrait à réarticuler les enjeux de  recherche autour du concept de «pertinence» du clone parlant, et plus particulièrement  de la gestion de l’expressivité de sa parole. Cette dimension expressive est cependant,  dans la plupart des systèmes de dialogue existants, considérée comme relevant des  problèmes  à  résoudre  lorsque  la  complexité  strictement  linguistique  sera  mieux  maîtrisée. 

Les  avatars  et  autres  chatterbots,  en  interaction  communicative  avec  l’humain,  commencent à être doués de croyances, de désirs et d’intentions (Belief, Desire & Intention  (Rao & Georgeff, 1995)). Ainsi sont nés les Affective Agents au Medialab‐MIT (Picard,  1997), les Embodied Conversational Interface Agents (Cassel, 2000) ou encore les Believable  Social and Emotional Agents du projet Oz (Bryan Loyall, 1996). Que doit‐on modéliser  pour simuler les performances du vendeur qui « sait » vendre, avec des compétences  langagières pourtant identiques au vendeur moins efficace ? Tant que la modalité est  celle  de  l’écrit,  les  affects  des  agents  prennent  forme  dans  leurs  stratégies  interactionnelles et leur expressivité langagière. Mais ces technologies visent à terme la  communication face‐à‐face : les clones parlants seront incarnés dans un corps et un  visage. L’expression verbale ou non‐verbale est en premier lieu concernée, avec toute la  complexité de la multi‐modalité faciale, gestuelle et parlée de ces expressions (voir par  exemple Scherer & Ellgring (2007)). 

Comme nous l’avons évoqué ci‐dessus, et malgré les écueils à la fois techniques et 

faire passer la gestion des émotions exprimés par le clone virtuel à l’arrière plan serait  sans doute contre productif. Ainsi, si l’on s’intéresse à la seule modalité de la parole  transmise par le canal acoustique, cette problématique est d’ores et déjà centrale. En effet  les récents progrès des technologies de la parole, et plus particulièrement la grande  naturalité atteinte par la synthèse par sélection, ont redéfini les enjeux majeurs de la  communication. L’intelligibilité du contenu n’est plus le seul vecteur d’information :  l’opinion, les attitudes, les intentions, les émotions du sujet humain ou virtuel sont  également des  informations essentielles interprétées  par  l’auditeur, qui justifient les  efforts de recherche croissants dans cette direction. 

1.2.  La prosodie expressive : questions de recherche 

Les émotions, et de façon plus générale les affects, constituent un objet complexe difficile  à définir. La question de leur interrelation avec la parole, et plus spécifiquement avec la  prosodie (l’objet qui nous intéresse plus particulièrement dans cette thèse) peut sembler  inextricable.  En  effet, les  dimensions acoustiques de  la prosodie qui permettent  de  véhiculer des informations d’ordre linguistique donnent également des informations sur  le locuteur lui‐même (genre, âge, etc.), ainsi que sur l’état affectif dans lequel il se trouve  au moment auquel il parle, et sur les intentions qu’il exprime consciemment ou non. S’il  ne  fait  aucun  doute  que  le  cerveau  humain  est  capable  de  traiter  l’essentiel  des  nombreuses informations transmises par la prosodie et la voix, aucune des modélisations  proposées à l’heure actuelle n’est en mesure de représenter de façon fine le décodage des  différents niveaux d’information véhiculés par la prosodie.  

Outre l’intérêt que revêt l’étude en tant que telle des mécanismes cognitifs mis en œuvre  dans ce décodage, ceci a également des implications d’un point de vue applicatif. En  effet, il serait envisageable de construire un système de reconnaissance automatique des  affects exprimés dans la parole en ne considérant que les caractéristiques acoustiques les  plus  saillantes  des  affects  visés,  et  sans  une  connaissance  fine  de  la  morphologie  prosodique de ces affects. Pourtant, il ne semble pas possible de se passer de telles  connaissances si l’on poursuit l’objectif de construire un système de synthèse de la parole  expressive. Considérer que les indices les plus saillants, potentiellement suffisants en  reconnaissance, le sont également en synthèse pour générer des formes expressives  écologiquement valides reviendrait à considérer que toute expression d’affect dans la  parole  pourrait  être  réduite  à  une  forme  normalisée  de  variation  des  paramètres  acoustiques.  Cette  variation  serait  alors  paramétrisée  par  un  ensemble  de  valeurs  globales  qu’il  suffirait  de  rééchelonner  pour  obtenir  des  expressions  d’affects  bien  formées, de valeurs différentes. Or, un tel postulat semble hasardeux. Pour l’illustrer par 

une métaphore triviale, ceci serait comparable au fait de considérer que souffler dans  une souris permettrait d’obtenir un éléphant. 

L’étude  des  expressions  prosodiques  des  affects,  et  plus  spécifiquement  celles  des  expressions  d’émotions,  soulève  de  nombreuses  questions,  parmi  lesquelles  nous  soulignons celles qui nous semblent cruciales. 

 L’information  affective véhiculée par  la  prosodie  est‐elle  portée  par des  indices  gradients (c’est‐à‐dire par des valeurs globales de paramétrisation d’une forme de  base)  ou  par  des  contours  prosodiques  (cʹest‐à‐dire  par  la  dynamique  de  ses  variations) ? Cette question implique les trois conséquences suivantes :  

(1) Est‐il possible d’assurer la complétude de la modélisation dans l’optique de la  synthèse ? 

(2) Comment intégrer dans les mêmes dimensions les prosodies émotionnelle et  linguistique ? 

(3) Comment  mesurer  ces  contours  prosodiques  alors  que  la  mesure  des  phénomènes regroupés sous le terme de « qualité de voix » reste un problème  non résolu ? 

 La prosodie émotionnelle est‐elle véhiculée prioritairement par certaines dimensions  prosodiques, différentes de celles empruntées par la prosodie linguistique ? Cette  question a principalement des conséquences sur la synthèse de la parole expressive. 

En effet, l’application serait plus résistante si ces dimensions pouvaient contrôlées  indépendamment. 

 Dans quelles mesures les expressions d’affects contrôlées volontairement sont‐elles  équivalentes à celles contrôlées involontairement ? Si elles ne le sont pas, selon quels  critères morphologiques sont‐elles discriminées ? Même si elles sont négligées dans  la grande majorité des études du domaine, ces questions trouvent un certain écho  depuis quelques années. Ce regain d’intérêt est dû à une remise en question plus  large de l’idée, selon laquelle la parole émotionnelle produite par des acteurs ou  simplement simulée par des locuteurs non entraînés fournirait une référence valide  pour modéliser des phénomènes propres à l’expression spontanée d’émotions. 

 Dans quelle mesure les expressions dans la parole de différents types d’affects sont‐

elles régies par des universaux ? Cette dernière question peut paraître plus simple de  prime  abord.  Cependant,  ces  différents  types  d’affects  ne  sont  pas  toujours  clairement distingués, ni catégorisés de manière similaire selon les langues et les  cultures.  De  plus,  étant  donné  que  leurs  expressions  sont  instanciées  dans  des 

la tendance à inhiber ou masquer certaines émotions en fonction de la situation dans  laquelle celle‐ci apparaît (Scherer et al., 2001), l’évaluation de l’existence ou non de  tels universaux soulève d’importants défis méthodologiques. 

1.3.  Présentation des travaux réalisés 

En section 2, après un rapide aperçu de l’historique de l’étude des émotions, nous  passons en revue les principales théories des émotions proposées en psychologie. Nous  développons plus particulièrement les postulats établis en neuropsychologie à la suite de  Damasio, ainsi que les théories cognitives de l’appraisal et en particulier la théorie de  processus composants de Scherer. 

En section 3, nous présentons un bref état de l’art des principales technologies de la  parole expressive que sont la synthèse expressive et la classification automatique des  affects exprimés à partir d’un flux de parole. 

Nous abordons en section 4 la problématique de la définition de la prosodie et adoptons  une approche fonctionnaliste. Nous présentons de façon détaillée la fonction expressive  de la prosodie, les propositions issues de la phonostylistique et leur lien avec l’étude des  expressions vocales issue de la psychologie, puis l’hypothèse d’une prosodie en contours  superpositionnels dirigée par ses fonctions que propose Aubergé. 

En section 5, nous dressons un état de l’art des différentes méthodes de recueil de corpus  de parole émotionnelle, en soulignant pour chacune leurs avantages et inconvénients. 

Nous  présentons  la  plateforme  logicielle  E‐Wiz,  que  nous  avons  développée  afin  d’induire  et  recueillir  des  expressions  authentiques  d’affects  selon  un  scénario  de  Magicien d’Oz. Nous détaillons les deux scénarios successifs mis en place à l’aide de  cette plateforme, et plus particulièrement le second, Sound Teacher. Ce scénario imite un  logiciel d’aide à l’apprentissage des langues étrangères, dans le but de collecter des  expressions émotionnelles produites sur des énoncés pour la plupart monosyllabiques,  hors  de  toute  interaction  sociale.  Puis  nous  présentons  l’extension  de  ce  scénario,  proposée pour les sujets acteurs, afin de leur faire rejouer sur les mêmes énoncés les états  émotionnels ressentis et exprimés au cour de l’expérience. Nous discutons enfin les  différentes approches de l’annotation des affects exprimés dans les corpus spontanés, et  proposons, en nous appuyant sur la littérature relative à la mémoire autobiographique,  un  protocole  d’auto‐annotation  des  affects  ressentis  et  exprimés  par  les  sujets  de  l’expérience. 

En  section 6,  nous  présentons  la  mise en œuvre du  scénario  Sound  Teacher  pour  l’enregistrement d’un corpus multimodal de 17 locuteurs (10 femmes, 7 hommes) dont 7  acteurs, corpus sur lequel nous avons fondé les analyses présentées dans la suite de cette 

thèse. Nous détaillons les signaux enregistrés ainsi que leur synchronisation et leur  prétraitement. 

Nous abordons en section 7 la notion de qualité de voix et commençons par présenter sa  description  phonétique  dans  la littérature  avant  de  passer en revue  les  différentes  approches proposées pour sa  mesure et son étude. Nous présentons  également les  résultats d’une expérience visant à évaluer, sur les productions spontanées de deux  locuteurs masculins, la validité pour des mesures fines de type suivi de contour d’un  algorithme d’extraction du paramètre NAQ opérant par filtrage inverse et auparavant  validé sur un corpus expressif spontané de très grande taille, en confrontant ces mesures  à des mesures électroglottographiques. 

En section 8, après avoir présenté les principaux outils d’analyse statistique auxquels  nous avons recours  dans nos  analyses  de résultats perceptifs,  nous proposons une  analyse perceptive et acoustique d’énoncés monosyllabiques sélectionnés à partir des  productions  de  l’un  des  locuteurs  masculins,  dans  laquelle  nous  nous  efforçons  d’évaluer  séparément  les  différentes  dimensions  prosodiques.  Nous  étudions  tout  d’abord les formes de contours d’expressions actées et spontanées produites par ce  locuteur, puis présentons les résultats d’une évaluation perceptive d’énoncés actés en  conditions audio et audiovisuelle. 

En section 9, ous présentons les résultats de deux études d’évaluation perceptive fondées  sur une projection séparée de dimensions prosodiques (à l’aide de TD‐PSOLA et de  l’algorithme ARX‐LF)  d’énoncés  actés  sélectionnés  parmi les productions du  même  locuteur. Enfin, nous détaillons les résultats d’une étude  de dévoilement progressif  d’énoncés actés. 

Nous nous intéressons en section 10 aux résultats d’une étude perceptive portant sur les  déterminants de la typicalité d’expressions émotionnelles actée et spontanées produites  par 6 des 7 acteurs enregistrés. Ensuite, nous présentons les résultats d’une étude de  discrimination d’expressions actées et spontanées produites par les mêmes locuteurs. 

En section 11, nous revenons sur quelques limites de l’étude que nous avons réalisée,  avant  de  conclure  en  section  12  en  récapitulant  les  principaux  résultats  que  nous  obtenons et d’ouvrir en section 13 sur quelques perspectives.