• Aucun résultat trouvé

3. Technologies de la parole expressive

3.1. Synthèse expressive

Nous n’abordons pas dans cette section l’intégralité des systèmes de synthèse expressive  proposés dans  la  littérature,  et  nous  contentons  de  mentionner  quelques  exemples  représentatifs des différentes approches de cette problématique complexe, sans entrer  dans les détails des résultats obtenus par ces études. La grande majorité des systèmes  proposés s’est appuyée sur le principe de la synthèse à partir du texte (voir notamment  Dutoit (1997)), dont le principe général est de procéder à une phonétisation et, dans la  plupart des cas, à une analyse morpho‐syntaxique d’un texte inconnu fourni en entrée  du système sous forme écrite, avant de transformer ce texte en parole synthétique. La  phonétisation  d’un  texte  écrit  est  en  elle‐même  un  problème  complexe,  que  nous  n’aborderons  pas  ici.  Les  résultats  de  l’analyse  morpho‐syntaxique  réalisée  sont  généralement  utilisés  pour  appliquer  des  règles  de  transformation  prosodiques  et  notamment  des  contours  de  fréquence  fondamentale,  afin  de  réaliser  les  fonctions  linguistiques de la prosodie que sont la segmentation/hiérarchisation et la modalisation  ou, plus rarement, la focalisation. L’objectif visé par la plupart des systèmes de synthèse  vocale  qui  ont  été  développés,  et  atteint  en  grande  partie  par  ceux  développés  récemment, est de parvenir à générer des énoncés assimilables à de la parole naturelle  lue parfaitement intelligible. Comme nous l’avons mentionné en introduction, avec les  progrès récents des systèmes de synthèse par corpus et la réalisation de cet objectif  majeur des systèmes de synthèse à partir du texte, l’enjeu de la synthèse de la parole  s’est déplacé de l’intelligibilité et de la naturalité vers la pertinence de l’énoncé généré en  fonction  du  contexte  d’énonciation.  En  conséquence,  l’intégration  d’une  dimension  expressive à ces systèmes est devenu un objectif central, d’où les efforts de recherche  croissants dans cette direction depuis les premiers jalons posés notamment par Janet  Cahn au début des années 1990. 

Schröder (2001) dresse un état de l’art des systèmes de synthèse de la parole expressive,  et propose une taxonomie des approches proposées dans la littérature en fonction de la  méthode de synthèse utilisée. Nous nous appuyons sur cette taxonomie pour présenter  des exemples que nous jugeons représentatifs, en complétant d’exemples plus récents  lorsque cela nous semble utile. 

3.1.2 Synthèse par formants 

La synthèse par formants, parfois appelée synthèse par règles, est la méthode dont le 

dans le cadre d’une approche entièrement automatisée. Cependant, cette méthode est  également la plus flexible, et permet une synthèse de qualité lorsqu’elle est contrôlée  manuellement de façon fine. En effet, son principe est de générer dans leur intégralité les  sons  de  parole  produits  à  partir  de  modèles  acoustiques,  sans  réutiliser  des  enregistrements préexistants. L’exemple le plus répandu de synthèse par formants est le  système DECtalk (Hallahan, 1996). Dans le domaine de la synthèse de parole expressive,  le système pionnier Affects Editor de Cahn (1990) et le système HAMLET de Murray & 

Arnott (1995) peuvent notamment être mentionnés. Dans les deux cas, les règles de  modification de la sortie du synthétiseur DECtalk ont été établies à partir d’une revue de  littérature sur l’encodage des expressions émotionnelles dans la parole. En dépit du  manque de naturalité généralement lié à la synthèse par formant, ces systèmes ont  permis de générer des énoncés de parole synthétique de qualité suffisante pour être  correctement classifiés à un niveau supérieur au hasard dans une tâche de catégorisation  perceptive. 

3.1.3 Synthèse par concaténation 

La  synthèse  par  concaténation,  dont  l’exemple  le  plus  répandu  est  le  système  multilingue distribué librement MBROLA1 (Dutoit et al., 1996), permet d’atteindre un  degré d’intelligibilité et de naturalité supérieur, sans pour autant pouvoir passer pour  une voix naturelle. Le principe de ce type de système de synthèse est de s’appuyer sur  une base de diphones, enregistrés par un même locuteur pour une langue cible donnée,  et permettant de couvrir l’ensemble des combinaisons de deux phonèmes consécutifs de  cette langue. Les diphones sont constitués de portions de signal s’étendant du milieu  d’un phone au milieu du suivant. Ils sont généralement enregistrés avec une prosodie  neutre. La synthèse de la chaîne sonore est alors fondée sur une concaténation de la suite  de diphones  correspondant au texte phonétisé, suivie de l’application de règles  de  transformation  prosodiques  fondées  sur  un  modèle  de  durée  et  de  variations  de  fréquence fondamentale. Ces modifications prosodiques sont le plus souvent réalisées  par l’algorithme TD‐PSOLA (Moulines & Laroche, 1995). 

La technique de la synthèse par diphones a été utilisée pour construire des systèmes de  synthèse de parole expressive, avec deux types distincts de transformations prosodiques. 

La  plus  répandue  a  été  celle  de  l’analyse/synthèse,  dans  laquelle  les  variations  prosodiques d’un énoncé naturel véhiculant l’affect visé sont extraites et appliquées à         

1 Le système MBROLA ainsi que des bases de diphones pour un ensemble étendu de langues est  téléchargeable librement à l’URL http://tcts.fpms.ac.be/synthesis/mbrola.html 

l’énoncé synthétisé. Cette méthode a, par exemple, été adoptée par Montero et al. (1999). 

L’approche plus ambitieuse de la modification de la prosodie par règles n’a à notre  connaissance pas été appliquée dans le cadre d’un système complet de synthèse à partir  du texte, mais l’a été avec l’objectif de confronter les prédictions d’un modèle à la  perception  que  peuvent  avoir  des  auditeurs  naïfs  des  énoncés  synthétiques  correspondants. Cette approche a, par exemple, été retenue par Mozziconnacci (1999),  qui  a  proposé  une  modélisation  de  contours  de  fréquence  fondamentale  supposés  véhiculer un ensemble d’affects. 

Comme le souligne Schröder (2001), la synthèse par concaténation ne permet pas de  manipuler directement la qualité de voix, et la question de la possibilité de générer des  expressions vocales d’affects sans prendre en compte la qualité de voix s’est donc posée  de façon récurrente dans les études ayant eu recours à cette méthode de synthèse. La  revue de littérature réalisée par Schröder (2001) aboutit à des résultats divergents quant  à cette possibilité, certaines émotions produites par certains locuteurs semblant être  véhiculées efficacement par de simples modifications de fréquence fondamentale et de  durée. Il conclut toutefois que la possibilité d’étendre ces résultats à l’ensemble des types  d’émotions existants n’est pas avérée. 

3.1.4 Synthèse par sélection 

Le principe de la synthèse par sélection, ou synthèse par corpus, est à la base de la  plupart des systèmes de synthèse actuels de qualité professionnelle. Le plus abouti des  systèmes de synthèse du français existants à l’heure actuelle est de notre point de vue  celui développé par Orange‐labs2. Un tel système de synthèse repose sur un corpus de  taille importante produit par un même locuteur, étiqueté avec précision, comprenant des  phrases phonétiquement équilibrées, et dépassant très largement la couverture minimale  de la langue visée telle qu’elle est réalisée par les bases de diphones des systèmes de  synthèse par concaténation. De même que dans le cas de la synthèse par concaténation,  la génération de la chaîne sonore est réalisée en concaténant des unités extraites du  corpus de parole naturelle sur lequel s’appuie le système de synthèse. Ces unités sont en  revanche choisies comme les plus longues possibles répondant aux différents critères de  sélection, qui ne se réduisent pas à l’adéquation de la suite de phonème à celle du  message à synthétiser, incluant également des critères prosodiques. Ainsi, les unités  sélectionnées préalablement à l’étape de concaténation consistent en des extraits des         

2 Une démonstration en ligne de ce système de synthèse, qui équipe par ailleurs un grand nombre de 

phrases constituant le corpus, en adéquation avec la suite de phonèmes à produire et  porteurs d’une prosodie la plus proche possible de celle du message à synthétiser telle  que prédite par le modèle utilisé à la suite de l’analyse morpho‐syntaxique. Un lissage  des unités concaténées est alors réalisé, complété par l’application de transformations  prosodiques si nécessaire. Cependant ces modifications du signal, à l’origine du manque  de naturalité des systèmes de synthèse par concaténation de diphones, sont réduites au  minimum. Le cas idéal de la synthèse par sélection consiste ainsi en la synthèse d’un  énoncé identique, selon l’ensemble des critères retenus, à l’un des énoncés présents dans  le corpus de base qui est alors restitué sans qu’aucune modification du signal ne soit  nécessaire. Le cas d’une erreur de prétraitement (lors de l’étape de phonétisation ou  d’analyse morpho‐syntaxique) mis à part, les systèmes les plus évolués de synthèse  vocale par sélection permettent de transmettre le message fourni par écrit en entrée avec,  dans la grande majorité des cas, une intelligibilité supérieure à celle atteinte par les  systèmes de synthèse par concaténation. De plus, la synthèse par sélection atteint un  degré de naturalité très élevé, à tel point que la plupart des énoncés synthétisés par ces  systèmes peuvent aisément passer pour de la parole lue naturelle. Cependant dans les  cas marginaux, d’autant plus rares que la base de données de parole étiquetée utilisée est  étendue, pour lesquels des unités inappropriées doivent être choisies, les résultats de ces  systèmes de synthèse peuvent être localement de piètre qualité. 

Parmi  les  systèmes de  synthèse  ayant  directement  tiré  parti  de  la technique  de  la  synthèse par corpus, le système développé par Iida et al. (2003) s’appuie sur une base de  données de parole étiquetée de grande taille, dans laquelle chacune des 525 phrases  constituant le corpus est produite en triple exemplaire, en simulant une expression de  joie, de colère ou de tristesse. Le système de synthèse proprement dit est le système  CHATR (Campbell & Black, 1997), dans lequel les critères de sélection des unités à  concaténer sont étendus au choix de l’émotion à produire parmi les trois cités ci‐dessus. 

Bien que des confusions puissent être observées, les énoncés générés par ce système ont  été jugés majoritairement comme exprimant l’émotion visée. 

Marumoto & Campbell (2000), cité par Schröder (2001), plutôt que de dupliquer le  corpus utilisé pour chacune des émotions visées identiques à celles adoptées par Iida et  al. (2003), ont utilisé un corpus commun en sélectionnant les unités en fonction de  critères prosodiques et de qualité de voix. L’évaluation des énoncés synthétisés a montré  que les expressions de colère et de tristesse étaient reconnues mais pas celles de joie. 

D’autres  approches de la  synthèse expressive  par corpus  s’écartent de l’objectif  de  générer  des  émotions  dites  « de  base »  et  visent  d’autres  aspects  de  l’expressivité  prosodique. Syrdal & Kim  (2008) se sont ainsi  appuyés  sur  une base étiquetée en 

fonction, non seulement de critères phonétiques et prosodiques, mais également d’actes  de parole. Bien que les auteurs n’y fassent pas explicitement référence, la taxonomie des  actes de parole qu’ils retiennent est similaire à celle introduite par Searle (1969, 1975),  notamment en ce qui concerne les actes de parole dits « affectifs ». L’enrichissement du  système de synthèse par sélection d’AT&T qu’ils proposent permet ainsi de favoriser  dans le processus de sélection les unités correspondant à l’acte de parole visé pour  l’énoncé synthétisé. 

Enfin,  l’approche  la  plus  novatrice  de  la  synthèse  de  la  parole  expressive  est  probablement celle proposée par Suciu et al. (2006a, 2006b) et Kanellos et al. (2007). Celle‐

ci repose sur un corpus de textes de différents types, lus en faisant varier la situation  d’élocution afin que celle‐ci balaie des situations socialement reconnues, telles qu’un  discours  politique,  un  commentaire  sportif  ou  encore  un  sermon.  Les  « formes  discursives expressives » sont annotées à divers niveaux linguistiques, en partant de  celui de la syllabe, et leur tolérance aux déformations prosodiques tout en conservant  une même valeur d’expressivité est évaluée. Afin de générer des textes synthétiques  semblables à d’authentiques discours, les unités ainsi annotées sont sélectionnées par un  système de synthèse par corpus, avec comme critères de haut niveau le type de texte et la  situation discursive. 

3.1.5 Transformation de voix 

Outre les systèmes complets de synthèse à partir du texte passés en revue par Schröder  (2001), des algorithmes permettant de modifier la qualité de voix des signaux générés (cf. 

section 7 pour un développement de la notion de qualité de voix) ont été proposés. En  particulier,  d’Alessandro  &  Doval  (2003)  ont  proposé  un  ensemble  d’algorithmes  spécifiquement  dédiés  à la modification de la qualité de  voix avec  l’objectif  d’une  application en synthèse de la parole expressive. Ces algorithmes permettent de modifier  la  qualité  de  voix  d’un  signal  de  parole,  en  traitant  séparément  ses  composantes  périodiques et apériodiques. Rosec & Vincent (2008) proposent quant à eux une méthode  de modification de voix fondée sur une modélisation de la qualité de voix, qui constitue  une extension de leur méthode d’analyse/synthèse que nous présentons en section 9.2.5. 

D’Alessandro  &  Doval  (2003)  proposent  également  un  algorithme  permettant  de  caractériser les unités sélectionnées en fonctions de leurs propriétés de qualité de voix,  dans une optique de synthèse par corpus. 

3.2.  Reconnaissance automatique des affects