3. Technologies de la parole expressive
3.1. Synthèse expressive
Nous n’abordons pas dans cette section l’intégralité des systèmes de synthèse expressive proposés dans la littérature, et nous contentons de mentionner quelques exemples représentatifs des différentes approches de cette problématique complexe, sans entrer dans les détails des résultats obtenus par ces études. La grande majorité des systèmes proposés s’est appuyée sur le principe de la synthèse à partir du texte (voir notamment Dutoit (1997)), dont le principe général est de procéder à une phonétisation et, dans la plupart des cas, à une analyse morpho‐syntaxique d’un texte inconnu fourni en entrée du système sous forme écrite, avant de transformer ce texte en parole synthétique. La phonétisation d’un texte écrit est en elle‐même un problème complexe, que nous n’aborderons pas ici. Les résultats de l’analyse morpho‐syntaxique réalisée sont généralement utilisés pour appliquer des règles de transformation prosodiques et notamment des contours de fréquence fondamentale, afin de réaliser les fonctions linguistiques de la prosodie que sont la segmentation/hiérarchisation et la modalisation ou, plus rarement, la focalisation. L’objectif visé par la plupart des systèmes de synthèse vocale qui ont été développés, et atteint en grande partie par ceux développés récemment, est de parvenir à générer des énoncés assimilables à de la parole naturelle lue parfaitement intelligible. Comme nous l’avons mentionné en introduction, avec les progrès récents des systèmes de synthèse par corpus et la réalisation de cet objectif majeur des systèmes de synthèse à partir du texte, l’enjeu de la synthèse de la parole s’est déplacé de l’intelligibilité et de la naturalité vers la pertinence de l’énoncé généré en fonction du contexte d’énonciation. En conséquence, l’intégration d’une dimension expressive à ces systèmes est devenu un objectif central, d’où les efforts de recherche croissants dans cette direction depuis les premiers jalons posés notamment par Janet Cahn au début des années 1990.
Schröder (2001) dresse un état de l’art des systèmes de synthèse de la parole expressive, et propose une taxonomie des approches proposées dans la littérature en fonction de la méthode de synthèse utilisée. Nous nous appuyons sur cette taxonomie pour présenter des exemples que nous jugeons représentatifs, en complétant d’exemples plus récents lorsque cela nous semble utile.
3.1.2 Synthèse par formants
La synthèse par formants, parfois appelée synthèse par règles, est la méthode dont le
dans le cadre d’une approche entièrement automatisée. Cependant, cette méthode est également la plus flexible, et permet une synthèse de qualité lorsqu’elle est contrôlée manuellement de façon fine. En effet, son principe est de générer dans leur intégralité les sons de parole produits à partir de modèles acoustiques, sans réutiliser des enregistrements préexistants. L’exemple le plus répandu de synthèse par formants est le système DECtalk (Hallahan, 1996). Dans le domaine de la synthèse de parole expressive, le système pionnier Affects Editor de Cahn (1990) et le système HAMLET de Murray &
Arnott (1995) peuvent notamment être mentionnés. Dans les deux cas, les règles de modification de la sortie du synthétiseur DECtalk ont été établies à partir d’une revue de littérature sur l’encodage des expressions émotionnelles dans la parole. En dépit du manque de naturalité généralement lié à la synthèse par formant, ces systèmes ont permis de générer des énoncés de parole synthétique de qualité suffisante pour être correctement classifiés à un niveau supérieur au hasard dans une tâche de catégorisation perceptive.
3.1.3 Synthèse par concaténation
La synthèse par concaténation, dont l’exemple le plus répandu est le système multilingue distribué librement MBROLA1 (Dutoit et al., 1996), permet d’atteindre un degré d’intelligibilité et de naturalité supérieur, sans pour autant pouvoir passer pour une voix naturelle. Le principe de ce type de système de synthèse est de s’appuyer sur une base de diphones, enregistrés par un même locuteur pour une langue cible donnée, et permettant de couvrir l’ensemble des combinaisons de deux phonèmes consécutifs de cette langue. Les diphones sont constitués de portions de signal s’étendant du milieu d’un phone au milieu du suivant. Ils sont généralement enregistrés avec une prosodie neutre. La synthèse de la chaîne sonore est alors fondée sur une concaténation de la suite de diphones correspondant au texte phonétisé, suivie de l’application de règles de transformation prosodiques fondées sur un modèle de durée et de variations de fréquence fondamentale. Ces modifications prosodiques sont le plus souvent réalisées par l’algorithme TD‐PSOLA (Moulines & Laroche, 1995).
La technique de la synthèse par diphones a été utilisée pour construire des systèmes de synthèse de parole expressive, avec deux types distincts de transformations prosodiques.
La plus répandue a été celle de l’analyse/synthèse, dans laquelle les variations prosodiques d’un énoncé naturel véhiculant l’affect visé sont extraites et appliquées à
1 Le système MBROLA ainsi que des bases de diphones pour un ensemble étendu de langues est téléchargeable librement à l’URL http://tcts.fpms.ac.be/synthesis/mbrola.html
l’énoncé synthétisé. Cette méthode a, par exemple, été adoptée par Montero et al. (1999).
L’approche plus ambitieuse de la modification de la prosodie par règles n’a à notre connaissance pas été appliquée dans le cadre d’un système complet de synthèse à partir du texte, mais l’a été avec l’objectif de confronter les prédictions d’un modèle à la perception que peuvent avoir des auditeurs naïfs des énoncés synthétiques correspondants. Cette approche a, par exemple, été retenue par Mozziconnacci (1999), qui a proposé une modélisation de contours de fréquence fondamentale supposés véhiculer un ensemble d’affects.
Comme le souligne Schröder (2001), la synthèse par concaténation ne permet pas de manipuler directement la qualité de voix, et la question de la possibilité de générer des expressions vocales d’affects sans prendre en compte la qualité de voix s’est donc posée de façon récurrente dans les études ayant eu recours à cette méthode de synthèse. La revue de littérature réalisée par Schröder (2001) aboutit à des résultats divergents quant à cette possibilité, certaines émotions produites par certains locuteurs semblant être véhiculées efficacement par de simples modifications de fréquence fondamentale et de durée. Il conclut toutefois que la possibilité d’étendre ces résultats à l’ensemble des types d’émotions existants n’est pas avérée.
3.1.4 Synthèse par sélection
Le principe de la synthèse par sélection, ou synthèse par corpus, est à la base de la plupart des systèmes de synthèse actuels de qualité professionnelle. Le plus abouti des systèmes de synthèse du français existants à l’heure actuelle est de notre point de vue celui développé par Orange‐labs2. Un tel système de synthèse repose sur un corpus de taille importante produit par un même locuteur, étiqueté avec précision, comprenant des phrases phonétiquement équilibrées, et dépassant très largement la couverture minimale de la langue visée telle qu’elle est réalisée par les bases de diphones des systèmes de synthèse par concaténation. De même que dans le cas de la synthèse par concaténation, la génération de la chaîne sonore est réalisée en concaténant des unités extraites du corpus de parole naturelle sur lequel s’appuie le système de synthèse. Ces unités sont en revanche choisies comme les plus longues possibles répondant aux différents critères de sélection, qui ne se réduisent pas à l’adéquation de la suite de phonème à celle du message à synthétiser, incluant également des critères prosodiques. Ainsi, les unités sélectionnées préalablement à l’étape de concaténation consistent en des extraits des
2 Une démonstration en ligne de ce système de synthèse, qui équipe par ailleurs un grand nombre de
phrases constituant le corpus, en adéquation avec la suite de phonèmes à produire et porteurs d’une prosodie la plus proche possible de celle du message à synthétiser telle que prédite par le modèle utilisé à la suite de l’analyse morpho‐syntaxique. Un lissage des unités concaténées est alors réalisé, complété par l’application de transformations prosodiques si nécessaire. Cependant ces modifications du signal, à l’origine du manque de naturalité des systèmes de synthèse par concaténation de diphones, sont réduites au minimum. Le cas idéal de la synthèse par sélection consiste ainsi en la synthèse d’un énoncé identique, selon l’ensemble des critères retenus, à l’un des énoncés présents dans le corpus de base qui est alors restitué sans qu’aucune modification du signal ne soit nécessaire. Le cas d’une erreur de prétraitement (lors de l’étape de phonétisation ou d’analyse morpho‐syntaxique) mis à part, les systèmes les plus évolués de synthèse vocale par sélection permettent de transmettre le message fourni par écrit en entrée avec, dans la grande majorité des cas, une intelligibilité supérieure à celle atteinte par les systèmes de synthèse par concaténation. De plus, la synthèse par sélection atteint un degré de naturalité très élevé, à tel point que la plupart des énoncés synthétisés par ces systèmes peuvent aisément passer pour de la parole lue naturelle. Cependant dans les cas marginaux, d’autant plus rares que la base de données de parole étiquetée utilisée est étendue, pour lesquels des unités inappropriées doivent être choisies, les résultats de ces systèmes de synthèse peuvent être localement de piètre qualité.
Parmi les systèmes de synthèse ayant directement tiré parti de la technique de la synthèse par corpus, le système développé par Iida et al. (2003) s’appuie sur une base de données de parole étiquetée de grande taille, dans laquelle chacune des 525 phrases constituant le corpus est produite en triple exemplaire, en simulant une expression de joie, de colère ou de tristesse. Le système de synthèse proprement dit est le système CHATR (Campbell & Black, 1997), dans lequel les critères de sélection des unités à concaténer sont étendus au choix de l’émotion à produire parmi les trois cités ci‐dessus.
Bien que des confusions puissent être observées, les énoncés générés par ce système ont été jugés majoritairement comme exprimant l’émotion visée.
Marumoto & Campbell (2000), cité par Schröder (2001), plutôt que de dupliquer le corpus utilisé pour chacune des émotions visées identiques à celles adoptées par Iida et al. (2003), ont utilisé un corpus commun en sélectionnant les unités en fonction de critères prosodiques et de qualité de voix. L’évaluation des énoncés synthétisés a montré que les expressions de colère et de tristesse étaient reconnues mais pas celles de joie.
D’autres approches de la synthèse expressive par corpus s’écartent de l’objectif de générer des émotions dites « de base » et visent d’autres aspects de l’expressivité prosodique. Syrdal & Kim (2008) se sont ainsi appuyés sur une base étiquetée en
fonction, non seulement de critères phonétiques et prosodiques, mais également d’actes de parole. Bien que les auteurs n’y fassent pas explicitement référence, la taxonomie des actes de parole qu’ils retiennent est similaire à celle introduite par Searle (1969, 1975), notamment en ce qui concerne les actes de parole dits « affectifs ». L’enrichissement du système de synthèse par sélection d’AT&T qu’ils proposent permet ainsi de favoriser dans le processus de sélection les unités correspondant à l’acte de parole visé pour l’énoncé synthétisé.
Enfin, l’approche la plus novatrice de la synthèse de la parole expressive est probablement celle proposée par Suciu et al. (2006a, 2006b) et Kanellos et al. (2007). Celle‐
ci repose sur un corpus de textes de différents types, lus en faisant varier la situation d’élocution afin que celle‐ci balaie des situations socialement reconnues, telles qu’un discours politique, un commentaire sportif ou encore un sermon. Les « formes discursives expressives » sont annotées à divers niveaux linguistiques, en partant de celui de la syllabe, et leur tolérance aux déformations prosodiques tout en conservant une même valeur d’expressivité est évaluée. Afin de générer des textes synthétiques semblables à d’authentiques discours, les unités ainsi annotées sont sélectionnées par un système de synthèse par corpus, avec comme critères de haut niveau le type de texte et la situation discursive.
3.1.5 Transformation de voix
Outre les systèmes complets de synthèse à partir du texte passés en revue par Schröder (2001), des algorithmes permettant de modifier la qualité de voix des signaux générés (cf.
section 7 pour un développement de la notion de qualité de voix) ont été proposés. En particulier, d’Alessandro & Doval (2003) ont proposé un ensemble d’algorithmes spécifiquement dédiés à la modification de la qualité de voix avec l’objectif d’une application en synthèse de la parole expressive. Ces algorithmes permettent de modifier la qualité de voix d’un signal de parole, en traitant séparément ses composantes périodiques et apériodiques. Rosec & Vincent (2008) proposent quant à eux une méthode de modification de voix fondée sur une modélisation de la qualité de voix, qui constitue une extension de leur méthode d’analyse/synthèse que nous présentons en section 9.2.5.
D’Alessandro & Doval (2003) proposent également un algorithme permettant de caractériser les unités sélectionnées en fonctions de leurs propriétés de qualité de voix, dans une optique de synthèse par corpus.