• Aucun résultat trouvé

Modélisation du débit et des pauses en synthèse de la parole

Les pauses silencieuses dans la parole de synthèse de FipsVox: impact sur la

5.1.1. Modélisation du débit et des pauses en synthèse de la parole

Déterminer la durée des différents éléments de la parole est une des tâches centrales des systèmes de synthèse de la parole, tâche réalisée grâce à des modèles de prédiction de la

une série de règles (Monnin & Grosjean, 1993). Notons que les deux types de modèles présentent des objectifs quelque peu différents. Tandis que les modèles statistiques cherchent à déterminer la durée segmentale (et des pauses, le cas échéant), les modèles à base de règles visent principalement à définir l'emplacement et la durée des pauses dans la phrase. De plus, la nature même des deux types de modèles est bien différente.

Les premiers reposent sur un ensemble de coefficients qui tiennent compte de divers facteurs pouvant affecter la durée des éléments, alors que les seconds s'appuient sur une série de règles (généralement séquentielles) appliquées à un certain matériel linguistique. En outre, les divers modèles peuvent utiliser des unités différentes.

Beaucoup d'entre eux font du phonème leur unité principale (Klatt, 1976), tandis que d'autres utilisent une unité de niveau supérieur telle que la syllabe (Monnin & Grosjean, 1993) ou le pied (Kohler, 1986a).

Les modèles statistiques dont l'unité principale est le phonème (O'Shaugnessy, 1981, 1984; Klatt, 1987) partent du principe que chaque phonème possède une durée intrinsèque (généralement déterminée par une étude empirique) qui est modifiée (augmentée ou réduite) en fonction de la nature du phonème, de sa position dans le mot ou la phrase, du contexte phonétique, de la présence de l'accent lexical et de la longueur du mot. Dans ces modèles, l'insertion de pauses est déterminée avant toute modification de la durée segmentale. Le débit, quant à lui, peut parfois être modifié à l'aide d'un paramètre (Klatt, 1987, par exemple).

Cependant, comme le mentionnent Keller & Zellner (1996), la durée syllabique est généralement plus stable que la durée phonémique. Ainsi, certains modèles statistiques considèrent la syllabe comme leur unité de base (Bartkova, 1985, 1991; Campbell, 2000). Dans ces modèles, la première étape est le calcul de la durée syllabique en fonction de divers facteurs tels que la nature du mot (mot lexical ou grammatical), la position de la syllabe dans le mot (syllabe initiale, médiane ou finale) et dans le groupe intonatif, le nombre de phonèmes dans la syllabe, la nature de la voyelle de la syllabe et la présence de l'accent lexical. Puis, la durée syllabique est répartie parmi les différents constituants de la syllabe, à nouveau en tenant compte de certains facteurs comme, par exemple, la présence d’une frontière syntaxique, la présence d’un groupe consonantique

et le degré d'élasticité73 des phonèmes. Nous constatons que le débit et les pauses n'occupent pas non plus une place importante dans ce type de modèles.

D'autres modèles prédisent la durée des phonèmes en tenant compte de la nature rythmique de la langue. Dans ce cas, la durée des phonèmes est déterminée par la durée des éléments de niveau supérieur. Par exemple, Witten (1977) et Kohler (1986a) considèrent le pied (en anglais et en allemand, respectivement) comme point de départ.

Partant de la durée initiale du pied (par exemple, de 480 msec chez Witten (1977)), la durée des syllabes qui composent le pied est calculée en considérant, par exemple, leur longueur et leur position. Ensuite, à partir de la durée syllabique, l'attribution de la durée phonémique s'effectue en suivant des critères intrinsèques (durée intrinsèque des phonèmes) et extrinsèques (durée de la syllabe). Dans ce type de modèles, le débit peut être modifié en transformant les paramètres initiaux du pied. De plus, dans le modèle de Witten (1977), les pauses, qui se trouvent généralement en début de phrase, ont le statut de syllabes et leur durée dépend donc de la durée du pied.

Nous observons que les pauses sont bien loin d'occuper une place centrale dans les différents modèles que nous venons de présenter. A l'exception de rares cas, elles ne sont soit pas du tout considérées, soit traitées à part, avant toute autre règle de calcul des durées. Le modèle de Barbosa & Bailly (1997), quant à lui, est le seul, à notre connaissance, à inclure l'emplacement et la durée des pauses dans la prédiction de la durée phonémique. Ce modèle présenté dans Barbosa & Bailly (1997) et dans Barbosa (1994) se base sur une unité rythmique, le groupe inter P-center (inter-perceptual center group). La notion de "perceptual center" (P-center) est née des recherches sur l'isochronie qui ont montré que les auditeurs perçoivent des régularités rythmiques dans des séquences de syllabes dont les durées sont pourtant bien différentes. La régularité perçue s'explique par l'identification d'un point de référence à l'intérieur du mot, le P-center (Marcus, 1976). Deux P-center consécutifs définissent les frontières de

73 Selon Campbell, (2000), le principe de l'élasticité (elasticity) postule d'une part que, lorsqu'une syllabe est allongée, tous ses constituants (phonèmes) présentent un facteur d'allongement identique et, d'autre part, que la durée des phonèmes est définie par leur élasticité. En effet, certains phonèmes (ex.: consonnes fricatives) sont plus "extensibles" que d'autres (ex.: consonnes occlusives). L'élasticité, dans le modèle de Campbell (2000) par exemple, est définie par l'écart-type de la durée des phonèmes (observée dans un corpus).

l'intervalle inter P-center (inter-perceptual center interval) et les segments à l'intérieur de cet intervalle forment le groupe inter P-center. Le modèle de Barbosa & Bailly procède en deux étapes. Lors de la première, l'emplacement des P-center et la durée des groupes inter P-center sont définis (nous renvoyons le lecteur à Barbosa & Bailly (1997) et à Barbosa (1994) pour les détails). Ensuite, la durée de ces derniers est répartie parmi les constituants des groupes inter P-center selon un modèle de répartition (qui s'inspire du modèle de Campbell (2000)). C'est lors de cette étape que les pauses sont générées par le modèle. Les auteurs partent de l'idée qu'une pause va de pair avec la durée de la voyelle. Ainsi, à partir d'un corpus, ils ont dégagé une valeur critique de la durée de la voyelle au-delà de laquelle une pause doit être insérée. La durée des pauses dépend en outre non seulement de la durée du groupe inter P-center mais aussi du débit de l'énoncé.

En ce qui concerne les modèles à base de règles, rappelons que leur objectif principal n'est pas de prédire la durée des segments ou des syllabes, mais de définir l'emplacement et la durée des pauses (par exemple, Gee & Grosjean, 1983; Bachenko &

Fitzpatrick, 1990; Monnin & Grosjean, 1993; Keller, Zellner, Werner & Blanchoud, 1993). Ces algorithmes basés sur des concepts psycholinguistiques permettent ainsi d'améliorer la qualité de la synthèse de la parole. Prenons par exemple l'algorithme développé par Monnin & Grosjean (1993) spécifique au français qui prédit les structures de performance (structures prosodiques). Trois principes sont au centre de ce modèle: 1) les constituants de base à l'intérieur d'une structure de performance sont de longueur similaire (principe d'eurythmie), 2) ils s'organisent de manière hiérarchique (principe de hiérarchisation), 3) ils sont symétriques (principe de symétrie). Des règles déterminent par ailleurs l'importance de la frontière prosodique entre et à l'intérieur des différents constituants de la structure de performance. Une pause d'une durée variable (ainsi qu'un allongement de la syllabe précédant la frontière prosodique) peut ainsi être insérée selon l'importance de la frontière prosodique. Notons encore que, bien que la structure de performance d'une phrase ne corresponde pas à sa structure syntaxique, certaines des règles de l'algorithme font toutefois appel à cette dernière. L'analyse syntaxique doit par conséquent être disponible afin de prédire la structure de performance d'une phrase.

Ainsi, nous observons d'une part que le débit ne constitue généralement pas un facteur déterminant dans le calcul de la durée des segments, et que, d'autre part, l'emplacement, ainsi que la durée des pauses ne sont que rarement traités dans les différents modèles.

De ce fait, sur la base des modèles de prédiction de la durée, le débit dans les systèmes de synthèse de la parole découle généralement de la durée des différentes unités (phonèmes, syllabes, pieds ou groupes inter P-center), et est généralement déterminé par une valeur par défaut. Pour la plupart des synthétiseurs, une variation du débit implique une modification linéaire de la durée des segments, en modifiant la valeur par défaut du débit (ex.: Mbrola74). Or, comme nous l'avons mentionné au chapitre 1, des recherches empiriques ont montré qu'une variation de débit s'effectue généralement de manière non-linéaire. Certains systèmes de synthèse tentent donc de modéliser le débit en tenant compte des diverses conséquences d'un changement de débit sur la structure phonologique ou prosodique de l'énoncé. Trouvain (2002) par exemple propose un modèle dans lequel la variation du débit s'effectue en supprimant ou en insérant des pauses à certaines frontières prosodiques, avec les modifications qu'implique l'allongement de fin de groupe prosodique, et dans lequel la durée des pauses dépend de l'importance des frontières prosodiques75.

En ce qui concerne les pauses, leur emplacement et leur durée dépendent, dans la plupart des systèmes de synthèse de la parole, de la structure prosodique. Les recherches dans le domaine ont montré que la structure prosodique peut être générée selon deux approches. La première, très répandue, part du principe que les structures prosodiques et syntaxiques sont liées et que, par conséquent, les informations syntaxiques permettent de prédire l'emplacement des frontières prosodiques (par exemple, Quené & Kager, 1992; Mertens, Goldman, Wehrli & Gaudinat, 2001). La deuxième approche, quant à elle, se base sur les propriétés lexicales de la phrase, plus précisément sur la distinction entre mots grammaticaux et mots pleins. Dans ce cas, une frontière prosodique est placée avant chaque mot grammatical suivant un mot plein

74 Voir Dutoit, T. "The Mbrola Project". Informations disponibles sur http://tcts.fpms.ac.be/synthesis/mbrola.html.

75 Des exemples audio de variation de débit linéaire et non-linéaire sont disponibles sur http://www.coli.uni-saarland.de/~trouvain/tempo.html.

(Monaghan, 1991; Taylor & Black, 1998)76. Ajoutons encore que la ponctuation entre généralement en jeu lors de la génération de la structure prosodique selon les deux approches. Les systèmes de synthèse de la parole utilisent donc ces diverses informations (structure prosodique, catégorie lexicale et ponctuation) séparément ou conjointement, afin de déterminer l'emplacement des pauses (Vannier, Lacheret-Dujour

& Vergnes, 1999; Apel, Neubarth, Pirker & Trost, 2004). La durée de celles-ci dépend principalement de l'importance de la frontière prosodique, cette dernière étant par ailleurs renforcée par la ponctuation. En outre, les divers systèmes de synthèse basent généralement la durée des pauses sur des données empiriques (par exemple, voir Puigví, Jiménez & Fernández (1994) pour la durée des pauses liées à la ponctuation en espagnol).

Ainsi, ce survol des travaux sur la modélisation du débit et des pauses nous permet d'observer que le débit dépend généralement directement de la durée des unités de base des systèmes de synthèse (phonèmes, syllabes ou groupes inter P-center). Nous pouvons par ailleurs constater que la génération des pauses (emplacement et durée) résulte de la génération de la structure prosodique de la phrase, processus relativement complexe qui lui-même fait intervenir plusieurs types d'informations telles que la structure syntaxique, la catégorie lexicale des mots ou la ponctuation.

Les études présentées nous amènent à la description du fonctionnement du système de synthèse FipsVox, développé au LATL de l'Université de Genève. Nous passerons en revue ses diverses étapes, à savoir, l'analyse syntaxique, la phonétisation et la génération de la prosodie, avant de nous pencher sur la génération des variables temporelles.

76 Notons qu'il serait envisageable de combiner les deux approches et que ces dernières ne s'excluent donc pas.