• Aucun résultat trouvé

1.2 Synth`ese de la parole `a partir du texte

1.2.3 Synth`ese param´etrique par HMM

Contrairement `a la synth`ese par corpus, la synth`ese param´etrique repose sur l’utilisa-tion des techniques de traitement de signal pour obtenir une repr´esental’utilisa-tion param´etrique

6. Un diphone est une unit´e qui s’´etend sur deux phones cons´ecutifs allant du milieu du premier au milieu du second.

tel-00913565, version 1 - 3 Dec 2013

Figure 1.8 – Principe de la synth`ese par corpus. Dans un premier, en se basant sur une consigne d´efinie et un corpus de parole annot´e, un graphe d’unit´es candidates est constitu´e (A). En utilisant un algorithme de Viterbi, les unit´es optimales (au sens des coˆuts d´efinis dans le syst`eme de synth`ese) sont s´electionn´ees puis concat´en´ees (B).

du signal de parole. Les premiers syst`emes de synth`ese param´etrique mod´elisaient la pa-role selon un ensemble de r`egles. Chaque r`egle permettait, `a partir de consignes phon´etico-prosodiques (s´equence de phon`emes, la dur´ee de chaque de phone `a produire et la consigne m´elodique), de d´eterminer les trajectoires des param`etres du mod`ele de r´epr´esenation du signal. Ces syst`emes sont ´egalement appel´es syst`emes de synth`ese par formants car les r`egles utilis´ees permettaient g´en´eralement de mod´eliser l’´evolution des formants. Parmi ces syst`emes, le plus connu reste sans doute l’OVE (Orator Verbis Electris) de G. Fant [Fant70].

Grˆace `a l’´evolution des technologies, le traitement de donn´ees massives a ´et´e rendu pos-sible.

De nos jours, les syst`emes actuels mod´elisent l’´evolution des param`etres acoustiques par des mod`eles stochastiques. Parmi ces mod`eles, l’utilisation du HMM dans le cadre de la synth`ese TTS a ´et´e propos´ee au milieu des ann´ees 1990 par R. Donovan [Donovan1996, Donovan1995] et K. Tokuda [Tokuda1995].

Le syst`eme pr´esent´e par R. Donovan dans [Donovan1996] se base sur HTK [Young1993, Young2005] (the HMM ToolKit), qui propose un ensemble d’outils pour l’utilisation des HMM dans le cadre de la reconnaissance de la parole. R. Donovan [Donovan1995] a adapt´e ces outils pour r´ealiser diff´erentes exp´eriences bas´ees sur une param´etrisation du signal de parole en coefficient MFCC. Ces coefficients sont utilis´es pour apprendre des HMM mod´elisant des phones en contexte. Un arbre de d´ecision [Young1994] est ensuite construit

tel-00913565, version 1 - 3 Dec 2013

pour que, lors de la phase de synth`ese, les phones en contexte, que l’on souhaite synth´etiser et qui ne sont pas pr´esents dans le corpus d’apprentissage, aient un mod`ele qui leur soit associ´e. Lors de la phase de synth`ese, ces mod`eles permettent de pr´edire une s´equence de coefficients LPC ainsi qu’une consigne de voisement qui leur est associ´ee.

Le syst`eme pr´esent´e par K. Tokuda et al.dans [Tokuda1995a] repose sur le mˆeme paradigme que le syst`eme pr´ec´edent. Toutefois l’apport de ce syst`eme est la prise en compte de la dynamique de premier ordre lors de la g´en´eration des coefficients acoustiques dont T. Masuko et al.[Masuko1996] ont montr´e l’impact positif sur la qualit´e des coefficients issus de la g´en´eration.

Ainsi, `a l’heure actuelle, le syst`eme r´ef´erent pour la synth`ese HMM d´ecoule des travaux de K. Tokuda et al. [Tokuda1995a] et s’intitule HTS (pour HMM Speech Synthesis System, qui a ´et´e r´eduit en HMM Triple S puis en HTS). Ce syst`eme, d´evelopp´e par le laboratoire Nitech, se d´ecline selon deux modes :

— La mod´elisation dite d´ependante du locuteur [Zen2005, Zen2006] qui consiste `a apprendre des mod`eles `a partir d’un corpus dict´e par un locuteur pour effectuer une synth`ese dont les caract´eristiques du signal obtenu seront propres `a ce locuteur ;

— La mod´elisation diteind´ependante du locuteur [Yamagishi2007a,Yamagishi2008] qui consiste `a apprendre des mod`eles moyens `a partir d’un corpus compos´e de multiples locuteurs. Ces mod`eles sont ensuite adapt´es au locuteur cible en utilisant un corpus extrˆemement r´eduit (selon [Yamagishi2008a] environ 6 minutes de parole suffisent pour effectuer l’adaptation)

Dans la suite du document, nous ne tiendrons compte que de la mod´elisation d´ependante du locuteur dont l’architecture est illustr´ee par la figure1.9. N´eanmoins, le lecteur pourra se r´ef´erer aux articles [Yamagishi2008,Yamagishi2005,Yamagishi2007] pour plus de d´etails concernant la synth`ese HTS ind´ependante du locuteur.

Le syst`eme HTS repose sur une mod´elisation source/filtre, telle que nous l’avons vue

`

a la section 1.1.3de ce chapitre, pour repr´esenter le signal de parole. Ainsi, pour effectuer un apprentissage, le syst`eme HTS utilise un corpus de parole annot´e dont le signal est param´etr´e pour obtenir les coefficients suivants :

— La fr´equence fondamentale ;

— Les coefficients MGC [Fukada1992] qui repr´esentent le filtre ;

— Les coefficients d’ap´eriodicit´e si le vocodeur STRAIGHT est utilis´e pour extraire le F0 et obtenir le spectre.

A ces coefficients, qualifi´es de statiques, s’ajoutent leurs d´eriv´es de premier et second` ordre.

En plus de ces param`etres, chaque segment est qualifi´e en utilisant un jeu de descrip-teurs, sp´ecifique `a une langue, qui permettent de prendre en compte le contexte de chacun de ces segments. Lors de la phase de synth`ese, ce sont ces descripteurs, d´etermin´es lors

tel-00913565, version 1 - 3 Dec 2013

HTS

STRAIGHT + SPTK Corpus

Texte

Seq. de descripteurs

Apprentissage des HMM

HMM d´ependants du contexte

en´eration des trajectoires Synth`ese Param`etres

Descripteurs

Figure 1.9 – Le syst`eme HTS : le corpus est constitu´e du signal param´etris´e (par les outils STRAIGHT [Kawahara1999,Kawahara2001] et SPTK [Fukada1992]) ainsi que les descripteurs permettant d’identifier un segment. En se basant sur ce corpus, les HMM sont appris. Lors de la phase de synth`ese, la s´equence de param`etres, correspondant `a la s´equence de descripteurs d´etermin´es par les outils d’analyse linguistique, est g´en´er´ee.

Les outils STRAIGHT et SPTK permettent d’obtenir le signal acoustique `a partir des param`etres g´en´er´es par HTS.

de la phase de traitements linguistiques, qui vont permettre de s´electionner les mod`eles ad´equats.

Le syst`eme HTS utilise un ensemble de concepts et d’algorithmes issus du domaine de la reconnaissance de la parole pour apprendre les mod`eles. Parmi les plus importants, nous pouvons citer l’utilisation de mod`eles semi-Markoviens (HSMM) [Zen2005, Russell1985]

qui permet de repr´esenter la dur´ee de s´ejour dans un ´etat par une distribution gaus-sienne. Comme pour le syst`eme pr´esent´e par Donovan [Donovan1995], des arbres de d´ecisions [Young1994] ont ´et´e utilis´es afin de garantir la pr´esence d’un mod`ele lors de la phase de synth`ese.

D’autres concepts ont ´et´e introduits afin de r´epondre `a des besoins sp´ecifiques. Ainsi, afin de prendre en compte l’´etat vois´e et l’´etat non-vois´e d’une trame, les MSD (Multi-Space Distribution) ont ´et´e introduits. L’objectif des MSD [Tokuda1999, Tokuda2000a]

est de proposer une repr´esentation unique par des distributions associ´ees aux valeurs de F0.

Bien que le syst`eme HTS utilise de nombreux concepts adapt´es `a la synth`ese de pa-role, la param´etrisation implique une perte de qualit´e du signal de parole. Le timbre g´en´er´e souffre d’un effet de bourdonnement et les diff´erentes m´ethodes, disponibles `a l’heure actuelle, pour param´etriser le signal ne permettent pas de r´esoudre compl`etement ce probl`eme. Ainsi, lors des challenges Blizzard [Black2005, King2012] qui permettent d’´evaluer les syst`emes de synth`ese `a l’´etat de l’art, les syst`emes de synth`ese par corpus obtiennent globalement de meilleurs scores. N´eanmoins, la param´etrisation permet de ma-nipuler le signal plus simplement ce qui rend la synth`ese param´etrique plus flexible que

tel-00913565, version 1 - 3 Dec 2013

les syst`emes par corpus. Ainsi, `a l’heure actuelle, la synth`ese par HMM fait l’objet d’une attention particuli`ere dans le domaine de la synth`ese de la parole.