• Aucun résultat trouvé

Jusqu’`a pr´esent, nous avons pr´esent´e le syst`eme HTS et les concepts utilis´es par ce syst`eme pour apprendre des mod`eles en vue d’une synth`ese. Nous allons maintenant pr´esenter la configuration utilis´ee pour r´ealiser les travaux pr´esent´es dans ce document.

Cette configuration se d´ecompose en deux parties : la configuration des outils qui per-mettent de param´etriser le signal et la configuration du syst`eme HTS lui-mˆeme. Sauf

tel-00913565, version 1 - 3 Dec 2013

mention explicite, les configurations que nous avons utilis´ees sont standard et sont celles de la d´emonstration propos´ee par les concepteurs du syst`eme HTS et associ´ee `a la version 2.1.1 de ce syst`eme [Hts211].

2.6.1 Param´etrisation du signal

En pr´e-requis, il est n´ecessaire d’obtenir que les signaux soient ´echantillonn´es `a 16kHz et ne poss`edent qu’un seul canal.

En se basant sur ces signaux, le premier outil utilis´e, STRAIGHT (version v40-007-d), permet d’obtenir le F0, le spectre et l’ap´eriodicit´e. Pour l’ensemble de ces param`etres acoustiques, le d´ecalage de trame utilis´e est de 5ms. 60Hz-300Hz a ´et´e d´efinie comme plage de valeurs de F0 valides pour STRAIGHT. Cette plage englobe la plage 80Hz-200Hz caract´eristique de la voix d’homme (indiqu´ee section 1.1.1 du chapitre 1). La dimension des FFT utilis´ees par STRAIGHT pour effectuer les extractions est de 512 points.

En r´ealit´e le syst`eme HTS n’apprend pas les valeurs du F0 sur une ´echelle lin´eaire mais logarithmique. La constante−1e+10 est utilis´ee pour repr´esenterlog(0) et ainsi permettre la repr´esentation des zones non vois´ees. De plus, l’ap´eriodicit´e extraite par STRAIGHT est d´ecoup´ee en cinq bandes de fr´equence (0−63Hz, 64−127Hz, 128−255Hz, 256−383Hz et 384−512Hz), une valeur moyenne est calcul´ee pour chacune de ces bandes.

Enfin, les coefficients spectraux obtenus par STRAIGHT sont ensuite convertis en coefficients MGC, d’ordre 39, grˆace `a la suite logicielle SPTK v3.5 [Sptk]. De plus, comme cela a ´et´e indiqu´e dans la section1.1.3, la valeur du coefficient αd´epend de la fr´equence d’´echantillonnage. Pour une fr´equence d’´echantillonnage de 16kHz, le coefficientαa pour valeur 0.42 [Imai1983].

2.6.2 Configuration de HTS

La configuration du syst`eme HTS d´ebute par la d´efinition de la topologie des mod`eles MSD-HSMM. Dans le cadre de nos travaux, les mod`eles appris sont des MSD-HSMM `a 5

´etats ´emetteurs. Pour ˆetre coh´erent avec le pas d’analyse de 5 ms fix´e lors du calcul des vecteurs acoustiques, la dur´ee minimale ´evalu´ee par un ´etat est de 5 ms.

Lors de la phase d’apprentissage, une seule r´e-estimation est effectu´ee pour chaque phase du processus d’apprentissage. Afin d’optimiser la r´e-estimation, la largeur du fais-ceau parcouru par l’algorithme Forward-backward est contrainte. En d´ebut de r´eestimation, la largeur du faisceau est limit´ee `a 1500 ´etats align´es. Si l’apprentissage ne converge pas, cette taille est augment´ee en utilisant un pas de 100 dans la limite de 5000 ´etats align´es sur une trame. Enfin, le seuil de variance est de 0.01 pour l’ensemble des param`etres.

tel-00913565, version 1 - 3 Dec 2013

La configuration associ´ee `a la phase de g´en´eration fait intervenir la variance globale (d´ecrite section 2.2.3). La m´ethode de Newton-Raphson est utilis´ee pour d´eterminer les param`etres respectant le crit`ere d´ecrit par l’´equation (2.30) avec un facteur de convergence de 10−4 et un nombre maximum de 50 it´erations. Enfin, comme nous l’avons vu dans ce chapitre, HTS propose trois modes de g´en´eration. Le temps de g´en´eration entre les modes 1 et 3 diff`ere fortement. Le mode de g´en´eration ne d´ependant pas du jeu de descripteurs utilis´e, nous avons opt´e pour utiliser le troisi`eme mode de g´en´eration : celui qui suppose une s´equence d’´etatsQ connue et qui maximise P(O|Q, λ).

2.7 Conclusion

Dans ce chapitre nous avons d´etaill´e les concepts et les processus utilis´es par HTS pour pouvoir produire des mod`eles dans l’optique de g´en´erer un signal de parole de synth`ese.

Nous avons ´egalement pr´esent´e les algorithmes utilis´es lors de la phase de g´en´eration.

Au cours de cette pr´esentation, nous avons mis en avant le fait que le choix d’un jeu de descripteurs influe sur l’´etape de la prise en compte des contextes linguistiques et prosodiques. Nos travaux portant sur l’influence des descripteurs sur la mod´elisation effectu´ee par HTS, la qualit´e de cette mod´elisation impacte directement la qualit´e de la synth`ese obtenue. Dans le prochain chapitre, nous allons analyser les diff´erents jeux de descripteurs propos´es par diff´erents travaux publi´es sur HTS.

tel-00913565, version 1 - 3 Dec 2013

Syst` eme HTS - Jeux de descripteurs

3.1 Jeu de descripteurs propos´e pour l’anglais . . . . 54 3.1.1 Description `a l’´echelle du phon`eme . . . . 54 3.1.2 Description `a l’´echelle de la syllabe . . . . 55 3.1.3 Description `a l’´echelle du mot . . . . 55 3.1.4 Description `a l’´echelle de la phrase et `a l’´echelle de l’´enonc´e . . . . 56 3.2 Jeux de descripteurs propos´es pour d’autres langues . . . . 56 3.2.1 Description `a l’´echelle du phon`eme . . . . 57 3.2.2 Description `a l’´echelle de la syllabe . . . . 57 3.2.3 Description `a l’´echelle du mot . . . . 58 3.2.4 Description `a l’´echelle de la phrase et `a l’´echelle de l’´enonc´e . . . . 58 3.2.5 Prise en compte de nouvelles ´echelles de description . . . . 59 3.2.6 Bilan. . . . 59 3.3 Jeux de descripteurs pour le fran¸cais . . . . 60 3.3.1 Descripteurs utilis´es en s´election d’unit´es et en pr´ediction de prosodie . 60 3.3.2 Jeu de descripteurs propos´e . . . . 61 3.4 Evaluation des jeux de descripteurs sur la synth`´ ese HTS . . . . 61 3.4.1 Etude des descripteurs prosodiques´ . . . . 62 3.4.2 efinition d’un jeu de descripteur minimal. . . . 64 3.4.3 Bilan et positionnement . . . . 66 3.5 Conclusion . . . . 66

Dans le chapitre pr´ec´edent, nous avons pr´esent´e le syst`eme HTS et nous avons vu que ce syst`eme n´ecessite de qualifier un segment par un ensemble de descripteurs linguistique et prosodique. L’objet des travaux pr´esent´es dans ce document concerne l’´evaluation de l’influence de ces descripteurs sur la qualit´e de syst`eme HTS dans le cadre de la langue fran¸caise. Pour r´ealiser cette ´etude, il est donc n´ecessaire de disposer d’un jeu de

descrip-tel-00913565, version 1 - 3 Dec 2013

teurs sp´ecifique pour le fran¸cais et, `a l’heure actuelle, aucun jeu de descripteurs n’a ´et´e publi´e pour cette langue.

Avant de pr´eciser un jeu de descripteurs pour le fran¸cais, nous pr´esentons une ´etude des jeux de descripteurs propos´es pour effectuer une synth`ese HTS dans des langues diverses.

Cette ´etude a consist´e `a comparer les diff´erences entre les jeux de descripteurs propos´es par rapport au jeu standard [Tokuda2000] d´efini pour l’anglais. Nous avons compl´et´e cette ´etude par le recensement des descripteurs utilis´es dans les modules de pr´ediction de prosodie et les syst`emes de synth`ese par s´election pour le fran¸cais. Grˆace `a cela, nous avons pu d´efinir un jeu de descripteurs sp´ecifique au fran¸cais pour le syst`eme HTS. Dans la derni`ere section de ce chapitre, nous pr´esenterons les ´etudes propos´ees pour analyser l’influence des descripteurs sur la synth`ese effectu´ee par HTS.