L’apport principal du syst`eme HTS est de pouvoir g´en´erer les coefficients acoustiques utilis´es par les outils SPTK [Fukada1992] et STRAIGHT [Kawahara1999] pour synth´etiser ensuite le signal de parole. Dans cette section nous allons pr´esenter les ´equations uti-lis´ees pour effectuer la g´en´eration. Cette pr´esentation s’effectue en deux temps : tout d’abord l’´equation fondamentale, permettant de lier coefficients statiques et coefficients dynamiques ; puis la variance globale, mise en place pour pallier le probl`eme de sur-lissage.
tel-00913565, version 1 - 3 Dec 2013
2.2.1 Vecteur d’observations
Dans le cadre du syst`eme HTS, chaque observation ot, illustr´ee par la figure 2.4, est un vecteur compos´e de cinq blocs. La d´ecomposition de ot est rendue possible grˆace au concept de flux propos´e par HTK et pr´esent´e dans la section pr´ec´edente. Cinq flux sont donc n´ecessaires :
— Le premier flux contient les coefficients MGC, tels que pr´esent´es dans la section1.1.3 du chapitre pr´ec´edent, ainsi que les coefficients dynamiques de premier et second ordre,
— Les trois flux suivants contiennent, respectivement, le F0, la dynamique de premier ordre et la dynamique de second ordre,
— Le dernier flux contient les coefficients d’ap´eriodicit´e n´ecessaires au vocodeur STRAIGHT.
M GC
∆M GC
∆2M GC f0
∆f0
∆2f0 BAP
∆BAP
∆2BAP
Figure 2.4 – Vecteur d’observations ot utilis´e par HTS. Figure inspir´ee de [Yoshimura1999]
2.2.2 Equation fondamentale´
L’ensemble des apports effectu´es par le syst`eme HTS d´ecoule de l’´equation lin´eaire suivante qui n’est que l’expression num´erique d’une d´eriv´ee :
O=W×C (2.17)
o`u le vecteur C correspond aux coefficients statiques et O au vecteur d’observation pour les HMM (coefficients statiques et dynamiques). Enfin, W est une matrice de fenˆetrage permettant d’obtenir les coefficients dynamiques `a partir des coefficients statiques C. La forme de la matrice W3 est fixe et peut ˆetre d´ecrite par le syst`eme suivant (illustr´e
3. v0t permet de conserver les coefficients statiques
tel-00913565, version 1 - 3 Dec 2013
figure 2.5) :
Figure2.5 – Repr´esentation de l’´equation2.18: dans cet exempleL1=L2= 1 (op´erateur de d´erivation sur 3 points) et chaque case correspond `a une matrice de taille M×M o`u M repr´esente l’ordre des coefficients acoustiques. Figure inspir´ee de [Zen2007a]. (Un seul flux est repr´esent´e.)
Lors de la phase de g´en´eration de param`etres, en supposant la s´equence d’´etats Q connue, [Tokuda1995a,Tokuda2000b] note que d´eterminer les trajectoires des coefficients revient `a maximiserP(O|Q, λ) o`uλcorrespond `a la phrase-HMM issue de la concat´enation des HMM d´etermin´es par la s´equence de descripteurs obtenus `a l’issue de l’analyse lin-guistique du texte `a synth´etiser. En prenant en compte la relation2.17, et en d´efinissant le crit`ere suivant :
∂log(P(W C|Q, λ))
∂C = 0 (2.24)
tel-00913565, version 1 - 3 Dec 2013
Maximiser P(O|Q, λ) revient `a r´esoudre le syst`eme d’´equations suivant :
(W>Σ−1W).C =W>Σ−1µ (2.25) o`uµest un vecteur obtenu par la concat´enation des vecteurs moyennes µt issus des ´etats qt tels que qt ∈ Q; Σ correspond `a la matrice de covariance obtenue par concat´enation des matrices Σt associ´ees aux ´etats qt issus de la s´equence d’´etats Q. Par hypoth`ese, la s´equence d’´etatsQ´etant connue, et la matrice de fenˆetrageW´etant fixe, la seule inconnue de cette ´equation est C, le vecteur de coefficients que l’on souhaite g´en´erer.
N´eanmoins, dans la pratique, la s´equence d’´etatsQn’est pas connue `a l’avance. L’ob-jectif consiste plutˆot `a d´eterminer le vecteur de coefficientsC qui maximiseP(O|λ). Pour simplifier le probl`eme, K. Tokuda et al. [Tokuda1995a,Tokuda1995] posent comme hy-poth`ese :
P(O|λ) = max
Q P(O, Q|λ) (2.26)
En s’appuyant sur cette hypoth`ese, d´eterminer le vecteur de coefficientsC optimal re-vient `a maximiser la loi conjointeP(O, Q|λ). N´eanmoins, comme l’indique [Tokuda1995a], P(O, Q|λ) peut ˆetre transform´ee en :
P(O, Q|λ) =P(Q|λ)×P(O|Q, λ) (2.27)
P(Q|λ) ne d´ependant pas deO, maximiserP(O|λ) revient donc `a maximiserP(O|Q, λ).
Un algorithme a ´et´e mis au point pour r´esoudre l’´equation 2.25 et est pr´esent´e dans [Tokuda1995a, Tokuda1995]. Cet algorithme consiste `a estimer une trame `a l’instant t telle que la mise `a jour des param`etresµtet Σt li´es `a la composanteitde la mixture reli´ee
`
a l’´etat qt implique la plus forte augmentation de P(O, Q|λ). Si cette augmentation est suffisamment ´elev´ee,µt, Σt etC sont mis `a jour sinon la proc´edure s’arrˆete et retourne la s´equence de coefficients C. L’algorithme d´epend donc fortement de la condition initiale : le choix de la s´equence d’´etats Q, d´etermin´ee en utilisant les dur´ees moyennes de s´ejour, qui doit ˆetre proche de l’optimal.
[Tokuda2000b] pr´esente une approche diff´erente qui suppose que la s´equence d’´etats Q est cach´ee. Cela revient donc `a vouloir maximiser P(O|λ) sans poser une hypoth`ese particuli`ere sur la s´equence Q. L’algorithme repose sur une approche de type EM qui met `a jour les param`etres des distributions associ´ees au couple ´etat/mixture (qt, it) pour l’ensemble des trames T. De plus, depuis [Tokuda2000b], l’´equation (2.25) est r´esolue par une d´ecomposition de Cholesky qui, grˆace `a la structure particuli`ere de la matrice W, permet de passer d’une complexit´e deO(T3M3) `a une complexit´e de O(T M3L2) sachant que L << T.
tel-00913565, version 1 - 3 Dec 2013
Donn´ees: Une phrase-HMM λ
R´esultat : Une s´equence de coefficientsC cur= 0;
D´efinir une s´equence d’´etat Qen utilisant les dur´ees moyennes de λ;
R´esoudre l’´equation (2.25) pour d´eterminer C en utilisant Σ−1et Σ−1M; r´ep´eter
prev=curr;
D´eterminer P(qt = (q, i)|O, λ) etcurr=P(O|λ) via l’algorithme forward/backward;
D´eterminer Σ−1 en connaissant Σ−1; D´eterminer Σ−1M en connaissant Σ−1M;
R´esoudre l’´equation (2.25) pour d´eterminer C en utilisant Σ−1et Σ−1M; C =C;
Σ−1= Σ−1; Σ−1M = Σ−1M;
jusqu’`a((curr−prev)≤seuil);
Algorithme 1:Algorithme de synth`ese propos´e dans [Tokuda2000b]
2.2.3 Variance globale (GV)
L’algorithme pr´ec´edent permet de g´en´erer un vecteur de coefficientsC compatible avec une synth`ese du signal de parole par un vocodeur (par exemple STRAIGHT). Cependant, exp´erimentalement, la variance des coefficients g´en´er´es par HTS est souvent trop faible et le surlissage qui en r´esulte conduit `a un signal de synth`ese ´etouff´e. Pour pallier ce d´efaut, la notion de variance globale [Toda2005] a ´et´e introduite. L’objectif de cette id´ee est d’estimer la variance intrins`eque des trames acoustiques d’un locuteur puis de l’utiliser, lors de la phase de g´en´eration, pour accroˆıtre artificiellement la variance des coefficients synth´etis´es.
La variance globale, associ´ee aux vecteurs de coefficientsC de dimensionM est d´efinie comme le vecteurv(C) = [v(1), . . . , v(m), . . . , v(M)]> o`u :
o`uT correspond au nombre de trames analys´ees pour un ´enonc´e. Utiliser l’´enonc´e comme horizon de calcul constitue un compromis entre le nombre de vecteurs n´ecessaires pour d´eterminer la variance globale et le nombre de valeurs n´ecessaires `a l’apprentissage d’une distribution gaussienne.
tel-00913565, version 1 - 3 Dec 2013
L’algorithme de g´en´eration pr´esent´e pr´ec´edemment a donc ´et´e modifi´e pour prendre en compte cette variance globale [Toda2005a]. L’algorithme consiste `a maximiser le crit`ereL suivant :
L=P(O|λ)ω×P(v(C)|λv) (2.30)
o`uv(C) correspond `a la variance globale de la s´equence de coefficientsC que l’on souhaite obtenir, λv la distribution mod´elisant la variance globale et ω une constante permettant de contrˆoler l’influence de la variance globale.
En utilisant une m´ethode de gradient, il est possible de d´eterminer C it´erativement grˆace `a :
C(i+1)=C(i)+α·∆C(i) (2.31)
o`uαcorrespond au pas utilis´e par la m´ethode de gradient.
Deux m´ethodes du gradient sont propos´ees dans [Toda2005a] pour effectuer la g´en´eration de C en utilisant la variance globale : la descente de gradient, si l’on utilise uniquement la d´eriv´ee de premier ordre ; la m´ethode de Newton-Raphson si les d´eriv´ees de premier et second ordre sont prises en compte. ∆C est d´efini par :
∆C(i)=
Le processus de g´en´eration repose sur l’algorithme standard d´ecrit pr´ec´edemment (voir l’algorithme 1). La r´esolution de l’´equation (2.30) est l’´etape suivant la r´esolution de l’´equation (2.25).