• Aucun résultat trouvé

L’apport principal du syst`eme HTS est de pouvoir g´en´erer les coefficients acoustiques utilis´es par les outils SPTK [Fukada1992] et STRAIGHT [Kawahara1999] pour synth´etiser ensuite le signal de parole. Dans cette section nous allons pr´esenter les ´equations uti-lis´ees pour effectuer la g´en´eration. Cette pr´esentation s’effectue en deux temps : tout d’abord l’´equation fondamentale, permettant de lier coefficients statiques et coefficients dynamiques ; puis la variance globale, mise en place pour pallier le probl`eme de sur-lissage.

tel-00913565, version 1 - 3 Dec 2013

2.2.1 Vecteur d’observations

Dans le cadre du syst`eme HTS, chaque observation ot, illustr´ee par la figure 2.4, est un vecteur compos´e de cinq blocs. La d´ecomposition de ot est rendue possible grˆace au concept de flux propos´e par HTK et pr´esent´e dans la section pr´ec´edente. Cinq flux sont donc n´ecessaires :

— Le premier flux contient les coefficients MGC, tels que pr´esent´es dans la section1.1.3 du chapitre pr´ec´edent, ainsi que les coefficients dynamiques de premier et second ordre,

— Les trois flux suivants contiennent, respectivement, le F0, la dynamique de premier ordre et la dynamique de second ordre,

— Le dernier flux contient les coefficients d’ap´eriodicit´e n´ecessaires au vocodeur STRAIGHT.

M GC

∆M GC

2M GC f0

∆f0

2f0 BAP

∆BAP

2BAP

Figure 2.4 – Vecteur d’observations ot utilis´e par HTS. Figure inspir´ee de [Yoshimura1999]

2.2.2 Equation fondamentale´

L’ensemble des apports effectu´es par le syst`eme HTS d´ecoule de l’´equation lin´eaire suivante qui n’est que l’expression num´erique d’une d´eriv´ee :

O=W×C (2.17)

o`u le vecteur C correspond aux coefficients statiques et O au vecteur d’observation pour les HMM (coefficients statiques et dynamiques). Enfin, W est une matrice de fenˆetrage permettant d’obtenir les coefficients dynamiques `a partir des coefficients statiques C. La forme de la matrice W3 est fixe et peut ˆetre d´ecrite par le syst`eme suivant (illustr´e

3. v0t permet de conserver les coefficients statiques

tel-00913565, version 1 - 3 Dec 2013

figure 2.5) :

Figure2.5 – Repr´esentation de l’´equation2.18: dans cet exempleL1=L2= 1 (op´erateur de d´erivation sur 3 points) et chaque case correspond `a une matrice de taille M×M o`u M repr´esente l’ordre des coefficients acoustiques. Figure inspir´ee de [Zen2007a]. (Un seul flux est repr´esent´e.)

Lors de la phase de g´en´eration de param`etres, en supposant la s´equence d’´etats Q connue, [Tokuda1995a,Tokuda2000b] note que d´eterminer les trajectoires des coefficients revient `a maximiserP(O|Q, λ) o`uλcorrespond `a la phrase-HMM issue de la concat´enation des HMM d´etermin´es par la s´equence de descripteurs obtenus `a l’issue de l’analyse lin-guistique du texte `a synth´etiser. En prenant en compte la relation2.17, et en d´efinissant le crit`ere suivant :

∂log(P(W C|Q, λ))

∂C = 0 (2.24)

tel-00913565, version 1 - 3 Dec 2013

Maximiser P(O|Q, λ) revient `a r´esoudre le syst`eme d’´equations suivant :

(W>Σ−1W).C =W>Σ−1µ (2.25) o`uµest un vecteur obtenu par la concat´enation des vecteurs moyennes µt issus des ´etats qt tels que qt ∈ Q; Σ correspond `a la matrice de covariance obtenue par concat´enation des matrices Σt associ´ees aux ´etats qt issus de la s´equence d’´etats Q. Par hypoth`ese, la s´equence d’´etatsQ´etant connue, et la matrice de fenˆetrageW´etant fixe, la seule inconnue de cette ´equation est C, le vecteur de coefficients que l’on souhaite g´en´erer.

N´eanmoins, dans la pratique, la s´equence d’´etatsQn’est pas connue `a l’avance. L’ob-jectif consiste plutˆot `a d´eterminer le vecteur de coefficientsC qui maximiseP(O|λ). Pour simplifier le probl`eme, K. Tokuda et al. [Tokuda1995a,Tokuda1995] posent comme hy-poth`ese :

P(O|λ) = max

Q P(O, Q|λ) (2.26)

En s’appuyant sur cette hypoth`ese, d´eterminer le vecteur de coefficientsC optimal re-vient `a maximiser la loi conjointeP(O, Q|λ). N´eanmoins, comme l’indique [Tokuda1995a], P(O, Q|λ) peut ˆetre transform´ee en :

P(O, Q|λ) =P(Q|λ)×P(O|Q, λ) (2.27)

P(Q|λ) ne d´ependant pas deO, maximiserP(O|λ) revient donc `a maximiserP(O|Q, λ).

Un algorithme a ´et´e mis au point pour r´esoudre l’´equation 2.25 et est pr´esent´e dans [Tokuda1995a, Tokuda1995]. Cet algorithme consiste `a estimer une trame `a l’instant t telle que la mise `a jour des param`etresµtet Σt li´es `a la composanteitde la mixture reli´ee

`

a l’´etat qt implique la plus forte augmentation de P(O, Q|λ). Si cette augmentation est suffisamment ´elev´ee,µt, Σt etC sont mis `a jour sinon la proc´edure s’arrˆete et retourne la s´equence de coefficients C. L’algorithme d´epend donc fortement de la condition initiale : le choix de la s´equence d’´etats Q, d´etermin´ee en utilisant les dur´ees moyennes de s´ejour, qui doit ˆetre proche de l’optimal.

[Tokuda2000b] pr´esente une approche diff´erente qui suppose que la s´equence d’´etats Q est cach´ee. Cela revient donc `a vouloir maximiser P(O|λ) sans poser une hypoth`ese particuli`ere sur la s´equence Q. L’algorithme repose sur une approche de type EM qui met `a jour les param`etres des distributions associ´ees au couple ´etat/mixture (qt, it) pour l’ensemble des trames T. De plus, depuis [Tokuda2000b], l’´equation (2.25) est r´esolue par une d´ecomposition de Cholesky qui, grˆace `a la structure particuli`ere de la matrice W, permet de passer d’une complexit´e deO(T3M3) `a une complexit´e de O(T M3L2) sachant que L << T.

tel-00913565, version 1 - 3 Dec 2013

Donn´ees: Une phrase-HMM λ

R´esultat : Une s´equence de coefficientsC cur= 0;

D´efinir une s´equence d’´etat Qen utilisant les dur´ees moyennes de λ;

R´esoudre l’´equation (2.25) pour d´eterminer C en utilisant Σ−1et Σ−1M; r´ep´eter

prev=curr;

D´eterminer P(qt = (q, i)|O, λ) etcurr=P(O|λ) via l’algorithme forward/backward;

D´eterminer Σ−1 en connaissant Σ−1; D´eterminer Σ−1M en connaissant Σ−1M;

R´esoudre l’´equation (2.25) pour d´eterminer C en utilisant Σ−1et Σ−1M; C =C;

Σ−1= Σ−1; Σ−1M = Σ−1M;

jusqu’`a((curr−prev)≤seuil);

Algorithme 1:Algorithme de synth`ese propos´e dans [Tokuda2000b]

2.2.3 Variance globale (GV)

L’algorithme pr´ec´edent permet de g´en´erer un vecteur de coefficientsC compatible avec une synth`ese du signal de parole par un vocodeur (par exemple STRAIGHT). Cependant, exp´erimentalement, la variance des coefficients g´en´er´es par HTS est souvent trop faible et le surlissage qui en r´esulte conduit `a un signal de synth`ese ´etouff´e. Pour pallier ce d´efaut, la notion de variance globale [Toda2005] a ´et´e introduite. L’objectif de cette id´ee est d’estimer la variance intrins`eque des trames acoustiques d’un locuteur puis de l’utiliser, lors de la phase de g´en´eration, pour accroˆıtre artificiellement la variance des coefficients synth´etis´es.

La variance globale, associ´ee aux vecteurs de coefficientsC de dimensionM est d´efinie comme le vecteurv(C) = [v(1), . . . , v(m), . . . , v(M)]> o`u :

o`uT correspond au nombre de trames analys´ees pour un ´enonc´e. Utiliser l’´enonc´e comme horizon de calcul constitue un compromis entre le nombre de vecteurs n´ecessaires pour d´eterminer la variance globale et le nombre de valeurs n´ecessaires `a l’apprentissage d’une distribution gaussienne.

tel-00913565, version 1 - 3 Dec 2013

L’algorithme de g´en´eration pr´esent´e pr´ec´edemment a donc ´et´e modifi´e pour prendre en compte cette variance globale [Toda2005a]. L’algorithme consiste `a maximiser le crit`ereL suivant :

L=P(O|λ)ω×P(v(C)|λv) (2.30)

o`uv(C) correspond `a la variance globale de la s´equence de coefficientsC que l’on souhaite obtenir, λv la distribution mod´elisant la variance globale et ω une constante permettant de contrˆoler l’influence de la variance globale.

En utilisant une m´ethode de gradient, il est possible de d´eterminer C it´erativement grˆace `a :

C(i+1)=C(i)+α·∆C(i) (2.31)

o`uαcorrespond au pas utilis´e par la m´ethode de gradient.

Deux m´ethodes du gradient sont propos´ees dans [Toda2005a] pour effectuer la g´en´eration de C en utilisant la variance globale : la descente de gradient, si l’on utilise uniquement la d´eriv´ee de premier ordre ; la m´ethode de Newton-Raphson si les d´eriv´ees de premier et second ordre sont prises en compte. ∆C est d´efini par :

∆C(i)=

Le processus de g´en´eration repose sur l’algorithme standard d´ecrit pr´ec´edemment (voir l’algorithme 1). La r´esolution de l’´equation (2.30) est l’´etape suivant la r´esolution de l’´equation (2.25).