G´en´eration des trajectoires - Évaluation expérimentale d'un système statistique de synthèse d

L’apport principal du système HTS est de pouvoir générer les coefficients acoustiques utilisés par les outils SPTK [Fukada1992] et STRAIGHT [Kawahara1999] pour synthétiser ensuite le signal de parole. Dans cette section nous allons présenter les équations uti-lisées pour effectuer la génération. Cette présentation s’effectue en deux temps : tout d’abord l’équation fondamentale, permettant de lier coefficients statiques et coefficients dynamiques ; puis la variance globale, mise en place pour pallier le problème de sur-lissage.

tel-00913565, version 1 - 3 Dec 2013

2.2.1 Vecteur d’observations

Dans le cadre du système HTS, chaque observation ot, illustrée par la figure 2.4, est un vecteur composé de cinq blocs. La décomposition de ot est rendue possible grâce au concept de flux proposé par HTK et présenté dans la section précédente. Cinq flux sont donc nécessaires :

— Le premier flux contient les coefficients MGC, tels que présentés dans la section1.1.3 du chapitre précédent, ainsi que les coefficients dynamiques de premier et second ordre,

— Les trois flux suivants contiennent, respectivement, le F0, la dynamique de premier ordre et la dynamique de second ordre,

— Le dernier flux contient les coefficients d’apériodicité nécessaires au vocodeur STRAIGHT.

M GC

∆M GC

∆²M GC f0

∆f0

∆²f0 BAP

∆BAP

∆²BAP

Figure 2.4 – Vecteur d’observations ot utilis´e par HTS. Figure inspir´ee de [Yoshimura1999]

2.2.2 Equation fondamentale´

L’ensemble des apports effectués par le système HTS découle de l’équation linéaire suivante qui n’est que l’expression numérique d’une dérivée :

O=W×C (2.17)

où le vecteur C correspond aux coefficients statiques et O au vecteur d’observation pour les HMM (coefficients statiques et dynamiques). Enfin, W est une matrice de fenêtrage permettant d’obtenir les coefficients dynamiques à partir des coefficients statiques C. La forme de la matrice W³ est fixe et peut être décrite par le système suivant (illustré

3. v⁰_t permet de conserver les coefficients statiques

tel-00913565, version 1 - 3 Dec 2013

figure 2.5) :

Figure2.5 – Représentation de l’équation2.18: dans cet exempleL1=L2= 1 (opérateur de dérivation sur 3 points) et chaque case correspond à une matrice de taille M×M où M représente l’ordre des coefficients acoustiques. Figure inspirée de [Zen2007a]. (Un seul flux est représenté.)

Lors de la phase de génération de paramètres, en supposant la séquence d’états Q connue, [Tokuda1995a,Tokuda2000b] note que déterminer les trajectoires des coefficients revient à maximiserP(O|Q, λ) oùλcorrespond à la phrase-HMM issue de la concaténation des HMM déterminés par la séquence de descripteurs obtenus à l’issue de l’analyse lin-guistique du texte à synthétiser. En prenant en compte la relation2.17, et en définissant le critère suivant :

∂log(P(W C|Q, λ))

∂C = 0 (2.24)

tel-00913565, version 1 - 3 Dec 2013

Maximiser P(O|Q, λ) revient à résoudre le système d’équations suivant :

(W^>Σ⁻¹W).C =W^>Σ⁻¹µ (2.25) oùµest un vecteur obtenu par la concaténation des vecteurs moyennes µt issus des états qt tels que qt ∈ Q; Σ correspond à la matrice de covariance obtenue par concaténation des matrices Σt associées aux états qt issus de la séquence d’états Q. Par hypothèse, la séquence d’étatsQétant connue, et la matrice de fenêtrageWétant fixe, la seule inconnue de cette équation est C, le vecteur de coefficients que l’on souhaite générer.

Néanmoins, dans la pratique, la séquence d’étatsQn’est pas connue à l’avance. L’ob-jectif consiste plutôt à déterminer le vecteur de coefficientsC qui maximiseP(O|λ). Pour simplifier le problème, K. Tokuda et al. [Tokuda1995a,Tokuda1995] posent comme hy-pothèse :

P(O|λ) = max

Q P(O, Q|λ) (2.26)

En s’appuyant sur cette hypothèse, déterminer le vecteur de coefficientsC optimal re-vient à maximiser la loi conjointeP(O, Q|λ). Néanmoins, comme l’indique [Tokuda1995a], P(O, Q|λ) peut être transformée en :

P(O, Q|λ) =P(Q|λ)×P(O|Q, λ) (2.27)

P(Q|λ) ne d´ependant pas deO, maximiserP(O|λ) revient donc `a maximiserP(O|Q, λ).

Un algorithme a été mis au point pour résoudre l’équation 2.25 et est présenté dans [Tokuda1995a, Tokuda1995]. Cet algorithme consiste à estimer une trame à l’instant t telle que la mise à jour des paramètresµtet Σt liés à la composanteitde la mixture reliée

a l’état qt implique la plus forte augmentation de P(O, Q|λ). Si cette augmentation est suffisamment élevée,µt, Σt etC sont mis à jour sinon la procédure s’arrête et retourne la séquence de coefficients C. L’algorithme dépend donc fortement de la condition initiale : le choix de la séquence d’états Q, déterminée en utilisant les durées moyennes de séjour, qui doit être proche de l’optimal.

[Tokuda2000b] présente une approche différente qui suppose que la séquence d’états Q est cachée. Cela revient donc à vouloir maximiser P(O|λ) sans poser une hypothèse particulière sur la séquence Q. L’algorithme repose sur une approche de type EM qui met à jour les paramètres des distributions associées au couple état/mixture (qt, it) pour l’ensemble des trames T. De plus, depuis [Tokuda2000b], l’équation (2.25) est résolue par une décomposition de Cholesky qui, grâce à la structure particulière de la matrice W, permet de passer d’une complexité deO(T³M³) à une complexité de O(T M³L²) sachant que L << T.

tel-00913565, version 1 - 3 Dec 2013

Donn´ees: Une phrase-HMM λ

R´esultat : Une s´equence de coefficientsC cur= 0;

Définir une séquence d’état Qen utilisant les durées moyennes de λ;

Résoudre l’équation (2.25) pour déterminer C en utilisant Σ⁻¹et Σ⁻¹M; répéter

prev=curr;

D´eterminer P(qt = (q, i)|O, λ) etcurr=P(O|λ) via l’algorithme forward/backward;

D´eterminer Σ⁻¹ en connaissant Σ⁻¹; D´eterminer Σ⁻¹M en connaissant Σ⁻¹M;

Résoudre l’équation (2.25) pour déterminer C en utilisant Σ⁻¹et Σ⁻¹M; C =C;

Σ⁻¹= Σ⁻¹; Σ⁻¹M = Σ⁻¹M;

jusqu’`a((curr−prev)≤seuil);

Algorithme 1:Algorithme de synth`ese propos´e dans [Tokuda2000b]

2.2.3 Variance globale (GV)

L’algorithme précédent permet de générer un vecteur de coefficientsC compatible avec une synthèse du signal de parole par un vocodeur (par exemple STRAIGHT). Cependant, expérimentalement, la variance des coefficients générés par HTS est souvent trop faible et le surlissage qui en résulte conduit à un signal de synthèse étouffé. Pour pallier ce défaut, la notion de variance globale [Toda2005] a été introduite. L’objectif de cette idée est d’estimer la variance intrinsèque des trames acoustiques d’un locuteur puis de l’utiliser, lors de la phase de génération, pour accroˆıtre artificiellement la variance des coefficients synthétisés.

La variance globale, associée aux vecteurs de coefficientsC de dimensionM est définie comme le vecteurv(C) = [v(1), . . . , v(m), . . . , v(M)]^> où :

oùT correspond au nombre de trames analysées pour un énoncé. Utiliser l’énoncé comme horizon de calcul constitue un compromis entre le nombre de vecteurs nécessaires pour déterminer la variance globale et le nombre de valeurs nécessaires à l’apprentissage d’une distribution gaussienne.

tel-00913565, version 1 - 3 Dec 2013

L’algorithme de génération présenté précédemment a donc été modifié pour prendre en compte cette variance globale [Toda2005a]. L’algorithme consiste à maximiser le critèreL suivant :

L=P(O|λ)^ω×P(v(C)|λv) (2.30)

oùv(C) correspond à la variance globale de la séquence de coefficientsC que l’on souhaite obtenir, λv la distribution modélisant la variance globale et ω une constante permettant de contrôler l’influence de la variance globale.

En utilisant une méthode de gradient, il est possible de déterminer C itérativement grâce à :

C⁽ⁱ⁺¹⁾=C⁽ⁱ⁾+α·∆C⁽ⁱ⁾ (2.31)

oùαcorrespond au pas utilisé par la méthode de gradient.

Deux méthodes du gradient sont proposées dans [Toda2005a] pour effectuer la génération de C en utilisant la variance globale : la descente de gradient, si l’on utilise uniquement la dérivée de premier ordre ; la méthode de Newton-Raphson si les dérivées de premier et second ordre sont prises en compte. ∆C est défini par :

∆C⁽ⁱ⁾=

Le processus de génération repose sur l’algorithme standard décrit précédemment (voir l’algorithme 1). La résolution de l’équation (2.30) est l’étape suivant la résolution de l’équation (2.25).

Dans le document Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française ~ Association Francophone de la Communication Parlée (Page 45-50)