• Aucun résultat trouvé

Amélioration de la précision de la resynthèse avec TD-PSOLA

N/A
N/A
Protected

Academic year: 2021

Partager "Amélioration de la précision de la resynthèse avec TD-PSOLA"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: inria-00107612

https://hal.inria.fr/inria-00107612

Submitted on 19 Oct 2006

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Amélioration de la précision de la resynthèse avec TD-PSOLA

Vincent Colotte, Yves Laprie

To cite this version:

Vincent Colotte, Yves Laprie. Amélioration de la précision de la resynthèse avec TD-PSOLA.

XXIVème Journées d’Etude sur la Parole - JEP 2002, 2002, Nancy, France. �inria-00107612�

(2)

Amélioration de la précision de la resynthèse avec TD-PSOLA

Vincent Colotte et Yves Laprie

LORIA

Campus scientifique, BP 239, F-54506 Vandœuvre-lès-Nancy, FRANCE Tél.: ++33 (0)3 83 59 20 74 - Fax: ++33 (0)3 83 41 30 79

Mél: Vincent.Colotte@loria.fr, Yves.Laprie@loria.fr - http://www.loria.fr/ colotte/

A BSTRACT

The paper describes techniques to improve the precision of prosodic modifications with TD-PSOLA. TD-PSOLA relies on the decomposition of the signal into overlapping frames synchronised with pitch period. The main objec- tive is thus to preserve the consistency of marks between neighbouring frames with respect to the temporal structure of pitch periods. First, we improve pitch marking by elimi- nating mismatch errors which appear during rapid formant transitions. This is achieved by pruning pitch mark can- didates. From the synthesis point of view we exploit a fast re-sampling method which allows signal frames to be shifted finely. Together with the pitch marking improve- ment, this fast re-sampling method enables very high qual- ity transformations characterised by the absence of noise between harmonics.

1. I NTRODUCTION

Les méthodes reposant sur le principe de synchronisation avec le fondamental sont utilisées pour réaliser des mod- ifications temporelles ou fréquentielles d’un signal de pa- role, ou pour mettre en œuvre des systèmes de synthèse à partir du texte. Ces méthodes nécessitent au préalable un marquage des périodes du fondamental. Nos travaux se situent dans le cadre de l’apprentissage des langues, sur la modification des paramètres prosodiques. C’est ainsi que nous avons choisi d’utiliser la méthode TD-PSOLA (Time Domain - Pitch Synchronous OverLap and Add) : elle est rapide et permet de modifier simultanément F0 et le débit d’un signal de parole.

TD-PSOLA [6] est basée sur la décomposition du signal de parole en fenêtres recouvrantes synchronisées sur les périodes du fondamental. Les marques de synchronisation (ou du fondamental) indiquent le centre de ces fenêtres.

Les modifications consistent à manipuler les marques d’analyse pour générer de nouvelles marques de syn- thèse. Cela correspond à la duplication ou l’élimination de fenêtres dont l’écartement peut être modifié.

La principale exigence, commune aux techniques de dé- composition du signal en courtes fenêtres, est de garder la cohérence mutuelle des emplacements des marques pour préserver la structure temporelle originale du signal étudié. Par conséquent, il est crucial d’obtenir un mar- quage précis des périodes du fondamental car il influe di- rectement sur la qualité du signal.

De nombreuses méthodes de marquage ont été décrites dans la littérature. Elles sont généralement basées sur la recherche d’évènements précis dans le signal de parole : instants de fermeture glottale [1], extrema du signal, in- stants d’excitation des modèles LPC, dernier passage par zéro avant un pic maximum. . .

Comme le souligne Veldhuis [8], ces techniques souffrent d’une certaine rigidité face au critère numérique exploité.

En particulier, le critère numérique peut forcer le mar- quage d’échantillons qui satisfont ce critère mais dont la distance avec les marques voisines est éloignée de la péri- ode du fondamental. Dans le contexte de la synthèse de parole, il est concevable de corriger quelques erreurs à la main, ce qui n’est plus possible si l’on souhaite modifier des phrases de manière automatique pour l’apprentissage des langues.

Dans [3], nous avons proposé un algorithme de marquage qui exploite les résultats de l’extraction de F0 et assure la cohérence des marques sur l’ensemble de la phrase. Veld- huis [8] a proposé un algorithme élargissant légèrement notre approche qui, à partir d’un pré-marquage, prend en compte la corrélation du signal dans le voisinage des mar- ques du fondamental.

L’amélioration de la robustesse et de la précision du mar- quage du fondamental est le premier objet de cet article.

Outre la qualité du marquage du fondamental, l’emplacement des marques de synthèse elles-mêmes peut être à l’origine de dégradations temporelles. Dans une première approche, les marques de synthèses peuvent être choisies parmi les instants d’échantillonnage. Pour les mêmes raisons que celles mentionnées précédemment, les marques de synthèse doivent être placées avec précision pour éviter les erreurs de phase. La figure 1 montre ce phénomène : une période du son /

/ à 16 KHz a été dupliquée et la fréquence fondamentale du stimulus a été modifiée linéairement. Les marques d’analyse ont été placées exactement à la même place à l’intérieur de chaque période. Le premier spectrogramme montre le résultat obtenu avec l’algorithme classique de TD-PSOLA et le second avec une meilleure précision des marques de synthèse. Dans le premier cas, nous pouvons observer la répercussion des erreurs de phase sur la qualité des harmoniques.

Il est donc important de développer des algorithmes of- frant une meilleure précision du marquage du fonda- mental et de la localisation des marques de synthèse.

Tout d’abord, nous décrirons les améliorations apportées à l’algorithme proposé dans [3]. Ensuite, nous expli- querons comment le marquage précis peut être combiné avec une technique de ré-échantillonnage pour obtenir une meilleure précision de synthèse avec TD-PSOLA.

2. M ARQUAGE DU FONDAMENTAL 2.1. Principe

Le principe de notre algorithme est de sélectionner les

marques du fondamental parmi les extrema locaux.

(3)

Figure 1: Le stimulus a été construit à partir d’une péri- ode du son /

/. Sa F0 a été modifiée linéairement : (a) avec un algorithme classique de TD-PSOLA, (b) avec une meilleure précision de la synthèse.

Soit un ensemble de marques candidates qui sont toutes des pics négatifs, ou toutes des pics positifs :

est l’instant (en échantillons) du

!"#!

pic, et

le nombre de pics extraits (voir [3] pour plus de détails sur la recherche des candidats).

Les marques du fondamental constituent un sous- ensemble de , et sont espacées par des périodes du fon- damental données par un algorithme d’extraction de F0.

Cette sélection peut être représentée par une séquence d’indices :

$ %&'()%*%&+'(+%&,-

avec

,/.

.

$

doit préserver l’ordre chronologique né- cessitant la monotonie de

%

:

%&'(0.1%&'324

.

La séquence des indices parmi les pics correspondants définit l’ensemble des marques du fondamental :

56%&+'(76%&6%&'(86%&,-

La détermination de

%

nécessite un critère exprimant la fia- bilité de deux marques consécutives par rapport à la valeur de F0 précédemment extraite. Le critère local est choisi comme suit :

9 :<;=?>6 A@1:+A@CBDFEG*HJIKL 9 :>

(1) où

:#.

. Il prend en compte l’intervalle entre deux mar- ques comparé à la période du fondamental. Ce critère re- tourne zéro si les deux pics sont exactement séparés de

BDFEG*HJIKFL

9

:

et une valeur positive si les deux pics sont plus éloignés ou plus proches qu’une période de F0.

Le critère global est :

M ON7PQ

R

ST

9 U%&'(;6%&'V24A@1WX6%&+'32Y

(2)

où est le bonus sélectionnant de préférence un ex- tremum comme marque du fondamental. Dans un pre- mier temps, nous avons choisi

WX6%&+'(Z []\

>^`_aB*:FEb 9 IcU%*+'(>

. Le coefficient

[

exprime le com- promis entre la distance séparant le pic candidat d’un pic précédent (devant être proche de la période du fondamen- tal) et l’amplitude du pic étudié.

M

est minimisé par pro- grammation dynamique.

Nous avons utilisé l’algorithme d’extraction de F0 pro- posé par Martin [4] pour évaluer le critère local défini dans Eq.1. Le signal a été filtré avec un filtre passe-bas de fréquence 2500 Hz.

2.2. Amélioration de l’algorithme de marquage Le coefficient

[

qui contrôle le compromis entre la prox- imité avec la valeur du fondamental et l’amplitude de la marque a été expérimentalement fixé à

degff

. Quand

[

est trop fort de nombreux pics sont gardés comme mar- ques (voir la figure 2a à 1144 ms). La valeur retenue pour

[

est suffisamment générale pour donner de bons résultats avec la plupart des signaux de parole. Cependant, il appa- raît que ce choix n’est pas approprié pour certains signaux contenant des transitions spectrales importantes.

Nous avons mis en place deux solutions. La première con- siste à exploiter une fonction de similarité pour éviter les problèmes de déphasage entre les extrema voisins. Nous avons donc utilisé la corrélation comme bonus. Le bonus de l’Eq. 2 devient alors :

WhU%*+'(i [\-j(>^g_aB*:+Eb 9 Ig6%&+'(>

27jlk6LKKmn6%&'a@o;6%&'(

(3) où

<LKK m 6%&'p@q;86%&'D

est la corrélation entre les segments de longueur

r

, centrés en

U%*+'1@s

et

U%*+'(

. La durée, sur laquelle a été calculée la corréla- tion, est égale à une période du fondamental à l’instant

U%*+'C@t

. Les coefficients

j

et

jk

pondèrent indépen- damment l’amplitude et la corrélation.

Le calcul de la corrélation pour chaque paire de candi- dats augmente fortement le temps d’exécution du mar- quage du fondamental. De plus, la corrélation est utilisée pour corriger des erreurs « évidentes » qui correspondent à l’association de deux extrema locaux dont l’écart diffère significativement de la période du fondamental local.

Pour ces raisons, nous avons mis au point une autre so- lution qui repose sur une stratégie d’élagage. Sans élim- iner les candidats potentiels, il est intéressant d’augmenter drastiquement le poids de la distance entre les candidats comparée à la période du fondamental, quand cette dis- tance est trop éloignée de la période du fondamental. De cette façon, le critère local (Eq.1) est privilégié par rapport au bonus.

2.3. Résultats du marquage

Dans un premier temps, nous avons testé le bonus basé seulement sur la corrélation. Le ratio entre la corrélation et le critère local est alors 40. Il s’avère que le compromis entre la distance et la corrélation donne approximative- ment le même nombre d’erreurs que la stratégie initiale.

En effet, cette nouvelle stratégie favorise la sélection de deux pics très proches l’un de l’autre car la corrélation est alors proche de 1.

Ensuite, nous avons testé un bonus intégrant l’amplitude et

la corrélation. Leur pondération respective face au critère

local a été conservée. Les résultats sont très satisfaisants

pour la plupart des signaux mais quelques erreurs ne peu-

(4)

Figure 2: (a) Erreurs de marquage avec l’amplitude comme bonus sans l’élagage. (b) Marquage avec élagage et l’amplitude comme bonus. (c) Marquage avec élagage et la corrélation comme bonus. (d) Marquage sur un segment de parole avec des transitions de formants.

vent être éliminées. De plus, comme nous l’avons men- tionné précédemment, ces erreurs sont évidentes car la dis- tance entre deux marques est très éloignée de la période du fondamental. Ce problème provient de l’algorithme de programmation dynamique qui favorise localement des er- reurs « grossières » si elles contribuent à abaisser le critère global sur l’ensemble de la partie à traiter. Ainsi, l’élagage a été mis en place en augmentant brutalement le poids du critère local pour les paires de candidats dont l’écart est de

f

supérieur ou inférieur à la valeur attendue du fon- damental.

[

est alors égal à

dle`ff`ff

au lieu de

dle`ff

dans l’Eq.2. Ce choix arbitraire empêche l’algorithme de programmation dynamique de sélectionner deux pics in- cohérents l’un par rapport à l’autre. De plus, la valeur de

f

permet d’éliminer les erreurs grossières tout en préservant la possibilité de choisir des pics dont la dis- tance est légèrement différente de la période du fonda- mental calculée, mais, qui sont cohérents avec le critère de corrélation. Ce choix ne nécessite pas de réglages fins ou dépendant du signal analysé.

Les résultats obtenus avec la stratégie d’élagage et avec l’amplitude, ou avec la corrélation ou avec les deux sont très bons. Ces résultats sont illustrés par la figure 2b et 2c. Ainsi, un marquage précis du fondamental peut être obtenu même dans le cas de transitions dans la structure temporelle du signal (voir 1145 et 1220 ms dans la fig- ure 2d).

3. S YNTHÈSE DE PLUS HAUTE PRÉCISION Dans le but de réaliser une synthèse de très haute préci- sion, nous pouvons imaginer suréchantillonner le signal pour le marquage et la resynthèse. Nous avons en ef- fet suréchantillonné le signal original pour le marquage du fondamental. Cependant, nous n’avons pas suréchan- tillonné le signal pour la synthèse car elle aurait néces- sité une résolution trop élevée pour faire correspondre idéalement les marques de synthèse, pour n’importe quelle modification temporelle ou fréquentielle (c’est-à-dire pour réussir à ce que les marques de synthèse correspondent à un instant d’échantillonnage).

Voici comment notre algorithme fonctionne :

1. Marquage du fondamental

Suréchantillonnage et filtrage passe-bas (à la fréquence de 2500 Hz).

Marquage des périodes du fondamental sur le signal suréchantillonné.

2. Resynthèse

Application de l’algorithme TD-PSOLA avec ces marques pour obtenir la position exacte (théorique) des marques de synthèse et les as- socier avec une fenêtre d’analyse.

Recalage du segment par rééchantillonnage pour obtenir la fenêtre de synthèse réelle (voir figure 3).

Reconstruction du signal.

T

s

marque de synthèse

marque d’analyse

t

t

δ segment à traiter

axe d’analyse

axe de synthèse T

s

signal initial

signal final

Rééchantillonnage

Figure 3: Recalage d’un segment d’analyse sur l’axe tem- porel de synthèse.

À partir de la marque du fondamental et de la marque de

synthèse d’une fenêtre donnée, nous utilisons une méth-

ode de rééchantillonnage rapide, décrite au-dessous, pour

(5)

recaler la fenêtre précisément à l’endroit où elle doit ap- paraître dans le nouveau signal.

Soit

r

la fenêtre originale, le signal rééchantillonné est donné par A. Oppenheim [7] comme suit :

Ei

R

m T P r

r

E @

r

(4) où

est la période d’échantillonnage.

Le calcul de la fenêtre finale

_

correspondant à la fenêtre

r

décalée d’un petit délai

j

s’obtient en évalu- ant

_

@ j

(voir figure 3). Ainsi,

_ _

@ j

i.e:

_

R

m T P r

r _

@-jA@

r

R

m T P r

r _ @ r

@1j

(5) où

est la fréquence d’échantillonnage (

ld

).

Maintenant, en remplaçant

r

par

r 8d

et en util- isant la formule suivante :

r _ @ r

@1j

=

L

j

r _ @ r A@

r

j(<L

_ @ r

Et sachant que

<L

_ @ r

et

r

_ @ r tf

, on obtient alors :

_

R

m T P r

@J

" P m

Q

r

j

_ @ r

@-j

(6) Comme

fo. j .

(resp.

@

.]j .]f

), on définit

j-

, où

f . .

(resp.

@J-. . f

). Alors l’équation devient :

_

R

m T P

@J " P

m

Q!

r

#"!$&%

_ @ r A@'

(7) La sommation ne pouvant être infinie, nous l’avons effec- tuée sur un court intervalle (1-2 ms

(*) f

échantillons).

Enfin, la fenêtre obtenue est pondérée par une fenêtre de Hanning. Gimenez et Talkin [2] utilisent une fenêtre asymétrique pour réduire les phénomènes de distortion et de réverbération qui sont introduits par le fenêtrage.

La figure 4 montre l’amélioration de la qualité du signal obtenu. Le premier spectrogramme provient d’un signal modifié avec l’algorithme classique de TD-PSOLA. Le second est le spectrogramme du même signal modifié avec la méthode de haute résolution expliquée ci-dessus. En particulier, la structure harmonique apparaît plus claire- ment (par exemple vers 1100, 1500 et 2500 ms).

4. C ONCLUSION

Notre algorithme de marquage du fondamental assure une meilleure précision à la fois pour les marques d’analyse et les marques de synthèse. Nous avons en particulier amélioré la robustesse du marquage pour les signaux présentant de très fortes transitions formantiques.

Deuxièmement, la combinaison de notre marquage du fondamental avec une méthode rapide de rééchantillon- nage pendant l’étape de synthèse améliore la qualité du signal. Ce gain en précision évite la réduction de la qualité

Figure 4: Haut : modification de F0 sans rééchantillon- nage. Bas : avec rééchantillonnage.

entre le signal original et la signal de synthèse obtenu avec la méthode TD-PSOLA classique. Ce phénomène peut être clairement observé sur la qualité des harmoniques (figure 4) où le niveau de bruit entre les harmoniques est réduit grâce à notre méthode.

Dans des travaux futurs, nous chercherons à exploiter des algorithmes de très haute précision d’extraction de F0 [5]

pour améliorer la détermination des marques du fonda- mental sans suréchantillonnage.

B IBLIOGRAPHIE

[1] Y. M. Cheng and D. O’Shaughnessy. Automatic and reliable estimation of glottal closure instant and pe- riod. IEEE Trans. Acoust., Speech, Signal Processing, ASSP-37(12):1805–1815, December 1989.

[2] F. Gimenez de los Galanes and D. Talkin. High res- olution prosody modification for speech synthesis. In Eurospeech, pages 557–560, Rhodes, Greece, 1997.

[3] Y. Laprie and V. Colotte. Automatic pitch marking for speech transformations via TD-PSOLA. In IX Euro- pean Signal Processing Conference, Rhodes, Greece, 1998.

[4] Ph. Martin. Comparison of pitch detection by cep- strum and spectral comb analysis. In Proc. of Int.

Conf. Acoust., Speech, Signal Processing 1982, pages 180–183, 1982.

[5] Y. Medan, E. Yair, and D. Chazan. Super resolution pitch determination of speech signals. IEEE Trans.

on Acoustics, Speech, and Signal Processing, ASSP- 39(1):40–48, January 1991.

[6] E. Moulines and F. Charpentier. Pitch synchronous waveform processing techniques for a text-to-speech synthesis using diphones. Speech Communication, 9(5,6):453–467, 1990.

[7] A. V. Oppenheim and R. W. Schafer. Digital Signal Processing. Prentice-Hall, Inc, 1975.

[8] R. Veldhuis. Consistent pitch marking. In Interna-

tional Conference on Speech Language Processing,

Beijin, 2000.

Références

Documents relatifs

Ainsi, en lui donnant les moyens idoines, le viticulteur peut ainsi régler très facilement le pulvérisateur avant le traitement (débits, niveau de cuve, orientation buses), suivre

bois et vidange totale de la pâte à chaque opération. cit.) concernent, d’une part, le matériel pour permettre de traiter un plus grand nombre d’échantillons

Les points suivants sont ensuite choisis de mani`ere it´e- rative en s´electionnant ` a chaque fois le point dont le NDVI sera le plus ´eloign´e des valeurs d´ej` a s´election-

On peut aller encore plus loin dans la recherche de la précision en utilisant la méthode de permutation de La Porte et Vignes pour calculer statistiquement le nombre de

La racine carrée du nombre x se note math.sqrt(x) après avoir importé le module math au début de votre programme sous la forme : import math..

Ayant compris le phénomène et pouvant le mesurer, nous avons ensuite voulu créer nous-mêmes des hologrammes à franges d’interférences. Nous avons donc repris le

Pour tester cette hypothèse, on part d'une fréquence théorique de 50% de filles dans une classe d'âge et on génère des groupes de 5 classes de 40 élèves. Faire les

Le processus de synthèse et d’optimisation de la lar- geur des données doit être itératif et se terminer par une synthèse permettant d’implanter exactement la spécification