• Aucun résultat trouvé

Le terme Mod`eles sinuso¨ıdaux adaptatif - aSMs se r´ef`ere `a la famille des mod`eles sinuso¨ıdaux qui sont capables de s’adapter aux caract´eristiques locales (phase et / ou amplitude) du signal de parole analys´e. Il convient de souli- gner que la non-adaptatif des mod`eles sinuso¨ıdaux (classiques) ne consid`erent stationnarit´e locale d’un signal dans leur repr´esentation.

Avant d’entrer dans les d´etails, les notions de stationnarit´e et adaptativit´e doivent ˆetre d´efinis avec pr´ecision. Il convient de noter que la stationnarit´e est un terme g´en´eral qui peut ˆetre utilis´e pour caract´eriser un quelconque signal ; Cependant, l’adaptation sera d´efinie dans un contexte de ce qui repr´esente un signal avec un ensemble de fonctions de base exponentielles complexes. Maintenant nous allons d´efinir le stationnaire et adaptation termes d’analyse sinuso¨ıdale.

Soit un ensemble de fonctions de base exponentielles complexes qu’un signal est projet´e sur.

• A exponentielle complexe est appel´e stationnaire dans un intervalle de temps bien d´efini lors de sa fr´equence et / ou son amplitude est constante.

• A exponentielle complexe est appel´e adaptatif dans un intervalle de temps bien d´efinie lorsque son amplitude et / ou la fr´equence sont calcul´es en prenant en compte les caract´eristiques locales du signal qui est projet´ee sur elle. En g´en´eral, les aSMs sont fond´ees sur le principe de la projection d’un segment de signal sur un ensemble de non-param´etrique, variant dans le temps, les fonctions non-stationnaire base exponentielles complexes l’int´erieur d’une fenˆetre d’analyse, alors que les mod`eles sinuso¨ıdaux classiques consid`erent que la parole caract´eristiques demeurent relativement inchang´ees dans un niveau local, ainsi leurs fonctions de base sont stationnaires. La construction de cet ensemble de fonctions de base variables dans le temps d´epend du mod`ele adaptatif, comme cela deviendra apparent dans ce chapitre.

Tout d’abord, le cœur de tous les aSMs est pr´esent´e, le soi-disant mod`ele quasi-harmonique - QHM. Le QHM n’est pas un mod`ele adaptatif lui-mˆeme, mais il fournit le m´ecanisme pour l’adaptation, c’est un textit m´ecanisme de cor- rection de fr´equence, qui donne une estimation de l’´ecart entre les fr´equences r´eelles et estim´ees. Cette correction de fr´equence est ajout´e aux fr´equences estim´ees pour permettre une repr´esentation plus proche du signal sous-jacent. Une proc´edure it´erative sur l’estimation des param`etres conduit `a la mod`ele it´eratif quasi-harmonique - iQHM, qui met `a jour successivement les fr´equences jusqu’`a ce qu’un crit`ere de convergence soit satisfait. Toutefois, les deux QHM et iQHM d´etiennent l’hypoth`ese de stationnarit´e locale, qui est, tous les param`etres sont obtenus en projetant le signal sur un stationnaire ensemble de fonctions de base exponentielles.

Pour att´enuer l’hypoth`ese de stationnarit´e locale, le mod`ele adaptatif quasi-harmonique - aQHM d´evelopp´e par Pan- tazis et al [PRS11] est pr´esent´e, puis, nous proposons une extension, le mod`ele ´etendu adaptatif quasi-harmonique -

eaQHM[KPRS12]. Ces mod`eles vont encore plus loin et d’exploiter le m´ecanisme de correction de fr´equence de QHM d’affiner leurs estimations de fr´equence, ainsi que la construction it´erative d’un variant dans le temps, non param´etrique, et ensemble non stationnaire de fonctions de base. Par cons´equent, une d´efinition de la adaptation terme est donn´ee comme suit :

Soit un ensemble de fonctions de base exponentielles complexes qu’un signal est projet´e sur.

L’adaptation est une construction it´erative de l’ensemble de fonctions de base exponentielles complexes en fonction des caract´eristiques locales du signal sous-jacent, en parall`ele `a un affinement des composantes instantan´ees du signal, par exemple, l’instantan´e d’amplitude, de fr´equence et de phase.

En outre, le QHM fonctionne comme un initialiseur pour aQHM et eaQHM, fournissant un ensemble bien-estim´ee de trajectoires de fr´equence. Enfin, une autre approche r´ecente, appel´e le mod`ele harmonique adaptatif - aHM [DS13] est bri`evement pr´esent´e. Le aHM est un mod`ele purement harmonique, mais b´en´eficie de l’id´ee de fonctions de base non-stationnaire pour fournir une repr´esentation plus proche de la parole par un raffinement it´eratif de la fr´equence fondamentale.

A.2.1

Introduction

En g´en´eral, un ASM peut ˆetre d´ecrit comme x(t) = � K � k=−K Ck(t)ψk(t) � w(t) (A.1)

o`u ψk(t) d´esigne l’ensemble des fonctions non-stationnaires base, Ck(t) d´esigne le terme amplitude du mod`ele, 2K + 1

est le nombre d’exponentielles (d’o`uK + 1 sinuso¨ıdes), et enfin w(t) est la fenˆetre d’analyse avec le soutien de [−T, T ]. Dans les mod`eles sinuso¨ıdaux classiques, y compris le mod`ele sinuso¨ıdal [MQ86], le mod`ele harmonique (HM) [Sty96], et d’autres, l’ensemble des fonctions de base ψk(t) dans la partie d’analyse est fixe en fr´equence et en amplitude. Par

exemple, les fonctions de base de la SM sont sous la forme de ψSMk (t) = 1 · ej2πfkt, CSM

k (t) = ak (A.2)

o`u les amplitudes et des fr´equences des fonctions de base sont constants `a l’int´erieur de la fenˆetre d’analyse (1 et fk,

respectivement). Cependant, dans les ASMS, comme on le d´ecrit dans les sections, amplitudes et de fr´equences suivantes des fonctions de base sont non-param´etrique et d´epend des caract´eristiques r´eelles du signal analys´e :

ψaSM

k (t) = αk(t) · ejφk(t), (A.3)

o`u αk(t) est l’amplitude instantan´ee variant dans le temps de la kede la fonction de base, φk(t) est la phase instantan´ee

de lakede la fonction de base, calcul´ee comme l’int´egrale de la fr´equence instantan´ee,f k(t).

Le terme amplitude du mod`ele,CaSM

k (t), est variable dans le temps pour tous les aSMs. Plus pr´ecis´ement,

ψaQHMk (t) = 1 · ejφk(t), CaQHM

k (t) = ak+ tbk, (A.4)

ψeaQHMk (t) = αk(t) · ejφk(t), CkeaQHM(t) = ak+ tbk (A.5)

et

ψkaHM(t) = 1 · ejkφ0(t), CaHM

k (t) = ak+ tbk (A.6)

o`uak, bk sont l’amplitude complexe et de la pente de lakecomposante du mod`ele, φ0(t) est la phase instantan´ee de la

fr´equence fondamentale, calcul´ee comme l’int´egrale de celui-ci.

Sur la base de cette analyse, d’introduction, la description du prochain eaQHM suit. Le lecteur peut en savoir plus sur la aQHM et l’aHM dans [PRS11, DS13].

A.2.2

La mod`ele ´etendue adaptatif quasi-harmonique - eaQHM

Dans cette th`ese, nous proposons une extension de aQHM `a int´egrer l’adaptation amplitude, appel´e la mod`ele ´etendue adaptatif quasi-harmonique (eaQHM) :

x(t) = � K � k=−K (ak+ tbk) ˆαk(t)ej( ˆφk(t+ti)− ˆφk(ti)) � w(t), t ∈ [−T, T ] (A.7) o`u ˆ αk(t) = Ak(t + ti) Ak(ti) (A.8) o`uti est toujours le centre de la fenˆetre d’analyse etAk(t) est l’amplitude instantan´ee de la composant ke obtenu `a

partir d’une ´etape de l’adaptation (ou d’initialisation) pr´ec´edente. L’estimation des param`etres inconnus du eaQHM est similaire `a celle de QHM [PRS08] : �ˆa ˆ b � = (EeHWHWEe)−1EeHWHWs (A.9)

o`uW est la matrice contenant les valeurs de la fenˆetre dans la diagonale, s est le vecteur de signal d’entr´ee, la matrice Eeest d´efini comme Ee= [Ee0|Ee1], et les sous-matrices Eei,i = 0, 1 n’ai ´el´ements donn´e par

(Ee0)n,k= αk(tn)ej(φk(tn+ti)−φk(ti)) (A.10)

et

(Ee1)n,k= tnαk(tn)ej(φk(tn+ti)−φk(ti))= tn(Ee0)n,k, (A.11)

et la phase instantan´ee dukecomposant peut ˆetre calcul´e comme

ˆ

φk(t) = ˆφk(ti) +

� ti+t

ti

2πfk(u)du, t ∈ [−T, T ], (A.12)

o`ufk(t) est la trajectoire de la fr´equence de la composant ke. Il est ´evident que les fonctions de base sont adapt´ees

aux caract´eristiques locales d’amplitude du signal. A noter que l’amplitude instantan´eeAk(t) est divis´e par Ak(ti), de

mani`ere `a avoir une valeur de l’unit´e au centre de la fenˆetre d’analyse.

En utilisant la d´efinition de phase, la phase instantan´ee d’un seul composant, φ(t), est calcul´ee comme l’int´egrale de la fr´equence instantan´ee,f (t). La fr´equence instantan´ee est obtenue `a partir d’une estimation de param`etre initial, tel que QHM. Pour interpoler les valeurs de phase entre deux instants successifs,ti, ti+1, l’´equation suivante est propos´ee :

φ(t) = ˆφ(ti) +

� t+ti

ti

2π ˆf (u)du (A.13)

o`u ˆφ(ti) est l’estimation de la phase instantan´ee au temps instant ti. Cependant, cette solution ne prend pas en compte

les conditions aux limites du cadre au moment de instantti+1. Par cons´equent, il n’existe aucune garantie que la valeur

de phase au temps instantan´eeti+1,

φ(t)� �

t=ti+1 = ˆφ(ti+1) + 2πM (A.14)

o`uM est un entier choisi de mani`ere appropri´ee pour ˆetre aussi proche que possible de M = round�φ(ti+1) − ˆφ(ti)

(A.15) o`u round(·) est arrondi `a l’entier le plus proche de la fonction. Afin d’assurer la phase poursuite sur les limites de trame, il est sugg´er´e [PRS11] pour modifier l’´equation (A.13). Comme :

φ(t) = ˆφ(ti) +

� t+ti

ti

(2π ˆf (u) + c(u))du (A.16)

o`uc(u) est donn´ee par

c(u) = r(ti+1) sin

�π(u − ti) ti+1−ti

De cette fac¸on, l’´equation (A.14) est satisfaite si nous choisissonsr(ti+1) comme

r(ti+1) =

π(φ(ti+1) + 2πM − ˆφ(ti+1)

2(ti+1−ti)

(A.18) o`uM est calcul´ee comme dans l’´equation (A.15).

En d´ecrivant la mod´elisation de l’amplitude et de la fr´equence de la eaQHM dans la fenˆetre d’analyse, les figures A.1 et A.2 montrent comment les mod`eles sinuso¨ıdaux classiques comme HM, SM, ou QHM se comportent dans leur fenˆetre d’analyse . Leurs fonctions exponentielles de base sont `a l’arrˆet en fr´equence, ´etant ainsi inefficace sur la repr´esentation des courbes de fr´equence fortement non stationnaires. Le mˆeme raisonnement s’applique pour les courbes d’amplitude, bien que la fr´equence estimation est beaucoup plus importante que l’estimation d’amplitude.

time

frequency

analysis window

Stationary estimation

Real frequency

Adaptive estimation

a

t

a

t

Center of window

FIGURE A.1 – `a l’int´erieur de la fenˆetre d’analyse, la trajectoire de la fr´equence d’une partie (ligne grise solide) est

suppos´e ˆetre constant pour des mod`eles sinuso¨ıdaux stationnaires (ligne en pointill´e), tandis que eaQHM (ligne en pointill´es) s’adapte `a la forme de mani`ere it´erative de la fr´equence instantan´ee.

time

amplit

ude

analysis window

Stationary estimation

Real amplitude

Adaptive estimation

a

t

a

t

Center of window

FIGUREA.2 – `a l’int´erieur de la fenˆetre d’analyse, la trajectoire d’amplitude d’une partie (ligne grise solide) est suppos´e

ˆetre constant pour des mod`eles sinuso¨ıdaux stationnaires (ligne en pointill´e), tandis que eaQHM (ligne en pointill´es) s’adapte de mani`ere it´erative `a la forme de l’amplitude instantan´ee.

A.2.3

Algorithme d’analyse sinuso¨ıdale adaptatif utilisant eaQHM

Les mod`eles sinuso¨ıdaux adaptatif n´ecessitent une ´etape d’initialisation, de sorte QHM [PRS08] seront utilis´es `a cette fin, bien que n’importe quel algorithme d’estimation de fr´equence peut ˆetre utilis´ee. Ainsi, les initiales ´etapes sont les suivantes : ˆ fk0(ti) = ˆfk0(ti−1) + ˆηk (A.19) ˆ A0 k(ti) = |aik|, ˆφ0k(ti) = ∠aik (A.20)

o`uti est le centre de l’iedu cadre d’analyse. L’algorithme de d´ecomposition AM-FM `a l’aide eaQHM est fourni dans

l’algorithme 6. Le crit`ere de convergence de l’algorithme a ´et´e choisie pour ˆetre la suivante : SRERm−1SRERm

Algorithm 6 D´ecomposition AM-FM utilisant eaQHM

Require: Fournir une estimation de la fr´equence initiale fk0(t1)

for cadrei = 1 to L do Calculer aik, b

i

kutilisant LS

R´eviser ˆf0

k(ti) utilisant Eq. (A.19)

Calculer ˆA0

k(ti) et ˆφ0k(ti) utilisant Eq. (A.20)

D´efinir f0

k(ti+1) = ˆfk0(ti)

end for

Interpolation des param`etres{ ˆA0

k(t), ˆfk0(t), ˆφ0k(t)}

L’adaptation des amplitudes et des phases : for adaptationm = 1 to · · · do for cadrei = 1 to L do Calculer aik, b i kutilisant ˆφ m−1

k (t) de Eq. (A.16) et Eq. (A.9)

D´efinir ˆfkm(ti) = ˆfkm(tl−1) + ˆηk D´efinir ˆAm k(ti) = |aik| et ˆφ m k(ti) = ∠aik end for end for

Interpolation des param`etres{ ˆAm

k(t), ˆfkm(t), ˆφmk(t)}

o`u le SRERm est le Ratio Erreur-Signal-sur-Reconstruction du signal re-synth´etis´ee dans l’adaptation me, d´efinie

comme

SRER = 20 log10

σx(t)

σx(t)−ˆx(t)

(A.22) o`u σxrepr´esente la d´eviation standard dex(t), x(t) est le signal r´eel et ˆx(t) est le signal reconstruit, et o`u � est un seuil

de convergence, g´en´eralement fix´e `a 0.02. Comme derni`ere ´etape de l’algorithme, le signal peut enfin ˆetre approxim´ee comme la somme de ses ´el´ements AM-FM :

ˆ x(t) = K � k=−K ˆ Ak(t)ej ˆφk(t)

Le mod`ele a ´et´e ´evalu´e dans des signaux synth´etiques, et a ´et´e prouv´e pour ˆetre robuste en pr´esence de bruit addi- tif [KPRS12].

A.2.4

Validation sur parole vocale

La prochaine ´etape est de tester le mod`ele propos´e sur la parole r´eelle, et en particulier, sur des signaux de parole vois´es. L’algorithme de d´ecomposition sugg´er´e it´eratif AM-FM bas´ee sur eaQHM peut ˆetre appliqu´e sur des signaux de parole vois´es d’une mani`ere simple. En fait, l’algorithme eaQHM peut ˆetre appliqu´e sur un grand segment de la parole vois´ee. En effet, en supposant que la parole vocale est quasi-p´eriodique et que le contenu de la fr´equence des signaux de parole vois´es ne change pas tr`es vite , alors nous avons seulement besoin de fournir la fr´equence fondamentale de la premi`ere trame vois´ee au d´ebut du segment exprim´e,f0(t1), puis supposer ˆfk0(t1) = kf0(t1) . L’application de l’analyse

du C Port sur la premi`ere trame vois´ee, un ensemble actualis´e de ˆfkpeut ˆetre obtenue pour cette image. L’ ensemble mis

`a jour de fr´equences peut ensuite ˆetre utilis´e comme estimations initiales pour la trame vois´ee suivante. En continuant de cette mani`ere, l’ensemble de la r´egion vois´ee sera analys´ee en fournissant seulement la fr´equence fondamentale de la premi`ere image du segment vois´e. Il est `a noter que la pr´ecision de l’estimateur de fr´equence fondamentale n’est pas crucial pour aQHM, depuis d´ecalages de fr´equence sont facilement corrig´ees.

Pour notre propos, nous consid´erons un signal de parole vois´ee de la base de donn´ees CMU-ARCTIQUE avec une fr´equence d’´echantillonnagefs = 16 kHz et la dur´ee d’environ 0.35 sec. Le aQHM est ´egalement inclus pour compa-

raison. Pour les deux algorithmes, le nombre d’harmoniques a ´et´e d´efini sur K = 40 et une estimation de la fr´equence fondamentale du d´ebut du segment a ´et´e donn´ee `a l’algorithme. Au plus10 adaptations ont ´et´e autoris´es `a les mod`eles. La taille de la fenˆetre d’analyse ´etait de2.5 p´eriodes de hauteur et de la taille de l’´etape d’analyse a 1 ´echantillon. Dans la suite, les signaux sont consid´er´es jusqu’`a un maximum fixe exprim´e fr´equence (5500 Hz). Pour comparer objectivement les performances des deux algorithmes, l’es srer d´efinie dans l’´equation (A.22) a ´et´e utilis´e. L’es SRER ´etait 41.2 dB pour aQHM et45.2 dB pour eaQHM. Deux adaptations pour aQHM et trois adaptations pour eaQHM ´etaient n´ecessaires pour les mod`eles `a converger.

Pour confirmer ces r´esultats, un crit`ere objectif `a grande ´echelle a ´et´e r´ealis´ee. Utilisation de trois tailles diff´erentes de pas, soit1 ms, 2 ms, et 4 ms, nous avons analys´e et reconstruit environ 50 minutes de parole vois´ee de 3 haut-parleurs dans la base de donn´ees de l’Arctique. La fr´equence d’´echantillonnage des signaux de parole a ´et´e sous-´echantillonn´e `a 16 kHz. Une fenˆetre de Hamming de longueur fixe a ´et´e utilis´e ; 3 fois la p´eriode de la hauteur moyenne de l’orateur. La mˆeme fenˆetre a ´et´e utilis´e `a la fois pour aQHM et eaQHM. Le nombre de composants a ´et´e fix´e `a K = 30. La moyenne et l’´ecart-type de la es srer (en dB) est fourni dans le tableau A.1, avec diff´erents pas de temps. Table A.1 pr´esente ´egalement le nombre moyen d’adaptations (NoA) n´ecessaire pour les algorithmes de convergence. Il est ´evident que, en

´evaluation de base ARCTIC

´etape m´ethode valeur moyenne (dB) Std (dB) NoA

1 msec aQHM 34.5 4.6 2.9 eaQHM 35.8 5.7 3.8 2 msec aQHM 31.0 4.0 3.5 eaQHM 33.2 5.0 3.9 4 msec aQHM 30.8 3.4 3.6 eaQHM 32.8 4.6 6.1

TABLEA.1 – Moyenne et deviation standard de SRER (en dB) pour environ50 minutes de parole vois´ee de la base de donn´ees ARCTIC.

moyenne, des scores plus ´elev´es eaQHM en termes de SRER, n´ecessitant cependant un peu plus d’it´erations que aQHM.

A.2.5

Conclusions

Dans ce chapitre, la th´eorie des mod`eles sinuso¨ıdaux adaptatif a ´et´e pr´esent´e. Un nouveau mod`ele sinuso¨ıdal adaptatif (eaQHM) est propos´e. Dans le eaQHM, l’amplitude, en mˆeme temps que la fr´equence du signal, est incluse dans le processus d’adaptation, d’une mani`ere simple. Des exp´eriences sur la parole vocale utilisant la base de donn´ees ARCTIC ont montr´e que eaQHM surpasse aQHM en mati`ere de reconstruction de signal.