• Aucun résultat trouvé

Mod` ele utilis´ e

Dans le document The DART-Europe E-theses Portal (Page 39-43)

R´ esum´ e des travaux de th` ese

0.4 Mod` ele utilis´ e

Comme indiqu´e dans la section pr´ec´edente nous utiliserons un mod`ele param`etrique. Ce mod`ele est tr`es proche du mod`ele CELP utilis´e dans le codage de la parole. Il s’agit d’un modle source-filtre qui prend en compte les deux aspects principaux d’un son: l’aspect p´eriodique et le timbre.

0.4.1 La parole

Une base th´eorique largement utilis´ee pour la mod`elisation de la parole est le mod`ele source filtre. Ce mod`ele est bas´e sur la combinaison de deux aspects: les cordes vocales et un filtre acoustique lin´eaire [9]. Bien que ce mod`ele ne soit qu’une approximation, il a ´et´e largement utilis´e et ceci, essentiellement, grˆace `a sa robustesse et sa simplicit´e. Ce mod`ele est bas´e sur l’hypoth`ese que la parole peut ˆetre mod`elis´ee par l’utilisation de deux aspects ind´ependents l’un de l’autre. Ainsi les vibrations engendr´ees par les cordes vocales et les r´esonnateurs n’ont aucune interaction. Au point de vue impl´ementation, la technique la plus utilis´ee reste la mod`elisation tout-pˆole ou la pr´ediction lin´eaire [67]. De cette mani`ere la, l’excitation est mod´elis´ee par un train d’impulsion qui est filtr´ee par le filtre tout-pˆole.

0.4.2 Mod´elisation `a long terme

Comme indiqu´e pr´ec´edement, la mod´elisation `a long terme s’effectuera par l’interm´ediaire d’un train d’impulsion qui entraˆıne, dans le domaine fr´equentiel, un peigne fr´equentiel.

Une mani`ere de g´en´erer ce peigne est l’utilisation de filtre en peigne dont la r´eponse en magnitude est donn´ee dans la Figure 4.

Figure 3: Filtre en peigne en mode ”Feedback”.

0 500 1000 1500 2000 2500 3000 3500 4000

−10

−5 0 5 10 15 20 25 30 35 40

Frequency Hz

dB

Comb Filters (feedback form)

b=0.99 b=0.90 b=0.75 b=.5

Figure 4: R´eponse en magnitude pour diff´erentes valeurs positive deb

0.4. MOD `ELE UTILIS ´E xxxv On peut alors consid´erer la formulation suivante, puisque le signal obtenu en sortie du filtre en peigne d´epend lin´eairement de son pass´e on peut alors le consid´erer comme un processus autor´egr´essif d’ordre ´elev´e (´egal `a sa p´eriode) dont seulement deux ou trois coefficients sont non nuls. On formulera donc le signal en sortie du filtre de la mani`ere suivante:

xt = bxt−τ+et (1)

xt = (1−α) bxt−⌊τ⌋+α bxt−(⌊τ⌋+1)+et (2) xt repr´esente la source, et est un bruit blanc Gaussien,τ est la p´eriode du signal et b le coefficient de pr´ediction long terme Puisque la p´eriode n’est pas n´ecessairement enti`ere nous introduisons un facteur d’interpolation ici lin´eaire α, car nous consid´erons que la fr´equence d’´echantillonnage est raisonnable [68], afin d’atteindre n’importe quelle valeur de la p´eriode. Le coefficient long termebsera alors partag´e entre deux ´echantillons succ´essifs:

(1−α) b au retard ⌊τ⌋ et α b au retard ⌊τ⌋+ 1 with α = 1− ⌊τ⌋/τ. Il faut noter qu’en moyenne la parole humaine s’´etalone sur l’intervalle [80;250] Hz pour les hommes et [150;350] Hz pour les femmes ce qui, pour une fr´equence d’´echantillonage de 8KHz repr´esente des retards de [20;100] ´echantillon pour les p´eriodes. La p´eriode sera d´efinie comme la p´eriode `a un retard particulier τ qui, dans un interval pr´e d´efini, minimisera l’erreur quadratique moyenne normalis´ee [9]

Avec cette d´efinition le coefficient de pr´ediction long terme et la p´eriode seront estim´es conjointement de la mani`ere suivante:

O`u la s´equence de correlation au retardkest estim´e de la mani`ere suivante rk= 1

N

N−1−kX

n=0

xkxn−k, k= 1, ..., n (4)

Le coefficient long term est alors trouv´e dans la s´equence de corr´elation, la p´eriode est estim´e comme le retard qui maximise le coefficientb. La Figure 5 illustre un signal quasi p´eriodique et sa s´equence de correlation, on y voit clairement les pics li´ee `a la p´eriode. Le coefficient de pr´ediction sera la valeur du pic au retardτ normalis´e par la valeur au retard 0 (ici mit `a 1).

0.4.3 Mod´elisation `a court terme

Dans le mod`ele source filtre les r´esonnateurs sont g´en´eralement mod´elis´es par un filtre tout pˆole, ici nous utiliserons un mod`ele auto r´egressif d’ordre faible qui corr´elera des

´echantillons successifs. Puisque l’ordre est faible nous nommerons cette partie du mod`ele le mod`ele `a court terme, d´efini comme:

xt = − Xp n=1

anxt−n+et (5)

xxxvi R´esum´e des travaux de th`ese

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018

−0.5

Figure 5: Un signal ”long terme” et sa s´equence de corr´elation.

o`uxtest le signal de sortie,anles coefficients court terme d’ordre p(a0 = 1) etetun bruit blanc Gaussien de varianceσe2. Ces coefficients sont estim´es par pr´ediction lin´eaire sur le signalxt

0.4.4 Mod`ele de source

Une source sera alors repr´esent´ee avec les deux aspects: court et long terme. Elle sera la r´esultante d’un bruit blanc gaussien rendu quasi-p´eriodique par l’aspect long terme puis

`

a laquelle on appliquera la partie court terme. Si le coefficient long terme est tr`es faible voir nul, le bruit d’excitation sera alors l’entr´e de la partie court terme et pourra ainsi mod´eliser les sons non vois´es. Une source (un signal court plus long terme) sera d´efinie comme:

xt=− Xp n=1

anxt−n+ ˜xt, x˜t=b˜xt−τ +et (6) Nous allons maintenant d´efinir quelques ´el´ements de vocabulaire utilis´es dans toute la partie de la th`ese. et est un bruit blanc Gaussien de moyenne nulle et de varianceσe2 nous le d´esignerons sous le nom d’erreur de pr´ediction court plus long terme. τ est la p´eriode du signal quasi p´eriodique dont la force est r´eglable par l’interm´ediaire du coefficient long termeb. ˜xtest l’erreur de pr´ediction court terme, les coefficients court terme an (a0 = 1) sont d’ordre p et finallementxt est la source. Dans cette ´ecriture les deux aspects sont `a pr´esent combin´es et les techniques d’estimation pr´ec´edemment d´efinies doivent ˆetre op´er´ees alternativement et it´erativement. Cela consiste `a estimer les coefficients long terme dans l’erreur de pr´ediction court terme et non dans le signal lui mˆeme, la proc´edure inverse doit ˆetre utilis´ee pour estimer les coeffients court terme, cette proc´edure est expliqu´e plus en d´etail dans l’annexe F.2. Il faut noter que l’estimation conjointe des param`etres peut amener `a de grandes erreurs d’estimation voir `a des instabilit´es [69].

0.4.5 Mod`ele de m´elange

Dans notre cas, le cas mono-microphone en consid´erant un m´elange non convolutif, l’observation ou m´elange sera alors la somme deK sources autor´egressives (AR) court plus long terme Gaussienne auxquelles on ajoutera un bruit blanc Gaussienv.

yt =

0.4. MOD `ELE UTILIS ´E xxxvii Chaque source est excit´ee avec un bruit d’excitation diff´erent, dans la majorit´e des cas les p´eriodesτk seront diff´erentes. Il en va de mˆeme pour les autres param`etres, cependant il faut noter que les ordres court terme peuvent ˆetre diff´erent et nous les supposerons connus, nous ferons de mˆeme pour le nombre de sources pr´esentes dans le signal. Dans le domaine fr´equentiel nous ´ecrirons le mod`ele de le mani`ere suivante. Tout d’abord nous introduisons les fonctions de transfert d’erreur de pr´ediction court et long terme comme:

Ak(f) =

pk

X

n=0

ak,n e−j2πf n, Bk(f) = 1−bk e−j2πf τk (10) Le spectre d’une source sera alors d´efini comme:

Sk(f) = σk2

|Ak(f) Bk(f)|2 , k= 1, . . . , K (11)

= σ2k Sk(f;θk) (12)

o`u nous consid´erons que le bruit est un mod`ele AR d’ordre 0 (σ022v) , le m´elange sera toujours la somme des sources plus un bruit additif et est illustr´e sur la Figure 6:

Y(f) =

0 500 1000 1500 2000 2500 3000 3500 4000

−60

0 500 1000 1500 2000 2500 3000 3500 4000

−60

0 500 1000 1500 2000 2500 3000 3500 4000

−60

Figure 6: Spectre d’un mod`ele AR court plus long terme et du m´elange associ´e.

xxxviii R´esum´e des travaux de th`ese

Dans le document The DART-Europe E-theses Portal (Page 39-43)