• Aucun résultat trouvé

4.2 Estimation des fr´ equences des formants

N/A
N/A
Protected

Academic year: 2021

Partager "4.2 Estimation des fr´ equences des formants"

Copied!
50
0
0

Texte intégral

(1)

Modulations li´ ees au conduit vocal

4.1 Introduction

Le deuxi`eme type de modulations que nous ´etudions dans cette th`ese concer- ne la forme du conduit vocal. Le conduit vocal est caract´eris´e par ses fr´equences propres, dont les effets dans le signal de parole sont des maxima locaux dans l’enveloppe spectrale du signal de parole, appel´es formants. La fr´equence des for- mants d´epend principalement de la forme du conduit vocal et des pertes, tandis que leur amplitude est influenc´ee ´egalement par la forme du signal glottique.

C’est pourquoi nous nous int´eressons uniquement aux variations de la fr´equence des formants. Une autre fa¸con de caract´eriser le conduit vocal est de constituer un ´equivalent g´eom´etrique du conduit vocal `a partir du signal de parole. Les caract´eristiques de l’´equivalent g´eom´etrique ainsi obtenu pourraient permettre une interpr´etation pseudo-anatomique du tremblement li´e au conduit vocal.

4.2 Estimation des fr´ equences des formants

Le concept de formant peut ˆetre d´efini `a plusieurs niveaux. De fa¸con globale, les formants sont les maxima locaux dans le contour du spectre du signal de parole, correspondant aux r´esonances du conduit vocal. De fa¸con plus pr´ecise, les formants peuvent ˆetre d´efinis de deux fa¸cons : soit comme les maxima locaux observ´es dans le contour du spectre du signal de parole [10], soit comme les fr´equences de r´esonance du conduit vocal qui engendrent ces maxima locaux lors de la production d’un son [23]. Ces d´efinitions ne sont pas identiques car la forme du spectre du signal de parole est d´etermin´ee `a la fois par la forme et les r´esonances du conduit vocal et par la forme du signal glottique. La premi`ere d´efinition permet de prendre en compte le formant dit glottique, qui est un maximum local parfois pr´esent aux basses fr´equences dans le spectre du signal vocal, et qui est li´e `a la forme du signal glottique.

79

(2)

La forme du conduit vocal et par cons´equent ses fr´equences de r´esonance varient dans le temps. Il y a d’une part des variations li´ees aux mouvements des articulateurs. D’autre part, des variations apparaissent au rythme du cycle glottique, suite au mouvement des cordes vocales [80]. En effet, les cordes vo- cales oscillent entre une phase ferm´ee et une phase ouverte, ce qui modifie les caract´eristiques du syst`eme. Lorsque la glotte est ferm´ee, il n’y a pas d’excita- tion et le conduit vocal s’´etend depuis la glotte jusqu’aux l`evres. Par contre, lorsque la glotte est ouverte, il y a un apport d’air provenant des poumons, et la cavit´e subglottique intervient ´egalement dans le conduit vocal. De plus, le flux d’air traversant la glotte varie au cours de la phase ouverte. Les r´esonances propres du conduit vocal seront donc diff´erentes dans les deux phases. Notons que la phase ferm´ee peut ˆetre tr`es courte, voire inexistante, notamment pour des signaux de parole avec une fr´equence phonatoire ´elev´ee ou pr´esentant une b´eance glottique. Au cours de la phase ferm´ee, l’´energie des formants s’att´enue

`a cause de pertes dues notamment `a la vibration des parois du conduit vocal, `a la conduction thermique et `a la viscosit´e de l’air.

Pendant la phase ferm´ee de la glotte, pour des voyelles, les fr´equences des formants sont clairement d´efinies car le conduit vocal est quasi-stationnaire et qu’il n’y a pas d’excitation. L’interpr´etation des fr´equences des formants est plus difficile pour la phase ouverte o` u la forme du d´ebit glottique est inconnue et o` u les caract´eristiques du conduit vocal varient dans le temps. C’est pourquoi, dans le cadre de cette th`ese, nous cherchons `a estimer les fr´equences des formants pendant la phase ferm´ee de la glotte.

Les arguments suivants vont influencer le choix de la m´ethode utilis´ee pour l’analyse du tremblement vocal :

– La m´ethode de d´etection doit donner des formants stables en l’absence de tremblement. Une erreur syst´ematique est donc acceptable, tant que les variations des formants dues au tremblement vocal sont mesur´ees cor- rectement. Pour atteindre cet objectif, l’analyse doit ˆetre synchrone par rapport au cycle glottique.

– Pour avoir la meilleure sensibilit´e aux variations de fr´equence des formants, il faut que les fenˆetres d’analyses soient les plus courtes possibles.

– Pour obtenir une bonne fiabilit´e sur l’extraction des formants, il faut que les fenˆetres d’analyse ne soient pas trop courtes, ou du moins que leur positionnement soit calcul´e de fa¸con optimale.

4.2.1 Etudes ant´ ´ erieures

Il existe de nombreuses m´ethodes d’estimation des fr´equences des formants.

Les m´ethodes classiques sont bas´ees sur l’analyse par pr´ediction lin´eaire (LPC) [65, 66] ou sur le cepstre [83]. Il existe ´egalement des m´ethodes bas´ees sur l’ana- lyse par synth`ese [94]. Les formants sont g´en´eralement estim´es sur des fenˆetres incluant plusieurs cycles glottiques et la pr´ecision des fr´equences des formants estim´ees n’est pas primordiale.

Afin d’am´eliorer la pr´ecision des estimations des fr´equences des formants,

on peut choisir des fenˆetres d’analyse dont la longueur est ´egale `a un nombre

entier de cycles glottiques et dont la position est synchronis´ee par rapport au

cycle glottique. Ceci permet de minimiser l’effet des variations des fr´equences

(3)

des formants au cours de chaque cycle glottique. Des m´ethodes de ce type ont

´et´e impl´ement´ees en utilisant par exemple la pr´ediction lin´eaire [29]. Wempe a d´evelopp´e une m´ethode bas´ee sur la corr´elation du signal vocal de chaque cycle glottique avec une sinuso¨ıde d´ecroissante tronqu´ee [90].

Afin d’´eliminer le moyennage des variations des formants au cours du cycle glottique, certaines m´ethodes effectuent une analyse uniquement sur la phase ferm´ee ou ouverte de la glotte. La fenˆetre d’analyse est alors plus courte que le cycle glottique. Ce principe a ´et´e utilis´e avec une analyse par pr´ediction lin´eaire de portions de cycles par Wood et al. [100], ainsi que par Yegnanarayana et Veldhuis [102]. Azami et Schoentgen ont utilis´e un mod`ele auto-r´egressif com- pos´e permettant de calculer un filtre de pr´ediction pour les phases ouvertes de la glotte et un deuxi`eme filtre de pr´ediction pour les phases ferm´ees [5]. Rao et Das Barman ont d´evelopp´e une m´ethode bas´ee sur la fr´equence instantan´ee du signal filtr´e autour des formants [80]. Ces m´ethodes sont d´ecrites ci-dessous et sont r´esum´ees dans le tableau 4.1.

Wood et al. [100] ont d´etect´e les instants d’ouverture et de fermeture de la glotte `a partir d’un ´electroglottographe ou `a partir du signal acoustique.

Deux dur´ees de la fenˆetre d’analyse ont ´et´e envisag´ees : 2 ms ou 30% de la dur´ee du cycle glottique. Les fr´equences des formants ont ´et´e calcul´ees sur des fenˆetres positionn´ees apr`es l’instant de fermeture glottique, par la recherche des pˆ oles du mod`ele LPC calcul´e par la m´ethode de covariance. Ces m´ethodes ont

´et´e compar´ees `a une analyse avec des fenˆetres d’une dur´ee de 20 ms avec un d´ecalage de 10 ms, et `a une analyse avec une dur´ee des fenˆetres ´egale `a la dur´ee du cycle glottique. Les r´esultats ont montr´e que l’analyse sur la phase ferm´ee permet d’´eviter que les fr´equences estim´ees des formants soient attir´ees par les harmoniques de la fr´equence phonatoire. La dur´ee de fenˆetre fixe de 2 ms donne des r´esultats l´eg`erements meilleurs que la fenˆetre de 30% de la dur´ee de cycle.

Enfin, les r´esultats obtenus en d´etectant la phase glottique ferm´ee `a partir de l’´electroglottographe sont meilleurs que lorsque la phase ferm´ee est d´etermin´ee

`a partir du signal vocal. L’inconv´enient de l’utilisation de l’´electroglottographe est que cela n´ecessite de l’instrumentation suppl´ementaire, que le d´elai entre le signal de l’´electroglottographe et le signal de parole est difficile `a estimer, et que les r´esultats de l’´electroglottographie d´ependent des caract´eristiques du cou du locuteur et ne sont pas exploitables pour tous les locuteurs.

Yegnanarayana et Veldhuis ont d´etect´e les instants de fermeture glottique sur base du d´elai de groupe du signal de parole [102]. Ils ont estim´e les fr´equences et largeurs de bande des formants au moyen du mod`ele LPC calcul´e par la m´ethode de la covariance pour des fenˆetres de dur´ee fixe (2.5 ms, 5 ms ou 10 ms) positionn´ees juste avant ou juste apr`es l’instant de fermeture glottique.

Afin d’´eviter des omissions de formants, les phases ferm´ees ou ouvertes de trois cycles successifs sont utilis´ees pour le calcul du mod`ele LPC. Ils ont soulign´e l’importance du positionnement de la fenˆetre toujours au mˆeme moment du cycle vocal.

Azami et Schoentgen ont d´evelopp´e une m´ethode bas´ee sur un mod`ele auto-

r´egressif compos´e [5]. Elle consiste `a calculer, pour chaque fenˆetre d’analyse,

deux mod`eles de pr´ediction lin´eaire distincts pour les portions de signal appar-

tenant aux phases ouvertes ou ferm´ees de la glotte. La r´esolution des ´equations

des mod`eles de pr´ediction lin´eaire est effectu´e par la m´ethode de covariance ou

(4)

par d´ecomposition en valeurs singuli`eres. Le d´ecoupage du signal est effectu´e au moyen d’un signal auxiliaire oscillant `a la fr´equence fondamentale du signal de parole : on utilise un seuil d’amplitude du signal auxiliaire permettant de s´eparer chaque cycle en deux parties, selon que le signal soit plus grand ou plus petit que le seuil. On utilise ´egalement un d´ecalage du signal auxiliaire par rap- port au signal de parole. Le signal auxiliaire peut ˆetre le laryngogramme ou le signal de parole filtr´e passe-bas sous la deuxi`eme harmonique de la fr´equence phonatoire. Les param`etres de seuil et de d´ecalage sont optimis´es en minimisant l’erreur totale de pr´ediction normalis´ee. Cette m´ethode a l’avantage de ne pas n´ecessiter de synchronisation explicite de la fenˆetre d’analyse par rapport aux cycles glottiques.

Rao et Das Barman [80] ont estim´e les fr´equences des formants sur base de la fr´equence instantan´ee obtenue par la distribution de Wigner-Ville du signal de parole pr´ealablement filtr´e autour des fr´equences approximatives des for- mants. Des filtres de Gabor ont ´et´e utilis´es, avec une bande passante de 450 Hz afin de supprimer suffisamment l’effet des formants voisins. La dur´ee effective de la fenˆetre sur laquelle est calcul´ee la fr´equence instantan´ee ´etait de 0.5ms, 1ms ou 2ms. Des tests ont ´et´e effectu´es sur des signaux synth´etiques obtenus par le passage d’un train d’ondes donn´ees par un mod`ele de Fant [27] dans un filtre du second ordre dont la fr´equence de r´esonance est constante ou variable lin´eairement, auquel a ´et´e ajout´e du bruit blanc gaussien avec diff´erents rapports signal-`a-bruit. Leurs conclusions sont que la fr´equence de formant d´etect´ee cor- respond `a la consigne synth´etique au milieu des phases ouverte et ferm´ee. Une fenˆetre d’analyse de 1 ms est un compromis entre un support temporel court et une sensibilit´e r´eduite au bruit. Pour des signaux avec plusieurs formants, les formants doivent ˆetre bien s´epar´es pour pouvoir ˆetre estim´es correctement.

Conclusions Les conclusions des ´etudes sur l’estimation des fr´equences des formants avec une fenˆetre d’analyse plus courte que le cycle glottique sont que la position et la dur´ee de la fenˆetre d’analyse doivent ˆetre choisies avec beaucoup de pr´ecautions. Les fr´equences estim´ees des formants diff`erent fortement selon la position de la fenˆetre d’analyse dans le cycle glottique, il faut donc veiller `a positionner la fenˆetre toujours au mˆeme endroit du cycle glottique.

Dans le cadre de ce travail, nous avons impl´ement´e la m´ethode bas´ee sur un

mod`ele auto-r´egressif compos´e d´evelopp´ee par Azami et Schoentgen [5]. Ensuite,

nous avons d´evelopp´e une m´ethode bas´ee sur la transform´ee en ondelettes du

signal de parole, dont les principes de base sont proches de la m´ethode bas´ee

sur la fr´equence instantan´ee d´evelopp´ee par Rao et Das Barman [80].

(5)

E ST IM A T ION D E S F R ´E QU E N C E S D E S F OR M A N T S 83

Auteurs M´ethode Portion du Fenˆetres Conclusions

de calcul signal analys´ee

Wood et

al. [100]

Mod`ele LPC (covariance)

phase ferm´ee 2 ms ou 30% du cycle glottique

(1) Mesure moins attir´ee par les harmoniques de la fr´equence phonatoire qu’avec des fenˆetres de 20 ms ou des fenˆetre de dur´ee du cycle glottique.

(2) Meilleure d´etection des instants de fermeture glottique avec l’´electroglottogramme, lorsqu’il est utilisable.

Yegnanarayana Mod`ele LPC Phases ouverte 2.5ms, 5ms (1) Importance du positionnement de la fenˆetre enti`erement dans la phase analys´ee.

et Veldhuis (covariance) sur un ou trois

et ferm´ee ou 10ms (2) Analyse synchrone plus pr´ecise qu’analyse avec des fenˆetres r´eguli`erement espac´ees.

[102] intervalles (3) Analyse dans la phase ferm´ee plus fiable que dans la phase

ouverte.

(4) Difficult´e de d´etection des instants d’excitation en pr´esence de bruit additif sup´erieur `a 40dB.

Azami et deux mod`eles Fenˆetre de 25ms - (1) Synchronisation implicite.

Schoentgen [5] LPC multi- intervalles

Rao et Das fr´equence calcul continu 0.5ms, 1ms (1) Bonne d´etection au milieu des phases ouverte et ferm´ee.

Barman [80] instantan´ee ou 2ms (2) Le meilleur choix pour la fenˆetre d’analyse est de 1 ms.

(3) Formants estim´es correctement s’ils sont bien s´epar´es.

Tab. 4.1 – M´ethodes existantes d’estimation des fr´equences des formants.

(6)

4.2.2 M´ ethode bas´ ee sur un mod` ele auto-r´ egressif com- pos´ e

Nous avons impl´ement´e la m´ethode d´evelopp´ee par Azami et Schoentgen bas´ee sur un mod`ele auto-r´egressif compos´e [5]. Un mod`ele de pr´ediction est cal- cul´e pour les phases glottiques ouvertes et un second pour les phases glottiques ferm´ees. Ce sont les fr´equences des formants obtenus dans les phases ferm´ees qui nous int´eressent. Le d´ecoupage de la fenˆetre d’analyse en phases ouvertes et ferm´ees est obtenue au moyen d’un signal auxiliaire pseudo-sinuso¨ıdal. Un param`etre de seuil est utilis´e pour s´eparer les intervalles o` u le signal auxiliaire est sup´erieur ou inf´erieur au seuil, et un param`etre de d´ecalage est utilis´e pour d´ecaler ces intervalles par rapport au signal de parole. Les mod`eles de pr´ediction sont estim´es pour les deux s´eries d’intervalles et l’erreur de pr´ediction norma- lis´ee est calcul´ee. Les param`etres optimaux de seuil et de d´ecalage sont obtenus en minimisant l’erreur de pr´ediction normalis´ee. Nous avons test´e la minimi- sation de diff´erentes combinaisons des erreurs de pr´ediction des deux mod`eles.

L’application de cette m´ethode `a des signaux de parole r´eels a montr´e qu’il peut exister diff´erents couples (seuil, d´ecalage) optimaux localement qui ap- paraissent ou disparaissent au cours du temps et qui donnent des valeurs de fr´equences de formants sensiblement diff´erentes. Ceci est illustr´e `a la figure 4.1.

La figure 4.1 (a) montre le signal de parole, le signal auxiliaire et les limites des phases ouvertes et ferm´ees estim´ees, ainsi que l’erreur de pr´ediction obtenue par le mod`ele. La figure 4.1 (b) montre l’´energie de l’erreur de pr´ediction en fonction du seuil r et du d´ecalage d. On voit que l’erreur de pr´ediction pr´esente des valeurs faibles (en bleu sur le graphique) le long d’un creux p´eriodique en fonction du d´ecalage, la p´eriode correspondant `a la dur´ee du cycle glottique. Ce creux n’a pas des pentes lisses et pr´esente plusieurs minima locaux. Les r´esultats peuvent donc osciller entre ces minima locaux, et l’´evolution des param`etres du mod`ele LPC de la phase ferm´ee n’est pas douce, et par cons´equent l’´evolution des fr´equences des formants non plus. Nous avons envisag´e la minimisation de diff´erentes combinaisons des erreurs de pr´ediction des deux mod`eles :

– la somme des carr´es des erreurs de pr´ediction sur toute la dur´ee de la fenˆetre,

– la somme des carr´es des erreurs de pr´ediction pond´er´ees par la longueur de la phase correspondante,

– la somme des carr´es des erreurs de pr´ediction pond´er´ees par l’´energie du signal dans la phase correspondante.

Le probl`eme pr´esent´e ci-dessus n’a pu ˆetre r´esolu avec aucune de ces combinai- sons d’erreurs.

Cette m´ethode a donc ´et´e rejet´ee dans le cadre de ce travail car, mˆeme en

l’absence de perturbations, elle ne permet pas d’obtenir des r´esultats suffisam-

ment pr´ecis et stables pour une analyse fine des variations des fr´equences des

formants.

(7)

0 50 100 150 200 250

−1

−0.5 0 0.5 1

0 50 100 150 200 250

−0.02

−0.01 0 0.01 0.02 0.03

erreur

temps (échantillons)

limites des phases signal de parole signal auxiliaire

(a) Signal de parole, signal auxiliaire, d´ecomposition en phases ouvertes et ferm´ees et erreur de pr´ediction.

seuil r

décalage d (échantillons)

erreurs de prédiction

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8

−100

−50

0

50

100

0.6 0.62 0.64 0.66 0.68 0.7 0.72 0.74 0.76 0.78 0.8

(b) Erreur de pr´ediction sur la fenˆetre en fonction des param`etres de seuil r et de d´ecalage d.

Fig. 4.1 – Estimation des formants bas´ee sur un mod`ele auto-r´egressif compos´e.

(8)

4.2.3 M´ ethode bas´ ee sur la transform´ ee en ondelettes

Au cours de cette th`ese, nous avons d´evelopp´e une m´ethode d’estimation des fr´equences des formants bas´ee sur la fr´equence instantan´ee obtenue au moyen d’une transform´ee en ondelettes continue [17]. La premi`ere partie de cette m´ethode est proche de la m´ethode de Rao et Das Barman [80], qui es- timent la fr´equence instantan´ee des formants pour chaque ´echantillon temporel du signal. Dans le cadre de ce travail, nous d´esirons suivre les fr´equences des formants uniquement dans la phase ferm´ee de la glotte. Pour atteindre ce but, notre m´ethode comporte une deuxi`eme partie dans laquelle la fr´equence instan- tan´ee des formants est ´echantillonn´ee dans la phase ferm´ee de la glotte.

La sous-section 4.2.3.1 pr´esente le principe d’estimation de la fr´equence des formants, la sous-section 4.2.3.2 justifie le choix des param`etres de l’analyse et la sous-section 4.2.3.3 r´esume l’algorithme. Les performances de la m´ethode pour l’estimation des fr´equences des formants de signaux synth´etiques sont pr´esent´ees

`a la sous-section 4.2.3.4.

Signaux synth´ etiques Des signaux synth´etiques sont utilis´es pour illustrer l’estimation des formants, justifier le choix des param`etres et montrer les perfor- mances de la m´ethode. Ces signaux synth´etiques sont bas´es sur un mod`ele source - filtre. Le signal de source est donn´e par la d´eriv´ee temporelle du mod`ele de d´ebit glottique de Liljencrants et Fant [27]. Les param`etres du mod`ele de source sont les suivants : phase ouverte relative = 0.4, r´eciproque de la valeur du pic n´egatif = 0.1, et phase de fermeture / phase ouverte = 0.2.

Le conduit est obtenu par une cascade de cinq filtres IIR du second ordre variables dans le temps, mod´elisant chacun un formant. Sauf mention contraire, nous avons utilis´e les valeurs suivantes pour les fr´equences des formants : F1 = 700Hz, F2 = 1100Hz, F3 = 2500Hz, F4 = 3500Hz, F5 = 4200Hz. Ces valeurs sont de l’ordre de celles obtenues par analyse LPC d’une voyelle [a].

Pour mod´eliser l’interaction entre la source et le conduit vocal, la bande passante des formants est modul´ee de fa¸con synchrone avec la source. Deux valeurs diff´erentes de bandes passantes caract´erisent donc la phase ouverte et la phase ferm´ee de la glotte : 150Hz pour la phase ouverte et 100Hz pour la phase ferm´ee.

4.2.3.1 Principe

Comme nous l’avons vu au chapitre 2, la fr´equence instantan´ee peut ˆetre

interpr´et´ee lorsque le signal analys´e est `a bande ´etroite. Il faut donc que les

ondelettes dont la fr´equence centrale est proche de la fr´equence de chaque for-

mant parviennent `a isoler une composante unique du signal `a la fr´equence du

formant. Pour arriver `a satisfaire cette exigence, il faut que la dur´ee effective

de ces ondelettes soit plus courte que la dur´ee du cycle glottique, afin d’´eviter

que les valeurs significatives du spectre ne se concentrent dans les harmoniques

de la fr´equence phonatoire. De plus, ´etant donn´e qu’on s’attend `a une variation

des fr´equences de r´esonances du conduit vocal au cours du cycle glottique, une

dur´ee effective d’ondelette inf´erieure `a la dur´ee de cycle glottique peut ´egalement

permettre d’observer ces variations.

(9)

Rao et Das Barman ont montr´e que la fr´equence instantan´ee ne donne une estimation fiable de la fr´equence des formants que lorsque l’ondelette se trouve dans la phase ferm´ee ou dans la phase ouverte de la glotte et qu’entre ces deux situations, les valeurs sont erron´ees [80]. Par cons´equent, il n’est pas pos- sible d’estimer la fr´equence des formants pour chaque instant et elle doit ˆetre

´echantillonn´ee une fois par cycle pour que ses variations au cours du temps puissent ˆetre ´etudi´ees. La m´ethode d’analyse doit donc ´egalement ˆetre capable d’estimer l’instant d’´echantillonnage optimal dans chaque cycle glottique.

Dans le cadre de ce travail, nous avons d´ecider d’adapter les param`etres d’analyse pour chaque formant, contrairement `a Yegnanarayana et Veldhuis qui choisissent la dur´ee de la fenˆetre a priori et la positionne dans chaque cycle glottique [102]. Dans la m´ethode d´evelopp´ee ici, la dur´ee effective de l’ondelette et le param`etre de l’ondelette-m`ere sont diff´erents pour chaque formant. Les fr´equences des formants sont donc estim´ees sur des portions diff´erentes du signal.

L’algorithme d´evelopp´e au cours de ce travail est divis´e en deux ´etapes : l’estimation des fr´equences instantan´ees des formants et l’´echantillonnage de ces fr´equences instantan´ees une fois par cycle glottique. Ces deux parties sont bas´ees sur les informations obtenues par transform´ees en ondelettes du signal.

L’ondelette-m`ere utilis´ee est l’ondelette de Morlet complexe, qui permet d’opti- miser la r´esolution dans le plan temps-fr´equence. Les figures 4.2 `a 4.7 illustrent

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 temps (s)

Fig. 4.2 – Voyelle [a].

le principe de la m´ethode. Sur les figures 4.2 et 4.3, on voit une voyelle [a]

r´eelle de fr´equence phonatoire proche de 140Hz, ainsi que son spectre LPC. On distingue les trois premiers formants situ´es `a des fr´equences voisines de 700Hz, 1200Hz et 2500Hz sur le spectre de la r´eponse impulsionnelle du filtre LPC.

La figure 4.4 montre le module et la fr´equence instantan´ee de la transform´ee en ondelettes du signal, pour le param`etre ω

c

σ

t

= 10 de l’ondelette de Morlet.

Pour chaque instant, la fr´equence instantan´ee de chaque formant est estim´ee

par la fr´equence instantan´ee correspondant `a l’ondelette pour laquelle le mo-

dule de la transform´ee en ondelette est maximal dans une bande de fr´equence

autour de la fr´equence du formant estim´ee pr´ealablement au moyen des racines

du polynˆ ome de pr´ediction LPC du signal [66]. Ceci est illustr´e `a la figure 4.5 qui

montre une coupe pour un instant du module et de la fr´equence instantan´ee de la

transform´ee en ondelettes, ainsi que la d´etection des maxima du module et l’es-

timation de la fr´equence instantan´ee correspondante. Le module et la fr´equence

instantan´ee de la TOC correspondants donnent l’´energie et la fr´equence instan-

tan´ee des formants. On peut am´eliorer l’estimation des fr´equences instantan´ees

(10)

0 500 1000 1500 2000 2500 3000

−10

−5 0 5 10 15 20 25

fréquence (Hz)

Fig. 4.3 – Spectre LPC de la voyelle [a] de la figure 4.2.

des formants en optimisant le param`etre de l’ondelette de Morlet pour chaque formant comme le montre la figure 4.6.

La figure 4.7 illustre l’´echantillonnage de la fr´equence instantan´ee des for- mants. Elle montre la transform´ee en ondelettes du signal de parole pour ω

c

σ

t

= 4.5, ainsi que les fr´equences instantan´ees des trois formants. Sur le trac´e des fr´equences instantan´ees des formants, des diamants cyans marquent les instants d’´echantillonnage pour chaque cycle glottique. Les instants d’´echantillonnages sont d´etermin´es de la fa¸con suivante. Etant donn´e que toute l’´energie du signal de parole est fournie par les bouff´ees d’air passant dans la glotte pendant que celle- ci est ouverte, l’´energie de la transform´ee en ondelette pr´esente un maximum `a la fermeture des cordes vocales. Pendant la phase ferm´ee de la glotte, l’´energie du signal diminue `a cause des pertes. Pendant la phase ferm´ee, le conduit vocal est uniquement supra-glottique et sa longueur ne varie pas significativement, les mouvements des articulateurs et leur tremblement ´etant n´egligeables pour cet intervalle de temps. La d´etection du maximum d’´energie de la transform´ee en ondelette a ´et´e utilis´ee dans la litt´erature pour d´eterminer la fermeture glottique en vue de l’estimation de la fr´equence phonatoire [50] ou pour la synchronisa- tion de fenˆetres d’analyse des formants sur le cycle glottique [80]. Ici, nous

´echantillonnons les fr´equences instantan´ees des formants l´eg`erement apr`es le

maximum d’´energie instantan´ee du formant, afin que la fenˆetre effective d’ana-

lyse se situe enti`erement dans la phase ferm´ee de la glotte.

(11)

temps (s)

Fréquence (Hz)

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 500

1000 1500 2000 2500 3000

(a) Module

temps (s)

fréquence (Hz)

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 500

1000 1500 2000 2500 3000

500 1000 1500 2000 2500

(b) Fr´equence instantan´ee

Fig. 4.4 – Transform´ee en ondelettes du signal de la figure 4.2, avec le param`etre ω

c

σ

t

= 10.

500 1000 1500 2000 2500 3000

Amplitude

500 1000 1500 2000 2500 3000

500 1000 1500 2000 2500 3000

Fréquence centrale de l’ondelette (Hz)

Fréquence instantanée (Hz)

Fig. 4.5 – Estimation des fr´equences instantan´ees des formants pour le signal

de la figure 4.2, avec le param`etre ω

c

σ

t

= 8.

(12)

500 1000 1500 2000 2500 3000

Module

500 1000 1500 2000 2500 3000

500 1000 1500 2000 2500 3000

Fréquence centrale de l’ondelette (Hz)

Fréquence instantanée (Hz)

(a) Premier formant,ωcσt= 4.5

500 1000 1500 2000 2500 3000

Module

500 1000 1500 2000 2500 3000

500 1000 1500 2000 2500 3000

Fréquence centrale de l’ondelette (Hz)

Fréquence instantanée (Hz)

(b) Deuxi`eme formant,ωcσt= 8

500 1000 1500 2000 2500 3000

Module

500 1000 1500 2000 2500 3000

500 1000 1500 2000 2500 3000

Fréquence centrale de l’ondelette (Hz)

Fréquence instantanée (Hz)

(c) Troisi`eme formant,ωcσt= 10

Fig. 4.6 – Estimation des fr´equences instantan´ees des formants pour le signal de la figure 4.2, avec une transform´ee en ondelettes optimis´ees pour chaque formant.

temps (Hz)

Fréquence (Hz)

0.05 0.055 0.06 0.065 0.07 0.075 0.08 0.085 0.09 0.095 0.1 500

1000 1500 2000 2500 3000

Fig. 4.7 – Transform´ee en ondelettes du signal pour ω

c

σ

t

= 4.5 et fr´equences

instantan´ees des trois premiers formants pour le signal de la figure 4.2. Les

diamants cyans marquent les instants d’´echantillonnage pour chaque cycle glot-

tique.

(13)

4.2.3.2 Choix des param` etres d’analyse

Pour estimer les fr´equences des trois premiers formants, il y a trois s´eries de param`etres d’analyse `a optimiser. Premi`erement, on peut choisir la dur´ee de l’ondelette-m`ere des TOCs pour chaque formant, ce qui fixe automatiquement la bande passante de l’ondelette-m`ere. Deuxi`emement, on peut choisir l’instant par rapport auquel on synchronise l’´echantillonnage dans chaque cycle glottique.

Enfin, on peut choisir le d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage.

Pour g´erer le temps et l’espace m´emoire n´ecessaires au calcul, le signal est analys´e par morceaux. Afin d’´eviter des discontinuit´es aux jonctions de ces mor- ceaux, les param`etres de l’analyse devraient varier le moins possible au cours de l’analyse d’un signal. Id´ealement, nous voudrions choisir des param`etres fixes.

Ceci permet d’´eviter des discontinuit´es entre les fenˆetres `a param`etres constants.

De plus, les fr´equences estim´ees des formants varient en fonction du d´elai et du param`etre de l’ondelette-m`ere, on pourrait donc introduire des variations para- sites dans les fr´equences estim´ees des formants.

Etant donn´e que nous nous int´eressons aux modulations des fr´equences des formants et non `a leurs valeurs moyennes, nos crit`eres de choix de param`etres

`a partir de signaux synth´etiques visent `a optimiser la d´etection des variations des fr´equences des formants plutˆ ot qu’`a retrouver les valeurs moyennes.

Instant de synchronisation Pour le choix de l’instant de synchronisation de chaque cycle glottique, on peut prendre un instant de r´ef´erence unique ou diff´erent pour chaque formants, bas´e sur l’´energie instantan´ee d’un formant ou d’une bande de fr´equences. L’´el´ement d´eterminant est la fiabilit´e de l’estimation de l’´energie instantan´ee des formants, pour tout type de locuteur.

Pour des signaux r´eels, l’´energie du signal se situe principalement dans les basses fr´equences. Par cons´equent, l’´energie du premier formant est la plus im- portant et ´egalement la plus fiable. La figure 4.8 illustre l’´evolution de l’´energie instantan´ee des trois premiers formants pour un signal r´eel (locuteur RTM14), en amplitude absolue et normalis´ee par rapport `a l’´energie maximale de chaque for- mant. Le graphique de l’´energie absolue permet d’observer que plus la fr´equence du formant est ´elev´ee, plus son ´energie est faible et son estimation sera sensible au bruit. Lorsque l’amplitude de l’´energie est normalis´ee, on voit que seul le pre- mier formant pr´esente un pic unique par cycle vocal. Dans l’´energie du deuxi`eme et du troisi`eme formant, on n’arrive pas toujours `a distinguer les pics correspon- dant `a la fermeture glottique. Afin d’obtenir une m´ethode robuste au bruit, nous avons donc choisi un instant de synchronisation unique pour les trois formants, donn´e par les maxima d’´energie du premier formant.

Param` etre des ondelettes-m` ere Pour optimiser le choix du param`etre de l’ondelette de Morlet, il faut tenir compte de deux contraintes contradictoires.

D’une part, on voudrait que la dur´ee effective de l’ondelette soit longue,

pour que sa bande passante soit ´etroite. En effet, si la composante fr´equentielle

du formant n’est pas bien isol´ee, l’estimation de sa fr´equence au moyen de la

fr´equence instantan´ee est perturb´ee par les formants voisins. Une dur´ee effective

(14)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−0.2 0 0.2

temps (s)

Signal vocal

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.2 0.4

temps (s)

Energie des formants

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.5 1

temps (s) Energie des formants normalisée

F1 F2 F3

Fig. 4.8 – Synchronisation par rapport `a l’´energie instantan´ee des formants : Signal de parole et ´energies instantan´ees des formants absolues et normalis´ees par rapport `a l’´energie maximale de chaque formant, pour un signal r´eel.

longue permet ´egalement une meilleure robustesse par rapport au bruit `a haute- fr´equence.

D’autre part, on voudrait que la dur´ee effective soit courte, plus courte que la dur´ee de cycle glottique pour ne pas avoir d’effet d’harmoniques de la fr´equence phonatoire, ou plus courte encore pour mieux isoler la phase ferm´ee du cycle glottique. Un compromis est choisi pour chaque formant s´epar´ement.

Dans cette section, nous d´efinissons la longueur effective de l’ondelette de Morlet complexe comme quatre fois l’´ecart-type σ

t

de l’enveloppe gaussienne de l’ondelette, et sa bande passante comme quatre fois l’´ecart-type σ

f

de l’enve- loppe gaussienne de sa transform´ee de Fourier.

La contrainte de dur´ee effective de l’ondelette L

ond

inf´erieure `a la dur´ee de cycle T

0

peut ˆetre exprim´e de la fa¸con suivante :

L

ond

< T

0

= 1 F

0

. (4.1)

On obtient la contrainte suivante pour le param`etre ω

c

σ

t

correspondant au calcul du formant F

i

:

t

< 1 F

0

(4.2) [ω

c

σ

t

]

Fi

< π

2 F

i

F

0

(4.3)

La contrainte de bande passante suffisamment ´etroite pour supprimer les

composantes des autres formants peut ˆetre exprim´ee par 2 ∗ σ

f

< F 2 − F1.

(15)

La contrainte sur le param`etre ω

c

σ

t

de l’ondelette-m`ere utilis´ee pour estimer le formant F

i

par rapport `a la suppression du formant F

j

peut alors s’´ecrire de la fa¸con suivante :

f

< | F

i

− F

j

| (4.4)

1 πσ

t

< | F

i

− F

j

| (4.5)

c

σ

t

]

Fi

> 2 F

i

| F

i

− F

j

| . (4.6)

Pour le premier formant, la contrainte de longueur effective de l’ondelette inf´erieure `a la dur´ee de cycle est pr´epond´erante. Le tableau 4.2 montre les valeurs maximales du param`etre ω

c

σ

t

pour les valeurs extrˆemes de F

1

typiques pour la voyelle [a]. La condition la plus contraignante se produit lorsque la fr´equence phonatoire est ´elev´ee et la fr´equence du premier formant faible. Afin de tenir compte que l’ondelette devrait recouvrir uniquement la phase ferm´ee du cycle glottique, nous avons choisi d’utiliser la valeur de [ω

c

σ

t

]

F1

= 4.5 pour tous les signaux.

F0 F1 [ω

c

σ

t

]

max

100Hz 600Hz 3π ≈ 9.4 100Hz 800Hz 4π ≈ 12.6 200Hz 600Hz 1.5π ≈ 4.7 200Hz 800Hz 2π ≈ 6.3

Tab. 4.2 – Valeurs maximales du param`etre ω

c

σ

t

pour la contrainte de longueur effective de l’ondelette inf´erieur `a la dur´ee de cycle, pour des valeurs extrˆemes de F

1

pour la voyelle [a].

Pour le deuxi`eme formant, `a la contrainte de longueur effective de l’ondelette inf´erieure `a la dur´ee de cycle glottique s’ajoute la contrainte d’une bande pas- sante suffisamment ´etroite pour supprimer l’effet du premier formant. Pour une valeur de F

2

de 1000Hz, ce qui est une valeur faible pour la voyelle [a], pour que la longueur effective de l’ondelette soit inf´erieure `a la dur´ee de cycle glottique, le param`etre ω

c

σ

t

doit ˆetre inf´erieur `a 15.7 pour une fr´equence phonatoire de 100Hz, et inf´erieur `a 7.9 pour une fr´equence phonatoire de 200Hz. Le tableau 4.3 montre les valeurs minimales du param`etre ω

c

σ

t

pour la contrainte de la bande passante suffisamment ´etroite pour supprimer l’effet du premier formant dont la fr´equence est de 800 Hz. Nous avons choisi d’utiliser une valeur de [ω

c

σ

t

]

F2

= 8 pour tous les signaux, ce qui est un compromis entre une ondelette suffisamment courte pour que l’ondelette soit plus courte que le cycle glottique, et suffisam- ment longue pour ´eliminer au mieux l’effet du premier formant et diminuer la sensibilit´e au bruit.

Pour le troisi`eme formant, pour une fr´equence phonatoire de 200 Hz et pour

une valeur de F

3

= 2200 Hz, qui est une valeur typique du troisi`eme formant

pour la voyelle [a], la contrainte de longueur effective de l’ondelette inf´erieure ` a

la dur´ee de cycle glottique impose que [ω

c

σ

t

]

F3

<

π22200200

≈ 17.2. La contrainte

sur la bande passante suffisamment ´etroite pour supprimer l’effet du deuxi`eme

formant impose que [ω

c

σ

t

]

F3

> 2

22002200−1500

≈ 6.3, pour F

2

= 1500 Hz et F

3

=

(16)

F2 [ω

c

σ

t

]

min

1000Hz 2.1000/200 = 10 1500Hz 2.1500/700 ≈ 4.3

Tab. 4.3 – Valeurs minimales du param`etre ω

c

σ

t

pour la contrainte de la bande passante suffisamment ´etroite pour supprimer l’effet du premier formant, pour F

1

= 800Hz, ce qui est une valeur ´elev´ee pour la voyelle [a], et pour des valeurs extrˆemes de F

2

pour la voyelle [a].

2200 Hz. Nous avons choisi [ω

c

σ

t

]

F3

= 10 afin que l’ondelette pr´esente suffisam- ment d’oscillations pour r´esister au bruit.

D´ elai entre l’instant de synchronisation et l’instant d’´ echantillonnage Le d´elai temporel entre l’instant de synchronisation de chaque cycle glottique et l’instant d’´echantillonnage d´etermine la position pr´ecise de l’´echantillonnage dans le cycle glottique. Id´ealement, l’ondelette devrait avoir une amplitude si- gnificative uniquement dans la phase ferm´ee de la glotte. De plus, positionner l’analyse le plus pr`es possible apr`es l’instant de fermeture glottique permet de mieux d´etecter les formants dont l’att´enuation est rapide.

0 0.5 1 1.5 2

2490 2500 2510

F3 (Hz)

moyenne

0 0.5 1 1.5 2

0 1 2 3

écart−type

0 0.5 1 1.5 2

950 1000 1050 1100 1150

F2 (Hz)

0 0.5 1 1.5 2

0 1 2 3

0 0.5 1 1.5 2

625 650 675 700 725

délai (ms)

F1 (Hz)

0 0.5 1 1.5 2

0 1 2 3

délai (ms) F0 = 97Hz F0 = 213Hz

Fig. 4.9 – Moyenne et ´ecart-type des fr´equences estim´ees des formants en fonc- tion du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage.

La figure 4.9 montre la moyenne et l’´ecart-type des fr´equences estim´ees des formants en fonction du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage, pour des signaux synth´etiques `a formants constants. On voit que les fr´equences estim´ees des formants ne pr´esentent pas toujours de plateau clair permettant d’estimer facilement le d´elai optimal. Les fr´equences estim´ees varient l´eg`erement. Les ´ecart-types de ces variations sont inf´erieurs `a 1Hz, sauf dans l’estimation du deuxi`eme formant du signal avec une fr´equence phonatoire faible, pour des d´elais faibles. Une partie de ces variations peut ˆetre expliqu´ee par le pas de calcul de la transform´ee en ondelettes qui est de 1Hz.

Dans le cadre de cette th`ese, nous d´esirons estimer les modulations des

fr´equences des formants. Il est donc plus important d’estimer correctement les

(17)

variations des fr´equences des formants que leurs valeurs moyennes.

Les figures 4.10 `a 4.13 montrent l’´evolution des fr´equences estim´ees des for- mants en fonction du temps, pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage, pour des voyelles [a] synth´etiques dont un formant varie sinuso¨ıdalement dans le temps, avec une amplitude de va- riation pic-`a-pic de 20Hz. Les graphiques de gauche repr´esentent les fr´equences estim´ees des formants en fonction du temps, pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms). Les graphiques de droite repr´esentent l’´ecart pic-`a-pic des variations du formant variable, et les ´ecart-types des varia- tions des formants fixes, en fonction du d´elai. Les r´esultats sont repr´esent´es en traits pleins pour F

0

= 97Hz et en traits pointill´es pour F

0

= 213Hz. On ob- serve que l’amplitude des variations des fr´equences estim´ees des formants n’est pas identique pour tous les d´elais. Pour les deux signaux o` u le premier formant varie, les amplitudes de modulation se comportent de la mˆeme mani`ere. On voit

´egalement qu’il y a une l´eg`ere variation qui apparaˆıt dans la fr´equence estim´ee du deuxi`eme formant lorsque la fr´equence du premier formant varie, et vice versa.

Pour le premier formant, trouver un d´elai id´eal est difficile, en particulier pour les fr´equences phonatoires ´elev´ees o` u la longueur effective de l’ondelette avoisine la dur´ee de cycle et o` u il est donc impossible d’isoler parfaitement la phase ferm´ee de la glotte. Par exemple, pour un premier formant de 600 Hz, la dur´ee effective de l’ondelette sera de 4σ

t

= 4

2πF4.51

≈ 4.8ms. Si la fr´equence phonatoire est de 100 Hz, la dur´ee effective de l’ondelette est approximativement

´egale `a la moiti´e du cycle glottique, tandis que pour une fr´equence phonatoire de 200 Hz, elle est `a peu pr`es ´egale `a la dur´ee du cycle glottique qui est de 5 ms. Pour les fr´equence phonatoires ´elev´ees, la dur´ee effective de l’ondelette sera donc plus longue que la phase ferm´ee et il y aura un moyennage de la fr´equence du formant sur les phases ferm´ees et ouvertes. L’enveloppe gaussienne de l’ondelette permet cependant de pond´erer de fa¸con plus importante les ´echantillons centraux, ceux- ci doivent donc ˆetre positionn´es de fa¸con optimale dans la phase ferm´ee de la glotte. Nous avons choisi de faire varier le d´elai selon l’´equation

d´elai

F1

= 1.2 − .003 ∗ (F 0

moy

− 100))ms. (4.7) Ce choix permet de rapprocher l’ondelette de l’instant de synchronisation pour des fr´equences ´elev´ees du premier formant.

Pour le deuxi`eme et le troisi`eme formant, la dur´ee effective de l’ondelette

est suffisamment courte par rapport `a la dur´ee de cycle pour que l’ondelette

ne d´epasse pas significativement dans le cycle suivant. Nous avons choisi une

valeur de 1.3 ms et 1 ms respectivement. Ces choix permettent d’obtenir des

estimations correctes de l’amplitude de modulation sur les figures 4.12 et 4.13.

(18)

0 0.1 0.2 0.3 0.4 2495

2500 2505

F3 (Hz)

0.8 1 1.2 1.4

0 0.5

écart−type

0 0.1 0.2 0.3 0.4

1060 1080 1100 1120

F2 (Hz)

0.8 1 1.2 1.4

0 1 2 3

écart−type

0 0.1 0.2 0.3 0.4

550 600 650 700

F1 (Hz)

temps (s)

0.8 1 1.2 1.4

0 10 20

écart pic−à−pic

délai (ms)

Fig. 4.10 – Voyelle [a] synth´etique avec premier formant variable autour de 600Hz, avec une amplitude de variation pic-`a-pic de 20Hz. Les graphiques de gauche repr´esentent les fr´equences estim´ees des formants en fonction du temps, pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms).

Les graphiques de droite repr´esentent l’´ecart pic-`a-pic des variations du premier formant, et les ´ecart-types des variations des deuxi`eme et troisi`eme formants, en fonction du d´elai. Les r´esultats sont repr´esent´es en traits pleins pour F

0

= 97Hz et en traits pointill´es pour F

0

= 213Hz.

0 0.1 0.2 0.3 0.4

2495 2500 2505

F3 (Hz)

0.6 0.8 1 1.2 1.4

0 0.5

écart−type

0 0.1 0.2 0.3 0.4

1050 1100 1150

F2 (Hz)

0.6 0.8 1 1.2 1.4

0 1 2 3

écart−type

0 0.1 0.2 0.3 0.4

630 640 650 660

F1 (Hz)

temps (Hz)

0.6 0.8 1 1.2 1.4

0 10 20

délai (ms) écart pic−à−pic

Fig. 4.11 – Voyelle [a] synth´etique avec premier formant variable autour de 650Hz, avec une amplitude de variation pic-`a-pic de 20Hz. Les graphiques de gauche repr´esentent les fr´equences estim´ees des formants en fonction du temps, pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms).

Les graphiques de droite repr´esentent l’´ecart pic-`a-pic des variations du premier

formant, et les ´ecart-types des variations des deuxi`eme et troisi`eme formants, en

fonction du d´elai. Les r´esultats sont repr´esent´es en traits pleins pour F

0

= 97Hz

et en traits pointill´es pour F

0

= 213Hz.

(19)

0 0.1 0.2 0.3 0.4 2495

2500 2505

F3 (Hz)

0.8 1 1.2 1.4

0 0.5

écart−type

0 0.1 0.2 0.3 0.4

1060 1080 1100 1120

F2 (Hz)

0.8 1 1.2 1.4

15 20 25

écart pic−à−pic

0 0.1 0.2 0.3 0.4

600 650

F1 (Hz)

temps (s)

0.8 1 1.2 1.4

0 0.5 1

écart−type

délai (ms)

Fig. 4.12 – Voyelle [a] synth´etique avec deuxi`eme formant variable autour de 1100Hz, avec une amplitude de variation pic-`a-pic de 20Hz. Les graphiques de gauche repr´esentent les fr´equences estim´ees des formants en fonction du temps, pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms). Les graphiques de droite repr´esentent l’´ecart pic-`a-pic des variations du deuxi`eme formant, et les ´ecart-types des variations des premier et troisi`eme formants, en fonction du d´elai. Les r´esultats sont repr´esent´es en traits pleins pour F

0

= 97Hz et en traits pointill´es pour F

0

= 213Hz.

0 0.1 0.2 0.3 0.4

2480 2500 2520

F3 (Hz)

0.8 1 1.2 1.4

19 19.5 20 20.5

écart pic−à−pic

0 0.1 0.2 0.3 0.4

1060 1080 1100 1120

F2 (Hz)

0.8 1 1.2 1.4

0 1 2 3

écart−type de l’erreur

0 0.1 0.2 0.3 0.4

600 650

F1 (Hz)

temps (s)

0.8 1 1.2 1.4

0 0.5 1

écart−type de l’erreur

délai (ms)

Fig. 4.13 – Voyelle [a] synth´etique avec troisi`eme formant variable autour de

2500Hz, avec une amplitude de variation pic-`a-pic de 20Hz. Les graphiques de

gauche repr´esentent les fr´equences estim´ees des formants en fonction du temps,

pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant

d’´echantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms). Les

graphiques de droite repr´esentent l’´ecart pic-`a-pic des variations du troisi`eme

formant, et les ´ecart-types des variations des premier et deuxi`eme formants, en

fonction du d´elai. Les r´esultats sont repr´esent´es en traits pleins pour F

0

= 97Hz

et en traits pointill´es pour F

0

= 213Hz.

(20)

4.2.3.3 Algorithme

Dans cette section, nous r´esumons la proc´edure d’estimation des fr´equences des formants.

Estimation de la fr´ equence phonatoire moyenne La fr´equence phona- toire est estim´ee par la m´ethode d´ecrite dans le chapitre pr´ec´edent.

Estimation des fr´ equences approximatives des trois premiers formants Cette estimation est effectu´ee au moyen de la m´ethode de pr´ediction lin´eaire par covariance classique [66]. La dur´ee de la fenˆetre d’analyse est choisie ´egale `a un multiple de la dur´ee de cycle glottique moyenne.

Estimation des fr´ equences instantan´ ees des formants Pour chaque for- mant, la proc´edure est la suivante.

1. La TOC du signal de parole est calcul´ee dans un intervalle de fr´equences autour de la valeur approximative du formant avec un param`etre ω

c

σ

t

fix´e en fonction du formant :

– F

1

: ω

c

σ

t

= 4.5, – F

2

: ω

c

σ

t

= 8, – F

3

: ω

c

σ

t

= 10.

2. Pour chaque instant, on recherche la fr´equence centrale correspondant au maximum du module de la TOC.

3. Pour les instants o` u un maximum a ´et´e trouv´e `a l’´etape pr´ec´edente, la fr´equence instantan´ee du formant est donn´ee par la fr´equence instantan´ee correspondant `a la fr´equence centrale du maximum.

4. Pour les intervalles temporels o` u aucun maximum n’a ´et´e trouv´e `a l’´etape 2, une interpolation lin´eaire des fr´equences centrales est effectu´ee entre la fr´equence centrale du dernier maximum trouv´e avant l’intervalle et celle du premier maximum trouv´e apr`es l’intervalle. La fr´equence instantan´ee du formant est alors donn´ee par la fr´equence instantan´ee correspondant `a ces fr´equences centrales interpol´ees.

La derni`ere ´etape permet d’obtenir un trac´e ininterrompu des fr´equences instantan´ees. On compl`ete principalement les lacunes qui apparaissent `a la fer- meture glottique, o` u l’´energie importante pour toutes les fr´equences peut faire disparaˆıtre le maximum li´e au formant. Ceci est illustr´e `a la figure 4.14 qui montre l’´energie et la fr´equence instantan´ee du premier formant pour un signal r´eel (locuteur LP2), avec et sans interpolation. L’interpolation permet d’obtenir une courbe lisse de l’´energie du premier formant.

Echantillonnage des fr´ ´ equences instantan´ ees des formants Les instants de synchronisation sont donn´es par les maxima temporels de l’´energie calcul´ee le long du trac´e du premier formant.

Pour chaque formant, les instants d’´echantillonnage sont obtenus par les po-

sitions des instants de synchronisation auxquelles on ajoute un d´elai d´ependant

(21)

0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0

0.5 1 1.5

temps (s)

Energie de F1

0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19

500 600 700 800 900 1000 1100 1200

temps (s)

F1 (Hz)

F1 avec interpolation F1 sans interpolation

Fig. 4.14 – Interpolation des trac´es de la fr´equence instantan´ee du premier formant.

du formant. Le d´elai entre les instants de synchronisation et les instants d’´echan- tillonnage est fix´e en fonction du formant et, pour le premier formant, en fonction de la fr´equence phonatoire moyenne F

0,moy

:

– F

1

: d´elai = (1.2 − .003 ∗ (F

0,moy

− 100)) ms, – F

2

: d´elai = 1.3 ms,

– F

3

: d´elai = 1 ms.

Les figures 4.15 et 4.16 illustrent la position et la taille des ondelettes uti- lis´ees pour d´etecter les trois premiers formants pour des signaux synth´etiques de fr´equence phonatoire ´egale `a 100 Hz et 200 Hz respectivement.

Post-traitement Des instants de synchronisation ne correspondant pas `a une fermeture glottique peuvent apparaˆıtre suite `a la d´etection de pics parasites dans l’´energie instantan´ee du premier formant. En effet, pour certaines portions de signal, plusieurs pics sont d´etect´es dans un cycle glottique. Nous avons combin´e deux algorithmes de s´election des instants de synchronisation pour ´eliminer les instants de synchronisation parasites.

Le premier algorithme examine si les intervalles entre les maxima locaux d´etect´es sont de l’ordre d’une dur´ee de cycle glottique. L’algorithme base l’´elimi- nation des parasites sur les amplitudes de l’´energie pour chaque instant de syn- chronisation candidat. Les instants de synchronisation qui remplissent une des conditions suivantes sont ´elimin´es.

1. Les ´ecarts entre l’instant de synchronisation et ses deux voisins sont inf´e- rieurs `a deux tiers du cycle glottique moyen, et son ´energie instantan´ee est inf´erieure `a 90% des ´energies instantan´ees des instants de synchronisation voisins.

2. L’´ecart entre l’instant de synchronisation et un de ses voisins est inf´erieur

`a un demi cycle glottique moyen, et son ´energie instantan´ee est inf´erieure

`a 50% des ´energies instantan´ees des instants de synchronisation voisins.

(22)

0 0.005 0.01 0.015 0.02 0.025 0.03

−1 0 1

signal glottique et signal vocal

0 0.005 0.01 0.015 0.02 0.025 0.03

0 5

Energie F1

0 0.005 0.01 0.015 0.02 0.025 0.03

−0.2 0 0.2

ondelette F3

0 0.005 0.01 0.015 0.02 0.025 0.03

−0.2 0 0.2

ondelette F2

0 0.005 0.01 0.015 0.02 0.025 0.03

−0.2 0 0.2

temps (s)

ondelette F1

Fig. 4.15 – Voyelle [a] synth´etique de fr´equence phonatoire 100 Hz et son signal glottique, ´energie du premier formant et ondelettes d’estimation des formants positionn´ees `a l’instant d’´echantillonnage de chaque formant.

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−2 0 2

signal glottique et signal vocal

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02 3

4 5

Energie F1

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−0.2 0 0.2

ondelette F3

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−0.2 0 0.2

ondelette F2

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−0.2 0 0.2

temps (s)

ondelette F1

Fig. 4.16 – Voyelle [a] synth´etique de fr´equence phonatoire 200 Hz et son signal

glottique, ´energie du premier formant et ondelettes d’estimation des formants

positionn´ees `a l’instant d’´echantillonnage de chaque formant.

(23)

Le deuxi`eme algorithme examine la coh´erence de suivi des instants d’´echan- tillonnage. Il a pour but d’´eliminer les instants d’´echantillonnage parasites qui ne sont pas ´elimin´es par le premier algorithme et qui apparaissent lorsque la diff´erence entre l’amplitude d’´energie des instants de synchronisation `a s´election- ner et des instants de synchronisation parasites est trop faible, ce qui se produit notamment dans les zones de transition entre deux parties stables du signal.

L’algorithme cherche les s´eries d’instants d’´echantillonnage candidats pour les- quelles les intervalles entre instants d’´echantillonnages candidats sont proches d’une dur´ee de cycle glottique, et choisit la s´erie qui minimise `a la fois l’´ecart- type des variations des fr´equences des formants de la s´erie, et l’´ecart-type des in- tervalles entre instants d’´echantillonnage de la s´erie. L’algorithme est d´evelopp´e ci-dessous.

1. Calcul des intervalles entre un instant d’´echantillonnage candidat et les trois instants d’´echantillonnage candidats pr´ec´edents, et m´emorisation des intervalles qui ont une dur´ee de l’ordre de la dur´ee de cycle glottique moyenne. Les limites des dur´ees des intervalles sont fix´ees en fonction de la fr´equence phonatoire moyenne. Les intervalles sont class´es en fonction de leur instant initial, puis de leur instant final.

2. Initialisation d’une s´erie admissible d’instants-candidats avec l’instant ini- tial et l’instant final du premier intervalle. Si l’instant initial du deuxi`eme intervalle est diff´erent de l’instant final du premier intervalle, initialisation d’une deuxi`eme s´erie d’instants-candidats avec l’instant initial et l’instant final du deuxi`eme intervalle.

3. Pour chaque s´erie admissible d’instants-candidats, recherche des inter- valles qui commencent par le dernier instant de la s´erie courante.

(a) Si on trouve un seul intervalle qui commence par le dernier instant de la s´erie courante, on ajoute l’instant final de cet intervalle `a la s´erie courante.

(b) Si on trouve plusieurs intervalles qui commencent par le dernier ins- tant de la s´erie courante, la s´erie courante est d´edoubl´ee, chaque nouvelle s´erie comportant les instants-candidats de la s´erie initiale, auxquels on ajoute l’instant final de chaque nouvel intervalle.

(c) Si on ne trouve pas d’intervalle qui commence par le dernier instant de la s´erie courante, on cherche le premier intervalle ult´erieur dont l’instant initial est sup´erieur `a l’instant final de la s´erie courante.

i. S’il n’y a qu’un intervalle qui commence par l’instant initial du nouvel intervalle trouv´e, l’instant initial et l’instant final de cet intervalle sont rajout´es `a la s´erie courante.

ii. S’il y a plusieurs intervalles qui commencent par l’instant ini- tial du nouvel intervalle trouv´e, la s´erie courante est d´edoubl´ee, chaque nouvelle s´erie comportant les instants-candidats de la s´erie initiale, auxquels on ajoute l’instant initial et l’instant final de chaque nouvel intervalle.

Le point 3. est it´er´e jusqu’`a ce qu’on ne trouve plus d’intervalle suivant.

4. La s´erie finale d’instants d’´echantillonnage est la s´erie qui minimise l’´ecart-

type des fr´equences du premier formant et l’´ecart-type des intervalles entre

instants d’´echantillonnage.

(24)

0.16 0.18 0.2 0.22 0.24 0.26 0.28

−0.1 0 0.1 Signal vocal

0.160 0.18 0.2 0.22 0.24 0.26 0.28

0.2 0.4

Energie F1

0.16 0.18 0.2 0.22 0.24 0.26 0.28

2500 3000 3500

F3 (Hz)

0.16 0.18 0.2 0.22 0.24 0.26 0.28

1000 1500

F2 (Hz)

0.16 0.18 0.2 0.22 0.24 0.26 0.28

800 1000

temps (s)

F1 (Hz)

brut sélection 1 sélection 2

Fig. 4.17 – Elimination des instants d’´echantillonnage parasites : signal vocal,

´energie du premier formant et formants estim´es sans post-traitemnt (rouge), apr`es la premi`ere s´election (´etoiles vertes) et apr`es les deux s´elections (losanges cyans). Le premier algorithme (´etoiles vertes) ´elimine les maxima de l’´energie de F1 qui sont trop faibles et trop proches de leurs voisins ; le deuxi`eme algorithme (losanges cyans) d´etermine la s´erie finale d’instants-candidats en minimisant l’´ecart-type des intervalles temporels entre candidats successifs et l’´ecart-type des fr´equences du premier formant pour chaque s´erie.

Les deux algorithmes de s´election des instants d’´echantillonnage sont illustr´es

`a la figure 4.17 qui montre le signal vocal, l’´energie du premier formant et les for- mants estim´es sans post-traitement (rouge), apr`es la premi`ere s´election (´etoiles vertes) et apr`es les deux s´elections (losanges cyans). Le premier algorithme per- met de supprimer la plupart des pics parasites et le deuxi`eme algorithme permet d’´eliminer les instants d’´echantillonnages parasites lorsque les diff´erences d’am- plitude entre pics souhait´es et pics parasites sont trop faibles, ce qui se produit notamment dans les zones de transition entre deux parties stables du signal.

4.2.3.4 Simulations sur des signaux synth´ etiques

Dans cette section, nous pr´esentons des r´esultats illustrant le comportement de la m´ethode d’estimation des formants sur des signaux synth´etiques. Le but de ces simulations est de comprendre la pr´ecision et les limites de la m´ethode, en d´ecomposant les difficult´es.

Les signaux synth´etiques utilis´es ont ´et´e pr´esent´e dans l’introduction de la section 4.2.3.

Pour ´etudier l’influence des param`etres du signal synth´etique sur l’estimation

des fr´equences des formants, les cas pr´esent´es sont les suivants :

(25)

– Effet de la fr´equence phonatoire moyenne pour des signaux synth´etiques avec formants constants,

– Effet de la fr´equence phonatoire moyenne pour des signaux synth´etiques avec formants variables,

– Effet de la variation lin´eaire de la fr´equence phonatoire, – Effet de bruit additif `a la source.

La fr´equence de modulation des fr´equences estim´ees des formants corres- pond `a la fr´equence de modulation de r´ef´erence. C’est pourquoi, nous nous int´eressons exclusivement `a l’estimation de l’amplitude de modulation dans les tests suivants.

Effet de la fr´ equence phonatoire moyenne La figure 4.18 illustre l’effet de la fr´equence phonatoire sur l’estimation des formants. Les fr´equences des for- mants ont ´et´e calcul´ees pour des signaux de fr´equence phonatoire constante, pour lesquels les trois premiers formants sont constants et ´egaux `a 600Hz, 1100Hz et 2500Hz.

100 150 200

2498 2500 2502

F3 moyen (Hz)

100 150 200

0 0.5 1 1.5

écarttype (Hz)

100 150 200

1060 1080 1100 1120

F2 moyen (Hz)

100 150 200

0 0.5 1 1.5

écarttype (Hz)

100 150 200

580 600 620

Fréquence phonatoire (Hz)

F1 moyen (Hz)

100 150 200

0 0.5 1 1.5

Fréquence phonatoire (Hz)

écarttype (Hz)

Fig. 4.18 – Effet de la fr´equence phonatoire moyenne sur l’estimation des fr´equences des formants de signaux synth´etiques avec formants constants. Les graphiques de gauche repr´esentent les fr´equences moyennes des formants en fonction de la fr´equence phonatoire, et les graphiques de droite les ´ecart-types des fr´equences estim´ees des formants.

Les valeurs moyennes des fr´equences estim´ees des formants se situent dans un intervalle de quelques Hertz tant que la fr´equence phonatoire n’est pas trop

´elev´ee. Pour des fr´equences phonatoires plus ´elev´ees que 200Hz, la fr´equence estim´ee pour le premier formant tend `a se rapprocher de l’harmonique la plus proche, car la dur´ee du cycle glottique n’est plus suffisamment longue par rap- port `a la dur´ee effective des ondelettes dont la fr´equence centrale est proche de la fr´equence du formant. Pour le deuxi`eme formant aussi, la fr´equence estim´ee se rapproche de l’harmonique la plus proche pour les fr´equences phonatoires

´elev´ees. Pour le troisi`eme formant, les ondelettes sont toujours suffisamment

(26)

courtes et les estimations des fr´equences du troisi`eme formant ne diff`erent pas de plus de 2.5Hz pour la gamme de fr´equences phonatoires consid´er´ee.

Les ´ecart-types des fr´equences estim´ees des formants ne sont pas nuls. Les fr´equences estim´ees des formants varient donc l´eg`erement, mˆeme lorsque la consigne est constante. Cependant, les valeurs des ´ecart-types sont inf´erieures

`a 1.5Hz, ce qui est de l’ordre du pas de calcul fr´equentiel de la TOC qui est de 1Hz. La m´ethode d’estimation des fr´equences des formants n’introduit donc que des variations tr`es faibles, ce qui est int´eressant dans notre application. En effet, on souhaite reproduire les variations des fr´equences des formants, et on accorde moins d’importance `a leurs moyennes.

Effet de la variation des fr´ equences des formants Les figures 4.19 `a 4.21 montrent l’effet d’une variation sinuso¨ıdale d’amplitude pic-`a-pic de 20Hz de la fr´equence d’un formant sur les fr´equences estim´ees des trois premiers formants.

Les graphiques de gauche repr´esentent les fr´equences moyennes des formants en fonction de la fr´equence phonatoire. Les graphiques de droite repr´esentent les ´ecart-types des fr´equences estim´ees des formants pour les formants dont la consigne ne varie pas, et l’´ecart pic-`a-pic pour le formant dont la consigne varie.

100 150 200

2498 2500 2502

F3 moyen (Hz)

100 150 200

0 0.5 1 1.5

écarttype (Hz)

100 150 200

1070 1080 1090 1100 1110

F2 moyen (Hz)

100 150 200

0 0.5 1 1.5

écarttype (Hz)

100 150 200

580 600 620

F1 moyen (Hz)

Fréquence phonatoire (Hz)

100 150 200

10 15 20 25

écart picàpic (Hz)

Fréquence phonatoire (Hz)

Fig. 4.19 – Effet de la fr´equence phonatoire moyenne sur l’estimation des fr´equences des formants de signaux synth´etiques avec F

1

modul´e sinuso¨ıda- lement. Les graphiques de gauche repr´esentent les fr´equences moyennes des formants en fonction de la fr´equence phonatoire. Les graphiques de droite repr´esentent les ´ecart-types des fr´equences estim´ees des deuxi`eme et troisi`eme formants, et l’´ecart pic-`a-pic du premier formant.

On observe que quel que soit le formant variable, les fr´equences moyennes des formants estim´ees varient de la mˆeme fa¸con en fonction de la fr´equence phonatoire que lorsque les formants ne varient pas.

Pour le troisi`eme formant, l’amplitude de la modulation est bien estim´ee

quelle que soit la fr´equence phonatoire. Pour les premier et deuxi`eme formants,

Références

Documents relatifs

Indiquer en montrant le calcul la moyenne de cette s´erie.. Indiquer la m´ediane de cette s´erie en indiquant

Exploiter expérimentalement la propagation rectiligne de la lumière dans le vide et le modèle du rayon lumineux.. Utiliser l’unité « année lumière » comme unité

On construit ainsi une courbe constitu´ ee des points dont les coordonn´ ees sont d´ efinies ainsi : l’abscisse d’un nombre pre- mier est son “rang” (2 a pour rang 1, 3 a pour

Nous al- lons pr´esenter dans cet article, les trois phases de cette ´etude : l’´elaboration et l’´etiquetage du corpus n´ecessaire `a l’´etude des param`etres, la

Ensuite, nous avons évalué notre algorithme en utilisant la base de données étiquetée que nous avons construite comme référence, et en le comparant à la

Th´ eor` eme de convergence domin´ ee (TCD) et cons´ equences. 1 Th´ eor` eme de convergence domin´ ee (TCD)

Les synthétiseurs du type « à formants » tels celui que nous avons construit sont utilisés pour effectuer de nombreux travaux de recherches.. La théorie de Fant sur

Alignement global: Deux s´ equences de prot´ eines appartenant ` a la mˆ eme famille, ´ etudes phylog´ en´