• Aucun résultat trouvé

Pour ´etudier les modulations basse-fr´equence de la fr´equence phonatoire F

N/A
N/A
Protected

Academic year: 2021

Partager "Pour ´etudier les modulations basse-fr´equence de la fr´equence phonatoire F"

Copied!
32
0
0

Texte intégral

(1)

Modulations li´ ees ` a la source vocale

3.1 Introduction

Dans ce chapitre, nous nous int´eressons `a l’analyse des modulations du signal de parole dues `a la source vocale. Pour mettre ces derni`eres en ´evidence, nous

´etudions les variations de la fr´equence phonatoire de voyelles soutenues. La fr´equence phonatoire est une variable pertinente pour obtenir des informations sur la source vocale car elle correspond `a la fr´equence du signal glottique et se retrouve comme fr´equence fondamentale du signal de parole. Cette derni`ere propri´et´e n’est pas v´erifi´ee pour la forme du signal de source qui est modifi´ee par les fr´equences de r´esonance ou d’anti-r´esonance du conduit vocal pour former le signal de parole. Retrouver la forme du signal de source `a partir du signal de parole est un probl`eme complexe. Pour le r´esoudre, des hypoth`eses doivent ˆetre faites sur la forme du signal de source et de la fonction de transfert du conduit vocal [23]. Ces hypoth`eses reposent sur des mod`eles de production vocale et ne sont pas toujours proches de la r´ealit´e, en particulier lorsqu’on consid`ere des locuteurs dysphoniques. La forme du signal de source obtenu n’est donc pas assez fiable pour l’application que nous envisageons.

Pour ´etudier les modulations basse-fr´equence de la fr´equence phonatoire F

0

, il faut estimer l’´evolution de F

0

avec une grande pr´ecision car les variations de F

0

que nous souhaitons analyser sont de l’ordre de quelques Hertz. Une contrainte suppl´ementaire dans le choix de la m´ethode d’estimation de F

0

est que nous souhaitons pouvoir analyser les signaux de locuteurs dysphoniques.

Dans ce chapitre, nous pr´esentons les principaux types de m´ethodes d’esti- mation de la fr´equence phonatoire, incluant une m´ethode d´evelopp´ee au cours de ce travail. A la section 3.3, nous comparons ensuite des m´ethodes de chaque cat´egorie, afin de trouver la m´ethode la plus adapt´ee pour notre application. Fi- nalement, la section 3.4 est consacr´ee `a la pr´esentation des indices acoustiques caract´erisant la modulation de la fr´equence phonatoire.

47

(2)

3.2 M´ ethodes d’estimation de F 0

3.2.1 Introduction

Pour analyser les modulations basse-fr´equence de la fr´equence phonatoire, l’estimation de celle-ci doit ˆetre pr´ecise pour pouvoir suivre de petites pertur- bations de l’ordre de quelques pourcents de F

0

, et fiable pour ˆetre capable de traiter les signaux de locuteurs dysphoniques.

Il existe de nombreuses m´ethodes d’estimation de la fr´equence phonatoire [43, 68]. Ces m´ethodes peuvent ˆetre class´ees en diff´erentes cat´egories selon leur principe de base : certaines reposent sur la mesure de la dur´ee de chaque cycle vocal [50, 84], d’autres sur l’estimation de la p´eriode moyenne sur une fenˆetre d’analyse [9, 67], ou encore sur l’estimation de la fr´equence instantan´ee de la composante spectrale fondamentale du signal de parole [99].

Dans la premi`ere cat´egorie, les dur´ees des cycles vocaux sont obtenues par la distance entre des ´ev`enements caract´eristiques du cycle vocal, comme le pic principal ou l’instant de fermeture glottique [35, 50]. Chaque dur´ee de cycle vocal est alors assign´ee `a un instant. La s´erie temporelle des dur´ees de cycles doit ensuite ˆetre r´e´echantillonn´ee avec un pas constant afin de pouvoir ˆetre exploit´ee ult´erieurement.

Dans la deuxi`eme cat´egorie, la fr´equence phonatoire est obtenue au moyen d’analyses `a court terme bas´ees par exemple sur l’autocorr´elation [20, 67], le cepstre [72] ou le maximum de vraisemblance [89]. La dur´ee de la fenˆetre est g´en´eralement fixe et la fr´equence phonatoire est suppos´ee constante dans chaque fenˆetre.

Dans la troisi`eme cat´egorie, on estime la fr´equence phonatoire au moyen de la fr´equence instantan´ee de la composante fondamentale du signal de parole. La fr´equence instantan´ee est d´efinie comme la vitesse de variation de la phase. Ce type de m´ethodes est plus robuste par rapport `a la non- stationnarit´e du signal.

Les m´ethodes existantes diff`erent par la fa¸con dont la phase de la composante fondamentale est obtenue. La m´ethode la plus classique consiste `a filtrer le signal de parole autour de la fr´equence fondamentale et d’utiliser la phase du signal analytique associ´e au signal filtr´e passe-bas [99]. Ceci n´ecessite cependant une estimation pr´ealable de la fr´equence phonatoire et fait l’hypoth`ese que les variations autour de cette estimation sont faibles. C’est pourquoi plus d’un signal de phase est g´en´eralement calcul´e, et la fr´equence phonatoire est choisie pour chaque ´echantillon temporel sur base d’un crit`ere additionnel.

Voici quelques exemples de crit`eres : Qiu et al. [77] filtrent le signal passe-

bas avec deux fr´equences de coupure diff´erentes, calculent la fr´equence instan-

tan´ee de ces deux signaux filtr´es au moyen d’une transform´ee de Hilbert, et

d´eterminent si les fr´equences instantan´ees sont dans un intervalle de fr´equences

acceptables et si l’instant est vois´e. Lorsque les deux fr´equences instantan´ees sont

tr`es proches ou qu’une seule fr´equence instantan´ee est acceptable, la fr´equence

phonatoire est donn´ee par cette fr´equence instantan´ee. Lorsque les deux fr´equen-

ces instantan´ees diff`erent et qu’elles se situent toutes les deux dans l’intervalle

de fr´equences acceptables, la fr´equence phonatoire est donn´ee par la valeur la

plus basse. Nakatani et Irino [71] utilisent la transform´ee de Fourier `a court

(3)

terme et des composants harmoniques dominants. Kawahara et al. [51] uti- lisent une transform´ee en ondelettes continue avec une ondelette analytique. Ils d´etectent les points fixes dans le plan fr´equence centrale de l’ondelette analy- sante - fr´equence instantan´ee, pour lesquels la fr´equence centrale de l’ondelette analysante est ´egale `a la fr´equence instantan´ee. La fr´equence phonatoire est donn´ee par la fr´equence du point fixe pour lequel le rapport porteuse-`a-bruit est le plus grand.

Il existe ´egalement des m´ethodes hybrides, o` u des analyses `a tr`es court terme sont utilis´ees comme pr´etraitement, avant la recherche des ´ev´enements caract´eristiques de chaque cycle vocal [47, 74].

Pour pouvoir choisir une m´ethode pour l’analyse des modulations basse- fr´equence de F

0

, nous avons ´etudi´e les performances de m´ethodes de chacune de ces cat´egories. Nous avons en outre d´evelopp´e une m´ethode d’estimation de la fr´equence phonatoire bas´ee sur la fr´equence instantan´ee obtenues par la combinaison de deux transform´ees en ondelettes continues du signal de parole.

Dans cette section, nous pr´esentons d’abord les signaux synth´etiques utilis´es pour tester et illustrer les performances des m´ethodes d’estimation de F

0

. En- suite, nous pr´esentons les m´ethodes d’estimation de F

0

dont nous avons appro- fondi l’´etude : une m´ethode bas´ee sur la d´etection d’´ev`enements (sous-section 3.2.3), une m´ethode bas´ee sur une analyse `a court-terme par autocorr´elation (sous-section 3.2.4), deux m´ethodes existantes bas´ees sur la fr´equence instan- tan´ee (sous-section 3.2.5), et la m´ethode d´evelopp´ee au cours de cette th`ese (sous-section 3.2.6).

3.2.2 Signaux synth´ etiques

Pour estimer la validit´e des m´ethodes d’estimation de F

0

, il est utile de les tester sur des signaux synth´etiques, pour lesquels on connaˆıt le r´esultat qui devrait ˆetre obtenu. Les signaux synth´etiques utilis´es ici sont des voyelles soutenues [a] g´en´er´ees par un mod`ele source-filtre. Le signal de source est simul´e au moyen du mod`ele de Fant, et le conduit vocal est mod´elis´e par un filtre tous- pˆ oles.

Pour ´etudier la capacit´e des m´ethodes d’estimation de F

0

`a suivre les va- riations de F

0

, la fr´equence instantan´ee de la source synth´etique est modul´ee sinuso¨ıdalement au cours du temps. Elle est donn´ee par :

f

ref

(t) = f

moy

. [1 + A

M,ref

. cos (2πF

M,ref

t)] , (3.1) o` u f

ref

, f

moy

, A

M,ref

et F

M,ref

sont respectivement la fr´equence instantan´ee de la source, la fr´equence de source moyenne, l’amplitude de modulation de r´ef´erence et la fr´equence de modulation de r´ef´erence.

Puisque nous nous int´eressons `a la sensibilit´e des m´ethodes aux variations

de F

0

, tous les param`etres except´e la fr´equence instantan´ee de la source ont ´et´e

gard´es constants sur la dur´ee des signaux de test. Pour les r´esultats pr´esent´es

dans ce chapitre, les param`etres de la fonction de transfert du conduit vocal

sont les suivants : les quatre formants mod´elis´es ont comme fr´equences 700Hz,

1200Hz, 2500Hz et 3500Hz, et comme bandes passantes 140Hz, 180Hz, 55Hz

et 200Hz respectivement. La dur´ee de la phase ouverte est ´egale `a 40% de la

(4)

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05

signal de source

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 temps (s)

signal de parole

Fig. 3.1 – Signal synth´etique : signal de source et signal de parole.

dur´ee de cycle, la r´eciproque de la valeur du pic n´egatif est ´egale `a 0.1, et la dur´ee de fermeture est ´egale `a 20% de la dur´ee de la phase ouverte. La figure 3.1 illustre un signal de parole synth´etique et son signal de source.

3.2.3 M´ ethode bas´ ee sur la d´ etection d’´ ev` enements

De nombreux ´ev´enements peuvent ˆetre d´etect´es au cours d’un cycle vocal.

Les ´ev´enements d´etect´es peuvent ˆetre, par exemple, le maximum principal du cycle, le passage par z´ero (-/+) pr´ec´edent ce maximum ou le moment de fer- meture glottique (GCI : Glottal Closure Instant). Le moment de fermeture de la glotte se caract´erise g´en´eralement par un changement du spectre `a tr`es court terme, avec l’apparition de composantes de fr´equences ´elev´ees. Il peut ˆetre d´etect´e par exemple `a l’aide d’une transform´ee de Fourier `a court terme ou d’une transform´ee en ondelettes discr`ete [50] ou continue [63].

Pour pouvoir comparer ce type de m´ethodes avec d’autres m´ethodes, nous avons impl´ement´e un algorithme d´etectant le maximum principal d’amplitude de chaque cycle vocal. Cette m´ethode a pr´ec´edemment ´et´e impl´ement´ee dans le cadre de l’´etude du microtremblement vocal par Schoentgen [84]. Pour pouvoir comparer cette m´ethode avec les autres, la s´erie temporelle de dur´ees de cycle est transform´ee en une s´erie temporelle de fr´equences vocales ´equivalentes.

Algorithme

1. Calcul de la dur´ee caract´eristique de cycle du signal par la m´ethode de pr´ediction lin´eaire par autocorr´elation [23].

2. Sur´echantillonnage du signal afin d’augmenter la pr´ecision des r´esultats,

et filtrage passe-bas avec une fr´equence de coupure de 800Hz. Il a ´et´e

montr´e [91] que les signaux vocaux filtr´es sous 800Hz sont ad´equats pour

l’´etude du tremblement vocal et du jitter vocal.

(5)

3. Obtention de la s´erie de dur´ees de cycles `a partir des positions des maxima principaux de chaque cycle ou par la position des z´eros (-/+) pr´ec´edant ces maxima : Le premier pic principal est le maximum absolu sur la dur´ee totale du signal. Les maxima principaux suivants sont recherch´es de proche en proche, dans un intervalle de +/- 10% autour de l’´echantillon situ´e `a une distance d’une dur´ee de cycle caract´eristique du dernier pic principal d´etect´e. Le plus grand pic de cet intervalle est choisi comme pic principal suivant.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−0.2

0 0.2 signal de parole 0.4

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−0.2

0 0.2 signal de parole filtré et pics principaux négatifs 0.4

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

120 125 130 135

temps (s) inverse des durées des cycles (Hz)

Fig. 3.2 – Estimation des dur´ees de cycles par d´etection du pic principal n´egatif de chaque cycle vocal.

La figure 3.2 illustre la m´ethode de d´etection d’´ev´enements pour un signal synth´etique : le premier graphique repr´esente le signal de parole, le deuxi`eme le signal de parole filtr´e et les pics principaux n´egatifs qui ont ´et´e d´etect´es, et le troisi`eme graphique repr´esente l’inverse des dur´ees de cycle extraites.

Le fait de d´etecter un instant caract´eristique du cycle vocal a des cons´equen- ces pour l’analyse ult´erieure. En effet, la s´erie de dur´ees de cycles est obtenue par la diff´erence entre les positions de deux ´ev´enements et a donc des abscisses temporelles qui ne sont pas parfaitement d´etermin´ees. Il y a un choix arbitraire pour la position qui est assign´ee `a chaque dur´ee de cycle : d´ebut, milieu ou fin de cycle.

De plus, dans le cadre de ce travail, nous d´esirons analyser les signaux de

locuteurs dysphoniques. Il faut donc que l’estimation de la fr´equence phona-

toire soit capable de traiter des signaux perturb´es. Il faut ´egalement prendre

en compte le fait que les variations entre les dur´ees de cycles peuvent ˆetre im-

portantes. La s´erie de dur´ees de cycles vocaux ´etant ´echantillonn´ee avec un

pas variable, il faut d’abord interpoler et r´e´echantillonner la s´erie de dur´ees de

cycles pour obtenir un pas d’´echantillonnage constant, avant de pouvoir calculer

et analyser le spectre de cette s´erie.

(6)

3.2.4 M´ ethode bas´ ee sur une analyse ` a court-terme

Il existe de nombreuses m´ethodes bas´ee sur des analyse par fenˆetres [43].

Dans cette section, nous pr´esentons bri`evement une m´ethode classique [9]. Cette m´ethode sera compar´ee aux autres types de m´ethodes par la suite. Cet algo- rithme est bas´e sur la corr´elation mutuelle entre la fenˆetre d’analyse et une fenˆetre d´ecal´ee vers l’avant du signal, le d´ecalage maximum ´etant ´egal `a la lon- gueur de la fenˆetre. On s’attend `a ce que la corr´elation mutuelle soit la plus forte lorsque la fenˆetre est d´ecal´ee d’un cycle vocal. La dur´ee de cycle est donc estim´ee par le d´ecalage pour lequel on obtient la corr´elation maximale. La lon- geur de la fenˆetre d’analyse est choisie ´egale `a la plus longue dur´ee de cycle que l’on d´esire d´etecter. La longueur de la fenˆetre d’analyse influence la sensibilit´e de l’estimation aux variations rapides des dur´ees de cycle car les caract´eristiques du signal sont moyenn´ees sur la dur´ee de la fenˆetre.

3.2.5 M´ ethodes bas´ ees sur la fr´ equence instantan´ ee

Nous pr´esentons ici deux m´ethodes bas´ees sur l’estimation de la fr´equence instantan´ee de la composante fondamentale du signal de parole. La premi`ere est la m´ethode classique bas´ee sur la transform´ee de Hilbert [99]. La deuxi`eme est la m´ethode d´evelopp´ee par Kawahara [51], bas´ee sur une transform´ee en ondelettes continue et la d´etection des points fixes du plan fr´equence centrale de l’ondelette - fr´equence instantan´ee.

3.2.5.1 M´ ethode bas´ ee sur la transform´ ee de Hilbert

Comme nous l’avons vu au chapitre 2, la transform´ee de Hilbert d’un si- gnal H[s(t)] permet de construire le signal analytique associ´e `a ce signal s(t).

La fr´equence instantan´ee ω(t) d’un signal peut ˆetre d´efinie `a partir du signal analytique associ´e s

a

(t) = s(t) + jH [s(t)] comme ´etant la d´eriv´ee de la phase du signal analytique associ´e [7].

Φ(t) = arg[s(t) + jH [s(t)]] (3.2) ω(t) = dΦ(t)

dt (3.3)

Lorsque le signal est `a bande ´etroite, il n’y a qu’une seule composante

spectrale et la fr´equence instantan´ee peut ˆetre interpr´et´ee [7]. Comme les si-

gnaux vocaux vois´es que nous analysons pr´esentent des harmoniques, il faut

pr´ealablement filtrer le signal autour de la fr´equence fondamentale du locuteur,

avant de pouvoir extraire la fr´equence instantan´ee du signal analytique associ´e,

fr´equence qui correspond alors `a la fr´equence phonatoire du signal vocal. Les

fr´equences de coupure du filtre doivent ˆetre choisies avec pr´ecaution, de fa¸con `a

ne pas supprimer d’information sur les variations de la fr´equence phonatoire.

(7)

Algorithme

1. Estimer la fr´equence phonatoire moyenne F

0,est

par autocorr´elation sur tout le signal.

2. Filtrer le signal autour de la fr´equence phonatoire F

0,est

, entre 0.5F

0,est

et 1.5F

0,est

, au moyen d’un filtre `a r´eponse impulsionnelle finie de dur´ee 50 ms.

3. Calculer la transform´ee de Hilbert du signal filtr´e pour obtenir le signal analytique associ´e.

4. Extraire la phase du signal analytique et calculer sa d´eriv´ee par rapport au temps.

5. Filtrer la d´eriv´ee de la phase de signal analytique sous 20Hz pour sup- primer des oscillations r´esiduelles, au moyen d’un filtre de Butterworth d’ordre 4, de fr´equence de coupure 25Hz.

6. Enlever 0.1s au d´ebut et `a la fin du signal pour ´eliminer les transitoires.

0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

−0.5 0 0.5

speech signal

Synthetic speech signal

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

−0.1 0 0.1

filtered speech signal

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

119 120 121 122

time (s) instantaneous frequency (Hz)

Fig. 3.3 – Estimation de F

0

bas´ee sur la transform´ee de Hilbert : signal de parole synth´etique, signal de parole filtr´e et F

0

estim´ee.

L’algorithme est illustr´e `a la figure 3.3 pour un signal de parole synth´etique

pr´esentant des modulations lentes de la fr´equence phonatoire. Le premier gra-

phique montre le signal de parole synth´etique, le deuxi`eme le signal de parole

filtr´e et le troisi`eme graphique montre la fr´equence phonatoire obtenue.

(8)

3.2.5.2 M´ ethode de Kawahara et al.

Kawahara a d´evelopp´ee une m´ethode bas´ee sur les points fixes dans le plan fr´equence analysante - fr´equence instantan´ee de transform´ees temps-fr´equence [51]. La m´ethode est compos´ee de deux parties. En premier lieu, une trans- form´ee en ondelettes continue est utilis´ee pour extraire les points fixes du plan fr´equences centrales des ondelettes - fr´equence instantan´ee des signaux de sor- tie de la transform´ee. Ces points fixes donnent la fr´equence des composantes pseudo-sinuso¨ıdales du signal analys´e. Les ondelettes utilis´ees w

s

(t, λ) sont ob- tenus par la convolution d’une ondelette de Gabor w(t, λ) avec une fonction de base B-spline cardinale du second ordre h(t, λ) dimensionn´ee en fonction de la fr´equence centrale λ de l’ondelette de Gabor correspondante. La convolution avec la fonction B-spline supprime s´electivement les interf´erences de compo- santes pseudo-harmoniques voisines lorsque la fr´equence centrale de l’ondelette est ´egale `a F

0

.

w

s

(t, λ) = w(t, λ) $ h(t, λ), (3.4) w(t, λ) = e

λ

2t2 4πη2

e

jλt

, (3.5)

h(t, λ) = max

! 0, 1 −

"

"

"

"

λt 2πη

"

"

"

"

#

, (3.6)

o` u $ repr´esente la convolution, et η le facteur d’´echelle. Les points fixes sont

´evalu´es en termes de rapports porteuse-`a-bruit estim´es, et F

0

est obtenue en s´electionnant le point fixe qui pr´esente le plus grand rapport porteuse-`a-bruit.

La deuxi`eme partie de la m´ethode permet d’affiner l’estimation de F

0

. Une transform´ee de Fourier `a court terme adaptative en fonction de F

0

est calcul´ee.

L’analyse des points fixes de cette transform´ee de Fourier `a court terme adap-

tative permet d’obtenir les points fixes correspondant aux composantes harmo-

niques. Les fr´equences instantan´ees des points fixes sont int´egr´ees en utilisant

l’information porteuse-`a-bruit pour donner l’estimation de F

0

.

(9)

3.2.6 M´ ethode d´ evelopp´ ee

Nous avons d´evelopp´e une m´ethode d’estimation de F

0

bas´ee sur une trans- form´ee en ondelettes continue TOC utilisant une ondelette complexe [15]. Des tests sur signaux synth´etiques montrent que cette m´ethode d’estimation de F

0

permet de donner un r´esultat fiable pour des signaux r´ealistes et de d´eduire correctement la fr´equence de modulation mais a tendance `a sous-estimer l’am- plitude de la modulation. La m´ethode a ´et´e am´elior´ee par l’introduction d’une deuxi`eme TOC [13]. La m´ethode `a deux TOCs est compos´ee de deux ´etapes.

D’abord une TOC du signal de parole est calcul´ee et une premi`ere estimation de F

0

est obtenue par la fr´equence centrale de l’ondelette pour laquelle le module de la TOC est maximal. Ensuite une nouvelle TOC est calcul´ee, avec une ondelette- m`ere plus courte. L’estimation de F

0

est donn´ee par la fr´equence instantan´ee correspondant `a l’ondelette dont la fr´equence centrale est ´egale `a l’estimation de F

0

calcul´ee dans la premi`ere ´etape. La combinaison de deux TOCs permet d’obtenir fiabilit´e pour des signaux de locuteurs dysphoniques et sensibilit´e aux perturbations de F

0

.

Dans cette sous-section, nous pr´esentons d’abord la m´ethode `a une TOC, le choix de l’ondelette-m`ere et les performances de cette m´ethode pour des signaux synth´etiques. Ensuite nous pr´esentons la m´ethode `a deux TOCs et ses performances.

3.2.6.1 Estimation de F

0

sur base d’une TOC

Le module et la phase des coefficients de la TOC obtenus avec une ondelette complexe sont des estimations de l’enveloppe et de la phase instantan´ee de la composante spectrale du signal dans la bande de fr´equence centr´ee autour de la fr´equence centrale f

c

de l’ondelette [62]. La d´eriv´ee temporelle de la phase des coefficients de la TOC est donc une estimation de la fr´equence instantan´ee du signal dans cette bande de fr´equence.

La possibilit´e d’estimer la fr´equence phonatoire au moyen d’une TOC est bas´ee sur l’observation suivante : Dans le voisinage des fr´equences centrales des ondelettes qui correspondent le mieux `a la cyclicit´e du signal, le module des coefficients de la TOC pr´esente un maximum, et, dans le plan (f

c

− F I ), la fr´equence instantan´ee (FI) obtenue `a partir de la phase des coefficients de la TOC pr´esente un plateau au voisinage de la valeur r´eelle de F

0

sur une large bande de fr´equence [11].

La figure 3.4 montre l’´evolution du module de la TOC pour une ondelette de Morlet avec le param`etre ω

c

σ

t

= 5, pour un signal synth´etique de fr´equence phonatoire 75Hz. Une crˆete d’amplitude importante est bien pr´esente autour de la fr´equence centrale d’ondelette de 75Hz. La figure 3.5 montre le module et la fr´equence instantan´ee de la TOC, en fonction de la fr´equence centrale d’ondelette, pour un instant t, pour le mˆeme signal synth´etique. La fr´equence instantan´ee forme un plateau dont la valeur est ´egale la fr´equence phonatoire du signal synth´etique, pour les fr´equence centrales d’ondelettes o` u le module est

´elev´ee.

La fr´equence instantan´ee du plateau peut ˆetre obtenue avec pr´ecision, mˆeme

si la TOC a ´et´e calcul´ee avec un grand pas fr´equentiel. Ceci est illustr´e `a la

(10)

temps (s)

fréquence centrale (Hz)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

50 100 150 200

Fig. 3.4 – Module de la TOC avec le param`etre ω

c

σ

t

= 5, pour un signal de parole synth´etique (les modules ´elev´ees sont repr´esent´ees en noir, les modules faibles en blanc).

40 60 80 100 120 140 160 180 200

0 0.5 1 1.5 2 2.5

fréquence analysante (Hz)

Module de la TOC

40 60 80 100 120 140 160 180 200

0 50 100 150 200

fréquence analysante (Hz)

FI (Hz)

Fig. 3.5 – Module (figure sup´erieure) de la TOC et F I (figure inf´erieure) avec le param`etre ω

c

σ

t

= 5. La ligne en pointill´e marque F I = 75Hz.

figure 3.6 pour un signal synth´etique de fr´equence variable sinuso¨ıdalement autour de 200Hz. On voit la fr´equence phonatoire de r´ef´erence, la fr´equence centrale correspondant au maximum du module de la TOC et la fr´equence ins- tantan´ee correspondant au maximum du module de la TOC. Le pas de calcul de la fr´equence centrale de la TOC est de 5Hz et est clairement visible dans le trac´e de la fr´equence centrale des maxima, mais il n’est pas d´etectable lorsqu’on regarde le trac´e de la fr´equence instantan´ee.

La m´ethode d’estimation de F

0

sur base d’une TOC unique consiste donc `a

estimer F

0

au moyen de la fr´equence instantan´ee de la TOC dont le module est

maximal dans l’intervalle [50Hz − 500Hz].

(11)

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 180

190 200 210 220

temps (s)

fréquence phonatoire (Hz)

référence FI maximum

Fig. 3.6 – Comparaison de la r´esolution fr´equentielle des estimations de F

0

bas´ees sur la fr´equence instantan´ee FI et sur le module maximal de la TOC, ainsi que la courbe de r´ef´erence de F

0

.

3.2.6.2 Choix de l’ondelette-m` ere

Pour l’impl´ementation de la m´ethode bas´ee sur le principe ci-dessus, nous avons test´e deux types d’ondelettes complexes : l’ondelette de Morlet complexe, et l’ondelette gaussienne complexe. Ces deux familles d’ondelettes pr´esentent des enveloppes proches de la forme gaussienne et permettent donc de minimiser le produit des dispersions temporelles et fr´equentielles [2], et par cons´equent d’optimiser la pr´ecision des r´esultats.

L’ondelette de Morlet complexe (Fig. 3.7) a pour ´equation : ψ

ωc

(t) = C e

ct

$ e

t2 2σ2

t

− √ 2e

ω

2 c σ

2 t 4

e

t2 σ2 t

%

(3.7)

real part imaginary part

Fig. 3.7 – Ondelette de Morlet complexe pour ω

c

σ

t

= 5.

L’´echelle de l’ondelette est fix´ee par sa fr´equence centrale f

c

=

ωc

, qui est la fr´equence d’oscillation de l’ondelette. Le param`etre σ

t

fixe la d´ecroissance de l’enveloppe de l’ondelette. Pour une famille d’ondelettes, la forme est conserv´ee, le produit ω

c

σ

t

reste donc constant. Le facteur de normalisation C est choisi de sorte que &

+∞

−∞

| ψ

ωc

(t) |

2

dt = 1. La dur´ee effective de l’ondelette est d´efinie ici de fa¸con conventionnelle par 2σ

t

.

Les diff´erentes formes de l’ondelette gaussienne complexe sont obtenues par d´erivation multiple de l’ondelette gaussienne de base :

ψ

p

(t) = (C

p

.e

i.t

.e

t2

)

(p)

, (3.8)

(12)

o` u p est un param`etre fixant le nombre de d´erivations de la gaussienne et C

p

est d´efini de sorte `a ce que &

−∞

| ψ

p

(t) |

2

dt = 1. Nous avons test´e les ondelettes avec p = 4 et p = 8, repr´esent´ees `a la figure 3.8.

partie réelle partie imaginaire G4

Partie réelle Partie imaginaire G8

Fig. 3.8 – Ondelettes gaussiennes complexes pour p = 4 et p = 8.

Nous avons pr´ef´er´e utiliser l’ondelette de Morlet complexe car :

1. les r´esultats obtenus avec les deux ondelettes sont fort proches : Les r´esultats obtenus par tests sur des signaux synth´etiques montrent un com- portement semblable en fonction de la fr´equence de tremblement et de la fr´equence phonatoire moyenne. Les variations d´ependent des param`etres de chaque ondelette et on peut obtenir des r´esultats similaires en choisis- sant les param`etres de fa¸con ad´equate. Cependant, l’ondelette de Morlet complexe a l’avantage de ne pas comporter de d´erivation, le param`etre ω

c

σ

t

caract´erisant l’ondelette-m`ere peut donc prendre des valeurs non enti`eres.

2. le pas fr´equentiel de calcul de la CWT peut ˆetre plus large pour l’ondelette de Morlet que pour l’ondelette gaussienne pour obtenir la mˆeme pr´ecision fr´equentielle.

3. la fr´equence centrale de l’ondelette a une interpr´etation directe et fait partie des param`etres pour l’ondelette de Morlet, mais pas pour l’ondelette gaussienne.

3.2.6.3 Evaluation de la m´ ethode d’estimation de F

0

bas´ ee sur une TOC

La m´ethode d’estimation de F

0

bas´ee sur une TOC a ´et´e test´ee sur deux types de signaux : des signaux sinuso¨ıdaux dont la fr´equence est modul´ee, et des signaux de parole synth´etiques comme ceux qui ont ´et´e pr´esent´es `a la sous- section 3.2.2, avec une modulation de la fr´equence de source.

Les signaux pseudo-sinuso¨ıdaux sont donn´es par : s(t) = cos

$

2πf

moy

t + f

moy

.A

M,ref

F

M,ref

. sin (2πF

M,ref

t)

%

, (3.9)

o` u s(t), f

moy

, A

M,ref

et F

M,ref

sont respectivement le signal synth´etique, la fr´equence moyenne de signal, l’amplitude du modulation et la fr´equence du modulation.

Pour les signaux pseudo-sinuso¨ıdaux et les signaux de parole synth´etiques, la fr´equence de r´ef´erence est donn´ee par :

f

ref

(t) = f

moy

. [1 + A

M,ref

. cos (2πF

M,ref

t)] , (3.10)

(13)

o` u f

ref

, f

moy

, A

M,ref

et F

M,ref

sont respectivement la fr´equence de r´ef´erence, la fr´equence moyenne du signal, l’amplitude de modulation et la fr´equence de modulation.

La capacit´e de la m´ethode `a restituer correctement l’amplitude de la modula- tion est ´evalu´ee au moyen du rapport entre l’amplitude de modulation estim´ee - qui est donn´ee par la demi-amplitude pic-`a-pic de la fr´equence phonatoire estim´ee - et l’amplitude de modulation de r´ef´erence. Id´ealement, ce rapport amplitude estim´ee-sur-r´ef´erence est ´egal `a un.

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

99.9 99.95 100 100.05 100.1

temps(s)

Hz

freq. obtenue freq. référence

Fig. 3.9 – Signal synth´etique pseudo-sinuso¨ıdal : Fr´equence estim´ee avec ω

c

σ

t

= 5 et fr´equence de r´ef´erence, pour f

moy

= 100Hz, A

M,ref

= 0.1% et F

M,ref

= 10Hz.

La figure 3.9 montre la fr´equence estim´ee avec le param`etre ω

c

σ

t

= 5 et la fr´equence de r´ef´erence pour un signal pseudo-sinuso¨ıdal modul´e de fr´equence moyenne 100Hz, d’amplitude de modulation .1% et de fr´equence de modulation 10Hz. On observe que la fr´equence de modulation du signal estim´e correspond `a la fr´equence de modulation de r´ef´erence, mais que l’amplitude de la modulation est att´enu´ee. Etant donn´e que la fr´equence de modulation est chaque fois bien estim´ee, nous nous int´eressons exclusivement `a l’att´enuation de l’amplitude de modulation dans les tests suivants.

Att´ enuation de l’amplitude de modulation estim´ ee Les effets des pa- ram`etres de modulation du signal synth´etique sur l’att´enuation de l’amplitude de modulation estim´ee sont illustr´es dans les figures 3.10, 3.11 et 3.12, qui montrent le rapport amplitude de modulation estim´ee-sur-r´ef´erence en fonc- tion de la fr´equence phonatoire moyenne, de l’amplitude de modulation et de la fr´equence de modulation, respectivement. On voit que la fr´equence de modula- tion et la fr´equence phonatoire moyenne ont un effet sur l’att´enuation, tandis que la valeur de l’amplitude de modulation de r´ef´erence n’influe pas sur le r´esultat.

L’amplitude de modulation estim´ee est d’autant plus att´enu´ee que la fr´equence phonatoire moyenne est basse et que la fr´equence de modulation est ´elev´ee.

L’explication de la sous-estimation de l’amplitude de modulation est que lorsque la r´esolution temporelle de l’ondelette n’est pas assez fine, la F I est liss´ee sur la dur´ee effective de l’ondelette. La d´etection est d’autant plus difficile que F

0

est faible et que la variation est rapide. Par exemple, en utilisant une famille d’ondelette avec ω

c

σ

t

= 5, lorsque la fr´equence phonatoire moyenne est de 100Hz, la dur´ee effective de l’ondelette 2σ

t

est ´egale `a 2.

ω5

c

= 2.

2∗π5∗100

= 16ms.

De petites variations de F

0

avec une fr´equence sup´erieure `a 10Hz sont donc

moyenn´ees sur la dur´ee de l’ondelette et sont att´enu´ees `a la sortie.

(14)

50 100 150 200 250 300 0.88

0.9 0.92 0.94 0.96 0.98 1

Fréquence phonatoire moyenne (Hz)

Rapport d’amplitudes estiméesurréférence

Fig. 3.10 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de la fr´equence phonatoire moyenne f

moy

, pour F

M,ref

= 5Hz et A

M,ref

= 1%, pour ω

c

σ

t

= 5.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

0.5 0.6 0.7 0.8 0.9 1

rapport d’amplitudes estiméesurréférence

amplitude de modulation (%) FM = 20Hz

FM = 10Hz FM = 5Hz FM = 1Hz

Fig. 3.11 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de l’amplitude de modulation A

M,ref

, pour diff´erentes valeurs de la fr´equence de modulation F

M,ref

, pour f

moy

= 100Hz, pour ω

c

σ

t

= 5.

0 2 4 6 8 10 12 14 16 18 20

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Fréquence de modulation (Hz)

Rapport d’amplitudes estiméesurréférence

fmoy = 50Hz fmoy = 100Hz fmoy = 200Hz fmoy = 300Hz

Fig. 3.12 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation

estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation pour diff´erentes

valeurs de f

moy

, pour A

M,ref

= 1%, pour ω

c

σ

t

= 5.

(15)

La figure 3.12 montre l’att´enuation de l’amplitude mesur´ee pour un signal de fr´equence phonatoire moyenne de 100Hz. L’att´enuation de l’amplitude mesur´ee est de 15% pour une modulation `a 10Hz, et elle atteint presque 30% pour une modulation `a 15Hz. Cette att´enuation est trop importante pour l’application que nous envisageons. Etant donn´e que l’att´enuation de l’amplitude de la modu- lation de F

0

est une cons´equence de la dur´ee effective de l’ondelette analysante, on s’attend `a ce qu’une ondelette-m`ere de dur´ee effective plus courte (et donc avec un param`etre ω

c

σ

t

plus faible) donne de meilleurs r´esultats pour le suivi des modulations de F

0

.

Effet du param` etre ω

c

σ

t

de l’ondelette-m` ere La figure 3.13 illustre l’effet du param`etre ω

c

σ

t

de l’ondelette-m`ere pour des signaux synth´etiques pseudo- sinuso¨ıdaux. Elle montre le rapport d’amplitude de modulation estim´ee-sur- r´ef´erence en fonction de la fr´equence de modulation pour une fr´equence moyenne de 100Hz, avec ω

c

σ

t

= 5 et ω

c

σ

t

= 2.5. Plus le param`etre ω

c

σ

t

est faible, moins la modulation est att´enu´ee. On pourrait donc penser qu’il suffit de choisir une ondelette avec un param`etre suffisamment petit pour ´etudier les modulations de F

0

. Cependant, des signaux synth´etiques pseudo-sinuso¨ıdaux ont ´et´e utilis´es car la m´ethode d’estimation de F

0

bas´ee sur une TOC avec ω

c

σ

t

= 2.5 ne parvient pas `a d´etecter correctement la fr´equence phonatoire sur des signaux de parole synth´etiques. Cette incapacit´e est due `a la largeur de bande trop grande des ondelettes avec ω

c

σ

t

= 2.5, qui fait que la transform´ee en ondelettes ne parvient pas `a isoler la composante fondamentale du signal de parole.

0 2 4 6 8 10 12 14 16 18 20

0.6 0.7 0.8 0.9 1

rapport d’amplitudes estiméesurréférence

fréquence de modulation (Hz) ω0 σ

t = 2.5 ω0 σ

t = 5

Fig. 3.13 – Signaux synth´etiques pseudo-sinuso¨ıdaux : Rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation pour f

moy

= 100 Hz et A

M,ref

= 1%, pour ω

c

σ

t

= 5 et ω

c

σ

t

= 2.5.

La figure 3.14 montre le module de la transform´ee en ondelettes avec ω

c

σ

t

= 2.5 en fonction du temps, pour un signal de parole synth´etique de fr´equence phonatoire moyenne de 75Hz. La figure 3.15 montre une coupe du module de la transform´ee en ondelettes et de la fr´equence instantan´ee en fonction de la fr´equence analysante de l’ondelette, pour deux positions dans un cycle, pour le mˆeme signal synth´etique.

Le plateau o` u la fr´equence instantan´ee est ´egale `a la fr´equence phonatoire

est pr´esent pour les fr´equences centrales o` u le module de la TOC est ´elev´e, bien

qu’il soit d´ecal´e par rapport au plateau obtenu avec ω

c

σ

t

= 5. Ce plateau peut

toujours ˆetre utilis´e pour estimer F

0

, mˆeme s’il est plus court pour des signaux

r´eels. Cependant, il est plus difficile de localiser le pic du module correspondant

(16)

fréquence centrale (Hz)

temps (s)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

50 100 150 200

Fig. 3.14 – Module de la TOC avec le param`etre ω

c

σ

t

= 2.5, pour un signal de parole synth´etique (les modules ´elev´ees sont repr´esent´ees en noir, les modules faibles en blanc).

40 60 80 100 120 140 160 180 200

0 0.5 1 1.5 2

fréquence analysante (Hz)

Module de la TOC

40 60 80 100 120 140 160 180 200

0 50 100 150 200

fréquence analysante (Hz)

FI (Hz)

Fig. 3.15 – Module (figure sup´erieure) et F I (figure inf´erieure) de la TOC avec le param`etre ω

c

σ

t

= 2.5. La ligne en pointill´e marque F I = 75Hz.

au plateau. En effet, `a cause de sa largeur spectrale plus importante et de sa

dur´ee effective plus courte, la transform´ee en ondelettes est plus sensible `a la

deuxi`eme harmonique et aux instationarit´es intra-cycle telles que les instants

de fermeture glottique. Par cons´equent, pour certaines positions dans le cycle

vocal, le pic du module correspondant au plateau peut disparaˆıtre, comme c’est

le cas pour la ligne pointill´ee de la figure 3.15. Dans ce cas, F

0

ne peut plus

ˆetre estim´ee par l’interm´ediaire du maximum du module de la TOC. La valeur

du param`etre ω

c

σ

t

ne peut donc pas ˆetre trop faible, si on veut traiter des

signaux de parole r´eels, a fortiori des signaux de parole de locuteurs ˆ ag´es et

dysphoniques.

(17)

3.2.6.4 M´ ethode ` a deux TOCs

Les tests sur signaux synth´etiques de la m´ethode d’estimation de la F

0

bas´ee sur une TOC ont montr´e qu’une famille d’ondelettes avec une dur´ee effective longue permet d’obtenir une estimation de F

0

fiable pour des signaux r´ealistes, tandis qu’une famille d’ondelettes avec une dur´ee effective courte pr´esente la sensibilit´e souhait´ee aux variations de F

0

.

Pour obtenir une m´ethode pr´esentant ces deux caract´eristiques, nous avons combin´e deux transform´ees en ondelettes : une premi`ere avec une r´esolution fr´equentielle ´elev´ee (et une dur´ee effective longue) pour identifier le maximum du module de la TOC, et une seconde avec une r´esolution temporelle ´elev´ee pour estimer la fr´equence instantan´ee. La proc´edure est la suivante (Fig. 3.16) : 1. TOC du signal de parole avec ω

c

σ

t

= 5, et sauvegarde pour chaque

´echantillon temporel de la fr´equence centrale ˆ f

c

de l’ondelette correspon- dant au module maximal de la TOC.

2. TOC du signal de parole avec ω

c

σ

t

= 2.5, et calcul de la fr´equence ins- tantan´ee de la TOC, F I

2.5

, par la d´eriv´ee temporelle de la phase de la TOC.

3. Estimation de la valeur instantan´ee de F

0

au moyen de la F I

2.5

de l’onde- lette dont la fr´equence centrale ˆ f

c

est ´egale `a celle retenue dans la premi`ere

´etape.

4. Filtrage de F

0

pour ´eliminer les oscillations r´esiduelles dues `a des insta- tionarit´es intra-cycle, au moyen d’un filtre de Butterworth d’ordre 4, de fr´equence de coupure 25Hz.

Signal parole de

#

$

ωT OCcσt=5

| T OC (t, f

c

) | →

maxfc

f ˆ

c

(t)

ωcT OCσt=2.5

F I

2,5

(t, f

c

)

→ f

c

= ˆ f

c

(t) F I (t)

→ Filtre passe-bas → F

0

(t) Fig. 3.16 – Sch´ema-bloc de l’estimation de F

0

.

3.2.6.5 Illustration sur un signal de parole synth´ etique

La figure 3.17 montre un signal de parole synth´etique pr´esentant des modu- lations de la fr´equence phonatoire, ainsi que le module de la TOC avec ω

c

σ

t

= 5, et la fr´equence instantan´ee obtenue `a partir de la TOC avec ω

c

σ

t

= 2.5.

Le module de la transform´ee en ondelettes pr´esente des maxima locaux pour diff´erentes fr´equences. Le maximum local dont la fr´equence est la plus basse correspond `a la fr´equence phonatoire. La deuxi`eme harmonique est visible

´egalement et correspond au deuxi`eme maximum local, tandis que les harmo- niques sup´erieures ne sont g´en´eralement plus visibles. On peut noter que pour chaque cycle vocal, un pattern se r´ep`ete dans les coefficients de la transform´ee en ondelettes.

Dans le plan des fr´equences instantan´ees, on peut voir le plateau stable

dans la bande de fr´equence entre 100Hz et 150Hz, dont la couleur correspond

(18)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−1

−0.5 0 0.5 1

signal de parole

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100

200

300 module de la TOC avec ωcσt = 5

fréquence centrale (Hz)

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100

200

300 dérivée temporelle de la phase de la TOC avec ωcσt=2.5

temps (s)

fréquence centrale (Hz)

0.5 1 1.5

50 100 150 200 250 300

Fig. 3.17 – Signal synth´etique avec modulations vocales : signal de parole, module et fr´equence instantan´ee de la transform´ee en ondelettes

50 100 150 200 250 300

0 100 200 300

Signal de parole synthétique

fréquence centrale (Hz)

fréquence instantanée (Hz)

Fig. 3.18 – Signal synth´etique avec modulations vocales : fr´equence instantan´ee en fonction de la fr´equence centrale des ondelettes.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

120 120.5 121 121.5 122

temps (en s)

Hz

Fréquence phonatoire

Fig. 3.19 – Signal synth´etique avec modulations vocales : fr´equence phonatoire

estim´ee par la m´ethode `a deux TOC.

(19)

`a la fr´equence phonatoire. On peut voir ce plateau ´egalement sur la figure 3.18 qui montre la superposition, pour tous les instants, des courbes de fr´equences instantan´ees en fonction de la fr´equence centrale des ondelettes, c’est-`a-dire le graphique des fr´equences instantan´ees dont on a enlev´e la variable tempo- relle. Le premier plateau correspond `a la fr´equence fondamentale, le deuxi`eme

`a la deuxi`eme harmonique. Ce dernier est d´ej`a moins net que le plateau de la fr´equence fondamentale.

La fr´equence phonatoire estim´ee pour le signal synth´etique pr´ec´edent est repr´esent´ee sur la figure 3.19.

3.2.6.6 Evaluation de la m´ ethode ` a deux TOCs

La m´ethode `a deux TOCs pr´esente des caract´eristiques similaires `a celle de la m´ethode `a une TOC : la fr´equence de modulation est suivie correctement et l’amplitude de modulation est att´enu´ee. Cependant, l’amplitude de modu- lation est nettement moins att´enu´ee grˆ ace `a l’utilisation de la deuxi`eme TOC avec un support temporel plus court. Nous pr´esentons ici les r´esultats concer- nant l’att´enuation de l’amplitude de modulation pour des signaux de parole synth´etiques.

La fr´equence de la source est donn´ee par :

f

ref

(t) = f

moy

. [1 + A

M,ref

. cos (2πF

M,ref

t)] , (3.11) o` u s(t), f

ref

, f

moy

, A

M,ref

et F

M,ref

sont respectivement le signal synth´etique, la fr´equence de r´ef´erence, la fr´equence moyenne du signal, l’amplitude de mo- dulation et la fr´equence de modulation.

0 2 4 6 8 10 12 14 16 18 20

0.85 0.9 0.95 1

fréquence de modulation (Hz) Rapport d’amplitude de modulation estimée−sur−référence

50Hz 100Hz 200Hz 300Hz

Fig. 3.20 – M´ethode `a deux TOCs : rapport amplitude de modulation estim´ee- sur-r´ef´erence en fonction de la fr´equence de modulation, pour des signaux de parole synth´etiques avec diff´erentes valeurs de f

moy

(50Hz `a 300Hz).

La figure 3.20 montre le rapport de l’amplitude de modulation estim´ee-sur-

r´ef´erence en fonction de la fr´equence de modulation pour diff´erentes valeurs de

f

moy

, pour la m´ethode `a deux TOC. On voit que le rapport amplitude de mo-

dulation estim´ee-sur-r´ef´erence diminue avec l’augmentation de la fr´equence de

modulation et avec la diminution de la fr´equence phonatoire moyenne. Ces ca-

ract´eristiques sont les mˆemes que celles obtenues pour des signaux synth´etiques

(20)

pseudo-sinuso¨ıdaux pour la m´ethode `a une TOC avec ω

c

σ

t

= 2.5. L’avantage de la m´ethode `a deux TOCs est qu’elle est capable de traiter aussi des signaux de parole r´eels.

3.3 Comparaison des m´ ethodes d’estimation de F 0

Dans cette section, les m´ethodes d’estimation de F

0

pr´esent´ees ci-dessus sont compar´ees, afin de d´eterminer laquelle est la plus adapt´ee pour l’analyse des modulations basse-fr´equence de F

0

. ´ Etant donn´e que la m´ethode bas´ee sur la d´etection d’´ev`enements diff`ere fortement des autres, nous la traitons s´epar´ement.

La comparaison des m´ethodes est donc compos´ee de deux parties. Une premi`ere consiste `a comparer la m´ethode `a deux TOCs avec la m´ethode bas´ee sur la d´etection d’´ev`enements. Ensuite nous comparons les m´ethodes bas´ees sur une analyse `a court terme et sur la fr´equence instantan´ee.

3.3.1 TOC ou d´ etection d’´ ev` enements

Dans cette sous-section, nous comparons la m´ethode d’estimation de F

0

`a deux TOCs avec la m´ethode bas´ee sur la d´etection d’´ev`enements pr´esent´ee `a la section 3.2.3.

Ces deux types d’algorithmes diff`erent principalement sur trois points : le pas d’´echantillonnage constant ou variable des r´esultats, la sensibilit´e aux variations cycle-`a-cycle et la fiabilit´e des r´esultats obtenus.

– Echantillonnage des r´ esultats : Pour la m´ethode bas´ee sur la d´etection d’´ev´enements, le r´esultat est une s´erie temporelle de dur´ees de cycles. Le pas d’´echantillonnage de celle-ci est intrins`equement variable. Il faut donc interpoler et r´e´echantillonner le signal de fr´equence phonatoire avant de pouvoir analyser son spectre. Ceci n’est pas n´ecessaire pour les m´ethodes bas´ees sur des analyses `a court terme.

– Sensibilit´ e aux variations cycle ` a cycle : La m´ethode bas´ee sur la d´etection d’´ev´enements est sensible au jitter, c’est-`a-dire aux variations cycle-`a- cycle de la fr´equence phonatoire. Le jitter n’est pas per¸cu par les autres m´ethodes car un moyennage apparaˆıt sur la dur´ee du signal utilis´ee dans le calcul de chaque valeur de fr´equence phonatoire, dur´ee plus longue qu’un cycle vocal. La figure 3.21 (a) montre un signal de parole d’un locuteur normophonique et la fr´equence phonatoire obtenue pour la m´ethode de d´etection d’´ev´enements et la m´ethode d´evelopp´ee. On voit que les r´esultats ont une allure globale semblable, mais avec plus de petites variations ra- pides pour la m´ethode de d´etection d’´ev´enements.

– Fiabilit´ e : La m´ethode bas´ee sur la d´etection d’´ev´enements pr´esente des

probl`emes de fiabilit´e. Ils sont illustr´es `a la figure 3.21 (b) pour un signal

de parole d’un locuteur parkinsonien. La figure montre le signal de parole,

la fr´equence phonatoire estim´ee par la m´ethode bas´ee sur la d´etection

d’´ev`enements et la m´ethode `a deux TOCs. On voit que les r´esultats obte-

nus par la m´ethode bas´ee sur la d´etection d’´ev`enements sont plus perturb´es

que les r´esultats obtenus par la m´ethode `a deux TOCs.

(21)

Dans notre application, le manque de sensibilit´e au jitter vocal n’est pas un probl`eme car nous ne nous int´eressons qu’aux variations lentes de la fr´equence phonatoire. D’autre part, l’´echantillonnage `a pas constant est souhaitable et la fiabilit´e est un crit`ere important pour que les m´ethodes d’analyse d´evelopp´ees puissent ˆetre utilis´ees pour des locuteurs pathologiques. Nous pr´ef´erons donc ne pas utiliser de m´ethode bas´ee sur la d´etection d’´ev´enements.

0.4 0.42 0.44 0.46 0.48 0.5

temps (s)

Signal de parole

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

122 124 126 128

temps (s)

Fréquence phonatoire (Hz)

détection d’évènements méthode à 2 TOCs

(a) Locuteur normophonique

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

110 120 130 140 150

temps (s) F0 (Hz)

0.3 0.32 0.34 0.36 0.38 0.4 0.42

−0.1

−0.05 0 0.05 0.1 0.15

temps (s)

Signal de parole

détection d’évènements méthode à 2 TOCs

(b) Locuteur parkinsonien

Fig. 3.21 – Signal de parole et fr´equence phonatoire estim´ee par les m´ethodes bas´ees sur la d´etection d’´ev`enements ou sur deux TOCs, pour un locuteur t´emoin et un locuteur parkinsonien.

3.3.2 Analyse ` a court-terme ou fr´ equence instantan´ ee

Dans cette sous-section, nous comparons quatre m´ethodes d’estimation de la

fr´equence phonatoire bas´ees sur une analyse `a court-terme ou sur la fr´equence

(22)

instantan´ee :

1. la m´ethode CC du logiciel PRAAT [9], qui est bas´ee sur une analyse `a court-terme (sous-section 3.2.4),

2. la m´ethode bas´ee sur une transform´ee de Hilbert [99] (sous-section 3.2.5.1), 3. la m´ethode TEMPO [51], qui est bas´ee sur une transform´ee en ondelettes

et une analyse des points fixes (sous-section 3.2.5.2), 4. la m´ethode `a deux TOCs (sous-section 3.2.6).

Nous comparons d’abord ces quatre m´ethodes sur des signaux de parole synth´etiques, puis les deux meilleures m´ethodes sont compar´ees pour des signaux de parole r´eels.

3.3.2.1 Voyelles synth´ etiques

La fr´equence de modulation est estim´ee correctement par les quatre m´e- thodes, et nous ne nous int´eressons donc par la suite qu’`a l’estimation de l’amplitude de modulation. La figure 3.22 montre le rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation pour les quatre m´ethodes d’estimation de F

0

, pour des signaux synth´etiques de fr´equence phonatoire moyenne ¯ F

0

= 100Hz et 300Hz. On voit que l’ampli- tude de la modulation est sous-estim´ee pour toutes les m´ethodes, sauf pour la m´ethode bas´ee sur la transform´ee de Hilbert. Pour cette derni`ere, il y a une faible att´enuation d´ependant des caract´eristiques du filtre d’isolation de la com- posante fondamentale du signal. Pour les trois autre m´ethodes, l’att´enuation augmente avec la fr´equence de modulation et diminue lorsque la fr´equence pho- natoire moyenne augmente. L’explication de ce ph´enom`ene est la mˆeme que celle d´ecrite pr´ec´edemment pour la m´ethode `a deux TOCs : plus la dur´ee de cycle de la perturbation est courte par rapport `a la dur´ee effective des ondelettes ou de la fenˆetre d’analyse, plus la perturbation est moyenn´ee et plus elle est att´enu´ee.

0 2 4 6 8 10 12 14 16 18 20

0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1

fréquence de modulation (Hz) rapport d’amplitude de modulation estiméesurréférence

TEMPO, 100Hz PRAAT, 100Hz TOC, 100Hz PRAAT, 300Hz TEMPO, 300Hz

TOC, 300Hz Hilbert

TOC 100Hz TOC 300Hz PRAAT 100Hz PRAAT 300Hz TEMPO 100Hz TEMPO 300Hz Hilbert

Fig. 3.22 – Signaux de parole synth´etiques : Rapport d’amplitude de modu-

lation estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation, pour

F ¯

0

= 100Hz et 300Hz, pour diff´erences m´ethodes d’estimation de F

0

(m´ethode

CC de P RAAT : lignes pointill´ees, T EM P O : lignes entrecoup´ees, m´ethode

d´evelopp´ee : lignes pleines, m´ethode bas´ee sur la transform´ee de Hilbert : lignes

pointill´ees-entrecoup´ees).

(23)

Pour la m´ethode CC de PRAAT, la fr´equence phonatoire minimale est de 75Hz.

Si ce param`etre, qui fixe la longueur de la fenˆetre, a une valeur plus basse, les r´esultats se d´egradent fortement.

La figure 3.22 sugg`ere que la m´ethode d´evelopp´ee suit les variations de F

0

de fa¸con plus pr´ecise que les m´ethodes T EM P O et P RAAT , et est donc plus ap- propri´ee pour ´etudier les modulations de F

0

. Les amplitudes de modulation sont sous-estim´ees lorsque la fr´equence de modulation est ´elev´ee, mais l’att´enuation est faible dans l’intervalle de fr´equence que nous voulons ´etudier, c’est-`a-dire [3 − 15Hz]. Par exemple pour une fr´equence phonatoire moyenne ¯ F

0

= 100Hz, l’att´enuation d’amplitude d’une variation `a 15Hz est inf´erieure `a 7.5%.

3.3.2.2 Voyelles r´ eelles

L’analyse de la modulation de F

0

est destin´ee `a une application dans le do- maine clinique. Des voix pathologiques seront analys´ees et leurs caract´eristiques compar´ees `a celles de voix de locuteurs sains. Il faut donc que les m´ethodes d’analyse soient fiables pour des signaux perturb´es, comme ceux de locuteurs ˆag´es et dysphoniques. Nous avons pr´ef´er´e la m´ethode bas´ee sur les deux trans- form´ees en ondelettes pour les raisons expos´ees ci-dessous.

Les fr´equences phonatoires obtenues par la m´ethode bas´ee sur la transform´ee de Hilbert et la m´ethode d´evelopp´ee sont quasi identiques pour des signaux de parole r´eels, avec un suivi l´eg`erement meilleur des perturbations `a haute fr´equence pour la m´ethode bas´ee sur la transform´ee de Hilbert. Cependant, cette m´ethode pr´esente ´egalement les inconv´enients suivants :

Primo, cette m´ethode n´ecessite une estimation pr´ealable de la fr´equence phonatoire moyenne. Elle repose donc sur un autre algorithme d’estimation de F

0

qui doit pouvoir analyser correctement des signaux de parole dysphoniques.

Secundo, elle n´ecessite un filtrage passe-bas qui doit isoler correctement la composante fondamentale, tout en suivant les variations de la fr´equence phona- toire. Il y a un compromis entre la s´electivit´e du filtre, qui implique une longue r´eponse impulsionnelle, et sa capacit´e `a suivre des variations rapides de F

0

, ce pour quoi une r´eponse impulsionnelle courte est plus appropri´ee. A cause de ce compromis, il arrive que la fr´equence phonatoire estim´ee par la m´ethode bas´ee sur la transform´ee de Hilbert soit erron´ee. Ceci est illustr´e par un exemple sur les figures 3.23 et 3.24, pour une voyelle [a] soutenue par un locuteur de 64 ans pr´esentant de la diplophonie. Ces figures montrent la fr´equence phonatoire estim´ee par la m´ethode d´evelopp´ee et la m´ethode bas´ee sur la transform´ee de Hilbert. La diplophonie apparaˆıt fr´equemment chez des locuteurs ˆ ag´es et se caract´erise par une irr´egularit´e des dur´ees de cycle vocaux, plus pr´ecis´ement une alternance entre deux cycles de formes et de dur´ees diff´erentes. Dans cet exemple, de la diplophonie est pr´esente pendant les intervalles de temps 11 s

− 12.55 s et 12.7 s − 13.6 s. L’amplitude des oscillations dues `a la diplophonie

est faible parce que les fr´equences phonatoires estim´ees ont ´et´e liss´ees lors du

filtrage passe-bas final. Aux instants 12.3 s, 12.9 s et 13.2 s, la fr´equence pho-

natoire estim´ee par la m´ethode bas´ee sur la transform´ee de Hilbert pr´esente des

pics aberrants. Ceci peut ˆetre expliqu´e par la pr´esence de pics spectraux aux

multiples de F

0

/2 (Fig.3.23). Les pics spectraux aux fr´equences F

0

/2 et 3F

0

/2

auraient dˆ u ˆetre ´elimin´es par le filtrage isolant la composante fondamentale du

(24)

signal. Id´ealement le filtrage ne devrait pas alt´erer les bandes lat´erales du pic

`a la fr´equence de F

0

, qui contiennent l’information sur la modulation de F

0

. Il devient donc quasiment impossible de dimensionner un filtre qui permette `a la fois de supprimer les pics fr´equentiels ind´esirables et de ne pas modifier le pic `a la fr´equence fondamentale.

Par contre, dans la m´ethode `a deux TOCs, le filtrage est adapt´e instan- tan´ement en fonction de F

0

. La m´ethode peut donc g´erer ce genre de signaux et est pr´ef´er´ee pour l’analyse des modulations de F

0

.

11 11.5 12 12.5 13 13.5 14

100 120 140 160 180 200

temps (s)

F0 (Hz)

0 50 100 150 200 250 300 350 400 450 500

fréquence (Hz) Hilbert

TOC

Fig. 3.23 – Signal de parole d’un locuteur de 64 ans pr´esentant de la diplopho- nie : Fr´equences phonatoires estim´ees par la m´ethode bas´ee sur la transform´ee de Hilbert (trait entrecoup´e) et par la m´ethode d´evelopp´ee (trait plein) et spectre du signal.

13.12 13.14 13.16 13.18 13.2 13.22 13.24 13.26 13.28 13.3

−0.5 0 0.5

temps (s)

signal de parole

13.12 13.14 13.16 13.18 13.2 13.22 13.24 13.26 13.28 13.3 50

100 150 200

temps (s) F0 (Hz)

Hilbert TOC

Fig. 3.24 – Signal de parole d’un locuteur de 64 ans pr´esentant de la diplo-

phonie : Zoom sur le signal de parole et sur les fr´equences phonatoires estim´ees

par la m´ethode bas´ee sur la transform´ee de Hilbert (trait entrecoup´e) et par la

m´ethode d´evelopp´ee (trait plein).

(25)

3.4 Indices de modulation de F 0

Dans la premi`ere partie de ce chapitre, nous avons examin´e des m´ethodes permettant d’obtenir la trace de la fr´equence phonatoire. Dans cette section, nous pr´esentons les indices caract´erisant la modulation basse-fr´equence de la fr´equence phonatoire.

Nous avons propos´e d’´etudier la modulation basse-fr´equence de F

0

au moyen de plusieurs indices [16] :

1. l’amplitude de modulation, qui caract´erise la profondeur de la modula- tion dans l’intervalle fr´equentiel [f

min

, f

max

] par rapport `a la fr´equence phonatoire moyenne,

2. la fr´equence de modulation, qui caract´erise la r´epartition fr´equentielle de l’´energie de la modulation dans la bande de fr´equence [f

min

, f

max

].

Diff´erences fa¸cons de calculer la fr´equence de modulation ont ´et´e envi- sag´ees.

3. le rapport des ´energies de modulation aux basses fr´equences [f

min

, f

milieu

] et aux hautes fr´equences [f

milieu

, f

max

], qui caract´erise ´egalement la r´epar- tition fr´equentielle de l’´energie de la modulation.

Pour calculer les indices de modulation de la fr´equence phonatoire, la trace de la fr´equence phonatoire est pr´ealablement estim´ee. Les indices de modula- tion sont ensuite obtenus `a partir du spectre de puissance de la trace de la fr´equence phonatoire. Ce spectre de puissance des modulations de la fr´equence phonatoire est obtenu au moyen du carr´e du module d’une transform´ee en on- delettes continue, utilisant l’ondelette de Morlet complexe avec ω

c

σ

t

= 5. Ce choix du param`etre ω

c

σ

t

de l’ondelette-m`ere permet d’obtenir une bonne lo- calisation temporelle, sans avoir pour autant une dispersion fr´equentielle trop importante. L’int´erˆet de la transform´ee en ondelettes est qu’elle donne une dis- tribution lisse de l’´energie de modulation pour chaque instant. Les limites des bandes de fr´equences f

min

, f

milieu

et f

max

seront discut´ees dans le chapitre des r´esultats.

3.4.1 Soustraction de la tendance

Pr´ealablement au calcul des indices de modulation, nous soustrayons la ten- dance `a la fr´equence phonatoire estim´ee. La raison en est que lorsque le locuteur qui prononce une voyelle soutenue n’arrive pas `a maintenir sa fr´equence phona- toire constante, des variations localis´ees tr`es lentes de la fr´equence phonatoire peuvent apparaˆıtre, `a des fr´equences inf´erieures `a la bande de fr´equence qui nous int´eresse. L’effet de cette tendance sur le spectre de F

0

est de rajouter de l’´energie aux basses fr´equences. Cet effet est d’autant plus marqu´e que la dur´ee du ph´enom`ene est courte. Ces variations lentes sont mod´elis´ees par un polynˆ ome d’ordre faible, puis soustraites du signal. Nous avons impl´ement´e l’algorithme de Yair et Gath [101].

3.4.2 Amplitude de modulation

Dans la litt´erature, on caract´erise l’amplitude de modulation de F

0

par

l’´ecart maximum ou l’´ecart quadratique moyen de la fr´equence phonatoire par

Références

Documents relatifs

(3) ´ Enoncer la r` egle de d´ ecision permettant de rejeter ou non l’hypoth` ese p = 0, 40, selon la valeur de la fr´ equence f des malades sauv´ es dans l’´ echantillon. (4)

(1) D´ eterminer l’intervalle de fluctuation au seuil de 95% de la fr´ equence des Anglais ayant les bleus ou verts dans les ´ echantillons de taille 100. (2) On a observ´ e

Une enquˆete sanitaire a pour objectif d’estimer la proportion de personnes qui respectent le calendrier de vaccinations pr´econis´e par le Haut Conseil de la Sant´e Publique.2.

` A l’aide d’un intervalle de fluctuation au seuil de 95%, d´ eterminer si le lyc´ ee Alexandre Dumas est repr´ esentatif de la population fran¸ caise2. Les r´ esultats

L’int´ egration donne donc un r´ esultat proche de

7.29 Comparaison entre la fr´equence instantan´ee de la passerelle Simone de Beauvoir (rouge) et la fr´equence instantan´ee des pi´etons `a mi-trav´ee (bleu) pour une

[r]

Parmi les trois grandes gammes de dispositifs que nous allons bri` evement r´ epertorier ici, nous ne nous int´ eresserons qu’` a ceux fonctionnant aux fr´ equences les plus basses