Modulations li´ ees ` a la source vocale
3.1 Introduction
Dans ce chapitre, nous nous int´eressons `a l’analyse des modulations du signal de parole dues `a la source vocale. Pour mettre ces derni`eres en ´evidence, nous
´etudions les variations de la fr´equence phonatoire de voyelles soutenues. La fr´equence phonatoire est une variable pertinente pour obtenir des informations sur la source vocale car elle correspond `a la fr´equence du signal glottique et se retrouve comme fr´equence fondamentale du signal de parole. Cette derni`ere propri´et´e n’est pas v´erifi´ee pour la forme du signal de source qui est modifi´ee par les fr´equences de r´esonance ou d’anti-r´esonance du conduit vocal pour former le signal de parole. Retrouver la forme du signal de source `a partir du signal de parole est un probl`eme complexe. Pour le r´esoudre, des hypoth`eses doivent ˆetre faites sur la forme du signal de source et de la fonction de transfert du conduit vocal [23]. Ces hypoth`eses reposent sur des mod`eles de production vocale et ne sont pas toujours proches de la r´ealit´e, en particulier lorsqu’on consid`ere des locuteurs dysphoniques. La forme du signal de source obtenu n’est donc pas assez fiable pour l’application que nous envisageons.
Pour ´etudier les modulations basse-fr´equence de la fr´equence phonatoire F
0, il faut estimer l’´evolution de F
0avec une grande pr´ecision car les variations de F
0que nous souhaitons analyser sont de l’ordre de quelques Hertz. Une contrainte suppl´ementaire dans le choix de la m´ethode d’estimation de F
0est que nous souhaitons pouvoir analyser les signaux de locuteurs dysphoniques.
Dans ce chapitre, nous pr´esentons les principaux types de m´ethodes d’esti- mation de la fr´equence phonatoire, incluant une m´ethode d´evelopp´ee au cours de ce travail. A la section 3.3, nous comparons ensuite des m´ethodes de chaque cat´egorie, afin de trouver la m´ethode la plus adapt´ee pour notre application. Fi- nalement, la section 3.4 est consacr´ee `a la pr´esentation des indices acoustiques caract´erisant la modulation de la fr´equence phonatoire.
47
3.2 M´ ethodes d’estimation de F 0
3.2.1 Introduction
Pour analyser les modulations basse-fr´equence de la fr´equence phonatoire, l’estimation de celle-ci doit ˆetre pr´ecise pour pouvoir suivre de petites pertur- bations de l’ordre de quelques pourcents de F
0, et fiable pour ˆetre capable de traiter les signaux de locuteurs dysphoniques.
Il existe de nombreuses m´ethodes d’estimation de la fr´equence phonatoire [43, 68]. Ces m´ethodes peuvent ˆetre class´ees en diff´erentes cat´egories selon leur principe de base : certaines reposent sur la mesure de la dur´ee de chaque cycle vocal [50, 84], d’autres sur l’estimation de la p´eriode moyenne sur une fenˆetre d’analyse [9, 67], ou encore sur l’estimation de la fr´equence instantan´ee de la composante spectrale fondamentale du signal de parole [99].
Dans la premi`ere cat´egorie, les dur´ees des cycles vocaux sont obtenues par la distance entre des ´ev`enements caract´eristiques du cycle vocal, comme le pic principal ou l’instant de fermeture glottique [35, 50]. Chaque dur´ee de cycle vocal est alors assign´ee `a un instant. La s´erie temporelle des dur´ees de cycles doit ensuite ˆetre r´e´echantillonn´ee avec un pas constant afin de pouvoir ˆetre exploit´ee ult´erieurement.
Dans la deuxi`eme cat´egorie, la fr´equence phonatoire est obtenue au moyen d’analyses `a court terme bas´ees par exemple sur l’autocorr´elation [20, 67], le cepstre [72] ou le maximum de vraisemblance [89]. La dur´ee de la fenˆetre est g´en´eralement fixe et la fr´equence phonatoire est suppos´ee constante dans chaque fenˆetre.
Dans la troisi`eme cat´egorie, on estime la fr´equence phonatoire au moyen de la fr´equence instantan´ee de la composante fondamentale du signal de parole. La fr´equence instantan´ee est d´efinie comme la vitesse de variation de la phase. Ce type de m´ethodes est plus robuste par rapport `a la non- stationnarit´e du signal.
Les m´ethodes existantes diff`erent par la fa¸con dont la phase de la composante fondamentale est obtenue. La m´ethode la plus classique consiste `a filtrer le signal de parole autour de la fr´equence fondamentale et d’utiliser la phase du signal analytique associ´e au signal filtr´e passe-bas [99]. Ceci n´ecessite cependant une estimation pr´ealable de la fr´equence phonatoire et fait l’hypoth`ese que les variations autour de cette estimation sont faibles. C’est pourquoi plus d’un signal de phase est g´en´eralement calcul´e, et la fr´equence phonatoire est choisie pour chaque ´echantillon temporel sur base d’un crit`ere additionnel.
Voici quelques exemples de crit`eres : Qiu et al. [77] filtrent le signal passe-
bas avec deux fr´equences de coupure diff´erentes, calculent la fr´equence instan-
tan´ee de ces deux signaux filtr´es au moyen d’une transform´ee de Hilbert, et
d´eterminent si les fr´equences instantan´ees sont dans un intervalle de fr´equences
acceptables et si l’instant est vois´e. Lorsque les deux fr´equences instantan´ees sont
tr`es proches ou qu’une seule fr´equence instantan´ee est acceptable, la fr´equence
phonatoire est donn´ee par cette fr´equence instantan´ee. Lorsque les deux fr´equen-
ces instantan´ees diff`erent et qu’elles se situent toutes les deux dans l’intervalle
de fr´equences acceptables, la fr´equence phonatoire est donn´ee par la valeur la
plus basse. Nakatani et Irino [71] utilisent la transform´ee de Fourier `a court
terme et des composants harmoniques dominants. Kawahara et al. [51] uti- lisent une transform´ee en ondelettes continue avec une ondelette analytique. Ils d´etectent les points fixes dans le plan fr´equence centrale de l’ondelette analy- sante - fr´equence instantan´ee, pour lesquels la fr´equence centrale de l’ondelette analysante est ´egale `a la fr´equence instantan´ee. La fr´equence phonatoire est donn´ee par la fr´equence du point fixe pour lequel le rapport porteuse-`a-bruit est le plus grand.
Il existe ´egalement des m´ethodes hybrides, o` u des analyses `a tr`es court terme sont utilis´ees comme pr´etraitement, avant la recherche des ´ev´enements caract´eristiques de chaque cycle vocal [47, 74].
Pour pouvoir choisir une m´ethode pour l’analyse des modulations basse- fr´equence de F
0, nous avons ´etudi´e les performances de m´ethodes de chacune de ces cat´egories. Nous avons en outre d´evelopp´e une m´ethode d’estimation de la fr´equence phonatoire bas´ee sur la fr´equence instantan´ee obtenues par la combinaison de deux transform´ees en ondelettes continues du signal de parole.
Dans cette section, nous pr´esentons d’abord les signaux synth´etiques utilis´es pour tester et illustrer les performances des m´ethodes d’estimation de F
0. En- suite, nous pr´esentons les m´ethodes d’estimation de F
0dont nous avons appro- fondi l’´etude : une m´ethode bas´ee sur la d´etection d’´ev`enements (sous-section 3.2.3), une m´ethode bas´ee sur une analyse `a court-terme par autocorr´elation (sous-section 3.2.4), deux m´ethodes existantes bas´ees sur la fr´equence instan- tan´ee (sous-section 3.2.5), et la m´ethode d´evelopp´ee au cours de cette th`ese (sous-section 3.2.6).
3.2.2 Signaux synth´ etiques
Pour estimer la validit´e des m´ethodes d’estimation de F
0, il est utile de les tester sur des signaux synth´etiques, pour lesquels on connaˆıt le r´esultat qui devrait ˆetre obtenu. Les signaux synth´etiques utilis´es ici sont des voyelles soutenues [a] g´en´er´ees par un mod`ele source-filtre. Le signal de source est simul´e au moyen du mod`ele de Fant, et le conduit vocal est mod´elis´e par un filtre tous- pˆ oles.
Pour ´etudier la capacit´e des m´ethodes d’estimation de F
0`a suivre les va- riations de F
0, la fr´equence instantan´ee de la source synth´etique est modul´ee sinuso¨ıdalement au cours du temps. Elle est donn´ee par :
f
ref(t) = f
moy. [1 + A
M,ref. cos (2πF
M,reft)] , (3.1) o` u f
ref, f
moy, A
M,refet F
M,refsont respectivement la fr´equence instantan´ee de la source, la fr´equence de source moyenne, l’amplitude de modulation de r´ef´erence et la fr´equence de modulation de r´ef´erence.
Puisque nous nous int´eressons `a la sensibilit´e des m´ethodes aux variations
de F
0, tous les param`etres except´e la fr´equence instantan´ee de la source ont ´et´e
gard´es constants sur la dur´ee des signaux de test. Pour les r´esultats pr´esent´es
dans ce chapitre, les param`etres de la fonction de transfert du conduit vocal
sont les suivants : les quatre formants mod´elis´es ont comme fr´equences 700Hz,
1200Hz, 2500Hz et 3500Hz, et comme bandes passantes 140Hz, 180Hz, 55Hz
et 200Hz respectivement. La dur´ee de la phase ouverte est ´egale `a 40% de la
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05
signal de source
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 temps (s)
signal de parole
Fig. 3.1 – Signal synth´etique : signal de source et signal de parole.
dur´ee de cycle, la r´eciproque de la valeur du pic n´egatif est ´egale `a 0.1, et la dur´ee de fermeture est ´egale `a 20% de la dur´ee de la phase ouverte. La figure 3.1 illustre un signal de parole synth´etique et son signal de source.
3.2.3 M´ ethode bas´ ee sur la d´ etection d’´ ev` enements
De nombreux ´ev´enements peuvent ˆetre d´etect´es au cours d’un cycle vocal.
Les ´ev´enements d´etect´es peuvent ˆetre, par exemple, le maximum principal du cycle, le passage par z´ero (-/+) pr´ec´edent ce maximum ou le moment de fer- meture glottique (GCI : Glottal Closure Instant). Le moment de fermeture de la glotte se caract´erise g´en´eralement par un changement du spectre `a tr`es court terme, avec l’apparition de composantes de fr´equences ´elev´ees. Il peut ˆetre d´etect´e par exemple `a l’aide d’une transform´ee de Fourier `a court terme ou d’une transform´ee en ondelettes discr`ete [50] ou continue [63].
Pour pouvoir comparer ce type de m´ethodes avec d’autres m´ethodes, nous avons impl´ement´e un algorithme d´etectant le maximum principal d’amplitude de chaque cycle vocal. Cette m´ethode a pr´ec´edemment ´et´e impl´ement´ee dans le cadre de l’´etude du microtremblement vocal par Schoentgen [84]. Pour pouvoir comparer cette m´ethode avec les autres, la s´erie temporelle de dur´ees de cycle est transform´ee en une s´erie temporelle de fr´equences vocales ´equivalentes.
Algorithme
1. Calcul de la dur´ee caract´eristique de cycle du signal par la m´ethode de pr´ediction lin´eaire par autocorr´elation [23].
2. Sur´echantillonnage du signal afin d’augmenter la pr´ecision des r´esultats,
et filtrage passe-bas avec une fr´equence de coupure de 800Hz. Il a ´et´e
montr´e [91] que les signaux vocaux filtr´es sous 800Hz sont ad´equats pour
l’´etude du tremblement vocal et du jitter vocal.
3. Obtention de la s´erie de dur´ees de cycles `a partir des positions des maxima principaux de chaque cycle ou par la position des z´eros (-/+) pr´ec´edant ces maxima : Le premier pic principal est le maximum absolu sur la dur´ee totale du signal. Les maxima principaux suivants sont recherch´es de proche en proche, dans un intervalle de +/- 10% autour de l’´echantillon situ´e `a une distance d’une dur´ee de cycle caract´eristique du dernier pic principal d´etect´e. Le plus grand pic de cet intervalle est choisi comme pic principal suivant.
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
−0.2
0 0.2 signal de parole 0.4
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
−0.2
0 0.2 signal de parole filtré et pics principaux négatifs 0.4
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
120 125 130 135
temps (s) inverse des durées des cycles (Hz)
Fig. 3.2 – Estimation des dur´ees de cycles par d´etection du pic principal n´egatif de chaque cycle vocal.
La figure 3.2 illustre la m´ethode de d´etection d’´ev´enements pour un signal synth´etique : le premier graphique repr´esente le signal de parole, le deuxi`eme le signal de parole filtr´e et les pics principaux n´egatifs qui ont ´et´e d´etect´es, et le troisi`eme graphique repr´esente l’inverse des dur´ees de cycle extraites.
Le fait de d´etecter un instant caract´eristique du cycle vocal a des cons´equen- ces pour l’analyse ult´erieure. En effet, la s´erie de dur´ees de cycles est obtenue par la diff´erence entre les positions de deux ´ev´enements et a donc des abscisses temporelles qui ne sont pas parfaitement d´etermin´ees. Il y a un choix arbitraire pour la position qui est assign´ee `a chaque dur´ee de cycle : d´ebut, milieu ou fin de cycle.
De plus, dans le cadre de ce travail, nous d´esirons analyser les signaux de
locuteurs dysphoniques. Il faut donc que l’estimation de la fr´equence phona-
toire soit capable de traiter des signaux perturb´es. Il faut ´egalement prendre
en compte le fait que les variations entre les dur´ees de cycles peuvent ˆetre im-
portantes. La s´erie de dur´ees de cycles vocaux ´etant ´echantillonn´ee avec un
pas variable, il faut d’abord interpoler et r´e´echantillonner la s´erie de dur´ees de
cycles pour obtenir un pas d’´echantillonnage constant, avant de pouvoir calculer
et analyser le spectre de cette s´erie.
3.2.4 M´ ethode bas´ ee sur une analyse ` a court-terme
Il existe de nombreuses m´ethodes bas´ee sur des analyse par fenˆetres [43].
Dans cette section, nous pr´esentons bri`evement une m´ethode classique [9]. Cette m´ethode sera compar´ee aux autres types de m´ethodes par la suite. Cet algo- rithme est bas´e sur la corr´elation mutuelle entre la fenˆetre d’analyse et une fenˆetre d´ecal´ee vers l’avant du signal, le d´ecalage maximum ´etant ´egal `a la lon- gueur de la fenˆetre. On s’attend `a ce que la corr´elation mutuelle soit la plus forte lorsque la fenˆetre est d´ecal´ee d’un cycle vocal. La dur´ee de cycle est donc estim´ee par le d´ecalage pour lequel on obtient la corr´elation maximale. La lon- geur de la fenˆetre d’analyse est choisie ´egale `a la plus longue dur´ee de cycle que l’on d´esire d´etecter. La longueur de la fenˆetre d’analyse influence la sensibilit´e de l’estimation aux variations rapides des dur´ees de cycle car les caract´eristiques du signal sont moyenn´ees sur la dur´ee de la fenˆetre.
3.2.5 M´ ethodes bas´ ees sur la fr´ equence instantan´ ee
Nous pr´esentons ici deux m´ethodes bas´ees sur l’estimation de la fr´equence instantan´ee de la composante fondamentale du signal de parole. La premi`ere est la m´ethode classique bas´ee sur la transform´ee de Hilbert [99]. La deuxi`eme est la m´ethode d´evelopp´ee par Kawahara [51], bas´ee sur une transform´ee en ondelettes continue et la d´etection des points fixes du plan fr´equence centrale de l’ondelette - fr´equence instantan´ee.
3.2.5.1 M´ ethode bas´ ee sur la transform´ ee de Hilbert
Comme nous l’avons vu au chapitre 2, la transform´ee de Hilbert d’un si- gnal H[s(t)] permet de construire le signal analytique associ´e `a ce signal s(t).
La fr´equence instantan´ee ω(t) d’un signal peut ˆetre d´efinie `a partir du signal analytique associ´e s
a(t) = s(t) + jH [s(t)] comme ´etant la d´eriv´ee de la phase du signal analytique associ´e [7].
Φ(t) = arg[s(t) + jH [s(t)]] (3.2) ω(t) = dΦ(t)
dt (3.3)
Lorsque le signal est `a bande ´etroite, il n’y a qu’une seule composante
spectrale et la fr´equence instantan´ee peut ˆetre interpr´et´ee [7]. Comme les si-
gnaux vocaux vois´es que nous analysons pr´esentent des harmoniques, il faut
pr´ealablement filtrer le signal autour de la fr´equence fondamentale du locuteur,
avant de pouvoir extraire la fr´equence instantan´ee du signal analytique associ´e,
fr´equence qui correspond alors `a la fr´equence phonatoire du signal vocal. Les
fr´equences de coupure du filtre doivent ˆetre choisies avec pr´ecaution, de fa¸con `a
ne pas supprimer d’information sur les variations de la fr´equence phonatoire.
Algorithme
1. Estimer la fr´equence phonatoire moyenne F
0,estpar autocorr´elation sur tout le signal.
2. Filtrer le signal autour de la fr´equence phonatoire F
0,est, entre 0.5F
0,estet 1.5F
0,est, au moyen d’un filtre `a r´eponse impulsionnelle finie de dur´ee 50 ms.
3. Calculer la transform´ee de Hilbert du signal filtr´e pour obtenir le signal analytique associ´e.
4. Extraire la phase du signal analytique et calculer sa d´eriv´ee par rapport au temps.
5. Filtrer la d´eriv´ee de la phase de signal analytique sous 20Hz pour sup- primer des oscillations r´esiduelles, au moyen d’un filtre de Butterworth d’ordre 4, de fr´equence de coupure 25Hz.
6. Enlever 0.1s au d´ebut et `a la fin du signal pour ´eliminer les transitoires.
0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2
−0.5 0 0.5
speech signal
Synthetic speech signal
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2
−0.1 0 0.1
filtered speech signal
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2
119 120 121 122
time (s) instantaneous frequency (Hz)
Fig. 3.3 – Estimation de F
0bas´ee sur la transform´ee de Hilbert : signal de parole synth´etique, signal de parole filtr´e et F
0estim´ee.
L’algorithme est illustr´e `a la figure 3.3 pour un signal de parole synth´etique
pr´esentant des modulations lentes de la fr´equence phonatoire. Le premier gra-
phique montre le signal de parole synth´etique, le deuxi`eme le signal de parole
filtr´e et le troisi`eme graphique montre la fr´equence phonatoire obtenue.
3.2.5.2 M´ ethode de Kawahara et al.
Kawahara a d´evelopp´ee une m´ethode bas´ee sur les points fixes dans le plan fr´equence analysante - fr´equence instantan´ee de transform´ees temps-fr´equence [51]. La m´ethode est compos´ee de deux parties. En premier lieu, une trans- form´ee en ondelettes continue est utilis´ee pour extraire les points fixes du plan fr´equences centrales des ondelettes - fr´equence instantan´ee des signaux de sor- tie de la transform´ee. Ces points fixes donnent la fr´equence des composantes pseudo-sinuso¨ıdales du signal analys´e. Les ondelettes utilis´ees w
s(t, λ) sont ob- tenus par la convolution d’une ondelette de Gabor w(t, λ) avec une fonction de base B-spline cardinale du second ordre h(t, λ) dimensionn´ee en fonction de la fr´equence centrale λ de l’ondelette de Gabor correspondante. La convolution avec la fonction B-spline supprime s´electivement les interf´erences de compo- santes pseudo-harmoniques voisines lorsque la fr´equence centrale de l’ondelette est ´egale `a F
0.
w
s(t, λ) = w(t, λ) $ h(t, λ), (3.4) w(t, λ) = e
−λ2t2 4πη2
e
jλt, (3.5)
h(t, λ) = max
! 0, 1 −
"
"
"
"
λt 2πη
"
"
"
"
#
, (3.6)
o` u $ repr´esente la convolution, et η le facteur d’´echelle. Les points fixes sont
´evalu´es en termes de rapports porteuse-`a-bruit estim´es, et F
0est obtenue en s´electionnant le point fixe qui pr´esente le plus grand rapport porteuse-`a-bruit.
La deuxi`eme partie de la m´ethode permet d’affiner l’estimation de F
0. Une transform´ee de Fourier `a court terme adaptative en fonction de F
0est calcul´ee.
L’analyse des points fixes de cette transform´ee de Fourier `a court terme adap-
tative permet d’obtenir les points fixes correspondant aux composantes harmo-
niques. Les fr´equences instantan´ees des points fixes sont int´egr´ees en utilisant
l’information porteuse-`a-bruit pour donner l’estimation de F
0.
3.2.6 M´ ethode d´ evelopp´ ee
Nous avons d´evelopp´e une m´ethode d’estimation de F
0bas´ee sur une trans- form´ee en ondelettes continue TOC utilisant une ondelette complexe [15]. Des tests sur signaux synth´etiques montrent que cette m´ethode d’estimation de F
0permet de donner un r´esultat fiable pour des signaux r´ealistes et de d´eduire correctement la fr´equence de modulation mais a tendance `a sous-estimer l’am- plitude de la modulation. La m´ethode a ´et´e am´elior´ee par l’introduction d’une deuxi`eme TOC [13]. La m´ethode `a deux TOCs est compos´ee de deux ´etapes.
D’abord une TOC du signal de parole est calcul´ee et une premi`ere estimation de F
0est obtenue par la fr´equence centrale de l’ondelette pour laquelle le module de la TOC est maximal. Ensuite une nouvelle TOC est calcul´ee, avec une ondelette- m`ere plus courte. L’estimation de F
0est donn´ee par la fr´equence instantan´ee correspondant `a l’ondelette dont la fr´equence centrale est ´egale `a l’estimation de F
0calcul´ee dans la premi`ere ´etape. La combinaison de deux TOCs permet d’obtenir fiabilit´e pour des signaux de locuteurs dysphoniques et sensibilit´e aux perturbations de F
0.
Dans cette sous-section, nous pr´esentons d’abord la m´ethode `a une TOC, le choix de l’ondelette-m`ere et les performances de cette m´ethode pour des signaux synth´etiques. Ensuite nous pr´esentons la m´ethode `a deux TOCs et ses performances.
3.2.6.1 Estimation de F
0sur base d’une TOC
Le module et la phase des coefficients de la TOC obtenus avec une ondelette complexe sont des estimations de l’enveloppe et de la phase instantan´ee de la composante spectrale du signal dans la bande de fr´equence centr´ee autour de la fr´equence centrale f
cde l’ondelette [62]. La d´eriv´ee temporelle de la phase des coefficients de la TOC est donc une estimation de la fr´equence instantan´ee du signal dans cette bande de fr´equence.
La possibilit´e d’estimer la fr´equence phonatoire au moyen d’une TOC est bas´ee sur l’observation suivante : Dans le voisinage des fr´equences centrales des ondelettes qui correspondent le mieux `a la cyclicit´e du signal, le module des coefficients de la TOC pr´esente un maximum, et, dans le plan (f
c− F I ), la fr´equence instantan´ee (FI) obtenue `a partir de la phase des coefficients de la TOC pr´esente un plateau au voisinage de la valeur r´eelle de F
0sur une large bande de fr´equence [11].
La figure 3.4 montre l’´evolution du module de la TOC pour une ondelette de Morlet avec le param`etre ω
cσ
t= 5, pour un signal synth´etique de fr´equence phonatoire 75Hz. Une crˆete d’amplitude importante est bien pr´esente autour de la fr´equence centrale d’ondelette de 75Hz. La figure 3.5 montre le module et la fr´equence instantan´ee de la TOC, en fonction de la fr´equence centrale d’ondelette, pour un instant t, pour le mˆeme signal synth´etique. La fr´equence instantan´ee forme un plateau dont la valeur est ´egale la fr´equence phonatoire du signal synth´etique, pour les fr´equence centrales d’ondelettes o` u le module est
´elev´ee.
La fr´equence instantan´ee du plateau peut ˆetre obtenue avec pr´ecision, mˆeme
si la TOC a ´et´e calcul´ee avec un grand pas fr´equentiel. Ceci est illustr´e `a la
temps (s)
fréquence centrale (Hz)
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
50 100 150 200
Fig. 3.4 – Module de la TOC avec le param`etre ω
cσ
t= 5, pour un signal de parole synth´etique (les modules ´elev´ees sont repr´esent´ees en noir, les modules faibles en blanc).
40 60 80 100 120 140 160 180 200
0 0.5 1 1.5 2 2.5
fréquence analysante (Hz)
Module de la TOC
40 60 80 100 120 140 160 180 200
0 50 100 150 200
fréquence analysante (Hz)
FI (Hz)
Fig. 3.5 – Module (figure sup´erieure) de la TOC et F I (figure inf´erieure) avec le param`etre ω
cσ
t= 5. La ligne en pointill´e marque F I = 75Hz.
figure 3.6 pour un signal synth´etique de fr´equence variable sinuso¨ıdalement autour de 200Hz. On voit la fr´equence phonatoire de r´ef´erence, la fr´equence centrale correspondant au maximum du module de la TOC et la fr´equence ins- tantan´ee correspondant au maximum du module de la TOC. Le pas de calcul de la fr´equence centrale de la TOC est de 5Hz et est clairement visible dans le trac´e de la fr´equence centrale des maxima, mais il n’est pas d´etectable lorsqu’on regarde le trac´e de la fr´equence instantan´ee.
La m´ethode d’estimation de F
0sur base d’une TOC unique consiste donc `a
estimer F
0au moyen de la fr´equence instantan´ee de la TOC dont le module est
maximal dans l’intervalle [50Hz − 500Hz].
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 180
190 200 210 220
temps (s)
fréquence phonatoire (Hz)
référence FI maximum
Fig. 3.6 – Comparaison de la r´esolution fr´equentielle des estimations de F
0bas´ees sur la fr´equence instantan´ee FI et sur le module maximal de la TOC, ainsi que la courbe de r´ef´erence de F
0.
3.2.6.2 Choix de l’ondelette-m` ere
Pour l’impl´ementation de la m´ethode bas´ee sur le principe ci-dessus, nous avons test´e deux types d’ondelettes complexes : l’ondelette de Morlet complexe, et l’ondelette gaussienne complexe. Ces deux familles d’ondelettes pr´esentent des enveloppes proches de la forme gaussienne et permettent donc de minimiser le produit des dispersions temporelles et fr´equentielles [2], et par cons´equent d’optimiser la pr´ecision des r´esultats.
L’ondelette de Morlet complexe (Fig. 3.7) a pour ´equation : ψ
ωc(t) = C e
−iωct$ e
−t2 2σ2
t
− √ 2e
−ω2 c σ
2 t 4
e
−t2 σ2 t
%
(3.7)
real part imaginary part
Fig. 3.7 – Ondelette de Morlet complexe pour ω
cσ
t= 5.
L’´echelle de l’ondelette est fix´ee par sa fr´equence centrale f
c=
ω2πc, qui est la fr´equence d’oscillation de l’ondelette. Le param`etre σ
tfixe la d´ecroissance de l’enveloppe de l’ondelette. Pour une famille d’ondelettes, la forme est conserv´ee, le produit ω
cσ
treste donc constant. Le facteur de normalisation C est choisi de sorte que &
+∞−∞
| ψ
ωc(t) |
2dt = 1. La dur´ee effective de l’ondelette est d´efinie ici de fa¸con conventionnelle par 2σ
t.
Les diff´erentes formes de l’ondelette gaussienne complexe sont obtenues par d´erivation multiple de l’ondelette gaussienne de base :
ψ
p(t) = (C
p.e
−i.t.e
−t2)
(p), (3.8)
o` u p est un param`etre fixant le nombre de d´erivations de la gaussienne et C
pest d´efini de sorte `a ce que &
∞−∞
| ψ
p(t) |
2dt = 1. Nous avons test´e les ondelettes avec p = 4 et p = 8, repr´esent´ees `a la figure 3.8.
partie réelle partie imaginaire G4
Partie réelle Partie imaginaire G8
Fig. 3.8 – Ondelettes gaussiennes complexes pour p = 4 et p = 8.
Nous avons pr´ef´er´e utiliser l’ondelette de Morlet complexe car :
1. les r´esultats obtenus avec les deux ondelettes sont fort proches : Les r´esultats obtenus par tests sur des signaux synth´etiques montrent un com- portement semblable en fonction de la fr´equence de tremblement et de la fr´equence phonatoire moyenne. Les variations d´ependent des param`etres de chaque ondelette et on peut obtenir des r´esultats similaires en choisis- sant les param`etres de fa¸con ad´equate. Cependant, l’ondelette de Morlet complexe a l’avantage de ne pas comporter de d´erivation, le param`etre ω
cσ
tcaract´erisant l’ondelette-m`ere peut donc prendre des valeurs non enti`eres.
2. le pas fr´equentiel de calcul de la CWT peut ˆetre plus large pour l’ondelette de Morlet que pour l’ondelette gaussienne pour obtenir la mˆeme pr´ecision fr´equentielle.
3. la fr´equence centrale de l’ondelette a une interpr´etation directe et fait partie des param`etres pour l’ondelette de Morlet, mais pas pour l’ondelette gaussienne.
3.2.6.3 Evaluation de la m´ ethode d’estimation de F
0bas´ ee sur une TOC
La m´ethode d’estimation de F
0bas´ee sur une TOC a ´et´e test´ee sur deux types de signaux : des signaux sinuso¨ıdaux dont la fr´equence est modul´ee, et des signaux de parole synth´etiques comme ceux qui ont ´et´e pr´esent´es `a la sous- section 3.2.2, avec une modulation de la fr´equence de source.
Les signaux pseudo-sinuso¨ıdaux sont donn´es par : s(t) = cos
$
2πf
moyt + f
moy.A
M,refF
M,ref. sin (2πF
M,reft)
%
, (3.9)
o` u s(t), f
moy, A
M,refet F
M,refsont respectivement le signal synth´etique, la fr´equence moyenne de signal, l’amplitude du modulation et la fr´equence du modulation.
Pour les signaux pseudo-sinuso¨ıdaux et les signaux de parole synth´etiques, la fr´equence de r´ef´erence est donn´ee par :
f
ref(t) = f
moy. [1 + A
M,ref. cos (2πF
M,reft)] , (3.10)
o` u f
ref, f
moy, A
M,refet F
M,refsont respectivement la fr´equence de r´ef´erence, la fr´equence moyenne du signal, l’amplitude de modulation et la fr´equence de modulation.
La capacit´e de la m´ethode `a restituer correctement l’amplitude de la modula- tion est ´evalu´ee au moyen du rapport entre l’amplitude de modulation estim´ee - qui est donn´ee par la demi-amplitude pic-`a-pic de la fr´equence phonatoire estim´ee - et l’amplitude de modulation de r´ef´erence. Id´ealement, ce rapport amplitude estim´ee-sur-r´ef´erence est ´egal `a un.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
99.9 99.95 100 100.05 100.1
temps(s)
Hz
freq. obtenue freq. référence
Fig. 3.9 – Signal synth´etique pseudo-sinuso¨ıdal : Fr´equence estim´ee avec ω
cσ
t= 5 et fr´equence de r´ef´erence, pour f
moy= 100Hz, A
M,ref= 0.1% et F
M,ref= 10Hz.
La figure 3.9 montre la fr´equence estim´ee avec le param`etre ω
cσ
t= 5 et la fr´equence de r´ef´erence pour un signal pseudo-sinuso¨ıdal modul´e de fr´equence moyenne 100Hz, d’amplitude de modulation .1% et de fr´equence de modulation 10Hz. On observe que la fr´equence de modulation du signal estim´e correspond `a la fr´equence de modulation de r´ef´erence, mais que l’amplitude de la modulation est att´enu´ee. Etant donn´e que la fr´equence de modulation est chaque fois bien estim´ee, nous nous int´eressons exclusivement `a l’att´enuation de l’amplitude de modulation dans les tests suivants.
Att´ enuation de l’amplitude de modulation estim´ ee Les effets des pa- ram`etres de modulation du signal synth´etique sur l’att´enuation de l’amplitude de modulation estim´ee sont illustr´es dans les figures 3.10, 3.11 et 3.12, qui montrent le rapport amplitude de modulation estim´ee-sur-r´ef´erence en fonc- tion de la fr´equence phonatoire moyenne, de l’amplitude de modulation et de la fr´equence de modulation, respectivement. On voit que la fr´equence de modula- tion et la fr´equence phonatoire moyenne ont un effet sur l’att´enuation, tandis que la valeur de l’amplitude de modulation de r´ef´erence n’influe pas sur le r´esultat.
L’amplitude de modulation estim´ee est d’autant plus att´enu´ee que la fr´equence phonatoire moyenne est basse et que la fr´equence de modulation est ´elev´ee.
L’explication de la sous-estimation de l’amplitude de modulation est que lorsque la r´esolution temporelle de l’ondelette n’est pas assez fine, la F I est liss´ee sur la dur´ee effective de l’ondelette. La d´etection est d’autant plus difficile que F
0est faible et que la variation est rapide. Par exemple, en utilisant une famille d’ondelette avec ω
cσ
t= 5, lorsque la fr´equence phonatoire moyenne est de 100Hz, la dur´ee effective de l’ondelette 2σ
test ´egale `a 2.
ω5c
= 2.
2∗π5∗100= 16ms.
De petites variations de F
0avec une fr´equence sup´erieure `a 10Hz sont donc
moyenn´ees sur la dur´ee de l’ondelette et sont att´enu´ees `a la sortie.
50 100 150 200 250 300 0.88
0.9 0.92 0.94 0.96 0.98 1
Fréquence phonatoire moyenne (Hz)
Rapport d’amplitudes estimée−sur−référence
Fig. 3.10 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de la fr´equence phonatoire moyenne f
moy, pour F
M,ref= 5Hz et A
M,ref= 1%, pour ω
cσ
t= 5.
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0.5 0.6 0.7 0.8 0.9 1
rapport d’amplitudes estimée−sur−référence
amplitude de modulation (%) FM = 20Hz
FM = 10Hz FM = 5Hz FM = 1Hz
Fig. 3.11 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de l’amplitude de modulation A
M,ref, pour diff´erentes valeurs de la fr´equence de modulation F
M,ref, pour f
moy= 100Hz, pour ω
cσ
t= 5.
0 2 4 6 8 10 12 14 16 18 20
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Fréquence de modulation (Hz)
Rapport d’amplitudes estimée−sur−référence
fmoy = 50Hz fmoy = 100Hz fmoy = 200Hz fmoy = 300Hz
Fig. 3.12 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation
estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation pour diff´erentes
valeurs de f
moy, pour A
M,ref= 1%, pour ω
cσ
t= 5.
La figure 3.12 montre l’att´enuation de l’amplitude mesur´ee pour un signal de fr´equence phonatoire moyenne de 100Hz. L’att´enuation de l’amplitude mesur´ee est de 15% pour une modulation `a 10Hz, et elle atteint presque 30% pour une modulation `a 15Hz. Cette att´enuation est trop importante pour l’application que nous envisageons. Etant donn´e que l’att´enuation de l’amplitude de la modu- lation de F
0est une cons´equence de la dur´ee effective de l’ondelette analysante, on s’attend `a ce qu’une ondelette-m`ere de dur´ee effective plus courte (et donc avec un param`etre ω
cσ
tplus faible) donne de meilleurs r´esultats pour le suivi des modulations de F
0.
Effet du param` etre ω
cσ
tde l’ondelette-m` ere La figure 3.13 illustre l’effet du param`etre ω
cσ
tde l’ondelette-m`ere pour des signaux synth´etiques pseudo- sinuso¨ıdaux. Elle montre le rapport d’amplitude de modulation estim´ee-sur- r´ef´erence en fonction de la fr´equence de modulation pour une fr´equence moyenne de 100Hz, avec ω
cσ
t= 5 et ω
cσ
t= 2.5. Plus le param`etre ω
cσ
test faible, moins la modulation est att´enu´ee. On pourrait donc penser qu’il suffit de choisir une ondelette avec un param`etre suffisamment petit pour ´etudier les modulations de F
0. Cependant, des signaux synth´etiques pseudo-sinuso¨ıdaux ont ´et´e utilis´es car la m´ethode d’estimation de F
0bas´ee sur une TOC avec ω
cσ
t= 2.5 ne parvient pas `a d´etecter correctement la fr´equence phonatoire sur des signaux de parole synth´etiques. Cette incapacit´e est due `a la largeur de bande trop grande des ondelettes avec ω
cσ
t= 2.5, qui fait que la transform´ee en ondelettes ne parvient pas `a isoler la composante fondamentale du signal de parole.
0 2 4 6 8 10 12 14 16 18 20
0.6 0.7 0.8 0.9 1
rapport d’amplitudes estimée−sur−référence
fréquence de modulation (Hz) ω0 σ
t = 2.5 ω0 σ
t = 5
Fig. 3.13 – Signaux synth´etiques pseudo-sinuso¨ıdaux : Rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation pour f
moy= 100 Hz et A
M,ref= 1%, pour ω
cσ
t= 5 et ω
cσ
t= 2.5.
La figure 3.14 montre le module de la transform´ee en ondelettes avec ω
cσ
t= 2.5 en fonction du temps, pour un signal de parole synth´etique de fr´equence phonatoire moyenne de 75Hz. La figure 3.15 montre une coupe du module de la transform´ee en ondelettes et de la fr´equence instantan´ee en fonction de la fr´equence analysante de l’ondelette, pour deux positions dans un cycle, pour le mˆeme signal synth´etique.
Le plateau o` u la fr´equence instantan´ee est ´egale `a la fr´equence phonatoire
est pr´esent pour les fr´equences centrales o` u le module de la TOC est ´elev´e, bien
qu’il soit d´ecal´e par rapport au plateau obtenu avec ω
cσ
t= 5. Ce plateau peut
toujours ˆetre utilis´e pour estimer F
0, mˆeme s’il est plus court pour des signaux
r´eels. Cependant, il est plus difficile de localiser le pic du module correspondant
fréquence centrale (Hz)
temps (s)
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
50 100 150 200
Fig. 3.14 – Module de la TOC avec le param`etre ω
cσ
t= 2.5, pour un signal de parole synth´etique (les modules ´elev´ees sont repr´esent´ees en noir, les modules faibles en blanc).
40 60 80 100 120 140 160 180 200
0 0.5 1 1.5 2
fréquence analysante (Hz)
Module de la TOC
40 60 80 100 120 140 160 180 200
0 50 100 150 200
fréquence analysante (Hz)
FI (Hz)
Fig. 3.15 – Module (figure sup´erieure) et F I (figure inf´erieure) de la TOC avec le param`etre ω
cσ
t= 2.5. La ligne en pointill´e marque F I = 75Hz.
au plateau. En effet, `a cause de sa largeur spectrale plus importante et de sa
dur´ee effective plus courte, la transform´ee en ondelettes est plus sensible `a la
deuxi`eme harmonique et aux instationarit´es intra-cycle telles que les instants
de fermeture glottique. Par cons´equent, pour certaines positions dans le cycle
vocal, le pic du module correspondant au plateau peut disparaˆıtre, comme c’est
le cas pour la ligne pointill´ee de la figure 3.15. Dans ce cas, F
0ne peut plus
ˆetre estim´ee par l’interm´ediaire du maximum du module de la TOC. La valeur
du param`etre ω
cσ
tne peut donc pas ˆetre trop faible, si on veut traiter des
signaux de parole r´eels, a fortiori des signaux de parole de locuteurs ˆ ag´es et
dysphoniques.
3.2.6.4 M´ ethode ` a deux TOCs
Les tests sur signaux synth´etiques de la m´ethode d’estimation de la F
0bas´ee sur une TOC ont montr´e qu’une famille d’ondelettes avec une dur´ee effective longue permet d’obtenir une estimation de F
0fiable pour des signaux r´ealistes, tandis qu’une famille d’ondelettes avec une dur´ee effective courte pr´esente la sensibilit´e souhait´ee aux variations de F
0.
Pour obtenir une m´ethode pr´esentant ces deux caract´eristiques, nous avons combin´e deux transform´ees en ondelettes : une premi`ere avec une r´esolution fr´equentielle ´elev´ee (et une dur´ee effective longue) pour identifier le maximum du module de la TOC, et une seconde avec une r´esolution temporelle ´elev´ee pour estimer la fr´equence instantan´ee. La proc´edure est la suivante (Fig. 3.16) : 1. TOC du signal de parole avec ω
cσ
t= 5, et sauvegarde pour chaque
´echantillon temporel de la fr´equence centrale ˆ f
cde l’ondelette correspon- dant au module maximal de la TOC.
2. TOC du signal de parole avec ω
cσ
t= 2.5, et calcul de la fr´equence ins- tantan´ee de la TOC, F I
2.5, par la d´eriv´ee temporelle de la phase de la TOC.
3. Estimation de la valeur instantan´ee de F
0au moyen de la F I
2.5de l’onde- lette dont la fr´equence centrale ˆ f
cest ´egale `a celle retenue dans la premi`ere
´etape.
4. Filtrage de F
0pour ´eliminer les oscillations r´esiduelles dues `a des insta- tionarit´es intra-cycle, au moyen d’un filtre de Butterworth d’ordre 4, de fr´equence de coupure 25Hz.
Signal parole de
#
$
ωT OCcσt=5
| T OC (t, f
c) | →
maxfcf ˆ
c(t)
↓
ωcT OCσt=2.5
F I
2,5(t, f
c)
→ f
c= ˆ f
c(t) F I (t)
→ Filtre passe-bas → F
0(t) Fig. 3.16 – Sch´ema-bloc de l’estimation de F
0.
3.2.6.5 Illustration sur un signal de parole synth´ etique
La figure 3.17 montre un signal de parole synth´etique pr´esentant des modu- lations de la fr´equence phonatoire, ainsi que le module de la TOC avec ω
cσ
t= 5, et la fr´equence instantan´ee obtenue `a partir de la TOC avec ω
cσ
t= 2.5.
Le module de la transform´ee en ondelettes pr´esente des maxima locaux pour diff´erentes fr´equences. Le maximum local dont la fr´equence est la plus basse correspond `a la fr´equence phonatoire. La deuxi`eme harmonique est visible
´egalement et correspond au deuxi`eme maximum local, tandis que les harmo- niques sup´erieures ne sont g´en´eralement plus visibles. On peut noter que pour chaque cycle vocal, un pattern se r´ep`ete dans les coefficients de la transform´ee en ondelettes.
Dans le plan des fr´equences instantan´ees, on peut voir le plateau stable
dans la bande de fr´equence entre 100Hz et 150Hz, dont la couleur correspond
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
−1
−0.5 0 0.5 1
signal de parole
0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100
200
300 module de la TOC avec ωcσt = 5
fréquence centrale (Hz)
0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100
200
300 dérivée temporelle de la phase de la TOC avec ωcσt=2.5
temps (s)
fréquence centrale (Hz)
0.5 1 1.5
50 100 150 200 250 300
Fig. 3.17 – Signal synth´etique avec modulations vocales : signal de parole, module et fr´equence instantan´ee de la transform´ee en ondelettes
50 100 150 200 250 300
0 100 200 300
Signal de parole synthétique
fréquence centrale (Hz)
fréquence instantanée (Hz)
Fig. 3.18 – Signal synth´etique avec modulations vocales : fr´equence instantan´ee en fonction de la fr´equence centrale des ondelettes.
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
120 120.5 121 121.5 122
temps (en s)
Hz
Fréquence phonatoire
Fig. 3.19 – Signal synth´etique avec modulations vocales : fr´equence phonatoire
estim´ee par la m´ethode `a deux TOC.
`a la fr´equence phonatoire. On peut voir ce plateau ´egalement sur la figure 3.18 qui montre la superposition, pour tous les instants, des courbes de fr´equences instantan´ees en fonction de la fr´equence centrale des ondelettes, c’est-`a-dire le graphique des fr´equences instantan´ees dont on a enlev´e la variable tempo- relle. Le premier plateau correspond `a la fr´equence fondamentale, le deuxi`eme
`a la deuxi`eme harmonique. Ce dernier est d´ej`a moins net que le plateau de la fr´equence fondamentale.
La fr´equence phonatoire estim´ee pour le signal synth´etique pr´ec´edent est repr´esent´ee sur la figure 3.19.
3.2.6.6 Evaluation de la m´ ethode ` a deux TOCs
La m´ethode `a deux TOCs pr´esente des caract´eristiques similaires `a celle de la m´ethode `a une TOC : la fr´equence de modulation est suivie correctement et l’amplitude de modulation est att´enu´ee. Cependant, l’amplitude de modu- lation est nettement moins att´enu´ee grˆ ace `a l’utilisation de la deuxi`eme TOC avec un support temporel plus court. Nous pr´esentons ici les r´esultats concer- nant l’att´enuation de l’amplitude de modulation pour des signaux de parole synth´etiques.
La fr´equence de la source est donn´ee par :
f
ref(t) = f
moy. [1 + A
M,ref. cos (2πF
M,reft)] , (3.11) o` u s(t), f
ref, f
moy, A
M,refet F
M,refsont respectivement le signal synth´etique, la fr´equence de r´ef´erence, la fr´equence moyenne du signal, l’amplitude de mo- dulation et la fr´equence de modulation.
0 2 4 6 8 10 12 14 16 18 20
0.85 0.9 0.95 1
fréquence de modulation (Hz) Rapport d’amplitude de modulation estimée−sur−référence
50Hz 100Hz 200Hz 300Hz
Fig. 3.20 – M´ethode `a deux TOCs : rapport amplitude de modulation estim´ee- sur-r´ef´erence en fonction de la fr´equence de modulation, pour des signaux de parole synth´etiques avec diff´erentes valeurs de f
moy(50Hz `a 300Hz).
La figure 3.20 montre le rapport de l’amplitude de modulation estim´ee-sur-
r´ef´erence en fonction de la fr´equence de modulation pour diff´erentes valeurs de
f
moy, pour la m´ethode `a deux TOC. On voit que le rapport amplitude de mo-
dulation estim´ee-sur-r´ef´erence diminue avec l’augmentation de la fr´equence de
modulation et avec la diminution de la fr´equence phonatoire moyenne. Ces ca-
ract´eristiques sont les mˆemes que celles obtenues pour des signaux synth´etiques
pseudo-sinuso¨ıdaux pour la m´ethode `a une TOC avec ω
cσ
t= 2.5. L’avantage de la m´ethode `a deux TOCs est qu’elle est capable de traiter aussi des signaux de parole r´eels.
3.3 Comparaison des m´ ethodes d’estimation de F 0
Dans cette section, les m´ethodes d’estimation de F
0pr´esent´ees ci-dessus sont compar´ees, afin de d´eterminer laquelle est la plus adapt´ee pour l’analyse des modulations basse-fr´equence de F
0. ´ Etant donn´e que la m´ethode bas´ee sur la d´etection d’´ev`enements diff`ere fortement des autres, nous la traitons s´epar´ement.
La comparaison des m´ethodes est donc compos´ee de deux parties. Une premi`ere consiste `a comparer la m´ethode `a deux TOCs avec la m´ethode bas´ee sur la d´etection d’´ev`enements. Ensuite nous comparons les m´ethodes bas´ees sur une analyse `a court terme et sur la fr´equence instantan´ee.
3.3.1 TOC ou d´ etection d’´ ev` enements
Dans cette sous-section, nous comparons la m´ethode d’estimation de F
0`a deux TOCs avec la m´ethode bas´ee sur la d´etection d’´ev`enements pr´esent´ee `a la section 3.2.3.
Ces deux types d’algorithmes diff`erent principalement sur trois points : le pas d’´echantillonnage constant ou variable des r´esultats, la sensibilit´e aux variations cycle-`a-cycle et la fiabilit´e des r´esultats obtenus.
– Echantillonnage des r´ esultats : Pour la m´ethode bas´ee sur la d´etection d’´ev´enements, le r´esultat est une s´erie temporelle de dur´ees de cycles. Le pas d’´echantillonnage de celle-ci est intrins`equement variable. Il faut donc interpoler et r´e´echantillonner le signal de fr´equence phonatoire avant de pouvoir analyser son spectre. Ceci n’est pas n´ecessaire pour les m´ethodes bas´ees sur des analyses `a court terme.
– Sensibilit´ e aux variations cycle ` a cycle : La m´ethode bas´ee sur la d´etection d’´ev´enements est sensible au jitter, c’est-`a-dire aux variations cycle-`a- cycle de la fr´equence phonatoire. Le jitter n’est pas per¸cu par les autres m´ethodes car un moyennage apparaˆıt sur la dur´ee du signal utilis´ee dans le calcul de chaque valeur de fr´equence phonatoire, dur´ee plus longue qu’un cycle vocal. La figure 3.21 (a) montre un signal de parole d’un locuteur normophonique et la fr´equence phonatoire obtenue pour la m´ethode de d´etection d’´ev´enements et la m´ethode d´evelopp´ee. On voit que les r´esultats ont une allure globale semblable, mais avec plus de petites variations ra- pides pour la m´ethode de d´etection d’´ev´enements.
– Fiabilit´ e : La m´ethode bas´ee sur la d´etection d’´ev´enements pr´esente des
probl`emes de fiabilit´e. Ils sont illustr´es `a la figure 3.21 (b) pour un signal
de parole d’un locuteur parkinsonien. La figure montre le signal de parole,
la fr´equence phonatoire estim´ee par la m´ethode bas´ee sur la d´etection
d’´ev`enements et la m´ethode `a deux TOCs. On voit que les r´esultats obte-
nus par la m´ethode bas´ee sur la d´etection d’´ev`enements sont plus perturb´es
que les r´esultats obtenus par la m´ethode `a deux TOCs.
Dans notre application, le manque de sensibilit´e au jitter vocal n’est pas un probl`eme car nous ne nous int´eressons qu’aux variations lentes de la fr´equence phonatoire. D’autre part, l’´echantillonnage `a pas constant est souhaitable et la fiabilit´e est un crit`ere important pour que les m´ethodes d’analyse d´evelopp´ees puissent ˆetre utilis´ees pour des locuteurs pathologiques. Nous pr´ef´erons donc ne pas utiliser de m´ethode bas´ee sur la d´etection d’´ev´enements.
0.4 0.42 0.44 0.46 0.48 0.5
temps (s)
Signal de parole
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
122 124 126 128
temps (s)
Fréquence phonatoire (Hz)
détection d’évènements méthode à 2 TOCs
(a) Locuteur normophonique
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
110 120 130 140 150
temps (s) F0 (Hz)
0.3 0.32 0.34 0.36 0.38 0.4 0.42
−0.1
−0.05 0 0.05 0.1 0.15
temps (s)
Signal de parole
détection d’évènements méthode à 2 TOCs
(b) Locuteur parkinsonien
Fig. 3.21 – Signal de parole et fr´equence phonatoire estim´ee par les m´ethodes bas´ees sur la d´etection d’´ev`enements ou sur deux TOCs, pour un locuteur t´emoin et un locuteur parkinsonien.
3.3.2 Analyse ` a court-terme ou fr´ equence instantan´ ee
Dans cette sous-section, nous comparons quatre m´ethodes d’estimation de la
fr´equence phonatoire bas´ees sur une analyse `a court-terme ou sur la fr´equence
instantan´ee :
1. la m´ethode CC du logiciel PRAAT [9], qui est bas´ee sur une analyse `a court-terme (sous-section 3.2.4),
2. la m´ethode bas´ee sur une transform´ee de Hilbert [99] (sous-section 3.2.5.1), 3. la m´ethode TEMPO [51], qui est bas´ee sur une transform´ee en ondelettes
et une analyse des points fixes (sous-section 3.2.5.2), 4. la m´ethode `a deux TOCs (sous-section 3.2.6).
Nous comparons d’abord ces quatre m´ethodes sur des signaux de parole synth´etiques, puis les deux meilleures m´ethodes sont compar´ees pour des signaux de parole r´eels.
3.3.2.1 Voyelles synth´ etiques
La fr´equence de modulation est estim´ee correctement par les quatre m´e- thodes, et nous ne nous int´eressons donc par la suite qu’`a l’estimation de l’amplitude de modulation. La figure 3.22 montre le rapport d’amplitude de modulation estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation pour les quatre m´ethodes d’estimation de F
0, pour des signaux synth´etiques de fr´equence phonatoire moyenne ¯ F
0= 100Hz et 300Hz. On voit que l’ampli- tude de la modulation est sous-estim´ee pour toutes les m´ethodes, sauf pour la m´ethode bas´ee sur la transform´ee de Hilbert. Pour cette derni`ere, il y a une faible att´enuation d´ependant des caract´eristiques du filtre d’isolation de la com- posante fondamentale du signal. Pour les trois autre m´ethodes, l’att´enuation augmente avec la fr´equence de modulation et diminue lorsque la fr´equence pho- natoire moyenne augmente. L’explication de ce ph´enom`ene est la mˆeme que celle d´ecrite pr´ec´edemment pour la m´ethode `a deux TOCs : plus la dur´ee de cycle de la perturbation est courte par rapport `a la dur´ee effective des ondelettes ou de la fenˆetre d’analyse, plus la perturbation est moyenn´ee et plus elle est att´enu´ee.
0 2 4 6 8 10 12 14 16 18 20
0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1
fréquence de modulation (Hz) rapport d’amplitude de modulation estimée−sur−référence
TEMPO, 100Hz PRAAT, 100Hz TOC, 100Hz PRAAT, 300Hz TEMPO, 300Hz
TOC, 300Hz Hilbert
TOC 100Hz TOC 300Hz PRAAT 100Hz PRAAT 300Hz TEMPO 100Hz TEMPO 300Hz Hilbert
Fig. 3.22 – Signaux de parole synth´etiques : Rapport d’amplitude de modu-
lation estim´ee-sur-r´ef´erence en fonction de la fr´equence de modulation, pour
F ¯
0= 100Hz et 300Hz, pour diff´erences m´ethodes d’estimation de F
0(m´ethode
CC de P RAAT : lignes pointill´ees, T EM P O : lignes entrecoup´ees, m´ethode
d´evelopp´ee : lignes pleines, m´ethode bas´ee sur la transform´ee de Hilbert : lignes
pointill´ees-entrecoup´ees).
Pour la m´ethode CC de PRAAT, la fr´equence phonatoire minimale est de 75Hz.
Si ce param`etre, qui fixe la longueur de la fenˆetre, a une valeur plus basse, les r´esultats se d´egradent fortement.
La figure 3.22 sugg`ere que la m´ethode d´evelopp´ee suit les variations de F
0de fa¸con plus pr´ecise que les m´ethodes T EM P O et P RAAT , et est donc plus ap- propri´ee pour ´etudier les modulations de F
0. Les amplitudes de modulation sont sous-estim´ees lorsque la fr´equence de modulation est ´elev´ee, mais l’att´enuation est faible dans l’intervalle de fr´equence que nous voulons ´etudier, c’est-`a-dire [3 − 15Hz]. Par exemple pour une fr´equence phonatoire moyenne ¯ F
0= 100Hz, l’att´enuation d’amplitude d’une variation `a 15Hz est inf´erieure `a 7.5%.
3.3.2.2 Voyelles r´ eelles
L’analyse de la modulation de F
0est destin´ee `a une application dans le do- maine clinique. Des voix pathologiques seront analys´ees et leurs caract´eristiques compar´ees `a celles de voix de locuteurs sains. Il faut donc que les m´ethodes d’analyse soient fiables pour des signaux perturb´es, comme ceux de locuteurs ˆag´es et dysphoniques. Nous avons pr´ef´er´e la m´ethode bas´ee sur les deux trans- form´ees en ondelettes pour les raisons expos´ees ci-dessous.
Les fr´equences phonatoires obtenues par la m´ethode bas´ee sur la transform´ee de Hilbert et la m´ethode d´evelopp´ee sont quasi identiques pour des signaux de parole r´eels, avec un suivi l´eg`erement meilleur des perturbations `a haute fr´equence pour la m´ethode bas´ee sur la transform´ee de Hilbert. Cependant, cette m´ethode pr´esente ´egalement les inconv´enients suivants :
Primo, cette m´ethode n´ecessite une estimation pr´ealable de la fr´equence phonatoire moyenne. Elle repose donc sur un autre algorithme d’estimation de F
0qui doit pouvoir analyser correctement des signaux de parole dysphoniques.
Secundo, elle n´ecessite un filtrage passe-bas qui doit isoler correctement la composante fondamentale, tout en suivant les variations de la fr´equence phona- toire. Il y a un compromis entre la s´electivit´e du filtre, qui implique une longue r´eponse impulsionnelle, et sa capacit´e `a suivre des variations rapides de F
0, ce pour quoi une r´eponse impulsionnelle courte est plus appropri´ee. A cause de ce compromis, il arrive que la fr´equence phonatoire estim´ee par la m´ethode bas´ee sur la transform´ee de Hilbert soit erron´ee. Ceci est illustr´e par un exemple sur les figures 3.23 et 3.24, pour une voyelle [a] soutenue par un locuteur de 64 ans pr´esentant de la diplophonie. Ces figures montrent la fr´equence phonatoire estim´ee par la m´ethode d´evelopp´ee et la m´ethode bas´ee sur la transform´ee de Hilbert. La diplophonie apparaˆıt fr´equemment chez des locuteurs ˆ ag´es et se caract´erise par une irr´egularit´e des dur´ees de cycle vocaux, plus pr´ecis´ement une alternance entre deux cycles de formes et de dur´ees diff´erentes. Dans cet exemple, de la diplophonie est pr´esente pendant les intervalles de temps 11 s
− 12.55 s et 12.7 s − 13.6 s. L’amplitude des oscillations dues `a la diplophonie
est faible parce que les fr´equences phonatoires estim´ees ont ´et´e liss´ees lors du
filtrage passe-bas final. Aux instants 12.3 s, 12.9 s et 13.2 s, la fr´equence pho-
natoire estim´ee par la m´ethode bas´ee sur la transform´ee de Hilbert pr´esente des
pics aberrants. Ceci peut ˆetre expliqu´e par la pr´esence de pics spectraux aux
multiples de F
0/2 (Fig.3.23). Les pics spectraux aux fr´equences F
0/2 et 3F
0/2
auraient dˆ u ˆetre ´elimin´es par le filtrage isolant la composante fondamentale du
signal. Id´ealement le filtrage ne devrait pas alt´erer les bandes lat´erales du pic
`a la fr´equence de F
0, qui contiennent l’information sur la modulation de F
0. Il devient donc quasiment impossible de dimensionner un filtre qui permette `a la fois de supprimer les pics fr´equentiels ind´esirables et de ne pas modifier le pic `a la fr´equence fondamentale.
Par contre, dans la m´ethode `a deux TOCs, le filtrage est adapt´e instan- tan´ement en fonction de F
0. La m´ethode peut donc g´erer ce genre de signaux et est pr´ef´er´ee pour l’analyse des modulations de F
0.
11 11.5 12 12.5 13 13.5 14
100 120 140 160 180 200
temps (s)
F0 (Hz)
0 50 100 150 200 250 300 350 400 450 500
fréquence (Hz) Hilbert
TOC
Fig. 3.23 – Signal de parole d’un locuteur de 64 ans pr´esentant de la diplopho- nie : Fr´equences phonatoires estim´ees par la m´ethode bas´ee sur la transform´ee de Hilbert (trait entrecoup´e) et par la m´ethode d´evelopp´ee (trait plein) et spectre du signal.
13.12 13.14 13.16 13.18 13.2 13.22 13.24 13.26 13.28 13.3
−0.5 0 0.5
temps (s)
signal de parole
13.12 13.14 13.16 13.18 13.2 13.22 13.24 13.26 13.28 13.3 50
100 150 200
temps (s) F0 (Hz)
Hilbert TOC