Pour étudier les modulations basse-fréquence de la fréquence phonatoire F

(1)

Modulations li´ ees ` a la source vocale

3.1 Introduction

Dans ce chapitre, nous nous intéressons à l’analyse des modulations du signal de parole dues à la source vocale. Pour mettre ces dernières en évidence, nous

étudions les variations de la fréquence phonatoire de voyelles soutenues. La fréquence phonatoire est une variable pertinente pour obtenir des informations sur la source vocale car elle correspond à la fréquence du signal glottique et se retrouve comme fréquence fondamentale du signal de parole. Cette dernière propriété n’est pas vérifiée pour la forme du signal de source qui est modifiée par les fréquences de résonance ou d’anti-résonance du conduit vocal pour former le signal de parole. Retrouver la forme du signal de source à partir du signal de parole est un problème complexe. Pour le résoudre, des hypothèses doivent être faites sur la forme du signal de source et de la fonction de transfert du conduit vocal [23]. Ces hypothèses reposent sur des modèles de production vocale et ne sont pas toujours proches de la réalité, en particulier lorsqu’on considère des locuteurs dysphoniques. La forme du signal de source obtenu n’est donc pas assez fiable pour l’application que nous envisageons.

Pour étudier les modulations basse-fréquence de la fréquence phonatoire F

0

, il faut estimer l’´evolution de F

0

avec une grande pr´ecision car les variations de F

0

que nous souhaitons analyser sont de l’ordre de quelques Hertz. Une contrainte suppl´ementaire dans le choix de la m´ethode d’estimation de F

0

est que nous souhaitons pouvoir analyser les signaux de locuteurs dysphoniques.

Dans ce chapitre, nous présentons les principaux types de méthodes d’esti- mation de la fréquence phonatoire, incluant une méthode développée au cours de ce travail. A la section 3.3, nous comparons ensuite des méthodes de chaque catégorie, afin de trouver la méthode la plus adaptée pour notre application. Fi- nalement, la section 3.4 est consacrée à la présentation des indices acoustiques caractérisant la modulation de la fréquence phonatoire.

47

(2)

3.2 M´ ethodes d’estimation de F 0

3.2.1 Introduction

Pour analyser les modulations basse-fréquence de la fréquence phonatoire, l’estimation de celle-ci doit être précise pour pouvoir suivre de petites pertur- bations de l’ordre de quelques pourcents de F

0

, et fiable pour ˆetre capable de traiter les signaux de locuteurs dysphoniques.

Il existe de nombreuses méthodes d’estimation de la fréquence phonatoire [43, 68]. Ces méthodes peuvent être classées en différentes catégories selon leur principe de base : certaines reposent sur la mesure de la durée de chaque cycle vocal [50, 84], d’autres sur l’estimation de la période moyenne sur une fenêtre d’analyse [9, 67], ou encore sur l’estimation de la fréquence instantanée de la composante spectrale fondamentale du signal de parole [99].

Dans la première catégorie, les durées des cycles vocaux sont obtenues par la distance entre des évènements caractéristiques du cycle vocal, comme le pic principal ou l’instant de fermeture glottique [35, 50]. Chaque durée de cycle vocal est alors assignée à un instant. La série temporelle des durées de cycles doit ensuite être rééchantillonnée avec un pas constant afin de pouvoir être exploitée ultérieurement.

Dans la deuxième catégorie, la fréquence phonatoire est obtenue au moyen d’analyses à court terme basées par exemple sur l’autocorrélation [20, 67], le cepstre [72] ou le maximum de vraisemblance [89]. La durée de la fenêtre est généralement fixe et la fréquence phonatoire est supposée constante dans chaque fenêtre.

Dans la troisième catégorie, on estime la fréquence phonatoire au moyen de la fréquence instantanée de la composante fondamentale du signal de parole. La fréquence instantanée est définie comme la vitesse de variation de la phase. Ce type de méthodes est plus robuste par rapport à la non- stationnarité du signal.

Les méthodes existantes diffèrent par la fa¸con dont la phase de la composante fondamentale est obtenue. La méthode la plus classique consiste à filtrer le signal de parole autour de la fréquence fondamentale et d’utiliser la phase du signal analytique associé au signal filtré passe-bas [99]. Ceci nécessite cependant une estimation préalable de la fréquence phonatoire et fait l’hypothèse que les variations autour de cette estimation sont faibles. C’est pourquoi plus d’un signal de phase est généralement calculé, et la fréquence phonatoire est choisie pour chaque échantillon temporel sur base d’un critère additionnel.

Voici quelques exemples de crit`eres : Qiu et al. [77] filtrent le signal passe-

bas avec deux fréquences de coupure différentes, calculent la fréquence instan-

tanée de ces deux signaux filtrés au moyen d’une transformée de Hilbert, et

déterminent si les fréquences instantanées sont dans un intervalle de fréquences

acceptables et si l’instant est voisé. Lorsque les deux fréquences instantanées sont

très proches ou qu’une seule fréquence instantanée est acceptable, la fréquence

phonatoire est donnée par cette fréquence instantanée. Lorsque les deux fréquen-

ces instantan´ees diff`erent et qu’elles se situent toutes les deux dans l’intervalle

de fréquences acceptables, la fréquence phonatoire est donnée par la valeur la

plus basse. Nakatani et Irino [71] utilisent la transform´ee de Fourier `a court

(3)

terme et des composants harmoniques dominants. Kawahara et al. [51] uti- lisent une transformée en ondelettes continue avec une ondelette analytique. Ils détectent les points fixes dans le plan fréquence centrale de l’ondelette analy- sante - fréquence instantanée, pour lesquels la fréquence centrale de l’ondelette analysante est égale à la fréquence instantanée. La fréquence phonatoire est donnée par la fréquence du point fixe pour lequel le rapport porteuse-à-bruit est le plus grand.

Il existe également des méthodes hybrides, o` u des analyses à très court terme sont utilisées comme prétraitement, avant la recherche des événements caractéristiques de chaque cycle vocal [47, 74].

Pour pouvoir choisir une m´ethode pour l’analyse des modulations basse- fr´equence de F

0

, nous avons étudié les performances de méthodes de chacune de ces catégories. Nous avons en outre développé une méthode d’estimation de la fréquence phonatoire basée sur la fréquence instantanée obtenues par la combinaison de deux transformées en ondelettes continues du signal de parole.

Dans cette section, nous présentons d’abord les signaux synthétiques utilisés pour tester et illustrer les performances des méthodes d’estimation de F

0

. En- suite, nous pr´esentons les m´ethodes d’estimation de F

0

dont nous avons appro- fondi l’étude : une méthode basée sur la détection d’évènements (sous-section 3.2.3), une méthode basée sur une analyse à court-terme par autocorrélation (sous-section 3.2.4), deux méthodes existantes basées sur la fréquence instan- tanée (sous-section 3.2.5), et la méthode développée au cours de cette thèse (sous-section 3.2.6).

3.2.2 Signaux synth´ etiques

Pour estimer la validit´e des m´ethodes d’estimation de F

0

, il est utile de les tester sur des signaux synthétiques, pour lesquels on connaˆıt le résultat qui devrait être obtenu. Les signaux synthétiques utilisés ici sont des voyelles soutenues [a] générées par un modèle source-filtre. Le signal de source est simulé au moyen du modèle de Fant, et le conduit vocal est modélisé par un filtre tous- pˆ oles.

Pour étudier la capacité des méthodes d’estimation de F

0

`a suivre les va- riations de F

0

, la fréquence instantanée de la source synthétique est modulée sinuso¨ıdalement au cours du temps. Elle est donnée par :

f

ref

(t) = f

moy

. [1 + A

M,ref

. cos (2πF

M,ref

t)] , (3.1) o` u f

ref

, f

moy

, A

M,ref

et F

M,ref

sont respectivement la fréquence instantanée de la source, la fréquence de source moyenne, l’amplitude de modulation de référence et la fréquence de modulation de référence.

Puisque nous nous intéressons à la sensibilité des méthodes aux variations

de F

0

, tous les paramètres excepté la fréquence instantanée de la source ont été

gardés constants sur la durée des signaux de test. Pour les résultats présentés

dans ce chapitre, les param`etres de la fonction de transfert du conduit vocal

sont les suivants : les quatre formants modélisés ont comme fréquences 700Hz,

1200Hz, 2500Hz et 3500Hz, et comme bandes passantes 140Hz, 180Hz, 55Hz

et 200Hz respectivement. La durée de la phase ouverte est égale à 40% de la

(4)

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05

signal de source

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 temps (s)

signal de parole

Fig. 3.1 – Signal synth´etique : signal de source et signal de parole.

durée de cycle, la réciproque de la valeur du pic négatif est égale à 0.1, et la durée de fermeture est égale à 20% de la durée de la phase ouverte. La figure 3.1 illustre un signal de parole synthétique et son signal de source.

3.2.3 M´ ethode bas´ ee sur la d´ etection d’´ ev` enements

De nombreux événements peuvent être détectés au cours d’un cycle vocal.

Les événements détectés peuvent être, par exemple, le maximum principal du cycle, le passage par zéro (-/+) précédent ce maximum ou le moment de fer- meture glottique (GCI : Glottal Closure Instant). Le moment de fermeture de la glotte se caractérise généralement par un changement du spectre à très court terme, avec l’apparition de composantes de fréquences élevées. Il peut être détecté par exemple à l’aide d’une transformée de Fourier à court terme ou d’une transformée en ondelettes discrète [50] ou continue [63].

Pour pouvoir comparer ce type de méthodes avec d’autres méthodes, nous avons implémenté un algorithme détectant le maximum principal d’amplitude de chaque cycle vocal. Cette méthode a précédemment été implémentée dans le cadre de l’étude du microtremblement vocal par Schoentgen [84]. Pour pouvoir comparer cette méthode avec les autres, la série temporelle de durées de cycle est transformée en une série temporelle de fréquences vocales équivalentes.

Algorithme

1. Calcul de la durée caractéristique de cycle du signal par la méthode de prédiction linéaire par autocorrélation [23].

2. Suréchantillonnage du signal afin d’augmenter la précision des résultats,

et filtrage passe-bas avec une fréquence de coupure de 800Hz. Il a été

montré [91] que les signaux vocaux filtrés sous 800Hz sont adéquats pour

l’´etude du tremblement vocal et du jitter vocal.

(5)

3. Obtention de la série de durées de cycles à partir des positions des maxima principaux de chaque cycle ou par la position des zéros (-/+) précédant ces maxima : Le premier pic principal est le maximum absolu sur la durée totale du signal. Les maxima principaux suivants sont recherchés de proche en proche, dans un intervalle de +/- 10% autour de l’échantillon situé à une distance d’une durée de cycle caractéristique du dernier pic principal détecté. Le plus grand pic de cet intervalle est choisi comme pic principal suivant.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−0.2

0 0.2 signal de parole 0.4

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−0.2

0 0.2 signal de parole filtré et pics principaux négatifs 0.4

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

120 125 130 135

temps (s) inverse des durées des cycles (Hz)

Fig. 3.2 – Estimation des durées de cycles par détection du pic principal négatif de chaque cycle vocal.

La figure 3.2 illustre la méthode de détection d’événements pour un signal synthétique : le premier graphique représente le signal de parole, le deuxième le signal de parole filtré et les pics principaux négatifs qui ont été détectés, et le troisième graphique représente l’inverse des durées de cycle extraites.

Le fait de détecter un instant caractéristique du cycle vocal a des conséquen- ces pour l’analyse ultérieure. En effet, la série de durées de cycles est obtenue par la différence entre les positions de deux événements et a donc des abscisses temporelles qui ne sont pas parfaitement déterminées. Il y a un choix arbitraire pour la position qui est assignée à chaque durée de cycle : début, milieu ou fin de cycle.

De plus, dans le cadre de ce travail, nous d´esirons analyser les signaux de

locuteurs dysphoniques. Il faut donc que l’estimation de la fr´equence phona-

toire soit capable de traiter des signaux perturb´es. Il faut ´egalement prendre

en compte le fait que les variations entre les dur´ees de cycles peuvent ˆetre im-

portantes. La série de durées de cycles vocaux étant échantillonnée avec un

pas variable, il faut d’abord interpoler et rééchantillonner la série de durées de

cycles pour obtenir un pas d’´echantillonnage constant, avant de pouvoir calculer

et analyser le spectre de cette s´erie.

(6)

3.2.4 M´ ethode bas´ ee sur une analyse ` a court-terme

Il existe de nombreuses méthodes basée sur des analyse par fenêtres [43].

Dans cette section, nous présentons brièvement une méthode classique [9]. Cette méthode sera comparée aux autres types de méthodes par la suite. Cet algo- rithme est basé sur la corrélation mutuelle entre la fenêtre d’analyse et une fenêtre décalée vers l’avant du signal, le décalage maximum étant égal à la lon- gueur de la fenêtre. On s’attend à ce que la corrélation mutuelle soit la plus forte lorsque la fenêtre est décalée d’un cycle vocal. La durée de cycle est donc estimée par le décalage pour lequel on obtient la corrélation maximale. La lon- geur de la fenêtre d’analyse est choisie égale à la plus longue durée de cycle que l’on désire détecter. La longueur de la fenêtre d’analyse influence la sensibilité de l’estimation aux variations rapides des durées de cycle car les caractéristiques du signal sont moyennées sur la durée de la fenêtre.

3.2.5 M´ ethodes bas´ ees sur la fr´ equence instantan´ ee

Nous présentons ici deux méthodes basées sur l’estimation de la fréquence instantanée de la composante fondamentale du signal de parole. La première est la méthode classique basée sur la transformée de Hilbert [99]. La deuxième est la méthode développée par Kawahara [51], basée sur une transformée en ondelettes continue et la détection des points fixes du plan fréquence centrale de l’ondelette - fréquence instantanée.

3.2.5.1 M´ ethode bas´ ee sur la transform´ ee de Hilbert

Comme nous l’avons vu au chapitre 2, la transformée de Hilbert d’un si- gnal H[s(t)] permet de construire le signal analytique associé à ce signal s(t).

La fréquence instantanée ω(t) d’un signal peut être définie à partir du signal analytique associé s

a

(t) = s(t) + jH [s(t)] comme étant la dérivée de la phase du signal analytique associé [7].

Φ(t) = arg[s(t) + jH [s(t)]] (3.2) ω(t) = dΦ(t)

dt (3.3)

Lorsque le signal est `a bande ´etroite, il n’y a qu’une seule composante

spectrale et la fréquence instantanée peut être interprétée [7]. Comme les si-

gnaux vocaux vois´es que nous analysons pr´esentent des harmoniques, il faut

pr´ealablement filtrer le signal autour de la fr´equence fondamentale du locuteur,

avant de pouvoir extraire la fréquence instantanée du signal analytique associé,

fréquence qui correspond alors à la fréquence phonatoire du signal vocal. Les

fréquences de coupure du filtre doivent être choisies avec précaution, de fa¸con à

ne pas supprimer d’information sur les variations de la fr´equence phonatoire.

(7)

Algorithme

1. Estimer la fr´equence phonatoire moyenne F

0,est

par autocorr´elation sur tout le signal.

2. Filtrer le signal autour de la fr´equence phonatoire F

0,est

, entre 0.5F

0,est

et 1.5F

0,est

, au moyen d’un filtre à réponse impulsionnelle finie de durée 50 ms.

3. Calculer la transformée de Hilbert du signal filtré pour obtenir le signal analytique associé.

4. Extraire la phase du signal analytique et calculer sa d´eriv´ee par rapport au temps.

5. Filtrer la dérivée de la phase de signal analytique sous 20Hz pour sup- primer des oscillations résiduelles, au moyen d’un filtre de Butterworth d’ordre 4, de fréquence de coupure 25Hz.

6. Enlever 0.1s au début et à la fin du signal pour éliminer les transitoires.

0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

−0.5 0 0.5

speech signal

Synthetic speech signal

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

−0.1 0 0.1

filtered speech signal

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

119 120 121 122

time (s) instantaneous frequency (Hz)

Fig. 3.3 – Estimation de F

0

basée sur la transformée de Hilbert : signal de parole synthétique, signal de parole filtré et F

0

estim´ee.

L’algorithme est illustré à la figure 3.3 pour un signal de parole synthétique

pr´esentant des modulations lentes de la fr´equence phonatoire. Le premier gra-

phique montre le signal de parole synth´etique, le deuxi`eme le signal de parole

filtré et le troisième graphique montre la fréquence phonatoire obtenue.

(8)

3.2.5.2 M´ ethode de Kawahara et al.

Kawahara a développée une méthode basée sur les points fixes dans le plan fréquence analysante - fréquence instantanée de transformées temps-fréquence [51]. La méthode est composée de deux parties. En premier lieu, une trans- formée en ondelettes continue est utilisée pour extraire les points fixes du plan fréquences centrales des ondelettes - fréquence instantanée des signaux de sor- tie de la transformée. Ces points fixes donnent la fréquence des composantes pseudo-sinuso¨ıdales du signal analysé. Les ondelettes utilisées w

s

(t, λ) sont ob- tenus par la convolution d’une ondelette de Gabor w(t, λ) avec une fonction de base B-spline cardinale du second ordre h(t, λ) dimensionnée en fonction de la fréquence centrale λ de l’ondelette de Gabor correspondante. La convolution avec la fonction B-spline supprime sélectivement les interférences de compo- santes pseudo-harmoniques voisines lorsque la fréquence centrale de l’ondelette est égale à F

0

.

w

s

(t, λ) = w(t, λ) $ h(t, λ), (3.4) w(t, λ) = e

⁻^λ

2t2 4πη2

e

^jλt

, (3.5)

h(t, λ) = max

! 0, 1 −

"

λt 2πη

"

#

, (3.6)

o` u $ repr´esente la convolution, et η le facteur d’´echelle. Les points fixes sont

évalués en termes de rapports porteuse-à-bruit estimés, et F

0

est obtenue en sélectionnant le point fixe qui présente le plus grand rapport porteuse-à-bruit.

La deuxi`eme partie de la m´ethode permet d’affiner l’estimation de F

0

. Une transform´ee de Fourier `a court terme adaptative en fonction de F

0

est calcul´ee.

L’analyse des points fixes de cette transform´ee de Fourier `a court terme adap-

tative permet d’obtenir les points fixes correspondant aux composantes harmo-

niques. Les fréquences instantanées des points fixes sont intégrées en utilisant

l’information porteuse-`a-bruit pour donner l’estimation de F

0

.

(9)

3.2.6 M´ ethode d´ evelopp´ ee

Nous avons développé une méthode d’estimation de F

0

basée sur une trans- formée en ondelettes continue TOC utilisant une ondelette complexe [15]. Des tests sur signaux synthétiques montrent que cette méthode d’estimation de F

0

permet de donner un résultat fiable pour des signaux réalistes et de déduire correctement la fréquence de modulation mais a tendance à sous-estimer l’am- plitude de la modulation. La méthode a été améliorée par l’introduction d’une deuxième TOC [13]. La méthode à deux TOCs est composée de deux étapes.

D’abord une TOC du signal de parole est calcul´ee et une premi`ere estimation de F

0

est obtenue par la fréquence centrale de l’ondelette pour laquelle le module de la TOC est maximal. Ensuite une nouvelle TOC est calculée, avec une ondelette- mère plus courte. L’estimation de F

0

est donnée par la fréquence instantanée correspondant à l’ondelette dont la fréquence centrale est égale à l’estimation de F

0

calculée dans la première étape. La combinaison de deux TOCs permet d’obtenir fiabilité pour des signaux de locuteurs dysphoniques et sensibilité aux perturbations de F

0

.

Dans cette sous-section, nous présentons d’abord la méthode à une TOC, le choix de l’ondelette-mère et les performances de cette méthode pour des signaux synthétiques. Ensuite nous présentons la méthode à deux TOCs et ses performances.

3.2.6.1 Estimation de F

0

sur base d’une TOC

Le module et la phase des coefficients de la TOC obtenus avec une ondelette complexe sont des estimations de l’enveloppe et de la phase instantanée de la composante spectrale du signal dans la bande de fréquence centrée autour de la fréquence centrale f

c

de l’ondelette [62]. La dérivée temporelle de la phase des coefficients de la TOC est donc une estimation de la fréquence instantanée du signal dans cette bande de fréquence.

La possibilité d’estimer la fréquence phonatoire au moyen d’une TOC est basée sur l’observation suivante : Dans le voisinage des fréquences centrales des ondelettes qui correspondent le mieux à la cyclicité du signal, le module des coefficients de la TOC présente un maximum, et, dans le plan (f

c

− F I ), la fréquence instantanée (FI) obtenue à partir de la phase des coefficients de la TOC présente un plateau au voisinage de la valeur réelle de F

0

sur une large bande de fr´equence [11].

La figure 3.4 montre l’´evolution du module de la TOC pour une ondelette de Morlet avec le param`etre ω

c

σ

t

= 5, pour un signal synthétique de fréquence phonatoire 75Hz. Une crête d’amplitude importante est bien présente autour de la fréquence centrale d’ondelette de 75Hz. La figure 3.5 montre le module et la fréquence instantanée de la TOC, en fonction de la fréquence centrale d’ondelette, pour un instant t, pour le même signal synthétique. La fréquence instantanée forme un plateau dont la valeur est égale la fréquence phonatoire du signal synthétique, pour les fréquence centrales d’ondelettes o` u le module est

´elev´ee.

La fréquence instantanée du plateau peut être obtenue avec précision, même

si la TOC a été calculée avec un grand pas fréquentiel. Ceci est illustré à la

(10)

temps (s)

fréquence centrale (Hz)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

50 100 150 200

Fig. 3.4 – Module de la TOC avec le param`etre ω

c

σ

t

= 5, pour un signal de parole synthétique (les modules élevées sont représentées en noir, les modules faibles en blanc).

40 60 80 100 120 140 160 180 200

0 0.5 1 1.5 2 2.5

fréquence analysante (Hz)

Module de la TOC

40 60 80 100 120 140 160 180 200

0 50 100 150 200

FI (Hz)

Fig. 3.5 – Module (figure supérieure) de la TOC et F I (figure inférieure) avec le paramètre ω

c

σ

t

= 5. La ligne en pointill´e marque F I = 75Hz.

figure 3.6 pour un signal synthétique de fréquence variable sinuso¨ıdalement autour de 200Hz. On voit la fréquence phonatoire de référence, la fréquence centrale correspondant au maximum du module de la TOC et la fréquence ins- tantanée correspondant au maximum du module de la TOC. Le pas de calcul de la fréquence centrale de la TOC est de 5Hz et est clairement visible dans le tracé de la fréquence centrale des maxima, mais il n’est pas détectable lorsqu’on regarde le tracé de la fréquence instantanée.

La m´ethode d’estimation de F

0

sur base d’une TOC unique consiste donc `a

estimer F

0

au moyen de la fr´equence instantan´ee de la TOC dont le module est

maximal dans l’intervalle [50Hz − 500Hz].

(11)

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 180

190 200 210 220

temps (s)

fréquence phonatoire (Hz)

référence FI maximum

Fig. 3.6 – Comparaison de la r´esolution fr´equentielle des estimations de F

0

basées sur la fréquence instantanée FI et sur le module maximal de la TOC, ainsi que la courbe de référence de F

0

.

3.2.6.2 Choix de l’ondelette-m` ere

Pour l’implémentation de la méthode basée sur le principe ci-dessus, nous avons testé deux types d’ondelettes complexes : l’ondelette de Morlet complexe, et l’ondelette gaussienne complexe. Ces deux familles d’ondelettes présentent des enveloppes proches de la forme gaussienne et permettent donc de minimiser le produit des dispersions temporelles et fréquentielles [2], et par conséquent d’optimiser la précision des résultats.

L’ondelette de Morlet complexe (Fig. 3.7) a pour ´equation : ψ

ωc

(t) = C e

⁻^iω^c^t

$ e

⁻

t2 2σ2

t

− √ 2e

⁻^ω

2 c σ

2 t 4

e

⁻

t2 σ2 t

%

(3.7)

real part imaginary part

Fig. 3.7 – Ondelette de Morlet complexe pour ω

c

σ

t

= 5.

L’échelle de l’ondelette est fixée par sa fréquence centrale f

c

=

^ω_2π^c

, qui est la fr´equence d’oscillation de l’ondelette. Le param`etre σ

t

fixe la d´ecroissance de l’enveloppe de l’ondelette. Pour une famille d’ondelettes, la forme est conserv´ee, le produit ω

c

σ

t

reste donc constant. Le facteur de normalisation C est choisi de sorte que &

+∞

−∞

| ψ

ωc

(t) |

²

dt = 1. La dur´ee effective de l’ondelette est d´efinie ici de fa¸con conventionnelle par 2σ

t

.

Les diff´erentes formes de l’ondelette gaussienne complexe sont obtenues par d´erivation multiple de l’ondelette gaussienne de base :

ψ

p

(t) = (C

p

.e

⁻^i.t

.e

⁻^t²

)

^(p)

, (3.8)

(12)

o` u p est un param`etre fixant le nombre de d´erivations de la gaussienne et C

p

est d´efini de sorte `a ce que &

^∞

−∞

| ψ

p

(t) |

²

dt = 1. Nous avons testé les ondelettes avec p = 4 et p = 8, représentées à la figure 3.8.

partie réelle partie imaginaire G4

Partie réelle Partie imaginaire G8

Fig. 3.8 – Ondelettes gaussiennes complexes pour p = 4 et p = 8.

Nous avons préféré utiliser l’ondelette de Morlet complexe car :

1. les résultats obtenus avec les deux ondelettes sont fort proches : Les résultats obtenus par tests sur des signaux synthétiques montrent un com- portement semblable en fonction de la fréquence de tremblement et de la fréquence phonatoire moyenne. Les variations dépendent des paramètres de chaque ondelette et on peut obtenir des résultats similaires en choisis- sant les paramètres de fa¸con adéquate. Cependant, l’ondelette de Morlet complexe a l’avantage de ne pas comporter de dérivation, le paramètre ω

c

σ

t

caractérisant l’ondelette-mère peut donc prendre des valeurs non entières.

2. le pas fréquentiel de calcul de la CWT peut être plus large pour l’ondelette de Morlet que pour l’ondelette gaussienne pour obtenir la même précision fréquentielle.

3. la fréquence centrale de l’ondelette a une interprétation directe et fait partie des paramètres pour l’ondelette de Morlet, mais pas pour l’ondelette gaussienne.

3.2.6.3 Evaluation de la m´ ethode d’estimation de F

0

bas´ ee sur une TOC

La m´ethode d’estimation de F

0

basée sur une TOC a été testée sur deux types de signaux : des signaux sinuso¨ıdaux dont la fréquence est modulée, et des signaux de parole synthétiques comme ceux qui ont été présentés à la sous- section 3.2.2, avec une modulation de la fréquence de source.

Les signaux pseudo-sinuso¨ıdaux sont donn´es par : s(t) = cos

$

2πf

moy

t + f

moy

.A

M,ref

F

M,ref

. sin (2πF

M,ref

t)

%

, (3.9)

o` u s(t), f

moy

, A

M,ref

et F

M,ref

sont respectivement le signal synthétique, la fréquence moyenne de signal, l’amplitude du modulation et la fréquence du modulation.

Pour les signaux pseudo-sinuso¨ıdaux et les signaux de parole synthétiques, la fréquence de référence est donnée par :

f

ref

(t) = f

moy

. [1 + A

M,ref

. cos (2πF

M,ref

t)] , (3.10)

(13)

o` u f

ref

, f

moy

, A

M,ref

et F

M,ref

sont respectivement la fréquence de référence, la fréquence moyenne du signal, l’amplitude de modulation et la fréquence de modulation.

La capacité de la méthode à restituer correctement l’amplitude de la modula- tion est évaluée au moyen du rapport entre l’amplitude de modulation estimée - qui est donnée par la demi-amplitude pic-à-pic de la fréquence phonatoire estimée - et l’amplitude de modulation de référence. Idéalement, ce rapport amplitude estimée-sur-référence est égal à un.

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

99.9 99.95 100 100.05 100.1

temps(s)

Hz

freq. obtenue freq. référence

Fig. 3.9 – Signal synthétique pseudo-sinuso¨ıdal : Fréquence estimée avec ω

c

σ

t

= 5 et fréquence de référence, pour f

moy

= 100Hz, A

M,ref

= 0.1% et F

M,ref

= 10Hz.

La figure 3.9 montre la fréquence estimée avec le paramètre ω

c

σ

t

= 5 et la fréquence de référence pour un signal pseudo-sinuso¨ıdal modulé de fréquence moyenne 100Hz, d’amplitude de modulation .1% et de fréquence de modulation 10Hz. On observe que la fréquence de modulation du signal estimé correspond à la fréquence de modulation de référence, mais que l’amplitude de la modulation est atténuée. Etant donné que la fréquence de modulation est chaque fois bien estimée, nous nous intéressons exclusivement à l’atténuation de l’amplitude de modulation dans les tests suivants.

Att´ enuation de l’amplitude de modulation estim´ ee Les effets des pa- ramètres de modulation du signal synthétique sur l’atténuation de l’amplitude de modulation estimée sont illustrés dans les figures 3.10, 3.11 et 3.12, qui montrent le rapport amplitude de modulation estimée-sur-référence en fonc- tion de la fréquence phonatoire moyenne, de l’amplitude de modulation et de la fréquence de modulation, respectivement. On voit que la fréquence de modula- tion et la fréquence phonatoire moyenne ont un effet sur l’atténuation, tandis que la valeur de l’amplitude de modulation de référence n’influe pas sur le résultat.

L’amplitude de modulation estimée est d’autant plus atténuée que la fréquence phonatoire moyenne est basse et que la fréquence de modulation est élevée.

L’explication de la sous-estimation de l’amplitude de modulation est que lorsque la résolution temporelle de l’ondelette n’est pas assez fine, la F I est lissée sur la durée effective de l’ondelette. La détection est d’autant plus difficile que F

0

est faible et que la variation est rapide. Par exemple, en utilisant une famille d’ondelette avec ω

c

σ

t

= 5, lorsque la fr´equence phonatoire moyenne est de 100Hz, la dur´ee effective de l’ondelette 2σ

t

est ´egale `a 2.

_ω⁵

c

= 2.

₂∗π⁵∗100

= 16ms.

De petites variations de F

0

avec une fréquence supérieure à 10Hz sont donc

moyennées sur la durée de l’ondelette et sont atténuées à la sortie.

(14)

50 100 150 200 250 300 0.88

0.9 0.92 0.94 0.96 0.98 1

Fréquence phonatoire moyenne (Hz)

Rapport d’amplitudes estimée−sur−référence

Fig. 3.10 – Signaux de parole synthétiques : Rapport d’amplitude de modulation estimée-sur-référence en fonction de la fréquence phonatoire moyenne f

moy

, pour F

M,ref

= 5Hz et A

M,ref

= 1%, pour ω

c

σ

t

= 5.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

0.5 0.6 0.7 0.8 0.9 1

rapport d’amplitudes estimée−sur−référence

amplitude de modulation (%) FM = 20Hz

FM = 10Hz FM = 5Hz FM = 1Hz

Fig. 3.11 – Signaux de parole synthétiques : Rapport d’amplitude de modulation estimée-sur-référence en fonction de l’amplitude de modulation A

M,ref

, pour diff´erentes valeurs de la fr´equence de modulation F

M,ref

, pour f

moy

= 100Hz, pour ω

c

σ

t

= 5.

0 2 4 6 8 10 12 14 16 18 20

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Fréquence de modulation (Hz)

Rapport d’amplitudes estimée−sur−référence

f_moy = 50Hz f_moy = 100Hz f_moy = 200Hz f_moy = 300Hz

Fig. 3.12 – Signaux de parole synth´etiques : Rapport d’amplitude de modulation

estimée-sur-référence en fonction de la fréquence de modulation pour différentes

valeurs de f

moy

, pour A

M,ref

= 1%, pour ω

c

σ

t

= 5.

(15)

La figure 3.12 montre l’atténuation de l’amplitude mesurée pour un signal de fréquence phonatoire moyenne de 100Hz. L’atténuation de l’amplitude mesurée est de 15% pour une modulation à 10Hz, et elle atteint presque 30% pour une modulation à 15Hz. Cette atténuation est trop importante pour l’application que nous envisageons. Etant donné que l’atténuation de l’amplitude de la modu- lation de F

0

est une conséquence de la durée effective de l’ondelette analysante, on s’attend à ce qu’une ondelette-mère de durée effective plus courte (et donc avec un paramètre ω

c

σ

t

plus faible) donne de meilleurs r´esultats pour le suivi des modulations de F

0

.

Effet du param` etre ω

c

σ

t

de l’ondelette-m` ere La figure 3.13 illustre l’effet du param`etre ω

c

σ

t

de l’ondelette-mère pour des signaux synthétiques pseudo- sinuso¨ıdaux. Elle montre le rapport d’amplitude de modulation estimée-sur- référence en fonction de la fréquence de modulation pour une fréquence moyenne de 100Hz, avec ω

c

σ

t

= 5 et ω

c

σ

t

= 2.5. Plus le param`etre ω

c

σ

t

est faible, moins la modulation est atténuée. On pourrait donc penser qu’il suffit de choisir une ondelette avec un paramètre suffisamment petit pour étudier les modulations de F

0

. Cependant, des signaux synthétiques pseudo-sinuso¨ıdaux ont été utilisés car la méthode d’estimation de F

0

bas´ee sur une TOC avec ω

c

σ

t

= 2.5 ne parvient pas à détecter correctement la fréquence phonatoire sur des signaux de parole synthétiques. Cette incapacité est due à la largeur de bande trop grande des ondelettes avec ω

c

σ

t

= 2.5, qui fait que la transform´ee en ondelettes ne parvient pas `a isoler la composante fondamentale du signal de parole.

0 2 4 6 8 10 12 14 16 18 20

0.6 0.7 0.8 0.9 1

rapport d’amplitudes estimée−sur−référence

fréquence de modulation (Hz) ω₀ σ

t = 2.5 ω₀ σ

t = 5

Fig. 3.13 – Signaux synthétiques pseudo-sinuso¨ıdaux : Rapport d’amplitude de modulation estimée-sur-référence en fonction de la fréquence de modulation pour f

moy

= 100 Hz et A

M,ref

= 1%, pour ω

c

σ

t

= 5 et ω

c

σ

t

= 2.5.

La figure 3.14 montre le module de la transform´ee en ondelettes avec ω

c

σ

t

= 2.5 en fonction du temps, pour un signal de parole synthétique de fréquence phonatoire moyenne de 75Hz. La figure 3.15 montre une coupe du module de la transformée en ondelettes et de la fréquence instantanée en fonction de la fréquence analysante de l’ondelette, pour deux positions dans un cycle, pour le même signal synthétique.

Le plateau o` u la fréquence instantanée est égale à la fréquence phonatoire

est présent pour les fréquences centrales o` u le module de la TOC est élevé, bien

qu’il soit d´ecal´e par rapport au plateau obtenu avec ω

c

σ

t

= 5. Ce plateau peut

toujours ˆetre utilis´e pour estimer F

0

, mˆeme s’il est plus court pour des signaux

r´eels. Cependant, il est plus difficile de localiser le pic du module correspondant

(16)

temps (s)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

50 100 150 200

Fig. 3.14 – Module de la TOC avec le param`etre ω

c

σ

t

= 2.5, pour un signal de parole synthétique (les modules élevées sont représentées en noir, les modules faibles en blanc).

40 60 80 100 120 140 160 180 200

0 0.5 1 1.5 2

Module de la TOC

40 60 80 100 120 140 160 180 200

0 50 100 150 200

FI (Hz)

Fig. 3.15 – Module (figure supérieure) et F I (figure inférieure) de la TOC avec le paramètre ω

c

σ

t

= 2.5. La ligne en pointill´e marque F I = 75Hz.

au plateau. En effet, `a cause de sa largeur spectrale plus importante et de sa

durée effective plus courte, la transformée en ondelettes est plus sensible à la

deuxi`eme harmonique et aux instationarit´es intra-cycle telles que les instants

de fermeture glottique. Par cons´equent, pour certaines positions dans le cycle

vocal, le pic du module correspondant au plateau peut disparaˆıtre, comme c’est

le cas pour la ligne pointill´ee de la figure 3.15. Dans ce cas, F

0

ne peut plus

être estimée par l’intermédiaire du maximum du module de la TOC. La valeur

du param`etre ω

c

σ

t

ne peut donc pas ˆetre trop faible, si on veut traiter des

signaux de parole r´eels, a fortiori des signaux de parole de locuteurs ˆ ag´es et

dysphoniques.

(17)

3.2.6.4 M´ ethode ` a deux TOCs

Les tests sur signaux synth´etiques de la m´ethode d’estimation de la F

0

basée sur une TOC ont montré qu’une famille d’ondelettes avec une durée effective longue permet d’obtenir une estimation de F

0

fiable pour des signaux réalistes, tandis qu’une famille d’ondelettes avec une durée effective courte présente la sensibilité souhaitée aux variations de F

0

.

Pour obtenir une méthode présentant ces deux caractéristiques, nous avons combiné deux transformées en ondelettes : une première avec une résolution fréquentielle élevée (et une durée effective longue) pour identifier le maximum du module de la TOC, et une seconde avec une résolution temporelle élevée pour estimer la fréquence instantanée. La procédure est la suivante (Fig. 3.16) : 1. TOC du signal de parole avec ω

c

σ

t

= 5, et sauvegarde pour chaque

´echantillon temporel de la fr´equence centrale ˆ f

c

de l’ondelette correspon- dant au module maximal de la TOC.

2. TOC du signal de parole avec ω

c

σ

t

= 2.5, et calcul de la fr´equence ins- tantan´ee de la TOC, F I

2.5

, par la d´eriv´ee temporelle de la phase de la TOC.

3. Estimation de la valeur instantan´ee de F

0

au moyen de la F I

2.5

de l’onde- lette dont la fr´equence centrale ˆ f

c

est égale à celle retenue dans la première

´etape.

4. Filtrage de F

0

pour éliminer les oscillations résiduelles dues à des insta- tionarités intra-cycle, au moyen d’un filtre de Butterworth d’ordre 4, de fréquence de coupure 25Hz.

Signal parole de

#

$

ωT OCcσt=5

| T OC (t, f

c

) | →

^max^f^c

f ˆ

c

(t)

↓

ωcT OCσt=2.5

F I

2,5

(t, f

c

)

→ f

c

= ˆ f

c

(t) F I (t)

→ Filtre passe-bas → F

0

(t) Fig. 3.16 – Sch´ema-bloc de l’estimation de F

0

.

3.2.6.5 Illustration sur un signal de parole synth´ etique

La figure 3.17 montre un signal de parole synthétique présentant des modu- lations de la fréquence phonatoire, ainsi que le module de la TOC avec ω

c

σ

t

= 5, et la fréquence instantanée obtenue à partir de la TOC avec ω

c

σ

t

= 2.5.

Le module de la transformée en ondelettes présente des maxima locaux pour différentes fréquences. Le maximum local dont la fréquence est la plus basse correspond à la fréquence phonatoire. La deuxième harmonique est visible

également et correspond au deuxième maximum local, tandis que les harmo- niques supérieures ne sont généralement plus visibles. On peut noter que pour chaque cycle vocal, un pattern se répète dans les coefficients de la transformée en ondelettes.

Dans le plan des fr´equences instantan´ees, on peut voir le plateau stable

dans la bande de fr´equence entre 100Hz et 150Hz, dont la couleur correspond

(18)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−1

−0.5 0 0.5 1

signal de parole

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100

200

300 module de la TOC avec ω_cσ_t = 5

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 100

200

300 dérivée temporelle de la phase de la TOC avec ω_cσ_t=2.5

temps (s)

0.5 1 1.5

50 100 150 200 250 300

Fig. 3.17 – Signal synthétique avec modulations vocales : signal de parole, module et fréquence instantanée de la transformée en ondelettes

50 100 150 200 250 300

0 100 200 300

Signal de parole synthétique

fréquence instantanée (Hz)

Fig. 3.18 – Signal synthétique avec modulations vocales : fréquence instantanée en fonction de la fréquence centrale des ondelettes.

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

120 120.5 121 121.5 122

temps (en s)

Hz

Fréquence phonatoire

Fig. 3.19 – Signal synth´etique avec modulations vocales : fr´equence phonatoire

estimée par la méthode à deux TOC.

(19)

à la fréquence phonatoire. On peut voir ce plateau également sur la figure 3.18 qui montre la superposition, pour tous les instants, des courbes de fréquences instantanées en fonction de la fréquence centrale des ondelettes, c’est-à-dire le graphique des fréquences instantanées dont on a enlevé la variable tempo- relle. Le premier plateau correspond à la fréquence fondamentale, le deuxième

à la deuxième harmonique. Ce dernier est déjà moins net que le plateau de la fréquence fondamentale.

La fréquence phonatoire estimée pour le signal synthétique précédent est représentée sur la figure 3.19.

3.2.6.6 Evaluation de la m´ ethode ` a deux TOCs

La méthode à deux TOCs présente des caractéristiques similaires à celle de la méthode à une TOC : la fréquence de modulation est suivie correctement et l’amplitude de modulation est atténuée. Cependant, l’amplitude de modu- lation est nettement moins atténuée grˆ ace à l’utilisation de la deuxième TOC avec un support temporel plus court. Nous présentons ici les résultats concer- nant l’atténuation de l’amplitude de modulation pour des signaux de parole synthétiques.

La fr´equence de la source est donn´ee par :

f

ref

(t) = f

moy

. [1 + A

M,ref

. cos (2πF

M,ref

t)] , (3.11) o` u s(t), f

ref

, f

moy

, A

M,ref

et F

M,ref

sont respectivement le signal synthétique, la fréquence de référence, la fréquence moyenne du signal, l’amplitude de mo- dulation et la fréquence de modulation.

0 2 4 6 8 10 12 14 16 18 20

0.85 0.9 0.95 1

fréquence de modulation (Hz) Rapport d’amplitude de modulation estimée−sur−référence

50Hz 100Hz 200Hz 300Hz

Fig. 3.20 – Méthode à deux TOCs : rapport amplitude de modulation estimée- sur-référence en fonction de la fréquence de modulation, pour des signaux de parole synthétiques avec différentes valeurs de f

moy

(50Hz `a 300Hz).

La figure 3.20 montre le rapport de l’amplitude de modulation estim´ee-sur-

référence en fonction de la fréquence de modulation pour différentes valeurs de

f

moy

, pour la m´ethode `a deux TOC. On voit que le rapport amplitude de mo-

dulation estimée-sur-référence diminue avec l’augmentation de la fréquence de

modulation et avec la diminution de la fr´equence phonatoire moyenne. Ces ca-

ractéristiques sont les mêmes que celles obtenues pour des signaux synthétiques

(20)

pseudo-sinuso¨ıdaux pour la m´ethode `a une TOC avec ω

c

σ

t

= 2.5. L’avantage de la méthode à deux TOCs est qu’elle est capable de traiter aussi des signaux de parole réels.

3.3 Comparaison des m´ ethodes d’estimation de F 0

Dans cette section, les m´ethodes d’estimation de F

0

présentées ci-dessus sont comparées, afin de déterminer laquelle est la plus adaptée pour l’analyse des modulations basse-fréquence de F

0

. ´ Etant donné que la méthode basée sur la détection d’évènements diffère fortement des autres, nous la traitons séparément.

La comparaison des méthodes est donc composée de deux parties. Une première consiste à comparer la méthode à deux TOCs avec la méthode basée sur la détection d’évènements. Ensuite nous comparons les méthodes basées sur une analyse à court terme et sur la fréquence instantanée.

3.3.1 TOC ou d´ etection d’´ ev` enements

Dans cette sous-section, nous comparons la m´ethode d’estimation de F

0

à deux TOCs avec la méthode basée sur la détection d’évènements présentée à la section 3.2.3.

Ces deux types d’algorithmes diffèrent principalement sur trois points : le pas d’échantillonnage constant ou variable des résultats, la sensibilité aux variations cycle-à-cycle et la fiabilité des résultats obtenus.

– Echantillonnage des r´ esultats : Pour la méthode basée sur la détection d’événements, le résultat est une série temporelle de durées de cycles. Le pas d’échantillonnage de celle-ci est intrinsèquement variable. Il faut donc interpoler et rééchantillonner le signal de fréquence phonatoire avant de pouvoir analyser son spectre. Ceci n’est pas nécessaire pour les méthodes basées sur des analyses à court terme.

– Sensibilit´ e aux variations cycle ` a cycle : La méthode basée sur la détection d’événements est sensible au jitter, c’est-à-dire aux variations cycle-à- cycle de la fréquence phonatoire. Le jitter n’est pas per¸cu par les autres méthodes car un moyennage apparaˆıt sur la durée du signal utilisée dans le calcul de chaque valeur de fréquence phonatoire, durée plus longue qu’un cycle vocal. La figure 3.21 (a) montre un signal de parole d’un locuteur normophonique et la fréquence phonatoire obtenue pour la méthode de détection d’événements et la méthode développée. On voit que les résultats ont une allure globale semblable, mais avec plus de petites variations ra- pides pour la méthode de détection d’événements.

– Fiabilit´ e : La méthode basée sur la détection d’événements présente des

problèmes de fiabilité. Ils sont illustrés à la figure 3.21 (b) pour un signal

de parole d’un locuteur parkinsonien. La figure montre le signal de parole,

la fréquence phonatoire estimée par la méthode basée sur la détection

d’évènements et la méthode à deux TOCs. On voit que les résultats obte-

nus par la méthode basée sur la détection d’évènements sont plus perturbés

que les résultats obtenus par la méthode à deux TOCs.

(21)

Dans notre application, le manque de sensibilité au jitter vocal n’est pas un problème car nous ne nous intéressons qu’aux variations lentes de la fréquence phonatoire. D’autre part, l’échantillonnage à pas constant est souhaitable et la fiabilité est un critère important pour que les méthodes d’analyse développées puissent être utilisées pour des locuteurs pathologiques. Nous préférons donc ne pas utiliser de méthode basée sur la détection d’événements.

0.4 0.42 0.44 0.46 0.48 0.5

temps (s)

Signal de parole

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

122 124 126 128

temps (s)

Fréquence phonatoire (Hz)

détection d’évènements méthode à 2 TOCs

(a) Locuteur normophonique

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

110 120 130 140 150

temps (s) F0 (Hz)

0.3 0.32 0.34 0.36 0.38 0.4 0.42

−0.1

−0.05 0 0.05 0.1 0.15

temps (s)

Signal de parole

détection d’évènements méthode à 2 TOCs

(b) Locuteur parkinsonien

Fig. 3.21 – Signal de parole et fréquence phonatoire estimée par les méthodes basées sur la détection d’évènements ou sur deux TOCs, pour un locuteur témoin et un locuteur parkinsonien.

3.3.2 Analyse ` a court-terme ou fr´ equence instantan´ ee

Dans cette sous-section, nous comparons quatre m´ethodes d’estimation de la

fréquence phonatoire basées sur une analyse à court-terme ou sur la fréquence

(22)

instantan´ee :

1. la méthode CC du logiciel PRAAT [9], qui est basée sur une analyse à court-terme (sous-section 3.2.4),

2. la méthode basée sur une transformée de Hilbert [99] (sous-section 3.2.5.1), 3. la méthode TEMPO [51], qui est basée sur une transformée en ondelettes

et une analyse des points fixes (sous-section 3.2.5.2), 4. la m´ethode `a deux TOCs (sous-section 3.2.6).

Nous comparons d’abord ces quatre méthodes sur des signaux de parole synthétiques, puis les deux meilleures méthodes sont comparées pour des signaux de parole réels.

3.3.2.1 Voyelles synth´ etiques

La fréquence de modulation est estimée correctement par les quatre mé- thodes, et nous ne nous intéressons donc par la suite qu’à l’estimation de l’amplitude de modulation. La figure 3.22 montre le rapport d’amplitude de modulation estimée-sur-référence en fonction de la fréquence de modulation pour les quatre méthodes d’estimation de F

0

, pour des signaux synth´etiques de fr´equence phonatoire moyenne ¯ F

0

= 100Hz et 300Hz. On voit que l’ampli- tude de la modulation est sous-estimée pour toutes les méthodes, sauf pour la méthode basée sur la transformée de Hilbert. Pour cette dernière, il y a une faible atténuation dépendant des caractéristiques du filtre d’isolation de la com- posante fondamentale du signal. Pour les trois autre méthodes, l’atténuation augmente avec la fréquence de modulation et diminue lorsque la fréquence pho- natoire moyenne augmente. L’explication de ce phénomène est la même que celle décrite précédemment pour la méthode à deux TOCs : plus la durée de cycle de la perturbation est courte par rapport à la durée effective des ondelettes ou de la fenêtre d’analyse, plus la perturbation est moyennée et plus elle est atténuée.

0 2 4 6 8 10 12 14 16 18 20

0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1

fréquence de modulation (Hz) rapport d’amplitude de modulation estimée−sur−référence

TEMPO, 100Hz PRAAT, 100Hz TOC, 100Hz PRAAT, 300Hz TEMPO, 300Hz

TOC, 300Hz Hilbert

TOC 100Hz TOC 300Hz PRAAT 100Hz PRAAT 300Hz TEMPO 100Hz TEMPO 300Hz Hilbert

Fig. 3.22 – Signaux de parole synth´etiques : Rapport d’amplitude de modu-

lation estimée-sur-référence en fonction de la fréquence de modulation, pour

F ¯

0

= 100Hz et 300Hz, pour diff´erences m´ethodes d’estimation de F

0

(m´ethode

CC de P RAAT : lignes pointillées, T EM P O : lignes entrecoupées, méthode

développée : lignes pleines, méthode basée sur la transformée de Hilbert : lignes

pointill´ees-entrecoup´ees).

(23)

Pour la m´ethode CC de PRAAT, la fr´equence phonatoire minimale est de 75Hz.

Si ce paramètre, qui fixe la longueur de la fenêtre, a une valeur plus basse, les résultats se dégradent fortement.

La figure 3.22 suggère que la méthode développée suit les variations de F

0

de fa¸con plus précise que les méthodes T EM P O et P RAAT , et est donc plus ap- propriée pour étudier les modulations de F

0

. Les amplitudes de modulation sont sous-estimées lorsque la fréquence de modulation est élevée, mais l’atténuation est faible dans l’intervalle de fréquence que nous voulons étudier, c’est-à-dire [3 − 15Hz]. Par exemple pour une fréquence phonatoire moyenne ¯ F

0

= 100Hz, l’atténuation d’amplitude d’une variation à 15Hz est inférieure à 7.5%.

3.3.2.2 Voyelles r´ eelles

L’analyse de la modulation de F

0

est destinée à une application dans le do- maine clinique. Des voix pathologiques seront analysées et leurs caractéristiques comparées à celles de voix de locuteurs sains. Il faut donc que les méthodes d’analyse soient fiables pour des signaux perturbés, comme ceux de locuteurs âgés et dysphoniques. Nous avons préféré la méthode basée sur les deux trans- formées en ondelettes pour les raisons exposées ci-dessous.

Les fréquences phonatoires obtenues par la méthode basée sur la transformée de Hilbert et la méthode développée sont quasi identiques pour des signaux de parole réels, avec un suivi légèrement meilleur des perturbations à haute fréquence pour la méthode basée sur la transformée de Hilbert. Cependant, cette méthode présente également les inconvénients suivants :

Primo, cette méthode nécessite une estimation préalable de la fréquence phonatoire moyenne. Elle repose donc sur un autre algorithme d’estimation de F

0

qui doit pouvoir analyser correctement des signaux de parole dysphoniques.

Secundo, elle nécessite un filtrage passe-bas qui doit isoler correctement la composante fondamentale, tout en suivant les variations de la fréquence phona- toire. Il y a un compromis entre la sélectivité du filtre, qui implique une longue réponse impulsionnelle, et sa capacité à suivre des variations rapides de F

0

, ce pour quoi une réponse impulsionnelle courte est plus appropriée. A cause de ce compromis, il arrive que la fréquence phonatoire estimée par la méthode basée sur la transformée de Hilbert soit erronée. Ceci est illustré par un exemple sur les figures 3.23 et 3.24, pour une voyelle [a] soutenue par un locuteur de 64 ans présentant de la diplophonie. Ces figures montrent la fréquence phonatoire estimée par la méthode développée et la méthode basée sur la transformée de Hilbert. La diplophonie apparaˆıt fréquemment chez des locuteurs ˆ agés et se caractérise par une irrégularité des durées de cycle vocaux, plus précisément une alternance entre deux cycles de formes et de durées différentes. Dans cet exemple, de la diplophonie est présente pendant les intervalles de temps 11 s

− 12.55 s et 12.7 s − 13.6 s. L’amplitude des oscillations dues `a la diplophonie

est faible parce que les fréquences phonatoires estimées ont été lissées lors du

filtrage passe-bas final. Aux instants 12.3 s, 12.9 s et 13.2 s, la fr´equence pho-

natoire estimée par la méthode basée sur la transformée de Hilbert présente des

pics aberrants. Ceci peut être expliqué par la présence de pics spectraux aux

multiples de F

0

/2 (Fig.3.23). Les pics spectraux aux fr´equences F

0

/2 et 3F

0

/2

auraient dˆ u être éliminés par le filtrage isolant la composante fondamentale du

(24)

signal. Idéalement le filtrage ne devrait pas altérer les bandes latérales du pic

`a la fr´equence de F

0

, qui contiennent l’information sur la modulation de F

0

. Il devient donc quasiment impossible de dimensionner un filtre qui permette à la fois de supprimer les pics fréquentiels indésirables et de ne pas modifier le pic à la fréquence fondamentale.

Par contre, dans la méthode à deux TOCs, le filtrage est adapté instan- tanément en fonction de F

0

. La méthode peut donc gérer ce genre de signaux et est préférée pour l’analyse des modulations de F

0

.

11 11.5 12 12.5 13 13.5 14

100 120 140 160 180 200

temps (s)

F0 (Hz)

0 50 100 150 200 250 300 350 400 450 500

fréquence (Hz) Hilbert

TOC

Fig. 3.23 – Signal de parole d’un locuteur de 64 ans présentant de la diplopho- nie : Fréquences phonatoires estimées par la méthode basée sur la transformée de Hilbert (trait entrecoupé) et par la méthode développée (trait plein) et spectre du signal.

13.12 13.14 13.16 13.18 13.2 13.22 13.24 13.26 13.28 13.3

−0.5 0 0.5

temps (s)

signal de parole

13.12 13.14 13.16 13.18 13.2 13.22 13.24 13.26 13.28 13.3 50

100 150 200

temps (s) F0 (Hz)

Hilbert TOC

Fig. 3.24 – Signal de parole d’un locuteur de 64 ans pr´esentant de la diplo-

phonie : Zoom sur le signal de parole et sur les fr´equences phonatoires estim´ees

par la méthode basée sur la transformée de Hilbert (trait entrecoupé) et par la

méthode développée (trait plein).

(25)

3.4 Indices de modulation de F 0

Dans la première partie de ce chapitre, nous avons examiné des méthodes permettant d’obtenir la trace de la fréquence phonatoire. Dans cette section, nous présentons les indices caractérisant la modulation basse-fréquence de la fréquence phonatoire.

Nous avons proposé d’étudier la modulation basse-fréquence de F

0

au moyen de plusieurs indices [16] :

1. l’amplitude de modulation, qui caract´erise la profondeur de la modula- tion dans l’intervalle fr´equentiel [f

min

, f

max

] par rapport `a la fr´equence phonatoire moyenne,

2. la fréquence de modulation, qui caractérise la répartition fréquentielle de l’énergie de la modulation dans la bande de fréquence [f

min

, f

max

].

Différences fa¸cons de calculer la fréquence de modulation ont été envi- sagées.

3. le rapport des ´energies de modulation aux basses fr´equences [f

min

, f

milieu

] et aux hautes fr´equences [f

milieu

, f

max

], qui caractérise également la répar- tition fréquentielle de l’énergie de la modulation.

Pour calculer les indices de modulation de la fréquence phonatoire, la trace de la fréquence phonatoire est préalablement estimée. Les indices de modula- tion sont ensuite obtenus à partir du spectre de puissance de la trace de la fréquence phonatoire. Ce spectre de puissance des modulations de la fréquence phonatoire est obtenu au moyen du carré du module d’une transformée en on- delettes continue, utilisant l’ondelette de Morlet complexe avec ω

c

σ

t

= 5. Ce choix du param`etre ω

c

σ

t

de l’ondelette-mère permet d’obtenir une bonne lo- calisation temporelle, sans avoir pour autant une dispersion fréquentielle trop importante. L’intérêt de la transformée en ondelettes est qu’elle donne une dis- tribution lisse de l’énergie de modulation pour chaque instant. Les limites des bandes de fréquences f

min

, f

milieu

et f

max

seront discut´ees dans le chapitre des r´esultats.

3.4.1 Soustraction de la tendance

Préalablement au calcul des indices de modulation, nous soustrayons la ten- dance à la fréquence phonatoire estimée. La raison en est que lorsque le locuteur qui prononce une voyelle soutenue n’arrive pas à maintenir sa fréquence phona- toire constante, des variations localisées très lentes de la fréquence phonatoire peuvent apparaˆıtre, à des fréquences inférieures à la bande de fréquence qui nous intéresse. L’effet de cette tendance sur le spectre de F

0

est de rajouter de l’énergie aux basses fréquences. Cet effet est d’autant plus marqué que la durée du phénomène est courte. Ces variations lentes sont modélisées par un polynˆ ome d’ordre faible, puis soustraites du signal. Nous avons implémenté l’algorithme de Yair et Gath [101].

3.4.2 Amplitude de modulation

Dans la litt´erature, on caract´erise l’amplitude de modulation de F

0