4.2 Estimation des fr´ equences des formants

(1)

Modulations li´ ees au conduit vocal

4.1 Introduction

Le deuxième type de modulations que nous étudions dans cette thèse concer- ne la forme du conduit vocal. Le conduit vocal est caractérisé par ses fréquences propres, dont les effets dans le signal de parole sont des maxima locaux dans l’enveloppe spectrale du signal de parole, appelés formants. La fréquence des for- mants dépend principalement de la forme du conduit vocal et des pertes, tandis que leur amplitude est influencée également par la forme du signal glottique.

C’est pourquoi nous nous intéressons uniquement aux variations de la fréquence des formants. Une autre fa¸con de caractériser le conduit vocal est de constituer un équivalent géométrique du conduit vocal à partir du signal de parole. Les caractéristiques de l’équivalent géométrique ainsi obtenu pourraient permettre une interprétation pseudo-anatomique du tremblement lié au conduit vocal.

4.2 Estimation des fr´ equences des formants

Le concept de formant peut être défini à plusieurs niveaux. De fa¸con globale, les formants sont les maxima locaux dans le contour du spectre du signal de parole, correspondant aux résonances du conduit vocal. De fa¸con plus précise, les formants peuvent être définis de deux fa¸cons : soit comme les maxima locaux observés dans le contour du spectre du signal de parole [10], soit comme les fréquences de résonance du conduit vocal qui engendrent ces maxima locaux lors de la production d’un son [23]. Ces définitions ne sont pas identiques car la forme du spectre du signal de parole est déterminée à la fois par la forme et les résonances du conduit vocal et par la forme du signal glottique. La première définition permet de prendre en compte le formant dit glottique, qui est un maximum local parfois présent aux basses fréquences dans le spectre du signal vocal, et qui est lié à la forme du signal glottique.

79

(2)

La forme du conduit vocal et par conséquent ses fréquences de résonance varient dans le temps. Il y a d’une part des variations liées aux mouvements des articulateurs. D’autre part, des variations apparaissent au rythme du cycle glottique, suite au mouvement des cordes vocales [80]. En effet, les cordes vo- cales oscillent entre une phase fermée et une phase ouverte, ce qui modifie les caractéristiques du système. Lorsque la glotte est fermée, il n’y a pas d’excita- tion et le conduit vocal s’étend depuis la glotte jusqu’aux lèvres. Par contre, lorsque la glotte est ouverte, il y a un apport d’air provenant des poumons, et la cavité subglottique intervient également dans le conduit vocal. De plus, le flux d’air traversant la glotte varie au cours de la phase ouverte. Les résonances propres du conduit vocal seront donc différentes dans les deux phases. Notons que la phase fermée peut être très courte, voire inexistante, notamment pour des signaux de parole avec une fréquence phonatoire élevée ou présentant une béance glottique. Au cours de la phase fermée, l’énergie des formants s’atténue

à cause de pertes dues notamment à la vibration des parois du conduit vocal, à la conduction thermique et à la viscosité de l’air.

Pendant la phase fermée de la glotte, pour des voyelles, les fréquences des formants sont clairement définies car le conduit vocal est quasi-stationnaire et qu’il n’y a pas d’excitation. L’interprétation des fréquences des formants est plus difficile pour la phase ouverte o` u la forme du débit glottique est inconnue et o` u les caractéristiques du conduit vocal varient dans le temps. C’est pourquoi, dans le cadre de cette thèse, nous cherchons à estimer les fréquences des formants pendant la phase fermée de la glotte.

Les arguments suivants vont influencer le choix de la m´ethode utilis´ee pour l’analyse du tremblement vocal :

– La méthode de détection doit donner des formants stables en l’absence de tremblement. Une erreur systématique est donc acceptable, tant que les variations des formants dues au tremblement vocal sont mesurées cor- rectement. Pour atteindre cet objectif, l’analyse doit être synchrone par rapport au cycle glottique.

– Pour avoir la meilleure sensibilité aux variations de fréquence des formants, il faut que les fenêtres d’analyses soient les plus courtes possibles.

– Pour obtenir une bonne fiabilité sur l’extraction des formants, il faut que les fenêtres d’analyse ne soient pas trop courtes, ou du moins que leur positionnement soit calculé de fa¸con optimale.

4.2.1 Etudes ant´ ´ erieures

Il existe de nombreuses m´ethodes d’estimation des fr´equences des formants.

Les méthodes classiques sont basées sur l’analyse par prédiction linéaire (LPC) [65, 66] ou sur le cepstre [83]. Il existe également des méthodes basées sur l’ana- lyse par synthèse [94]. Les formants sont généralement estimés sur des fenêtres incluant plusieurs cycles glottiques et la précision des fréquences des formants estimées n’est pas primordiale.

Afin d’améliorer la précision des estimations des fréquences des formants,

on peut choisir des fenêtres d’analyse dont la longueur est égale à un nombre

entier de cycles glottiques et dont la position est synchronis´ee par rapport au

cycle glottique. Ceci permet de minimiser l’effet des variations des fr´equences

(3)

des formants au cours de chaque cycle glottique. Des m´ethodes de ce type ont

été implémentées en utilisant par exemple la prédiction linéaire [29]. Wempe a développé une méthode basée sur la corrélation du signal vocal de chaque cycle glottique avec une sinuso¨ıde décroissante tronquée [90].

Afin d’éliminer le moyennage des variations des formants au cours du cycle glottique, certaines méthodes effectuent une analyse uniquement sur la phase fermée ou ouverte de la glotte. La fenêtre d’analyse est alors plus courte que le cycle glottique. Ce principe a été utilisé avec une analyse par prédiction linéaire de portions de cycles par Wood et al. [100], ainsi que par Yegnanarayana et Veldhuis [102]. Azami et Schoentgen ont utilisé un modèle auto-régressif com- posé permettant de calculer un filtre de prédiction pour les phases ouvertes de la glotte et un deuxième filtre de prédiction pour les phases fermées [5]. Rao et Das Barman ont développé une méthode basée sur la fréquence instantanée du signal filtré autour des formants [80]. Ces méthodes sont décrites ci-dessous et sont résumées dans le tableau 4.1.

Wood et al. [100] ont détecté les instants d’ouverture et de fermeture de la glotte à partir d’un électroglottographe ou à partir du signal acoustique.

Deux durées de la fenêtre d’analyse ont été envisagées : 2 ms ou 30% de la durée du cycle glottique. Les fréquences des formants ont été calculées sur des fenêtres positionnées après l’instant de fermeture glottique, par la recherche des pˆ oles du modèle LPC calculé par la méthode de covariance. Ces méthodes ont

été comparées à une analyse avec des fenêtres d’une durée de 20 ms avec un décalage de 10 ms, et à une analyse avec une durée des fenêtres égale à la durée du cycle glottique. Les résultats ont montré que l’analyse sur la phase fermée permet d’éviter que les fréquences estimées des formants soient attirées par les harmoniques de la fréquence phonatoire. La durée de fenêtre fixe de 2 ms donne des résultats légèrements meilleurs que la fenêtre de 30% de la durée de cycle.

Enfin, les résultats obtenus en détectant la phase glottique fermée à partir de l’électroglottographe sont meilleurs que lorsque la phase fermée est déterminée

à partir du signal vocal. L’inconvénient de l’utilisation de l’électroglottographe est que cela nécessite de l’instrumentation supplémentaire, que le délai entre le signal de l’électroglottographe et le signal de parole est difficile à estimer, et que les résultats de l’électroglottographie dépendent des caractéristiques du cou du locuteur et ne sont pas exploitables pour tous les locuteurs.

Yegnanarayana et Veldhuis ont détecté les instants de fermeture glottique sur base du délai de groupe du signal de parole [102]. Ils ont estimé les fréquences et largeurs de bande des formants au moyen du modèle LPC calculé par la méthode de la covariance pour des fenêtres de durée fixe (2.5 ms, 5 ms ou 10 ms) positionnées juste avant ou juste après l’instant de fermeture glottique.

Afin d’éviter des omissions de formants, les phases fermées ou ouvertes de trois cycles successifs sont utilisées pour le calcul du modèle LPC. Ils ont souligné l’importance du positionnement de la fenêtre toujours au même moment du cycle vocal.

Azami et Schoentgen ont développé une méthode basée sur un modèle auto-

régressif composé [5]. Elle consiste à calculer, pour chaque fenêtre d’analyse,

deux modèles de prédiction linéaire distincts pour les portions de signal appar-

tenant aux phases ouvertes ou fermées de la glotte. La résolution des équations

des modèles de prédiction linéaire est effectué par la méthode de covariance ou

(4)

par décomposition en valeurs singulières. Le découpage du signal est effectué au moyen d’un signal auxiliaire oscillant à la fréquence fondamentale du signal de parole : on utilise un seuil d’amplitude du signal auxiliaire permettant de séparer chaque cycle en deux parties, selon que le signal soit plus grand ou plus petit que le seuil. On utilise également un décalage du signal auxiliaire par rap- port au signal de parole. Le signal auxiliaire peut être le laryngogramme ou le signal de parole filtré passe-bas sous la deuxième harmonique de la fréquence phonatoire. Les paramètres de seuil et de décalage sont optimisés en minimisant l’erreur totale de prédiction normalisée. Cette méthode a l’avantage de ne pas nécessiter de synchronisation explicite de la fenêtre d’analyse par rapport aux cycles glottiques.

Rao et Das Barman [80] ont estimé les fréquences des formants sur base de la fréquence instantanée obtenue par la distribution de Wigner-Ville du signal de parole préalablement filtré autour des fréquences approximatives des for- mants. Des filtres de Gabor ont été utilisés, avec une bande passante de 450 Hz afin de supprimer suffisamment l’effet des formants voisins. La durée effective de la fenêtre sur laquelle est calculée la fréquence instantanée était de 0.5ms, 1ms ou 2ms. Des tests ont été effectués sur des signaux synthétiques obtenus par le passage d’un train d’ondes données par un modèle de Fant [27] dans un filtre du second ordre dont la fréquence de résonance est constante ou variable linéairement, auquel a été ajouté du bruit blanc gaussien avec différents rapports signal-à-bruit. Leurs conclusions sont que la fréquence de formant détectée cor- respond à la consigne synthétique au milieu des phases ouverte et fermée. Une fenêtre d’analyse de 1 ms est un compromis entre un support temporel court et une sensibilité réduite au bruit. Pour des signaux avec plusieurs formants, les formants doivent être bien séparés pour pouvoir être estimés correctement.

Conclusions Les conclusions des études sur l’estimation des fréquences des formants avec une fenêtre d’analyse plus courte que le cycle glottique sont que la position et la durée de la fenêtre d’analyse doivent être choisies avec beaucoup de précautions. Les fréquences estimées des formants diffèrent fortement selon la position de la fenêtre d’analyse dans le cycle glottique, il faut donc veiller à positionner la fenêtre toujours au même endroit du cycle glottique.

Dans le cadre de ce travail, nous avons implémenté la méthode basée sur un

modèle auto-régressif composé développée par Azami et Schoentgen [5]. Ensuite,

nous avons développé une méthode basée sur la transformée en ondelettes du

signal de parole, dont les principes de base sont proches de la m´ethode bas´ee

sur la fréquence instantanée développée par Rao et Das Barman [80].

(5)

E ST IM A T ION D E S F R ´E QU E N C E S D E S F OR M A N T S 83

Auteurs M´ethode Portion du Fenˆetres Conclusions

de calcul signal analys´ee

Wood et

al. [100]

Mod`ele LPC (covariance)

phase ferm´ee 2 ms ou 30% du cycle glottique

(1) Mesure moins attirée par les harmoniques de la fréquence phonatoire qu’avec des fenêtres de 20 ms ou des fenêtre de durée du cycle glottique.

(2) Meilleure d´etection des instants de fermeture glottique avec l’´electroglottogramme, lorsqu’il est utilisable.

Yegnanarayana Modèle LPC Phases ouverte 2.5ms, 5ms (1) Importance du positionnement de la fenêtre entièrement dans la phase analysée.

et Veldhuis (covariance) sur un ou trois

et fermée ou 10ms (2) Analyse synchrone plus précise qu’analyse avec des fenêtres régulièrement espacées.

[102] intervalles (3) Analyse dans la phase ferm´ee plus fiable que dans la phase

ouverte.

(4) Difficulté de détection des instants d’excitation en présence de bruit additif supérieur à 40dB.

Azami et deux mod`eles Fenˆetre de 25ms - (1) Synchronisation implicite.

Schoentgen [5] LPC multi- intervalles

Rao et Das fréquence calcul continu 0.5ms, 1ms (1) Bonne détection au milieu des phases ouverte et fermée.

Barman [80] instantan´ee ou 2ms (2) Le meilleur choix pour la fenˆetre d’analyse est de 1 ms.

(3) Formants estimés correctement s’ils sont bien séparés.

Tab. 4.1 – M´ethodes existantes d’estimation des fr´equences des formants.

(6)

4.2.2 M´ ethode bas´ ee sur un mod` ele auto-r´ egressif com- pos´ e

Nous avons implémenté la méthode développée par Azami et Schoentgen basée sur un modèle auto-régressif composé [5]. Un modèle de prédiction est cal- culé pour les phases glottiques ouvertes et un second pour les phases glottiques fermées. Ce sont les fréquences des formants obtenus dans les phases fermées qui nous intéressent. Le découpage de la fenêtre d’analyse en phases ouvertes et fermées est obtenue au moyen d’un signal auxiliaire pseudo-sinuso¨ıdal. Un paramètre de seuil est utilisé pour séparer les intervalles o` u le signal auxiliaire est supérieur ou inférieur au seuil, et un paramètre de décalage est utilisé pour décaler ces intervalles par rapport au signal de parole. Les modèles de prédiction sont estimés pour les deux séries d’intervalles et l’erreur de prédiction norma- lisée est calculée. Les paramètres optimaux de seuil et de décalage sont obtenus en minimisant l’erreur de prédiction normalisée. Nous avons testé la minimi- sation de différentes combinaisons des erreurs de prédiction des deux modèles.

L’application de cette méthode à des signaux de parole réels a montré qu’il peut exister différents couples (seuil, décalage) optimaux localement qui ap- paraissent ou disparaissent au cours du temps et qui donnent des valeurs de fréquences de formants sensiblement différentes. Ceci est illustré à la figure 4.1.

La figure 4.1 (a) montre le signal de parole, le signal auxiliaire et les limites des phases ouvertes et fermées estimées, ainsi que l’erreur de prédiction obtenue par le modèle. La figure 4.1 (b) montre l’énergie de l’erreur de prédiction en fonction du seuil r et du décalage d. On voit que l’erreur de prédiction présente des valeurs faibles (en bleu sur le graphique) le long d’un creux périodique en fonction du décalage, la période correspondant à la durée du cycle glottique. Ce creux n’a pas des pentes lisses et présente plusieurs minima locaux. Les résultats peuvent donc osciller entre ces minima locaux, et l’évolution des paramètres du modèle LPC de la phase fermée n’est pas douce, et par conséquent l’évolution des fréquences des formants non plus. Nous avons envisagé la minimisation de différentes combinaisons des erreurs de prédiction des deux modèles :

– la somme des carrés des erreurs de prédiction sur toute la durée de la fenêtre,

– la somme des carrés des erreurs de prédiction pondérées par la longueur de la phase correspondante,

– la somme des carrés des erreurs de prédiction pondérées par l’énergie du signal dans la phase correspondante.

Le problème présenté ci-dessus n’a pu être résolu avec aucune de ces combinai- sons d’erreurs.

Cette méthode a donc été rejetée dans le cadre de ce travail car, même en

l’absence de perturbations, elle ne permet pas d’obtenir des r´esultats suffisam-

ment pr´ecis et stables pour une analyse fine des variations des fr´equences des

formants.

(7)

0 50 100 150 200 250

−1

−0.5 0 0.5 1

0 50 100 150 200 250

−0.02

−0.01 0 0.01 0.02 0.03

erreur

temps (échantillons)

limites des phases signal de parole signal auxiliaire

(a) Signal de parole, signal auxiliaire, décomposition en phases ouvertes et fermées et erreur de prédiction.

seuil r

décalage d (échantillons)

erreurs de prédiction

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8

−100

−50

0

50

100

0.6 0.62 0.64 0.66 0.68 0.7 0.72 0.74 0.76 0.78 0.8

(b) Erreur de prédiction sur la fenêtre en fonction des paramètres de seuil r et de décalage d.

Fig. 4.1 – Estimation des formants basée sur un modèle auto-régressif composé.

(8)

4.2.3 M´ ethode bas´ ee sur la transform´ ee en ondelettes

Au cours de cette thèse, nous avons développé une méthode d’estimation des fréquences des formants basée sur la fréquence instantanée obtenue au moyen d’une transformée en ondelettes continue [17]. La première partie de cette méthode est proche de la méthode de Rao et Das Barman [80], qui es- timent la fréquence instantanée des formants pour chaque échantillon temporel du signal. Dans le cadre de ce travail, nous désirons suivre les fréquences des formants uniquement dans la phase fermée de la glotte. Pour atteindre ce but, notre méthode comporte une deuxième partie dans laquelle la fréquence instan- tanée des formants est échantillonnée dans la phase fermée de la glotte.

La sous-section 4.2.3.1 présente le principe d’estimation de la fréquence des formants, la sous-section 4.2.3.2 justifie le choix des paramètres de l’analyse et la sous-section 4.2.3.3 résume l’algorithme. Les performances de la méthode pour l’estimation des fréquences des formants de signaux synthétiques sont présentées

`a la sous-section 4.2.3.4.

Signaux synth´ etiques Des signaux synthétiques sont utilisés pour illustrer l’estimation des formants, justifier le choix des paramètres et montrer les perfor- mances de la méthode. Ces signaux synthétiques sont basés sur un modèle source - filtre. Le signal de source est donné par la dérivée temporelle du modèle de débit glottique de Liljencrants et Fant [27]. Les paramètres du modèle de source sont les suivants : phase ouverte relative = 0.4, réciproque de la valeur du pic négatif = 0.1, et phase de fermeture / phase ouverte = 0.2.

Le conduit est obtenu par une cascade de cinq filtres IIR du second ordre variables dans le temps, modélisant chacun un formant. Sauf mention contraire, nous avons utilisé les valeurs suivantes pour les fréquences des formants : F1 = 700Hz, F2 = 1100Hz, F3 = 2500Hz, F4 = 3500Hz, F5 = 4200Hz. Ces valeurs sont de l’ordre de celles obtenues par analyse LPC d’une voyelle [a].

Pour modéliser l’interaction entre la source et le conduit vocal, la bande passante des formants est modulée de fa¸con synchrone avec la source. Deux valeurs différentes de bandes passantes caractérisent donc la phase ouverte et la phase fermée de la glotte : 150Hz pour la phase ouverte et 100Hz pour la phase fermée.

4.2.3.1 Principe

Comme nous l’avons vu au chapitre 2, la fréquence instantanée peut être

interprétée lorsque le signal analysé est à bande étroite. Il faut donc que les

ondelettes dont la fr´equence centrale est proche de la fr´equence de chaque for-

mant parviennent à isoler une composante unique du signal à la fréquence du

formant. Pour arriver `a satisfaire cette exigence, il faut que la dur´ee effective

de ces ondelettes soit plus courte que la dur´ee du cycle glottique, afin d’´eviter

que les valeurs significatives du spectre ne se concentrent dans les harmoniques

de la fréquence phonatoire. De plus, étant donné qu’on s’attend à une variation

des fr´equences de r´esonances du conduit vocal au cours du cycle glottique, une

durée effective d’ondelette inférieure à la durée de cycle glottique peut également

permettre d’observer ces variations.

(9)

Rao et Das Barman ont montré que la fréquence instantanée ne donne une estimation fiable de la fréquence des formants que lorsque l’ondelette se trouve dans la phase fermée ou dans la phase ouverte de la glotte et qu’entre ces deux situations, les valeurs sont erronées [80]. Par conséquent, il n’est pas pos- sible d’estimer la fréquence des formants pour chaque instant et elle doit être

échantillonnée une fois par cycle pour que ses variations au cours du temps puissent être étudiées. La méthode d’analyse doit donc également être capable d’estimer l’instant d’échantillonnage optimal dans chaque cycle glottique.

Dans le cadre de ce travail, nous avons décider d’adapter les paramètres d’analyse pour chaque formant, contrairement à Yegnanarayana et Veldhuis qui choisissent la durée de la fenêtre a priori et la positionne dans chaque cycle glottique [102]. Dans la méthode développée ici, la durée effective de l’ondelette et le paramètre de l’ondelette-mère sont différents pour chaque formant. Les fréquences des formants sont donc estimées sur des portions différentes du signal.

L’algorithme développé au cours de ce travail est divisé en deux étapes : l’estimation des fréquences instantanées des formants et l’échantillonnage de ces fréquences instantanées une fois par cycle glottique. Ces deux parties sont basées sur les informations obtenues par transformées en ondelettes du signal.

L’ondelette-mère utilisée est l’ondelette de Morlet complexe, qui permet d’opti- miser la résolution dans le plan temps-fréquence. Les figures 4.2 à 4.7 illustrent

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 temps (s)

Fig. 4.2 – Voyelle [a].

le principe de la m´ethode. Sur les figures 4.2 et 4.3, on voit une voyelle [a]

réelle de fréquence phonatoire proche de 140Hz, ainsi que son spectre LPC. On distingue les trois premiers formants situés à des fréquences voisines de 700Hz, 1200Hz et 2500Hz sur le spectre de la réponse impulsionnelle du filtre LPC.

La figure 4.4 montre le module et la fréquence instantanée de la transformée en ondelettes du signal, pour le paramètre ω

c

σ

t

= 10 de l’ondelette de Morlet.

Pour chaque instant, la fréquence instantanée de chaque formant est estimée

par la fréquence instantanée correspondant à l’ondelette pour laquelle le mo-

dule de la transform´ee en ondelette est maximal dans une bande de fr´equence

autour de la fréquence du formant estimée préalablement au moyen des racines

du polynˆ ome de prédiction LPC du signal [66]. Ceci est illustré à la figure 4.5 qui

montre une coupe pour un instant du module et de la fr´equence instantan´ee de la

transform´ee en ondelettes, ainsi que la d´etection des maxima du module et l’es-

timation de la fréquence instantanée correspondante. Le module et la fréquence

instantanée de la TOC correspondants donnent l’énergie et la fréquence instan-

tanée des formants. On peut améliorer l’estimation des fréquences instantanées

(10)

0 500 1000 1500 2000 2500 3000

−10

−5 0 5 10 15 20 25

fréquence (Hz)

Fig. 4.3 – Spectre LPC de la voyelle [a] de la figure 4.2.

des formants en optimisant le param`etre de l’ondelette de Morlet pour chaque formant comme le montre la figure 4.6.

La figure 4.7 illustre l’échantillonnage de la fréquence instantanée des for- mants. Elle montre la transformée en ondelettes du signal de parole pour ω

c

σ

t

= 4.5, ainsi que les fréquences instantanées des trois formants. Sur le tracé des fréquences instantanées des formants, des diamants cyans marquent les instants d’échantillonnage pour chaque cycle glottique. Les instants d’échantillonnages sont déterminés de la fa¸con suivante. Etant donné que toute l’énergie du signal de parole est fournie par les bouffées d’air passant dans la glotte pendant que celle- ci est ouverte, l’énergie de la transformée en ondelette présente un maximum à la fermeture des cordes vocales. Pendant la phase fermée de la glotte, l’énergie du signal diminue à cause des pertes. Pendant la phase fermée, le conduit vocal est uniquement supra-glottique et sa longueur ne varie pas significativement, les mouvements des articulateurs et leur tremblement étant négligeables pour cet intervalle de temps. La détection du maximum d’énergie de la transformée en ondelette a été utilisée dans la littérature pour déterminer la fermeture glottique en vue de l’estimation de la fréquence phonatoire [50] ou pour la synchronisa- tion de fenêtres d’analyse des formants sur le cycle glottique [80]. Ici, nous

échantillonnons les fréquences instantanées des formants légèrement après le

maximum d’énergie instantanée du formant, afin que la fenêtre effective d’ana-

lyse se situe enti`erement dans la phase ferm´ee de la glotte.

(11)

temps (s)

Fréquence (Hz)

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 500

1000 1500 2000 2500 3000

(a) Module

temps (s)

fréquence (Hz)

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 500

1000 1500 2000 2500 3000

500 1000 1500 2000 2500

(b) Fr´equence instantan´ee

Fig. 4.4 – Transform´ee en ondelettes du signal de la figure 4.2, avec le param`etre ω

c

σ

t

= 10.

500 1000 1500 2000 2500 3000

Amplitude

500 1000 1500 2000 2500 3000

Fréquence centrale de l’ondelette (Hz)

Fréquence instantanée (Hz)

Fig. 4.5 – Estimation des fr´equences instantan´ees des formants pour le signal

de la figure 4.2, avec le param`etre ω

c

σ

t

= 8.

(12)

500 1000 1500 2000 2500 3000

Module

500 1000 1500 2000 2500 3000

(a) Premier formant,ω_cσ_t= 4.5

500 1000 1500 2000 2500 3000

Module

500 1000 1500 2000 2500 3000

(b) Deuxi`eme formant,ω_cσ_t= 8

500 1000 1500 2000 2500 3000

Module

500 1000 1500 2000 2500 3000

(c) Troisi`eme formant,ω_cσ_t= 10

Fig. 4.6 – Estimation des fréquences instantanées des formants pour le signal de la figure 4.2, avec une transformée en ondelettes optimisées pour chaque formant.

temps (Hz)

Fréquence (Hz)

0.05 0.055 0.06 0.065 0.07 0.075 0.08 0.085 0.09 0.095 0.1 500

1000 1500 2000 2500 3000

Fig. 4.7 – Transform´ee en ondelettes du signal pour ω

c

σ

t

= 4.5 et fr´equences

instantan´ees des trois premiers formants pour le signal de la figure 4.2. Les

diamants cyans marquent les instants d’´echantillonnage pour chaque cycle glot-

tique.

(13)

4.2.3.2 Choix des param` etres d’analyse

Pour estimer les fréquences des trois premiers formants, il y a trois séries de paramètres d’analyse à optimiser. Premièrement, on peut choisir la durée de l’ondelette-mère des TOCs pour chaque formant, ce qui fixe automatiquement la bande passante de l’ondelette-mère. Deuxièmement, on peut choisir l’instant par rapport auquel on synchronise l’échantillonnage dans chaque cycle glottique.

Enfin, on peut choisir le d´elai entre l’instant de synchronisation et l’instant d’´echantillonnage.

Pour gérer le temps et l’espace mémoire nécessaires au calcul, le signal est analysé par morceaux. Afin d’éviter des discontinuités aux jonctions de ces mor- ceaux, les paramètres de l’analyse devraient varier le moins possible au cours de l’analyse d’un signal. Idéalement, nous voudrions choisir des paramètres fixes.

Ceci permet d’éviter des discontinuités entre les fenêtres à paramètres constants.

De plus, les fréquences estimées des formants varient en fonction du délai et du paramètre de l’ondelette-mère, on pourrait donc introduire des variations para- sites dans les fréquences estimées des formants.

Etant donné que nous nous intéressons aux modulations des fréquences des formants et non à leurs valeurs moyennes, nos critères de choix de paramètres

à partir de signaux synthétiques visent à optimiser la détection des variations des fréquences des formants plutˆ ot qu’à retrouver les valeurs moyennes.

Instant de synchronisation Pour le choix de l’instant de synchronisation de chaque cycle glottique, on peut prendre un instant de référence unique ou différent pour chaque formants, basé sur l’énergie instantanée d’un formant ou d’une bande de fréquences. L’élément déterminant est la fiabilité de l’estimation de l’énergie instantanée des formants, pour tout type de locuteur.

Pour des signaux réels, l’énergie du signal se situe principalement dans les basses fréquences. Par conséquent, l’énergie du premier formant est la plus im- portant et également la plus fiable. La figure 4.8 illustre l’évolution de l’énergie instantanée des trois premiers formants pour un signal réel (locuteur RTM14), en amplitude absolue et normalisée par rapport à l’énergie maximale de chaque for- mant. Le graphique de l’énergie absolue permet d’observer que plus la fréquence du formant est élevée, plus son énergie est faible et son estimation sera sensible au bruit. Lorsque l’amplitude de l’énergie est normalisée, on voit que seul le pre- mier formant présente un pic unique par cycle vocal. Dans l’énergie du deuxième et du troisième formant, on n’arrive pas toujours à distinguer les pics correspon- dant à la fermeture glottique. Afin d’obtenir une méthode robuste au bruit, nous avons donc choisi un instant de synchronisation unique pour les trois formants, donné par les maxima d’énergie du premier formant.

Param` etre des ondelettes-m` ere Pour optimiser le choix du param`etre de l’ondelette de Morlet, il faut tenir compte de deux contraintes contradictoires.

D’une part, on voudrait que la dur´ee effective de l’ondelette soit longue,

pour que sa bande passante soit ´etroite. En effet, si la composante fr´equentielle

du formant n’est pas bien isol´ee, l’estimation de sa fr´equence au moyen de la

fréquence instantanée est perturbée par les formants voisins. Une durée effective

(14)

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

−0.2 0 0.2

temps (s)

Signal vocal

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.2 0.4

temps (s)

Energie des formants

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.5 1

temps (s) Energie des formants normalisée

F1 F2 F3

Fig. 4.8 – Synchronisation par rapport à l’énergie instantanée des formants : Signal de parole et énergies instantanées des formants absolues et normalisées par rapport à l’énergie maximale de chaque formant, pour un signal réel.

longue permet également une meilleure robustesse par rapport au bruit à haute- fréquence.

D’autre part, on voudrait que la durée effective soit courte, plus courte que la durée de cycle glottique pour ne pas avoir d’effet d’harmoniques de la fréquence phonatoire, ou plus courte encore pour mieux isoler la phase fermée du cycle glottique. Un compromis est choisi pour chaque formant séparément.

Dans cette section, nous d´efinissons la longueur effective de l’ondelette de Morlet complexe comme quatre fois l’´ecart-type σ

t

de l’enveloppe gaussienne de l’ondelette, et sa bande passante comme quatre fois l’´ecart-type σ

f

de l’enve- loppe gaussienne de sa transform´ee de Fourier.

La contrainte de dur´ee effective de l’ondelette L

ond

inférieure à la durée de cycle T

0

peut ˆetre exprim´e de la fa¸con suivante :

L

ond

< T

0

= 1 F

0

. (4.1)

On obtient la contrainte suivante pour le param`etre ω

c

σ

t

correspondant au calcul du formant F

i

:

4σ

t

< 1 F

0

(4.2) [ω

c

σ

t

]

_F_i

< π

2 F

i

F

0

(4.3)

La contrainte de bande passante suffisamment ´etroite pour supprimer les

composantes des autres formants peut ˆetre exprim´ee par 2 ∗ σ

f

< F 2 − F1.

(15)

La contrainte sur le param`etre ω

c

σ

t

de l’ondelette-m`ere utilis´ee pour estimer le formant F

i

par rapport `a la suppression du formant F

j

peut alors s’´ecrire de la fa¸con suivante :

2σ

f

< | F

i

− F

j

| (4.4)

1 πσ

t

< | F

i

− F

j

| (4.5)

[ω

c

σ

t

]

_F_i

> 2 F

i

| F

i

− F

j

| . (4.6)

Pour le premier formant, la contrainte de longueur effective de l’ondelette inférieure à la durée de cycle est prépondérante. Le tableau 4.2 montre les valeurs maximales du paramètre ω

c

σ

t

pour les valeurs extrˆemes de F

1

typiques pour la voyelle [a]. La condition la plus contraignante se produit lorsque la fréquence phonatoire est élevée et la fréquence du premier formant faible. Afin de tenir compte que l’ondelette devrait recouvrir uniquement la phase fermée du cycle glottique, nous avons choisi d’utiliser la valeur de [ω

c

σ

t

]

_F₁

= 4.5 pour tous les signaux.

F0 F1 [ω

c

σ

t

]

_max

100Hz 600Hz 3π ≈ 9.4 100Hz 800Hz 4π ≈ 12.6 200Hz 600Hz 1.5π ≈ 4.7 200Hz 800Hz 2π ≈ 6.3

Tab. 4.2 – Valeurs maximales du param`etre ω

c

σ

t

pour la contrainte de longueur effective de l’ondelette inférieur à la durée de cycle, pour des valeurs extrêmes de F

1

pour la voyelle [a].

Pour le deuxième formant, à la contrainte de longueur effective de l’ondelette inférieure à la durée de cycle glottique s’ajoute la contrainte d’une bande pas- sante suffisamment étroite pour supprimer l’effet du premier formant. Pour une valeur de F

2

de 1000Hz, ce qui est une valeur faible pour la voyelle [a], pour que la longueur effective de l’ondelette soit inférieure à la durée de cycle glottique, le paramètre ω

c

σ

t

doit être inférieur à 15.7 pour une fréquence phonatoire de 100Hz, et inférieur à 7.9 pour une fréquence phonatoire de 200Hz. Le tableau 4.3 montre les valeurs minimales du paramètre ω

c

σ

t

pour la contrainte de la bande passante suffisamment ´etroite pour supprimer l’effet du premier formant dont la fr´equence est de 800 Hz. Nous avons choisi d’utiliser une valeur de [ω

c

σ

t

]

_F₂

= 8 pour tous les signaux, ce qui est un compromis entre une ondelette suffisamment courte pour que l’ondelette soit plus courte que le cycle glottique, et suffisam- ment longue pour ´eliminer au mieux l’effet du premier formant et diminuer la sensibilit´e au bruit.

Pour le troisi`eme formant, pour une fr´equence phonatoire de 200 Hz et pour

une valeur de F

3

= 2200 Hz, qui est une valeur typique du troisi`eme formant

pour la voyelle [a], la contrainte de longueur effective de l’ondelette inf´erieure ` a

la dur´ee de cycle glottique impose que [ω

c

σ

t

]

_F₃

<

^π₂²²⁰⁰₂₀₀

≈ 17.2. La contrainte

sur la bande passante suffisamment ´etroite pour supprimer l’effet du deuxi`eme

formant impose que [ω

c

σ

t

]

_F₃

> 2

₂₂₀₀²²⁰⁰−1500

≈ 6.3, pour F

2

= 1500 Hz et F

3

=

(16)

F2 [ω

c

σ

t

]

_min

1000Hz 2.1000/200 = 10 1500Hz 2.1500/700 ≈ 4.3

Tab. 4.3 – Valeurs minimales du param`etre ω

c

σ

t

pour la contrainte de la bande passante suffisamment ´etroite pour supprimer l’effet du premier formant, pour F

1

= 800Hz, ce qui est une valeur élevée pour la voyelle [a], et pour des valeurs extrêmes de F

2

pour la voyelle [a].

2200 Hz. Nous avons choisi [ω

c

σ

t

]

_F₃

= 10 afin que l’ondelette pr´esente suffisam- ment d’oscillations pour r´esister au bruit.

D´ elai entre l’instant de synchronisation et l’instant d’´ echantillonnage Le délai temporel entre l’instant de synchronisation de chaque cycle glottique et l’instant d’échantillonnage détermine la position précise de l’échantillonnage dans le cycle glottique. Idéalement, l’ondelette devrait avoir une amplitude si- gnificative uniquement dans la phase fermée de la glotte. De plus, positionner l’analyse le plus près possible après l’instant de fermeture glottique permet de mieux détecter les formants dont l’atténuation est rapide.

0 0.5 1 1.5 2

2490 2500 2510

F3 (Hz)

moyenne

0 0.5 1 1.5 2

0 1 2 3

écart−type

0 0.5 1 1.5 2

950 1000 1050 1100 1150

F2 (Hz)

0 0.5 1 1.5 2

0 1 2 3

0 0.5 1 1.5 2

625 650 675 700 725

délai (ms)

F1 (Hz)

0 0.5 1 1.5 2

0 1 2 3

délai (ms) F0 = 97Hz F0 = 213Hz

Fig. 4.9 – Moyenne et écart-type des fréquences estimées des formants en fonc- tion du délai entre l’instant de synchronisation et l’instant d’échantillonnage.

La figure 4.9 montre la moyenne et l’écart-type des fréquences estimées des formants en fonction du délai entre l’instant de synchronisation et l’instant d’échantillonnage, pour des signaux synthétiques à formants constants. On voit que les fréquences estimées des formants ne présentent pas toujours de plateau clair permettant d’estimer facilement le délai optimal. Les fréquences estimées varient légèrement. Les écart-types de ces variations sont inférieurs à 1Hz, sauf dans l’estimation du deuxième formant du signal avec une fréquence phonatoire faible, pour des délais faibles. Une partie de ces variations peut être expliquée par le pas de calcul de la transformée en ondelettes qui est de 1Hz.

Dans le cadre de cette th`ese, nous d´esirons estimer les modulations des

fr´equences des formants. Il est donc plus important d’estimer correctement les

(17)

variations des fr´equences des formants que leurs valeurs moyennes.

Les figures 4.10 à 4.13 montrent l’évolution des fréquences estimées des for- mants en fonction du temps, pour plusieurs valeurs du délai entre l’instant de synchronisation et l’instant d’échantillonnage, pour des voyelles [a] synthétiques dont un formant varie sinuso¨ıdalement dans le temps, avec une amplitude de va- riation pic-à-pic de 20Hz. Les graphiques de gauche représentent les fréquences estimées des formants en fonction du temps, pour plusieurs valeurs du délai entre l’instant de synchronisation et l’instant d’échantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms). Les graphiques de droite représentent l’écart pic-à-pic des variations du formant variable, et les écart-types des varia- tions des formants fixes, en fonction du délai. Les résultats sont représentés en traits pleins pour F

0

= 97Hz et en traits pointill´es pour F

0

= 213Hz. On ob- serve que l’amplitude des variations des fréquences estimées des formants n’est pas identique pour tous les délais. Pour les deux signaux o` u le premier formant varie, les amplitudes de modulation se comportent de la même manière. On voit

également qu’il y a une légère variation qui apparaˆıt dans la fréquence estimée du deuxième formant lorsque la fréquence du premier formant varie, et vice versa.

Pour le premier formant, trouver un délai idéal est difficile, en particulier pour les fréquences phonatoires élevées o` u la longueur effective de l’ondelette avoisine la durée de cycle et o` u il est donc impossible d’isoler parfaitement la phase fermée de la glotte. Par exemple, pour un premier formant de 600 Hz, la durée effective de l’ondelette sera de 4σ

t

= 4

_2πF^4.5₁

≈ 4.8ms. Si la fr´equence phonatoire est de 100 Hz, la dur´ee effective de l’ondelette est approximativement

égale à la moitié du cycle glottique, tandis que pour une fréquence phonatoire de 200 Hz, elle est à peu près égale à la durée du cycle glottique qui est de 5 ms. Pour les fréquence phonatoires élevées, la durée effective de l’ondelette sera donc plus longue que la phase fermée et il y aura un moyennage de la fréquence du formant sur les phases fermées et ouvertes. L’enveloppe gaussienne de l’ondelette permet cependant de pondérer de fa¸con plus importante les échantillons centraux, ceux- ci doivent donc être positionnés de fa¸con optimale dans la phase fermée de la glotte. Nous avons choisi de faire varier le délai selon l’équation

d´elai

F1

= 1.2 − .003 ∗ (F 0

moy

− 100))ms. (4.7) Ce choix permet de rapprocher l’ondelette de l’instant de synchronisation pour des fréquences élevées du premier formant.

Pour le deuxième et le troisième formant, la durée effective de l’ondelette

est suffisamment courte par rapport `a la dur´ee de cycle pour que l’ondelette

ne d´epasse pas significativement dans le cycle suivant. Nous avons choisi une

valeur de 1.3 ms et 1 ms respectivement. Ces choix permettent d’obtenir des

estimations correctes de l’amplitude de modulation sur les figures 4.12 et 4.13.

(18)

0 0.1 0.2 0.3 0.4 2495

2500 2505

F3 (Hz)

0.8 1 1.2 1.4

0 0.5

écart−type

0 0.1 0.2 0.3 0.4

1060 1080 1100 1120

F2 (Hz)

0.8 1 1.2 1.4

0 1 2 3

écart−type

0 0.1 0.2 0.3 0.4

550 600 650 700

F1 (Hz)

temps (s)

0.8 1 1.2 1.4

0 10 20

écart pic−à−pic

délai (ms)

Fig. 4.10 – Voyelle [a] synthétique avec premier formant variable autour de 600Hz, avec une amplitude de variation pic-à-pic de 20Hz. Les graphiques de gauche représentent les fréquences estimées des formants en fonction du temps, pour plusieurs valeurs du délai entre l’instant de synchronisation et l’instant d’échantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms).

Les graphiques de droite représentent l’écart pic-à-pic des variations du premier formant, et les écart-types des variations des deuxième et troisième formants, en fonction du délai. Les résultats sont représentés en traits pleins pour F

0

= 97Hz et en traits pointill´es pour F

0

= 213Hz.

0 0.1 0.2 0.3 0.4

2495 2500 2505

F3 (Hz)

0.6 0.8 1 1.2 1.4

0 0.5

écart−type

0 0.1 0.2 0.3 0.4

1050 1100 1150

F2 (Hz)

0.6 0.8 1 1.2 1.4

0 1 2 3

écart−type

0 0.1 0.2 0.3 0.4

630 640 650 660

F1 (Hz)

temps (Hz)

0.6 0.8 1 1.2 1.4

0 10 20

délai (ms) écart pic−à−pic

Fig. 4.11 – Voyelle [a] synthétique avec premier formant variable autour de 650Hz, avec une amplitude de variation pic-à-pic de 20Hz. Les graphiques de gauche représentent les fréquences estimées des formants en fonction du temps, pour plusieurs valeurs du délai entre l’instant de synchronisation et l’instant d’échantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms).

Les graphiques de droite représentent l’écart pic-à-pic des variations du premier

formant, et les écart-types des variations des deuxième et troisième formants, en

fonction du délai. Les résultats sont représentés en traits pleins pour F

0

= 97Hz

et en traits pointill´es pour F

0

= 213Hz.

(19)

0 0.1 0.2 0.3 0.4 2495

2500 2505

F3 (Hz)

0.8 1 1.2 1.4

0 0.5

écart−type

0 0.1 0.2 0.3 0.4

1060 1080 1100 1120

F2 (Hz)

0.8 1 1.2 1.4

15 20 25

0 0.1 0.2 0.3 0.4

600 650

F1 (Hz)

temps (s)

0.8 1 1.2 1.4

0 0.5 1

écart−type

délai (ms)

Fig. 4.12 – Voyelle [a] synthétique avec deuxième formant variable autour de 1100Hz, avec une amplitude de variation pic-à-pic de 20Hz. Les graphiques de gauche représentent les fréquences estimées des formants en fonction du temps, pour plusieurs valeurs du délai entre l’instant de synchronisation et l’instant d’échantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms). Les graphiques de droite représentent l’écart pic-à-pic des variations du deuxième formant, et les écart-types des variations des premier et troisième formants, en fonction du délai. Les résultats sont représentés en traits pleins pour F

0

= 97Hz et en traits pointill´es pour F

0

= 213Hz.

0 0.1 0.2 0.3 0.4

2480 2500 2520

F3 (Hz)

0.8 1 1.2 1.4

19 19.5 20 20.5

0 0.1 0.2 0.3 0.4

1060 1080 1100 1120

F2 (Hz)

0.8 1 1.2 1.4

0 1 2 3

écart−type de l’erreur

0 0.1 0.2 0.3 0.4

600 650

F1 (Hz)

temps (s)

0.8 1 1.2 1.4

0 0.5 1

écart−type de l’erreur

délai (ms)

Fig. 4.13 – Voyelle [a] synth´etique avec troisi`eme formant variable autour de

2500Hz, avec une amplitude de variation pic-`a-pic de 20Hz. Les graphiques de

gauche représentent les fréquences estimées des formants en fonction du temps,

pour plusieurs valeurs du d´elai entre l’instant de synchronisation et l’instant

d’´echantillonnage (bleu : 0.75ms, rouge : 1ms, vert : 1.25ms, cyan : 1.5ms). Les

graphiques de droite représentent l’écart pic-à-pic des variations du troisième

formant, et les ´ecart-types des variations des premier et deuxi`eme formants, en

fonction du délai. Les résultats sont représentés en traits pleins pour F

0

= 97Hz

et en traits pointill´es pour F

0

= 213Hz.

(20)

4.2.3.3 Algorithme

Dans cette section, nous résumons la procédure d’estimation des fréquences des formants.

Estimation de la fr´ equence phonatoire moyenne La fréquence phona- toire est estimée par la méthode décrite dans le chapitre précédent.

Estimation des fr´ equences approximatives des trois premiers formants Cette estimation est effectuée au moyen de la méthode de prédiction linéaire par covariance classique [66]. La durée de la fenêtre d’analyse est choisie égale à un multiple de la durée de cycle glottique moyenne.

Estimation des fr´ equences instantan´ ees des formants Pour chaque for- mant, la proc´edure est la suivante.

1. La TOC du signal de parole est calculée dans un intervalle de fréquences autour de la valeur approximative du formant avec un paramètre ω

c

σ

t

fix´e en fonction du formant :

– F

1

: ω

c

σ

t

= 4.5, – F

2

: ω

c

σ

t

= 8, – F

3

: ω

c

σ

t

= 10.

2. Pour chaque instant, on recherche la fr´equence centrale correspondant au maximum du module de la TOC.

3. Pour les instants o` u un maximum a été trouvé à l’étape précédente, la fréquence instantanée du formant est donnée par la fréquence instantanée correspondant à la fréquence centrale du maximum.

4. Pour les intervalles temporels o` u aucun maximum n’a été trouvé à l’étape 2, une interpolation linéaire des fréquences centrales est effectuée entre la fréquence centrale du dernier maximum trouvé avant l’intervalle et celle du premier maximum trouvé après l’intervalle. La fréquence instantanée du formant est alors donnée par la fréquence instantanée correspondant à ces fréquences centrales interpolées.

La dernière étape permet d’obtenir un tracé ininterrompu des fréquences instantanées. On complète principalement les lacunes qui apparaissent à la fer- meture glottique, o` u l’énergie importante pour toutes les fréquences peut faire disparaˆıtre le maximum lié au formant. Ceci est illustré à la figure 4.14 qui montre l’énergie et la fréquence instantanée du premier formant pour un signal réel (locuteur LP2), avec et sans interpolation. L’interpolation permet d’obtenir une courbe lisse de l’énergie du premier formant.

Echantillonnage des fr´ ´ equences instantan´ ees des formants Les instants de synchronisation sont donnés par les maxima temporels de l’énergie calculée le long du tracé du premier formant.

Pour chaque formant, les instants d’´echantillonnage sont obtenus par les po-

sitions des instants de synchronisation auxquelles on ajoute un d´elai d´ependant

(21)

0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0

0.5 1 1.5

temps (s)

Energie de F1

0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19

500 600 700 800 900 1000 1100 1200

temps (s)

F1 (Hz)

F1 avec interpolation F1 sans interpolation

Fig. 4.14 – Interpolation des tracés de la fréquence instantanée du premier formant.

du formant. Le délai entre les instants de synchronisation et les instants d’échan- tillonnage est fixé en fonction du formant et, pour le premier formant, en fonction de la fréquence phonatoire moyenne F

0,moy

:

– F

1

: d´elai = (1.2 − .003 ∗ (F

0,moy

− 100)) ms, – F

2

: d´elai = 1.3 ms,

– F

3

: d´elai = 1 ms.

Les figures 4.15 et 4.16 illustrent la position et la taille des ondelettes uti- lisées pour détecter les trois premiers formants pour des signaux synthétiques de fréquence phonatoire égale à 100 Hz et 200 Hz respectivement.

Post-traitement Des instants de synchronisation ne correspondant pas à une fermeture glottique peuvent apparaˆıtre suite à la détection de pics parasites dans l’énergie instantanée du premier formant. En effet, pour certaines portions de signal, plusieurs pics sont détectés dans un cycle glottique. Nous avons combiné deux algorithmes de sélection des instants de synchronisation pour éliminer les instants de synchronisation parasites.

Le premier algorithme examine si les intervalles entre les maxima locaux détectés sont de l’ordre d’une durée de cycle glottique. L’algorithme base l’élimi- nation des parasites sur les amplitudes de l’énergie pour chaque instant de syn- chronisation candidat. Les instants de synchronisation qui remplissent une des conditions suivantes sont éliminés.

1. Les écarts entre l’instant de synchronisation et ses deux voisins sont infé- rieurs à deux tiers du cycle glottique moyen, et son énergie instantanée est inférieure à 90% des énergies instantanées des instants de synchronisation voisins.

2. L’´ecart entre l’instant de synchronisation et un de ses voisins est inf´erieur

à un demi cycle glottique moyen, et son énergie instantanée est inférieure

à 50% des énergies instantanées des instants de synchronisation voisins.

(22)

0 0.005 0.01 0.015 0.02 0.025 0.03

−1 0 1

signal glottique et signal vocal

0 0.005 0.01 0.015 0.02 0.025 0.03

0 5

Energie F1

0 0.005 0.01 0.015 0.02 0.025 0.03

−0.2 0 0.2

ondelette F3

0 0.005 0.01 0.015 0.02 0.025 0.03

−0.2 0 0.2

ondelette F2

0 0.005 0.01 0.015 0.02 0.025 0.03

−0.2 0 0.2

temps (s)

ondelette F1

Fig. 4.15 – Voyelle [a] synthétique de fréquence phonatoire 100 Hz et son signal glottique, énergie du premier formant et ondelettes d’estimation des formants positionnées à l’instant d’échantillonnage de chaque formant.

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−2 0 2

signal glottique et signal vocal

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02 3

4 5

Energie F1

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−0.2 0 0.2

ondelette F3

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−0.2 0 0.2

ondelette F2

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02

−0.2 0 0.2

temps (s)

ondelette F1

Fig. 4.16 – Voyelle [a] synth´etique de fr´equence phonatoire 200 Hz et son signal

glottique, ´energie du premier formant et ondelettes d’estimation des formants

positionnées à l’instant d’échantillonnage de chaque formant.

(23)

Le deuxième algorithme examine la cohérence de suivi des instants d’échan- tillonnage. Il a pour but d’éliminer les instants d’échantillonnage parasites qui ne sont pas éliminés par le premier algorithme et qui apparaissent lorsque la différence entre l’amplitude d’énergie des instants de synchronisation à sélection- ner et des instants de synchronisation parasites est trop faible, ce qui se produit notamment dans les zones de transition entre deux parties stables du signal.

L’algorithme cherche les séries d’instants d’échantillonnage candidats pour les- quelles les intervalles entre instants d’échantillonnages candidats sont proches d’une durée de cycle glottique, et choisit la série qui minimise à la fois l’écart- type des variations des fréquences des formants de la série, et l’écart-type des in- tervalles entre instants d’échantillonnage de la série. L’algorithme est développé ci-dessous.

1. Calcul des intervalles entre un instant d’échantillonnage candidat et les trois instants d’échantillonnage candidats précédents, et mémorisation des intervalles qui ont une durée de l’ordre de la durée de cycle glottique moyenne. Les limites des durées des intervalles sont fixées en fonction de la fréquence phonatoire moyenne. Les intervalles sont classés en fonction de leur instant initial, puis de leur instant final.

2. Initialisation d’une série admissible d’instants-candidats avec l’instant ini- tial et l’instant final du premier intervalle. Si l’instant initial du deuxième intervalle est différent de l’instant final du premier intervalle, initialisation d’une deuxième série d’instants-candidats avec l’instant initial et l’instant final du deuxième intervalle.

3. Pour chaque s´erie admissible d’instants-candidats, recherche des inter- valles qui commencent par le dernier instant de la s´erie courante.

(a) Si on trouve un seul intervalle qui commence par le dernier instant de la série courante, on ajoute l’instant final de cet intervalle à la série courante.

(b) Si on trouve plusieurs intervalles qui commencent par le dernier ins- tant de la série courante, la série courante est dédoublée, chaque nouvelle série comportant les instants-candidats de la série initiale, auxquels on ajoute l’instant final de chaque nouvel intervalle.

(c) Si on ne trouve pas d’intervalle qui commence par le dernier instant de la série courante, on cherche le premier intervalle ultérieur dont l’instant initial est supérieur à l’instant final de la série courante.

i. S’il n’y a qu’un intervalle qui commence par l’instant initial du nouvel intervalle trouvé, l’instant initial et l’instant final de cet intervalle sont rajoutés à la série courante.

ii. S’il y a plusieurs intervalles qui commencent par l’instant ini- tial du nouvel intervalle trouvé, la série courante est dédoublée, chaque nouvelle série comportant les instants-candidats de la série initiale, auxquels on ajoute l’instant initial et l’instant final de chaque nouvel intervalle.

Le point 3. est itéré jusqu’à ce qu’on ne trouve plus d’intervalle suivant.

4. La série finale d’instants d’échantillonnage est la série qui minimise l’écart-

type des fr´equences du premier formant et l’´ecart-type des intervalles entre

instants d’´echantillonnage.

(24)

0.16 0.18 0.2 0.22 0.24 0.26 0.28

−0.1 0 0.1 Signal vocal

0.160 0.18 0.2 0.22 0.24 0.26 0.28

0.2 0.4

Energie F1

0.16 0.18 0.2 0.22 0.24 0.26 0.28

2500 3000 3500

F3 (Hz)

0.16 0.18 0.2 0.22 0.24 0.26 0.28

1000 1500

F2 (Hz)

0.16 0.18 0.2 0.22 0.24 0.26 0.28

800 1000

temps (s)

F1 (Hz)

brut sélection 1 sélection 2

Fig. 4.17 – Elimination des instants d’´echantillonnage parasites : signal vocal,

énergie du premier formant et formants estimés sans post-traitemnt (rouge), après la première sélection (étoiles vertes) et après les deux sélections (losanges cyans). Le premier algorithme (étoiles vertes) élimine les maxima de l’énergie de F1 qui sont trop faibles et trop proches de leurs voisins ; le deuxième algorithme (losanges cyans) détermine la série finale d’instants-candidats en minimisant l’écart-type des intervalles temporels entre candidats successifs et l’écart-type des fréquences du premier formant pour chaque série.

Les deux algorithmes de sélection des instants d’échantillonnage sont illustrés

à la figure 4.17 qui montre le signal vocal, l’énergie du premier formant et les for- mants estimés sans post-traitement (rouge), après la première sélection (étoiles vertes) et après les deux sélections (losanges cyans). Le premier algorithme per- met de supprimer la plupart des pics parasites et le deuxième algorithme permet d’éliminer les instants d’échantillonnages parasites lorsque les différences d’am- plitude entre pics souhaités et pics parasites sont trop faibles, ce qui se produit notamment dans les zones de transition entre deux parties stables du signal.

4.2.3.4 Simulations sur des signaux synth´ etiques

Dans cette section, nous présentons des résultats illustrant le comportement de la méthode d’estimation des formants sur des signaux synthétiques. Le but de ces simulations est de comprendre la précision et les limites de la méthode, en décomposant les difficultés.

Les signaux synthétiques utilisés ont été présenté dans l’introduction de la section 4.2.3.

Pour étudier l’influence des paramètres du signal synthétique sur l’estimation

des fréquences des formants, les cas présentés sont les suivants :

(25)

– Effet de la fr´equence phonatoire moyenne pour des signaux synth´etiques avec formants constants,

– Effet de la fr´equence phonatoire moyenne pour des signaux synth´etiques avec formants variables,

– Effet de la variation linéaire de la fréquence phonatoire, – Effet de bruit additif à la source.

La fréquence de modulation des fréquences estimées des formants corres- pond à la fréquence de modulation de référence. C’est pourquoi, nous nous intéressons exclusivement à l’estimation de l’amplitude de modulation dans les tests suivants.

Effet de la fr´ equence phonatoire moyenne La figure 4.18 illustre l’effet de la fréquence phonatoire sur l’estimation des formants. Les fréquences des for- mants ont été calculées pour des signaux de fréquence phonatoire constante, pour lesquels les trois premiers formants sont constants et égaux à 600Hz, 1100Hz et 2500Hz.

100 150 200

2498 2500 2502

F3 moyen (Hz)

100 150 200

0 0.5 1 1.5

écart−type (Hz)

100 150 200

1060 1080 1100 1120

F2 moyen (Hz)

100 150 200

0 0.5 1 1.5

écart−type (Hz)

100 150 200

580 600 620

Fréquence phonatoire (Hz)

F1 moyen (Hz)

100 150 200

0 0.5 1 1.5

écart−type (Hz)

Fig. 4.18 – Effet de la fréquence phonatoire moyenne sur l’estimation des fréquences des formants de signaux synthétiques avec formants constants. Les graphiques de gauche représentent les fréquences moyennes des formants en fonction de la fréquence phonatoire, et les graphiques de droite les écart-types des fréquences estimées des formants.

Les valeurs moyennes des fréquences estimées des formants se situent dans un intervalle de quelques Hertz tant que la fréquence phonatoire n’est pas trop

élevée. Pour des fréquences phonatoires plus élevées que 200Hz, la fréquence estimée pour le premier formant tend à se rapprocher de l’harmonique la plus proche, car la durée du cycle glottique n’est plus suffisamment longue par rap- port à la durée effective des ondelettes dont la fréquence centrale est proche de la fréquence du formant. Pour le deuxième formant aussi, la fréquence estimée se rapproche de l’harmonique la plus proche pour les fréquences phonatoires

élevées. Pour le troisième formant, les ondelettes sont toujours suffisamment

(26)

courtes et les estimations des fréquences du troisième formant ne diffèrent pas de plus de 2.5Hz pour la gamme de fréquences phonatoires considérée.

Les écart-types des fréquences estimées des formants ne sont pas nuls. Les fréquences estimées des formants varient donc légèrement, même lorsque la consigne est constante. Cependant, les valeurs des écart-types sont inférieures

à 1.5Hz, ce qui est de l’ordre du pas de calcul fréquentiel de la TOC qui est de 1Hz. La méthode d’estimation des fréquences des formants n’introduit donc que des variations très faibles, ce qui est intéressant dans notre application. En effet, on souhaite reproduire les variations des fréquences des formants, et on accorde moins d’importance à leurs moyennes.

Effet de la variation des fr´ equences des formants Les figures 4.19 à 4.21 montrent l’effet d’une variation sinuso¨ıdale d’amplitude pic-à-pic de 20Hz de la fréquence d’un formant sur les fréquences estimées des trois premiers formants.

Les graphiques de gauche représentent les fréquences moyennes des formants en fonction de la fréquence phonatoire. Les graphiques de droite représentent les écart-types des fréquences estimées des formants pour les formants dont la consigne ne varie pas, et l’écart pic-à-pic pour le formant dont la consigne varie.

100 150 200

2498 2500 2502

F3 moyen (Hz)

100 150 200

0 0.5 1 1.5

écart−type (Hz)

100 150 200

1070 1080 1090 1100 1110

F2 moyen (Hz)

100 150 200

0 0.5 1 1.5

écart−type (Hz)

100 150 200

580 600 620

F1 moyen (Hz)

100 150 200

10 15 20 25

écart pic−à−pic (Hz)

Fig. 4.19 – Effet de la fréquence phonatoire moyenne sur l’estimation des fréquences des formants de signaux synthétiques avec F

1

modulé sinuso¨ıda- lement. Les graphiques de gauche représentent les fréquences moyennes des formants en fonction de la fréquence phonatoire. Les graphiques de droite représentent les écart-types des fréquences estimées des deuxième et troisième formants, et l’écart pic-à-pic du premier formant.

On observe que quel que soit le formant variable, les fréquences moyennes des formants estimées varient de la même fa¸con en fonction de la fréquence phonatoire que lorsque les formants ne varient pas.