• Aucun résultat trouvé

Description des corpus

Dans le document Disponible à / Available at permalink : (Page 123-129)

4. Corpus et méthodes d’évaluations perceptives

4.2. Description des corpus

4.2.1. Corpus de six catégories de voyelles modales

Pour ce premier corpus, nous avons synthétisé six catégories de voyelles en utilisant différentes fonctions d’aire du conduit vocal. Ces voyelles soutenues sont [a], [i], [u], [o], [e] et [s]. Les fonctions d’aire utilisées sont celles de Story et al. (1996) pour les voyelles [a] et [i] et celles de Mrayati (1976) pour les autres voyelles. Pour garder la même résolution spatiale pour toutes les voyelles, nous avons interpolé les données de Mrayati tous les 0.396825 cm. Les fonctions d’aire des voyelles sont présentées dans la figure 4.1. La section du conduit sous- glottique est de 1.2 cm^ et sa longueur est de 14.2857 cm, ce qui correspond à 36 tubes.

la] [il

tubes tubes

Figure 4.1 : Fonctions d’aire utilisées pour les catégories de voyelles. Nous avons pris en considération les pertes par vibrations des parois (Fant, 1960), par frottement visqueux et conduction thermique (Abel et ai, 2003) ainsi que les pertes par rayonnement aux lèvres et à la glotte

(Flanagan et Rabiner, 1972). Ces pertes sont les mêmes pour tous les corpus.

Des tests informels ont suggéré que le coefficient d’ouverture à la glotte et le coefficient de réflexion aux poumons sont deux paramètres qui influencent beaucoup la qualité de la voix synthétisée. Pour cette raison, nous avons choisi trois valeurs différentes pour chaque paramètre. Les valeurs, en pourcent, choisies pour le coefficient d’ouverture à la glotte sont 50, 62 et 83 tandis que les valeurs choisies pour le coefficient de réflexion aux poumons sont 0.2, 0.5 et 0.8. La fréquence fondamentale est fixée à 100 Hz pour toutes les réalisations.

Figure 4.2 : Signaux vocaux synthétisés pour différentes catégories de voyelles.

Aucune perturbation vocale n’a été introduite dans le signal de l’aire glottique. La longueur des stimuli synthétisés est de 1 seconde. Nous obtenons ainsi, pour chaque catégorie de voyelles, neuf timbres différents en combinant toutes les valeurs choisies du quotient d’ouverture de la glotte et du coefficient de réflexion aux poumons. Le corpus final est composé de 54 voyelles de différents timbres.

La figure 4.2 montre les signaux synthétisés de la pression acoustique transmise après rayonnement aux lèvres pour différentes catégories de voyelles avec un quotient d’ouverture à la glotte égal à

50% et un coefficient de réflexion aux poumons égal à 0.2. Les signaux obtenus sont sous-échantillonnés à la fréquence de 22050 Hz et enregistré dans des fichiers de format wav.

4.2.2. Corpus de voyelles [a] modales

Le corpus de voyelles modales [a] est composé de 20 voyelles humaines et de 20 voyelles synthétiques soutenues. Nous avons choisi les voyelles humaines modales dans une base de données de voyelles [a] du Français. Les voyelles humaines sont produites par des locuteurs masculins de différents timbres couvrant une plage de fréquences vocales de 88 à 140 Hz. La durée de chaque voyelle est d’une seconde. Chaque voyelle a été analysée par PRAAT qui permet de quantifier la fréquence fondamentale, la gigue, le shimmy et le rapport harmonicité sur bruit. Toutes les valeurs mesurées sont en dessous du seuil de pathologie. Nous rappelons que le seuil normal/pathologique est fixé à 1.04 % pour la gigue vocale et à 3.81 % pour le shimmy vocal. Selon le manuel de PRAAT, un rapport typique d’harmonicité sur bruit est de 20 dB.

Le but est de simuler un ensemble de voyelles synthétiques qui sont similaires aux voyelles humaines et de même durée. L’objectif n’est pas de copier intégralement les caractéristiques acoustiques des voyelles humaines. Pour chaque voyelle humaine, nous avons synthétisé une voyelle de même fréquence fondamentale. Les paramètres du modèle de la gigue vocale et du bruit additif permettent d’obtenir des valeurs des indices acoustiques mesurées proches des valeurs humaines. Nous avons fixé les paramètres du tremblement vocal à des valeurs typiques d’un locuteur ne souffrant pas de troubles vocaux.

Vu que les voyelles synthétiques doivent correspondre à des voyelles modales, la biphonation, la diplophonie et les raucités sévères ne sont pas simulées. La voyelle synthétique obtenue est similaire à la voyelle humaine de point de vue enrouement mais son timbre est différent. Pour déguiser l’identité du synthétiseur, nous avons utilisé trois fonctions d’aire du conduit vocal pour simuler la voyelle [a]. En plus, nous avons imposé les mêmes attaques et déclins pour les voyelles humaines et synthétiques. Le corpus final est donc composé de 40 voyelles de voix masculines modales dont 20 humaines et 20

synthétiques.

4.2.3. Corpus de voyelles [a] avec des valeurs croissantes de

la gigue vocale

Nous avons synthétisé un corpus de voyelles [a] avec différentes valeurs de la gigue vocale. La fonction d’aire utilisée est la même pour

toutes les réalisations (Mrayati, 1976). Pour chaque voyelle, nous avons fixé les valeurs des paramètres simulant le tremblement vocal, les vibrations aléatoires et le bruit additif en dessous du seuil de pathologie. Le seul paramètre qui change d’une réalisation à l’autre est l’amplitude b du bruit blanc qui contribue à la gigue. Nous avons simulé 10 réalisations différentes en faisant varier le paramètre b linéairement de 0

à 0.36 avec un pas de 0.04. Une valeur nulle de b signifie que le modèle de la gigue vocale n’est pas pris en considération.

Le corpus final est composé de 10 voyelles avec différentes valeurs de la gigue vocale. L’indice acoustique jitter (local) de PRAAT a été extrait pour toutes les voyelles. Dans le chapitre suivant, nous utiliserons ce corpus dans une expérience de comparaison deux à deux pour l’évaluation perceptive de la gigue vocale.

4.2.4. Corpus de voyelles [a] avec des valeurs croissantes du

bruit additif

Nous avons synthétisé un corpus de voyelles [a] avec différentes valeurs du bruit additif. La fonction d’aire est la même pour toutes les réalisations. Pour chaque voyelle, nous avons fixé les valeurs des paramètres simulant la gigue vocale, le tremblement vocal et les vibrations aléatoires en dessous du seuil de pathologie. Le seul paramètre qui change d’une réalisation à l’autre est le coefficient «/ de la fonction affine du débit d’air glottique modulant le bruit Brownien.

Ainsi, nous avons réalisé 10 voyelles synthétiques en utilisant des valeurs du coefficient «/ entre 0.05 et 0.5. Le critère mean HNR ratio de PRAAT a été extrait pour toutes les voyelles. Dans le chapitre suivant, nous exploitons ce corpus dans une expérience de comparaison deux à deux pour l’évaluation perceptive du souffle en fonction de la quantité du bruit additif simulé à la glotte.

4.2.5. Corpus de voyelles [a] avec des valeurs combinées de

gigue vocale et bruit additif

Nous avons synthétisé un corpus de voyelles [a] avec des valeurs combinées de la gigue vocale et du bruit additif La fonction d’aire est la même. Les paramètres concernant le tremblement vocal et les vibrations aléatoires sont fixés en dessous du seuil de pathologie. Nous avons synthétisé des voyelles en combinant quatre valeurs de l’amplitude b du bruit blanc simulant la gigue vocale avec quatre valeurs du coefficient ni de la fonction affine modulant le bruit Brownien. Ces valeurs sont 0.04, 0.12, 0.20 et 0.28 pour b et 0.10, 0.15, 0.20 et 0.33 pour ni.

Le corpus est composé de 16 voyelles. Dans le chapitre suivant, nous utilisons ce corpus dans une expérience de comparaison deux à deux pour l’évaluation perceptive des troubles de la voix synthétisés.

4.2.6. Corpus de voyelles [a] dysphoniques

Le corpus, de voyelles dysphoniques [a], est composé de 15 voyelles humaines et de 15 voyelles synthétiques soutenues. Nous avons choisi les voyelles humaines dysphoniques dans une base de données de voyelles [a] du Français. Les voyelles sont de différents timbres couvrant la plage de fréquence vocale de 101 à 150 Hz. La durée de chaque voyelle est d’une seconde.

Chaque voyelle a été analysée par PRAAT qui permet de quantifier la fréquence fondamentale, la gigue, le shimmy et le rapport harmonicité sur bruit (tableau 4.1). Le tremblement vocal n’est pas mesuré par PRAAT. Pour toutes les simulations, nous avons fixé le coefficient bj qui règle l’amplitude du tremblement vocal à 0.04 afin d’assurer des valeurs normales du tremblement.

Voyelle Fo (Hz) jitter (local)

% shimmer (local) % mean HNR (dB) NI 101 0,77 3,93 14,88 N2 102 0,65 6,74 17,46 N3 118 0,3 4,23 18,43 N4 119 0,47 12,96 9,34 N5 122 0,49 4,66 16,49 N6 125 0,32 1,84 24,38 N7 127 0,38 5,16 15,7 N8 132 0,23 2,05 22,29 N9 137 0,38 5,1 17,5 N10 150 0,35 4,94 15,6 N11 110 0,43 11,14 14,26 N12 105 0,79 6,96 13,75 N13 119 0,62 7,18 8,2 N14 126 0,39 5,03 14,98 N15 109 0,86 6,85 9,43

Tableau 4.1 : Valeurs de la fréquence fondamentale, du jitter (local), shimmer (local) et mean HNR ratio extraites par PRAAT pour les

voyelles humaines dysphoniques.

Le but est de simuler des voyelles synthétiques qui sont similaires aux voyelles humaines et de même durée. Le but n’est pas de reproduire exactement les timbres des voyelles humaines. Nous avons procédé de la même manière que pour le corpus de voyelles modales. Les paramètres simulant les troubles de la voix sont choisis de façon à avoir

des indices acoustiques mesurés qui ressemblent à ceux de la voyelle humaine. La voyelle synthétique obtenue est similaire à la voyelle humaine vis-à-vis des dyspériodicités vocales mais son timbre est différent. Nous avons, comme pour le corpus des voyelles modales, utilisé trois fonctions d’aire du conduit vocal pour la voyelle [a] afin de déguiser l’identité du synthétiseur. Les attaque et déclin sont les mêmes pour les voyelles humaines et synthétiques. Ce choix avantage le synthétiseur car il est connu que les attaques et déclins sont informatifs pour les cliniciens. Le corpus est composé de 30 voyelles de voix masculines dysphoniques dont 15 humaines et 15 synthétiques. L’extraction par PRAAT des indices acoustiques des voyelles synthétique aboutit au tableau 4.2.

Voyelle Fo [Hz) jitter (local)

% shimmer (local) % mean HNR (dB) S1 90 0.79 6.80 18.40 S2 100 1.45 6.38 14.37 S3 105 1.27 8.04 14.60 S4 115 1.13 8.61 14.30 S5 120 1.69 Ind 1.82 S6 121 2.21 9.81 9.42 S7 119 2.15 9.48 9.61 S8 125 1.65 28.71 0.61 S9 125 1.85 8.35 11.30 S10 132 2.04 Ind 0.73 S11 132 2.30 8.31 9.36 S12 137 1.04 Ind 1.48 S13 149 1.34 5.68 13.99 S14 146 1.65 8.99 2.46 S15 150 2.02 6.70 10.30

Tableau 4.2 : Valeurs de la fréquence fondamentale, du jitter (local), shimmer (local) et mean HNR ratio extraites par PRAAT pour les

voyelles synthétiques dysphoniques.

4.2.7. Corpus de voyelles soutenues et de couples de voyelles

Nous avons réalisé cinq corpus dont les trois premiers comprennent les voyelles soutenues [a], [i] et [u] et les deux derniers les couples de voyelles [ai] et [ia].

Pour obtenir des couples de voyelles, nous avons divisé la durée (1 seconde) en trois parties. La première et la troisième parties reproduisent les voyelles soutenues [a] et [i] dans l’ordre de la transition. Durant la deuxième partie de durée 0.2 s, nous avons fait évoluer linéairement la géométrie du eonduit vocal de la forme du conduit pour la voyelle [a] à la forme du conduit pour la voyelle [i] pour simuler la transition [ai] et

vice versa pour la transition [ia]. La figure 4.3 représente, en haut, l’évolution de la forme d’onde du signal pour la transition [ai] et, en bas, l’évolution inverse.

Chaque corpus est composé de 48 stimuli réalisés en combinant trois paramètres. Ces paramètres concernent trois valeurs de la fréquence fondamentale Fo, quatre valeurs de l’amplitude de la gigue vocale b ainsi que quatre valeurs du coefficient ni du bruit additif. Les valeurs choisies pour Fq sont 100, 120 et 140 Hz, pour b 0.05, 0.15, 0.25 et 0.35 et pour «/ 0.02, 0.04, 0.07 et 0.20. La durée de chaque stimulus est une seconde. En outre, nous avons fait décroitre linéairement la fréquence fondamentale d’une valeur arbitraire choisie dans l’intervalle de 10 à 20

Hz afin de favoriser le ‘naturel’ des voyelles.

1.2 1.25 1.3 1.35 1.4 1.45 1.5

X 10“*

8000 8500 9000 9500 10000 10500 11000

Figure 4.3 : Forme d’onde du signal présentant la transition de la voyelle [a] à la voyelle [i] (en haut) et de la voyelle [i] à la voyelle [a] (en bas).

Dans le document Disponible à / Available at permalink : (Page 123-129)