Mesures préliminaires - Analyse de la qualité vocale appliquée à la parole expressive

Dans un premier temps, une petite base de données de signaux de parole naturelle est pro- posée pour tester l’algorithme. Les résultats de l’estimation sur cette base serviront à optimiser le comportement de l’algorithme en rapport avec les problèmes liés aux signaux naturels : ajustement de paramètres, instabilités des mesures.

5.4.1 Voyelles tenues

La base de données de voyelles tenues est composée de 18 échantillons prononcés par deux locuteurs - un homme, une femme - sur une variation de 3 voyelles et 3 qualités vocales diﬀérentes enregistrées avec un microphone statique. Un signal EGG synchrone a aussi été enregistré. Les voyelles sont tenues pendant 1 à 5 secondes selon le cas, les signaux EGG sont clairs et présentent peu de dédoublements de pics. La qualité vocale a été étiquetée à l’écoute, en tenant compte du style du locuteur.

5.4.2 Résultats de l’estimation

L’évaluation se fait sur la comparaison directe entre le quotient ouvert estimé par EGG et le quotient ouvert estimé sur le signal. Les valeurs sont comparées deux à deux. Une bonne détection est comptée lorsque l’erreur de mesure sur ˜Oq mesurée sur le signal par rapport à Oq

mesuré sur l’EGG est inférieure au critère d’erreur fixé : E = | ˜Oq− Oq|

Oq (5.12)

L’algorithme a été appliqué à chacun des 18 échantillons de qualité vocale. Les résultats présentés dans la table 5.2 donnent les informations sur l’échantillon (nom - voyelle - qualité vocale - fréquence fondamentale moyenne) ainsi que la valeur moyenne de Oq mesurée par EGG.

On retrouve ensuite la valeur moyenne ˆOq estimée par la méthode à base de ZZT et le taux de

sur le quotient ouvert [Henrich et al., 2003]) et de 25% (précision minimum pour la séparation de trois qualités vocales cardinales). La valeur de αm est la moyenne des valeurs couplées aux

mesures de Oq détectées à l’intérieur de la plage d’erreur du JND. Enfin, le rayon du cercle du

plan complexe pour le calcul de la dérivée de la phase s’il n’est pas égal à la valeur par défaut de ρ = 0.98.

La détection est très bonne (erreur inférieure au JND) dans plus de 60% des cas, et bonne (erreur inférieure à 25%) dans plus de 80% des cas. Même dans les cas pour lesquels les taux de détection sont bas, on remarque que la moyenne de l’estimation ( ˆOq) reste proche de la moyenne

mesurée par EGG. Pour le locuteur féminin, les résultats sont moins bons.

Table5.2 – Résultats de l’analyse sur la base de données de voyelles expressives. Deux locuteurs pour trois voyelles et trois expressions. Oq : estimé par la méthode, ˆOq mesuré sur l’EGG, αm

est donné comme la moyenne des estimations appariées avec un Oq dans le JND.

Sample Voyelle Qualité F0 Oq Oˆq <JND <25% αm

M1 /a/ normale 127Hz 0.61 0.61 94% 95 % 0.62 M2 /i/ normale 130Hz 0.50 0.49 66% 76% 0.60 ρ = 0.92 M3 /u/ normale 127Hz 0.52 0.50 85% 97% 0.60 M4 /a/ tendue 131Hz 0.46 0.39 43% 86% 0.67 M5 /i/ tendue 131Hz 0.41 0.39 90% 97% 0.62 M6 /u/ tendue 128Hz 0.51 0.38 3% 13% 0.73 M7 /a/ relâchée 123Hz 0.71 0.75 69% 82% 0.70 M8 /i/ relâchée 130Hz 0.79 0.68 53% 74% 0.64 M9 /u/ relâchée 128Hz 0.71 0.67 85% 88% 0.53 ρ = 0.999 F1 /a/ normale 235Hz 0.47 0.44 42% 70% 0.68 F2 /i/ normale 250Hz 0.39 0.48 20% 31 % 0.90 F3 /u/ normale 238Hz 0.47 0.49 65% 71% 0.77 ρ = 1.05 F4 /a/ tendue 238Hz 0.42 0.42 69% 80% 0.67 ρ = 0.95 F5 /i/ tendue 239Hz 0.34 0.35 50% 74% 0.87 F6 /u/ tendue 246Hz 0.34 0.29 58% 79% 0.66 F7 /a/ relâchée 242Hz 0.71 0.72 88% 93% 0.68 ρ = 0.95 F8 /i/ relâchée 250Hz 0.60 0.68 58% 74% 0.91 ρ = 0.91 F9 /u/ relâchée 242Hz 0.66 0.68 32% 47% 0.78 5.4.3 Discussion

D’une manière générale, les résultats sont de bonne qualité, avec peu ou pas d’erreur. Les valeurs de αm varient peu sur la base d’échantillons choisis. C’est un résultat attendu

étant donné que l’asymétrie joue un rôle secondaire dans la dimension de tension de la voix et joue un rôle de plus grande importance pour l’aspect d’eﬀort vocal. Les résultats obtenus [C.Sapienza et al., 1998] ont montré que le quotient de vitesse - qui varie avec l’asymétrie - est fortement lié à cet aspect d’eﬀort vocal. Discutons les résultats en fonction du locuteur : Locuteur masculin

Les résultats sont meilleurs pour le locuteur masculin, et excellents dans le cas d’une voix modale et de la voyelle /a/ - cas classique d’analyse présenté en figure 5.5. Un seul échantillon est réellement problématique (M6) dans le sens où aucun réglage de ρ n’a permis d’obtenir des résultats exploitables lors de son analyse. L’asymétrie reste inférieure à 0.70 sauf dans deux cas :

M6 et M7. Il est probable que le locuteur ait eu besoin de produire un eﬀort plus important pour produire ces voyelles avec ces qualités vocales. En moyenne, dans plus de 85% des cas sur la totalité des échantillons du locuteur masculin, le quotient ouvert est détecté convenablement avec une erreur inférieure à 25% par rapport à la référence EGG.

Locuteur féminin

Dans le cas du locuteur féminin, les performances sont moins bonnes, probablement en raison de la fréquence fondamentale plus élevée, diminuant de facto la précision de la mesure de Oq

et αm. Deux échantillons posent problème (F2 et dans une moindre mesure F9), pour lesquels

aucun ajustement de la valeur ρ n’a permis d’améliorer les résultats assez mauvais avec moins de 30% de valeurs détectées sous le seuil diﬀérentiel perceptif. Dans le cas de F9, la valeur moyenne du quotient ouvert mesuré par le signal est tout de même proche de la mesure sur l’EGG. Les valeurs de l’asymétrie sont plus dispersées que pour le locuteur masculin allant de 0.66 à 0.91. On retrouve systématiquement des fortes valeurs de αm pour la voyelle /i/. En moyenne, dans

plus de 75% des cas sur la totalité des échantillons du locuteur féminin, le quotient ouvert est détecté convenablement avec une erreur inférieure à 25% par rapport à la référence EGG. Asymétrie

La mesure de l’asymétrie est plus problématique. Dans le cas de l’algorithme proposé, αmest

estimé conjointement avec Oq mais l’impact de l’erreur de mesure sur A et Fg est multiplicatif

dans le cas de l’asymétrie. Pour être valides, les mesures de αm nécessitent donc une précision

plus importante. Et pour être sous le JND, elles nécessitent par conséquent une estimation de Oq inférieure au JND.

On peut visualiser la relation de l’erreur d’estimation sur Oq et αm sur la figure 5.12. Cette

figure présente les résultats de l’analyse pour un signal à qualité vocale variable. Á la fois l’eﬀort (doux - fort - doux) et la tension (lâche - tendu - lâche) varient, l’asymétrie (ligne du haut) et le quotient ouvert (estimé en noir, référence en rouge - ligne du milieu) sont estimés par la méthode présentée. On remarque que les valeurs de αm qui correspondent le mieux aux attentes et aux

travaux précédents dans le domaine (i.e. : que αm augmente avec l’eﬀort) sont appairées aux

valeurs de ˜Oq présentant l’erreur la plus faible entre 0 et 1s et 5 et 7 secondes.

Entre 1 et 2 secondes sur la figure 5.12, la diﬀérence entre Oqet ˜Oqest d’environ 0.06-0.07, soit

proche du JND, alors que l’asymétrie tombe brutalement de 0.7 à 0.6. Lorsque l’eﬀort augmente, on s’attend à une augmentation de αm et donc à un déplacement du formant glottique par

rapport à la fréquence de modulation de pulsation ωg. Ce déplacement par rapport à la prévision

des équations 5.7 et 5.5 rend l’estimation moins précise, voire invalide.

Compte tenu des observations sur la figure 5.12, le choix du JND comme critère d’erreur minimum sur Oq n’est pas suﬃsant pour valider le couple de valeurs (Oq, αm). L’introduction

d’un troisième critère de précision de 5% permettrait la validation des estimations sur αm. Ce

critère n’a pas été mis en œuvre dans la mesure où il n’existe pas de manière de vérifier une précision inférieure au JND sur αm.

5.5 Protocole d’analyse sur signaux naturels

Dans le document Analyse de la qualité vocale appliquée à la parole expressive (Page 160-162)