• Aucun résultat trouvé

Protocole d’analyse sur signaux naturels

L’analyse du petit corpus expressif précédent donne des informations sur l’applicabilité de la méthode aux signaux naturels. Dans l’optique d’une analyse automatique, il faut dans un premier

0 1 2 3 4 5 6 7 0.6 0.7 0.8 αm 0 1 2 3 4 5 6 7 0.4 0.6 0.8 Oq 0 1 2 3 4 5 6 7 −1 0 1 time (s.) amplitude Oq from EGG Oq from ZZT

Figure 5.12 – Estimation combinée Oq-αm sur un échantillon à qualité vocale variable. Si la

mesure de Oq sur le signal suit bien les données EGG, il est important de sélectionner les valeurs

de l’asymétrie couplées avec une erreur minimum de Oq sous peine de mal interpréter la mesure.

0.4 0.5 0.6 0.7 0.8 temps valeur estimée de O q rayon de 0.92 rayon de 0.95 rayon de 0.98 programmation dynamique

Figure 5.13 – Programmation dynamique pour sélectionner la valeur de Oq la plus cohérente

en fonction des valeurs précédentes. Le chemin continu est le chemin choisi par l’algorithme. Certains chemin en pointillés sont coupés, car les valeurs estimées ne sont pas toujours réalistes (dans ce cas, elles sont mises à NaN).

temps se libérer de la contrainte du paramètre ρ et augmenter l’immunité aux instabilités de la décomposition. La finesse de l’estimation du paramètre αm est aussi à prendre en considération.

Ainsi, certaines étapes sont ajoutées à la méthode précédente :

– Dans un premier temps, on cherche à s’affranchir de la sensibilité de la mesure de Fg au

rayon ρ choisi pour le calcul de la dérivée de la phase de la partie anticausale. La mesure est directement réalisée pour 3 valeurs de ρ : 0.92, 0.95 et 0.98. Le choix se fait par la suite avec une programmation dynamique (illustrée sur la figure 5.13), cherchant à minimiser le chemin parcouru dans le temps au gré des mesures de Oq. Une valeur non appropriée de

ρdonnera des valeurs de formant glottique variant fortement d’une période à une autre et donc moins susceptibles d’être retenues lors de la minimisation du chemin.

– Dans un deuxième temps, il convient de tenir compte de l’instabilité de la décomposition ZZT du point de vue de la reconstruction du débit glottique. Certaines trames peuvent causer des instabilités en haute fréquence qui vont corrompre la mesure de A = Te− Tp.

Figure 5.14 – Algorithme modifié pour la méthode proposée. La différence principale réside dans la mesure de 3 fréquences différentes de Fg (une pour chaque valeur de ρ, c.f. texte) qui

donnent chacune un couple Oq-αm. Les valeurs sont ensuite sélectionnées par programmation

dynamique puis moyennées.

aux valeurs de Oq après programmation dynamique.

– Enfin, dans le cas de l’exploitation des mesures de αm, seuls les couples Oq− αm dont ˜Oq

est mesuré dans une plage de 5% d’erreur par rapport à l’EGG sont retenus. Dans une première approche de cette analyse on donne les valeurs de αm non vérifiées par EGG.

(figure 5.14).

L’algorithme modifié est présenté en figure 5.14. On remarque que chaque valeur de ρ retenue engendre un couple Oq-αm. Le choix se fait ensuite par programmation dynamique et moyennage.

5.5.2 Résultat de l’algorithme sur de la voix parlée

La base de données (appelée Base A pour éviter les confusions) utilisée est la même que pour le test de l’algorithme LoMA sur l’estimation des GCI. Une base de données, de français lu à partir d’article de journaux regroupant deux locuteurs différents. Les instants d’ouverture et de fermeture sont clairement identifiés sur les signaux EGG enregistrés en parallèle.

Ces résultats sont présentés sur la figure 5.15 par le biais de trois histogrammes superposés. La détection de Oq dans les valeurs associées à la voix modale est très bonne.

– L’histogramme blanc donne la dispersion des valeurs de Oq sources, mesurées sur le signal

EGG.

– L’histogramme gris donne le nombre de valeurs détectées avec une erreur inférieure au JND pour chaque plage de Oq. En moyenne, le taux de détection sous cette erreur est de 80%

0.350 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 500 1000 1500 2000 2500 3000 Oq number of estimations from EGG 25% JND

Figure 5.15 – Résultat de l’estimation du quotient ouvert sur la base de données A de voix parlée. Les résultats sont présentés sous forme d’histogrammes superposés : valeurs mesurées sur l’EGG (blanc), du nombre de détections pour chaque valeur dans chaque plage d’erreur précédemment décidée : le JND (noir) et 25% (gris).

pour une voix modale (Oqmoyen), de 50% pour un quotient ouvert bas et de 20% pour un

quotient ouvert élevé.

– L’histogramme noir donne le nombre de valeurs détectées avec une erreur inférieure à 25% pour chaque plage de Oq. En moyenne, le taux de détection sous cette erreur est de 97%

pour une voix modale, de 80% pour un quotient ouvert bas et de 25% pour un quotient ouvert élevé.

5.5.3 Discussion

Le choix d’une base de données est critique pour évaluer la performance d’un algorithme d’estimation de quotient ouvert. La voix modale présente généralement un Oq aux environs

de 0.66 [Klatt et Klatt, 1990] dans 60 à 70% des cas. Ainsi, un estimateur naïf qui donnerait Oq = 0.6100% du temps présenterait déjà un score brut très élevé sur l’ensemble de la base de

données.

Des études comme [Bouzid et Ellouze, 2007, Thomas et al., 2009, Degottex et al., 2010], par exemple, ne tiennent pas compte de la répartition des valeurs de quotient ouvert au sein de la base de données. Les résultats présentés peuvent être biaisés par un trop grand nombre de valeurs autour du point de fonctionnement optimal de la méthode. Le parti a donc été pris de présenter des résultats détaillés en fonction de la valeur source de Oq et de critiquer les performances

d’estimation en matière de détection dans une plage d’erreur autour de la valeur de Oq. Ces

résultats sont présentés sur la figure 5.15. On y retrouve l’analyse des détections de quotient ouvert pour les deux seuils d’erreur (JND et 25%), en fonction de la répartition des valeurs au sein de la base de données, permettant de critiquer l’algorithme sur sa performance en fonction de la valeur même du quotient ouvert.

Les résultats de l’estimation ne sont pas constants sur toute la plage des valeurs prises par Oq. Les plus basses valeurs sont mieux détectées que les fortes valeurs. Ceci est probablement

expliqué par une tendance de l’algorithme à sous-estimer les valeurs de Oq. La plage réelle de

l’erreur augmente avec la valeur de Oq, le protocole utilisé devrait donc naturellement compenser

cette tendance. Mais il semble que l’impact d’une analyse sur deux périodes, couplé avec la très faible fréquence du formant glottique dans le cas d’une grande valeur de Oq entrainent une

être inférieur au premier harmonique. Sa définition spectrale (par les zéros anticausaux de la ZZT) est donc difficile et limitée par la résolution et l’instabilité de l’analyse. Une autre explication pourrait venir d’un bruit aléatoire créé dans le conduit vocal, bruit connu pour altérer de manière significative les performances de la décomposition par ZZT. Une grande valeur de quotient ouvert est généralement associée à un bruit de phonation élevé. Dans ce cas, une décomposition préalable du type périodique/apériodique pourrait se révéler adéquate. Ce point sera abordé par la suite. Sur la plage propre à la voix modale (avec Oq entre 0.55 et 0.65 sur la figure 5.15) les

performances sont très satisfaisantes : plus de 80% des quotients ouverts sont estimés avec une erreur inférieure aux 17% du seuil différentiel. Cela correspond à la configuration glottique qui répond généralement le mieux à ce type d’estimation, le formant glottique est alors placé entre le premier et le deuxième harmonique, permettant sa résolution dans le domaine spectral.

Sur la plage de voix serrée, pour laquelle Oq est compris entre 0.35 et 0.55, la quantité de

détection décroît un peu mais reste importante, avec plus de 80% de détection dans une plage de 25% d’erreur.

5.5.4 Conclusion

Une méthode pour estimer conjointement les valeurs de Oq et αm sur des signaux naturels

a été présentée. Cette méthode utilise la dérivée de la phase calculée sur un cercle dans le plan complexe et la position du maximum de l’onde de débit glottique, estimée par ZZT. Sur un éventail de voyelles tenues de différente qualité vocale, l’algorithme a donné d’excellents résultats mais a aussi montré quelques faiblesses. La méthode a donc été ajustée pour tenir compte de ces faiblesses et a été appliqué sur un ensemble de signaux naturels produits par deux locuteurs (homme et femme). Les résultats ainsi obtenus sont présentés en fonction de la valeur de Oq

mesurée sur EGG, et par taux de détection pour un critère d’erreur donné : erreur d’estimation inférieure à 17% (seuil différentiel) ou inférieure à 25%.

Les résultats montrent que cette méthode se révèle efficace mais présente des erreur de dé- tections importantes pour les fortes valeurs de quotient ouvert. Une explication possible serait que ces lacunes sont causées par un bruit de phonation trop élevé.

5.6 Méthode hybride combinant ZZT et LoMA pour l’estimation