7. La qualité de voix
7.9. Le Quotient d’Amplitude Normalisé (NAQ)
7.9.5 Evaluation de l’algorithme de calcul du paramètre NAQ
Bien que l’algorithme effectuant le calcul du paramètre NAQ (Mokhtari, 2002) ait déjà été évalué sur des ensembles très larges de données, en particulier par Campbell &
Mokhtari (2003), des pré‐tests réalisés sur quelques signaux de parole nous ont montré que les variations fortes de NAQ liées au contrôle de la qualité de voix risquaient d’être du même ordre de grandeur que celles dues aux variations d’ordre phonétique. En particulier se pose le problème des voyelles nasales qui intrinsèquement en phonation modale font varier NAQ dans des ordres de grandeur correspondant à des changements de qualité de voix pour les autres voyelles. Si de telles variations peuvent être absorbées par une large représentation de tous les contextes phonétiques dans les grandes bases de données du type de celle utilisées par Campbell & Mokhtari (2003), qui extraient de ces corpus des données statiques globales de NAQ, notre approche basée sur des données plus détaillées nécessite un suivi fin des contours de NAQ sur le signal de parole. Dans notre approche le paramètre NAQ doit être finement évalué, afin de connaître les effets intrinsèques et co‐intrinsèques (effets non prosodiques) de la variation de NAQ, et d’identifier les éventuels problèmes liés à l’inversion du signal acoustique, et en particulier dans le cas des nasales qui seraient susceptibles de produire les mêmes effets acoustiques qu’une phonation soufflée. Vaissière (1995, p. 13) note ainsi dans le cadre de la production d’un [h] :
« La voix breathy peut également donner l’impression d’être nasalisée. L’ouverture de la glotte pendant h aspiré provoque un affaiblissement considérable de l’énergie dans la zone du premier formant, une caractéristique commune avec l’ouverture du port nasal. »
Afin de vérifier et calibrer cet algorithme, nous l’avons utilisé pour calculer les valeurs de NAQ sur un sous‐ensemble du corpus spontané « Sound Teacher », qui présente des stimuli monosyllabiques équilibrés dans l’espace phonologique des voyelles. Les commandes (« page suivante » et les noms de couleurs monosyllabiques) produites dans la partie spontanée du corpus par les deux locuteurs masculins (M1 et M4) pour lesquels le signal électroglottographique a été enregistré ont été sélectionnées pour cette étude, soit un corpus de 373 stimuli d’une durée utile totale de 204 secondes. Les enregistrements du signal EGG présentent l’avantage de fournir des données fiables sur une partie du cycle glottique (sauf la phase ouverte de la glotte), permettant notamment de calculer aisément des valeurs de référence pour la fréquence fondamentale et le quotient ouvert.
Lors de l’étiquetage phonétique, un nombre considérable de stimuli parmi les productions traitées ont révélé la présence d’un schwa à la fin des énoncés supposés monosyllabiques (par exemple [on] au lieu de [on]). Les schwas ont été inclus dans les analyses, au même titre que les autres voyelles.
7.9.5.1 Détection des centres de confiance
Lorsqu’il est calculé à partir de parole continue non étiquetée, NAQ ne peut être obtenu qu’au niveau des centres de confiance, c’est‐à‐dire des vocoïdes définis par Mokhtari (2002). La localisation de ces centres de confiance a donc également été extraite, et mise en correspondance avec l’étiquetage phonétique du corpus, afin de s’assurer de leur statut de vocoïdes. 68% des centres de confiance sont trouvés dans des voyelles, contre 15% dans des consonnes voisées qui satisfont aux critères d’énergie des vocoïdes et 17 % dans d’autres consonnes. La consonne nasale [n], fréquemment détectée comme centre de confiance, a également été prise en compte dans la suite des analyses. Il ressort de la Table 2, qui présente la répartition des centres de confiance en fonction des étiquettes phonétiques, que les distributions des phonèmes étudiés sont comparables, à l’exception du schwa non systématiquement réalisé.
i a o u ə n Autres
9.4% 11.6% 14.7% 7.3% 8.8% 3.0% 13.2% 8.3% 23.7%
Table 2 : Répartition par phonème des centres de confiance détectés par l’algorithme d’extraction du paramètre NAQ.
7.9.5.2 Influence du phonème sur NAQ
Nous avons effectué une analyse de variance à un facteur afin d’évaluer, sur ces données, l’influence du phonème sur les valeurs de Quotient d’Amplitude Normalisé. La Figure 21 présente les valeurs moyennes et l’intervalle de confiance de NAQ par phonème, pour l’ensemble des 373 stimuli analysés. Les valeurs de NAQ sont comprises entre 0.07 et 0.32 ce qui, en comparant aux valeurs obtenues par Alku et al. (2002) pour cinq locuteurs masculins, signifierait que les stimuli analysés se répartissent sur l’ensemble du continuum voix soufflée‐voix pressée. Les valeurs moyennes de NAQ semblent plus élevées pour les voyelles orales hautes, bien que cette tendance ne soit pas significative.
Le phonème [] présente en outre un NAQ moyen plus élevé, mais présente une répartition clairement bimodale des valeurs de NAQ. Ainsi le locuteur N. ajoute [] sur les fins de mots avec des valeurs de NAQ élevées (0.28 en moyenne), correspondant à une voix soufflée d’après les valeurs données par Alku et al. (2002). Le locuteur R., quant à lui, ajoute [] avec une voix modale (valeurs de NAQ autour de 0.12 de même que pour []). Le choix de l’ajout ou non d’un schwa final semble relever de stratégies relatives aux valeurs expressives des actes de langage. A noter que les deux locuteurs présentent des fréquences d’ajout de [] voisines: 36.8% des stimuli du locuteur N., contre 42.9% chez le locuteur R. Tandis que la voyelle nasale [] présente des valeurs de NAQ similaires à celles des voyelles hautes, la consonne nasale [n] a des valeurs de NAQ correspondant à une voix soufflée (0.19). Toutes les différences entre les valeurs moyennes de NAQ par phonème sont significatives à l’exception de la différence entre [n] et [] (test post‐hoc de Tukey, p<0.01). Il paraît irréaliste que le phonème [n] de [on] soit systématiquement réalisé avec une phonation soufflée alors que le [o] ne l’est pas. On pourrait arguer que cela est dû à sa position finale, mais ceci reste observable lorsque [] est ajouté en fin d’énoncé. Une explication possible serait que la nasalité produit essentiellement des basses fréquences, ce qui augmentent la pente spectrale (que l’on peut considérer comme la différence entre l’énergie présente dans les hautes fréquences du signal et celle dans les basses fréquences) en atténuant les hautes fréquences. En effet les mouvements supra‐laryngés dans le cas de la nasalité, et laryngés pour le caractère soufflée produisent le même effet acoustique, à savoir une augmentation de la pente spectrale.
On a donc dans le cas du [n] une mauvaise interprétation de cette augmentation de la pente spectrale : ici, un effet supra‐laryngé est en effet attribué à une voix soufflée.
0,06
La plupart des paramètres basés sur l’amplitude étant normalisés par la fréquence fondamentale, cela implique que les erreurs dans son estimation sont répercutées sur l’estimation de tous les autres paramètres. Nous avons donc comparé F0A, estimée par l’algorithme de calcul des paramètres basés sur l’amplitude, à F0EGG (Figure 22), extraite par autocorrélation du signal EGG selon la méthode proposée par Henrich (2001). Ces deux valeurs ont été calculées sur les mêmes portions de signal, centrées sur les centres de confiance détectés. La corrélation entre ces deux mesures est de r = 0.8.
Il ressort en outre de cette comparaison que les valeurs de fréquence fondamentale utilisées pour normaliser les paramètres basés sur l’amplitude tendent à être sous‐
estimées par rapport à la valeur de référence que constitue celle mesurée à l’aide de l’EGG, ce qui implique que les valeurs de ces paramètres devraient également être sous‐
estimées.
50
Dans notre corpus, pour les deux locuteurs masculins sélectionnés, la fréquence fondamentale présente des valeurs significativement supérieures pour [] réalisé par le locuteur R., accompagnées de valeurs élevées de NAQ.
7.9.5.4 Evaluation du filtrage inverse : OQA vs. OQEGG
Gobl & Ni Chasaíde (2003b) proposent d’étendre l’idée originale d’Alku & Vilkman (2000) d’une estimation des paramètres temporels de forme de l’onde de débit glottique à partir des amplitudes. En particulier, ils ont introduisent le paramètre OQA, estimation
Autrement dit Gobl & Ni Chasaíde (2003b) proposent une estimation à partir des amplitudes de la durée de la phase ouverte de la glotte définie comme :
Le quotient ouvert représente la part de la durée la phase ouverte dans un cycle glottique, c’est‐à‐dire la somme de la durée de la phase d’ouverture et de celle de la
phase de fermeture, normalisée par la période fondamentale T0 (la durée d’un cycle glottique). Son estimation basée sur l’amplitude OQA devrait en conséquence être partiellement corrélée à NAQ, lié à la phase de fermeture (Alku & Vilkman, 2000). Dans notre corpus, cette corrélation est élevée (r=0.96) ce qui tendrait à montrer que la phase de fermeture explique l’essentiel de la variance du quotient ouvert, l’asymétrie entre les phases d’ouverture et de fermeture de la glotte étant de moindre importance.
La corrélation entre OQA et F0EGG que nous observons est faible (r=0.53). La fréquence fondamentale ne peut donc expliquer la variation de durée de la phase ouverte, qui semble clairement indépendante des autres paramètres prosodiques. Les valeurs de quotient ouvert extraites du signal EGG, OQEGG, ne présentent pas de corrélation avec F0.
Ces résultats doivent être comparés à ceux obtenus par Henrich (2001) en voix chantée, qui a trouvé une corrélation entre F0 et OQ chez les chanteurs utilisant le mécanisme laryngé II, mais pas pour le mécanisme I qui est le plus fréquemment utilisé par les sujets masculins en voix parlée.
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
OQ EGG
OQ A
Figure 23 : Répartitions relatives des valeurs de OQA estimées à partir des valeurs données par l’algorithme d’extraction de paramètres glottiques à partir de l’amplitude, et de OQEGG. dérivées du signal EGG pour les locuteurs M1 (bleu) et M4 (rouge)
La Figure 23 montre la répartition des valeurs de OQA par rapport à celles de OQEGG. Il apparaît que ces valeurs, pourtant supposées mesurer la même quantité, sont totalement décorrélées (r=‐0.24). Les valeurs de OQA sont moins élevées, ce qui s’explique en partie par la sous‐estimation de F0A. Toutefois on observe une répartition similaire entre T1A et T1EGG, bien que F0 n’intervienne pas dans leur calcul. En effet, les valeurs de T1A sont toujours plus faibles et on n’observe pas plus de corrélation entre T1A et T1EGG qu’entre
Les quotients NAQ et OQA sont fortement corrélés dans notre corpus, ce qui n’est pas surprenant étant donné qu’ils décrivent des phénomènes liés l’un à l’autre. Il convient cependant de souligner que ces quotients les phénomènes décrits par ces quotients, respectivement la part de la phase de fermeture et de la durée relative de la phase ouverte de la glotte dans la durée totale du cycle glottique, sont distincts.
Les estimations de NAQ sont vraisemblablement plus fiables que celles du quotient ouvert estimé OQA. En effet le calcul de OQA requière l’estimation d’un paramètre de plus que celui de NAQ, à savoir EI (cf. Figure 20), ce qui introduit une source d’erreur supplémentaire.
A la lumière des résultats de Gobl & Ní Chasaide (2003b), qui obtiennent une corrélation de r=0.76 entre OQA et la valeur du quotient ouvert extraite du domaine temporel de l’onde de débit glottique estimée, il est toutefois surprenant que OQA et OQEGG soient si faiblement corrélés. Une explication pourrait venir d’une inadéquation du filtre inverse utilisé pour l’estimation de l’onde de débit glottique. En effet nous avons calculé automatiquement les paramètres basés sur l’amplitude, sans adaptation particulière au locuteur, tandis que les résultats de Gobl & Ní Chasaide (2003b) ont été obtenus par une mesure manuelle experte des formants. Etant donné qu’aucune méthode ne donne de mesure directe du débit glottique, la meilleure solution pour assurer un filtrage inverse adéquat semble être la supervision par un expert. Contrairement à Gobl & Ní Chasaide (2003b) qui ont mesuré l’amplitude EI directement à partir du signal plutôt qu’à partir de l’onde de débit estimée pour s’affranchir des contraintes internes du modèle LF (Fant et al., 1985), nous avons de plus mesuré cette composante à partir de l’onde de débit estimée. Une autre source d’erreur potentielle pourrait provenir de la mesure de OQEGG.
En effet nous avons utilisé un électroglottographe ne comprenant que deux électrodes et avons éliminé la composante basse fréquence correspondant aux mouvements du larynx par un filtrage passe‐haut, ce qui ne permet pas une mesure aussi fine que celle obtenue avec un appareil de mesure plus élaboré dans lequel des électrodes additionnelles permettent de prendre directement en considération ces mouvements.
7.9.5.5 Conséquences
Nous ne pouvons donc pas lier directement les mesures articulatoires issues du signal EGG aux estimations basées sur l’amplitude du débit obtenu par filtrage inverse du signal acoustique. Il a cependant été montré que les caractéristiques de l’onde de débit glottique influencent le jugement perceptif émotionnel (voir par exemple Gobl & Ní Chasaide (2003a)), et que l’on peut lier NAQ au degré « d’attention » porté à la voix, comme l’a montré Campbell (2003). Ainsi NAQ apparaît clairement comme un paramètre extrait du signal acoustique qui est porteur d’informations sur la qualité de
voix. Le postulat d’Alku & Vilkman (2000) selon lequel NAQ capturerait un continuum voix tendue‐voix soufflée semble cependant devoir être nuancé. Doval et al. (2006) considèrent en effet le paramètre NAQ comme un bon descripteur du continuum voix tendu‐voix relâchée, mais ne mentionnent pas le cas de la voix soufflée.
Etant donné les configurations articulatoires correspondant aux modes de phonation relâché et soufflé, il est vraisemblable que ces modes de phonation soient fréquemment co‐occurrents. Cependant les descriptions les plus complètes à ce jour de la qualité de voix (voir notamment d’Alessandro (2006)) considèrent la dimension voix tendue‐voix relâchée et l’ajout d’un flux turbulent au niveau de la constriction glottique (voix soufflée) comme des dimensions au moins partiellement indépendantes. Il est ainsi possible d’observer une qualité de voix à la fois tendue et soufflée, comme par exemple dans le cas de l’attitude prosodique japonaise de surprise (Shochi, 2008).
Les résultats que nous obtenons sur nos données ne remettent pas en cause la validité d’une mesure globale de NAQ effectuée sur de larges corpus, et en particulier les conclusions de Campbell & Mokhtari (2003) sur le lien entre valeurs de NAQ et degré d’attention porté. En revanche, ils nous indiquent que nous ne pouvons directement, en calculant NAQ selon la méthode proposée par Alku (2002) et mise en œuvre par Mokhtari & Campbell (2002), effectuer de suivi de contours sur ce paramètre.