• Aucun résultat trouvé

7. La qualité de voix

7.9. Le Quotient d’Amplitude Normalisé (NAQ)

7.9.5 Evaluation de l’algorithme de calcul du paramètre NAQ

Bien que l’algorithme effectuant le calcul du paramètre NAQ (Mokhtari, 2002) ait déjà  été évalué sur des ensembles très larges de données, en particulier par Campbell & 

Mokhtari (2003), des pré‐tests réalisés sur quelques signaux de parole nous ont montré  que les variations fortes de NAQ liées au contrôle de la qualité de voix risquaient d’être  du même ordre de grandeur que celles dues aux variations d’ordre phonétique. En  particulier se pose le problème des voyelles nasales qui intrinsèquement en phonation  modale font varier NAQ dans des ordres de grandeur correspondant à des changements  de qualité de voix pour les autres voyelles. Si de telles variations peuvent être absorbées  par une large représentation de tous les contextes phonétiques dans les grandes bases de  données du type de celle utilisées par Campbell & Mokhtari (2003), qui extraient de ces  corpus des données statiques globales de NAQ, notre approche basée sur des données  plus détaillées nécessite un suivi fin des contours de NAQ sur le signal de parole. Dans  notre approche le paramètre NAQ doit être finement évalué, afin de connaître les effets  intrinsèques et co‐intrinsèques (effets  non prosodiques) de la variation de NAQ, et  d’identifier  les  éventuels  problèmes  liés  à  l’inversion  du  signal  acoustique,  et  en  particulier dans le cas des nasales qui seraient susceptibles de produire les mêmes effets  acoustiques qu’une phonation soufflée. Vaissière (1995, p. 13) note ainsi dans le cadre de  la production d’un [h] : 

« La voix breathy peut également donner l’impression d’être nasalisée. L’ouverture de la glotte  pendant h aspiré provoque un affaiblissement considérable de l’énergie dans la zone du premier  formant, une caractéristique commune avec l’ouverture du port nasal. » 

Afin de vérifier et calibrer cet algorithme, nous l’avons utilisé pour calculer les valeurs  de NAQ sur un sous‐ensemble du corpus spontané « Sound Teacher », qui présente des  stimuli  monosyllabiques  équilibrés  dans  l’espace  phonologique  des  voyelles.  Les  commandes (« page suivante » et les noms de couleurs monosyllabiques) produites dans  la partie spontanée du corpus par les deux locuteurs masculins (M1 et M4) pour lesquels  le signal électroglottographique a été enregistré ont été sélectionnées pour cette étude,  soit  un  corpus  de  373  stimuli  d’une  durée  utile  totale  de  204  secondes.  Les  enregistrements du signal EGG présentent l’avantage de fournir des données fiables sur  une partie du cycle glottique (sauf la phase ouverte de la glotte), permettant notamment  de calculer aisément des valeurs de référence pour la fréquence fondamentale et le  quotient ouvert. 

Lors  de  l’étiquetage  phonétique,  un  nombre  considérable  de  stimuli  parmi  les  productions traitées ont révélé la présence d’un schwa à la fin des énoncés supposés  monosyllabiques (par exemple [on] au lieu de [on]). Les schwas ont été inclus dans les  analyses, au même titre que les autres voyelles. 

7.9.5.1 Détection des centres de confiance 

Lorsqu’il est calculé à partir de parole continue non étiquetée, NAQ ne peut être obtenu  qu’au niveau des centres de confiance, c’est‐à‐dire des vocoïdes définis par Mokhtari  (2002). La localisation de ces centres de confiance a donc également été extraite, et mise  en correspondance avec l’étiquetage phonétique du corpus, afin de s’assurer de leur  statut de vocoïdes. 68% des centres de confiance sont trouvés dans des voyelles, contre  15% dans des consonnes voisées qui satisfont aux critères d’énergie des vocoïdes et 17 %  dans d’autres consonnes. La consonne nasale [n], fréquemment détectée comme centre  de confiance, a également été prise en compte dans la suite des analyses. Il ressort de la  Table 2, qui présente la répartition des centres de confiance en fonction des étiquettes  phonétiques, que les distributions des phonèmes étudiés sont comparables, à l’exception  du schwa non systématiquement réalisé. 

i  a o u ə  n Autres 

    9.4%  11.6%  14.7%  7.3%  8.8%  3.0%  13.2%  8.3%  23.7% 

Table 2 : Répartition par phonème des centres de confiance détectés par l’algorithme d’extraction du  paramètre NAQ. 

7.9.5.2 Influence du phonème sur NAQ 

Nous  avons effectué une  analyse  de  variance à  un  facteur  afin d’évaluer,  sur ces  données, l’influence du phonème sur les valeurs de Quotient d’Amplitude Normalisé. La  Figure  21  présente  les  valeurs  moyennes  et  l’intervalle  de  confiance  de  NAQ  par  phonème, pour l’ensemble des 373 stimuli analysés. Les valeurs de NAQ sont comprises  entre 0.07 et 0.32 ce qui, en comparant aux valeurs obtenues par Alku et al. (2002) pour  cinq  locuteurs  masculins,  signifierait  que  les  stimuli  analysés  se  répartissent  sur  l’ensemble du continuum voix soufflée‐voix pressée. Les valeurs moyennes de NAQ  semblent plus élevées pour les voyelles orales hautes, bien que cette tendance ne soit pas  significative. 

Le  phonème  [] présente  en  outre  un  NAQ  moyen plus  élevé, mais présente  une  répartition clairement bimodale des valeurs de NAQ. Ainsi le locuteur N. ajoute [] sur  les fins de mots avec des valeurs de NAQ élevées (0.28 en moyenne), correspondant à  une voix soufflée d’après les valeurs données par Alku et al. (2002). Le locuteur R., quant  à lui, ajoute [] avec une voix modale (valeurs de NAQ autour de 0.12 de même que pour  []). Le choix de l’ajout ou non d’un schwa final semble relever de stratégies relatives aux  valeurs expressives des actes de langage. A noter que les deux locuteurs présentent des  fréquences d’ajout de [] voisines: 36.8% des stimuli du locuteur N., contre 42.9% chez le  locuteur R. Tandis que la voyelle nasale [] présente des valeurs de NAQ similaires à  celles des voyelles hautes, la consonne nasale [n] a des valeurs de NAQ correspondant à  une voix soufflée (0.19). Toutes les différences entre les valeurs moyennes de NAQ par  phonème sont significatives à l’exception de la différence entre [n] et [] (test post‐hoc de  Tukey, p<0.01). Il paraît irréaliste que le phonème [n] de [on] soit systématiquement  réalisé avec une phonation soufflée alors que le [o] ne l’est pas. On pourrait arguer que  cela est dû à sa position finale, mais ceci reste observable lorsque [] est ajouté en fin  d’énoncé. Une explication possible serait que la nasalité produit essentiellement des  basses fréquences, ce qui augmentent la pente spectrale (que l’on peut considérer comme  la différence entre l’énergie présente dans les hautes fréquences du signal et celle dans  les basses fréquences) en atténuant les hautes fréquences. En effet les mouvements  supra‐laryngés  dans  le  cas  de  la  nasalité,  et  laryngés  pour  le  caractère  soufflée  produisent le même effet acoustique, à savoir une augmentation de la pente spectrale. 

On a donc dans le cas du [n] une mauvaise interprétation de cette augmentation de la  pente spectrale : ici, un effet supra‐laryngé est en effet attribué à une voix soufflée. 

0,06

La  plupart des paramètres  basés sur  l’amplitude étant normalisés par  la fréquence  fondamentale, cela implique que les erreurs dans son estimation sont répercutées sur  l’estimation de tous les autres paramètres. Nous avons donc comparé F0A, estimée par  l’algorithme de calcul des paramètres basés sur l’amplitude, à F0EGG (Figure 22), extraite  par autocorrélation du signal EGG selon la méthode proposée par Henrich (2001). Ces  deux valeurs ont été calculées sur les mêmes portions de signal, centrées sur les centres  de confiance détectés. La corrélation entre ces deux mesures est de r = 0.8. 

Il ressort en outre de cette comparaison que les valeurs de fréquence fondamentale  utilisées pour normaliser les paramètres basés sur  l’amplitude tendent à être sous‐

estimées par rapport à la valeur de référence que constitue celle mesurée à l’aide de  l’EGG, ce qui implique que les valeurs de ces paramètres devraient également être sous‐

estimées. 

50

Dans  notre  corpus,  pour  les  deux  locuteurs  masculins  sélectionnés,  la  fréquence  fondamentale présente des valeurs significativement supérieures pour [] réalisé par le  locuteur R., accompagnées de valeurs élevées de NAQ.  

7.9.5.4 Evaluation du filtrage inverse : OQA vs. OQEGG 

Gobl & Ni Chasaíde (2003b) proposent d’étendre l’idée originale d’Alku & Vilkman  (2000) d’une estimation des paramètres temporels de forme de l’onde de débit glottique  à partir des amplitudes. En particulier, ils ont introduisent le paramètre OQA, estimation 

Autrement  dit Gobl &  Ni  Chasaíde (2003b) proposent une  estimation à  partir des  amplitudes de la durée de la phase ouverte de la glotte définie comme : 

Le  quotient ouvert représente  la  part  de la durée la phase ouverte dans un cycle  glottique, c’est‐à‐dire la somme de la durée de la phase d’ouverture et de celle de la 

phase de fermeture, normalisée par la période fondamentale T0 (la durée d’un cycle  glottique).  Son  estimation  basée  sur  l’amplitude  OQA  devrait  en  conséquence  être  partiellement corrélée à NAQ, lié à la phase de fermeture (Alku & Vilkman, 2000). Dans  notre corpus, cette corrélation est élevée (r=0.96) ce qui tendrait à montrer que la phase  de fermeture explique l’essentiel de la variance du quotient ouvert, l’asymétrie entre les  phases d’ouverture et de fermeture de la glotte étant de moindre importance. 

La corrélation entre OQA et F0EGG que nous observons est faible (r=0.53). La fréquence  fondamentale ne peut donc expliquer la variation de durée de la phase ouverte, qui  semble clairement  indépendante des autres paramètres  prosodiques. Les valeurs de  quotient ouvert extraites du signal EGG, OQEGG, ne présentent pas de corrélation avec F0. 

Ces résultats doivent être comparés à ceux obtenus par Henrich (2001) en voix chantée,  qui a trouvé une corrélation entre F0 et OQ chez les chanteurs utilisant le mécanisme  laryngé II, mais pas pour le mécanisme I qui est le plus fréquemment utilisé par les sujets  masculins en voix parlée. 

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

OQ EGG

OQ A

 

Figure 23 Répartitions relatives des valeurs de OQestimées à partir des valeurs données par  l’algorithme d’extraction de paramètres glottiques à partir de l’amplitude, et de OQEGG. dérivées du  signal EGG pour les locuteurs M1 (bleu) et M4 (rouge)  

La Figure 23 montre la répartition des valeurs de OQA par rapport à celles de OQEGG. Il  apparaît que ces valeurs, pourtant supposées mesurer la même quantité, sont totalement  décorrélées (r=‐0.24). Les valeurs de OQA sont moins élevées, ce qui s’explique en partie  par la sous‐estimation de F0A. Toutefois on observe une répartition similaire entre T1A et  T1EGG, bien que F0 n’intervienne pas dans leur calcul. En effet, les valeurs de T1A sont  toujours plus faibles et on n’observe pas plus de corrélation entre T1A et T1EGG qu’entre 

Les quotients NAQ et OQA sont fortement corrélés dans notre corpus, ce qui n’est pas  surprenant étant donné qu’ils décrivent des phénomènes liés l’un à l’autre. Il convient  cependant de souligner que ces quotients les phénomènes décrits par ces quotients,  respectivement la part de la phase de fermeture et de la durée relative de la phase  ouverte de la glotte dans la durée totale du cycle glottique, sont distincts. 

Les estimations de NAQ sont vraisemblablement plus fiables que celles du quotient  ouvert estimé OQA. En effet le calcul de OQA requière l’estimation d’un paramètre de  plus que celui de NAQ, à savoir EI (cf. Figure 20), ce qui introduit une source d’erreur  supplémentaire. 

A la lumière des résultats de Gobl & Ní Chasaide (2003b), qui obtiennent une corrélation  de r=0.76 entre OQet la valeur du quotient ouvert extraite du domaine temporel de  l’onde de débit glottique estimée, il est toutefois surprenant que OQA et OQEGG soient si  faiblement corrélés. Une explication pourrait venir d’une inadéquation du filtre inverse  utilisé  pour  l’estimation  de  l’onde  de débit  glottique.  En  effet  nous  avons  calculé  automatiquement les paramètres basés sur l’amplitude, sans adaptation particulière au  locuteur, tandis que les résultats de Gobl & Ní Chasaide (2003b) ont été obtenus par une  mesure manuelle experte des formants. Etant donné qu’aucune méthode ne donne de  mesure directe du débit glottique, la meilleure solution pour assurer un filtrage inverse  adéquat semble être la supervision par un expert. Contrairement à Gobl & Ní Chasaide  (2003b) qui ont mesuré l’amplitude EI directement à partir du signal plutôt qu’à partir de  l’onde de débit estimée pour s’affranchir des contraintes internes du modèle LF (Fant et  al., 1985), nous avons de plus mesuré cette composante à partir de l’onde de débit  estimée. Une autre source d’erreur potentielle pourrait provenir de la mesure de OQEGG. 

En effet nous avons utilisé un électroglottographe ne comprenant que deux électrodes et  avons éliminé la composante basse fréquence correspondant aux mouvements du larynx  par un filtrage passe‐haut, ce qui ne permet pas une mesure aussi fine que celle obtenue  avec un  appareil de mesure plus élaboré dans  lequel  des électrodes  additionnelles  permettent de prendre directement en considération ces mouvements. 

7.9.5.5 Conséquences 

Nous ne pouvons donc pas lier directement les mesures articulatoires issues du signal  EGG aux estimations basées sur l’amplitude du débit obtenu par filtrage inverse du  signal acoustique. Il a cependant été montré que les caractéristiques de l’onde de débit  glottique influencent le jugement perceptif émotionnel (voir par exemple Gobl & Ní  Chasaide (2003a)), et que l’on peut lier NAQ au degré « d’attention » porté à la voix,  comme  l’a  montré  Campbell  (2003).  Ainsi  NAQ  apparaît  clairement  comme  un  paramètre extrait du signal acoustique qui est porteur d’informations sur la qualité de 

voix. Le postulat d’Alku & Vilkman (2000) selon lequel NAQ capturerait un continuum  voix  tendue‐voix soufflée  semble  cependant devoir être  nuancé. Doval et  al.  (2006)  considèrent en effet le paramètre NAQ comme un bon descripteur du continuum voix  tendu‐voix relâchée, mais ne mentionnent pas le cas de la voix soufflée. 

Etant donné les configurations articulatoires correspondant aux modes de phonation  relâché et soufflé, il est vraisemblable que ces modes de phonation soient fréquemment  co‐occurrents. Cependant les descriptions les plus complètes à ce jour de la qualité de  voix (voir notamment d’Alessandro (2006)) considèrent la dimension voix tendue‐voix  relâchée  et  l’ajout d’un  flux  turbulent au  niveau  de  la  constriction glottique  (voix  soufflée) comme des dimensions au moins partiellement indépendantes. Il est ainsi  possible d’observer une qualité de voix à la fois tendue et soufflée, comme par exemple  dans le cas de l’attitude prosodique japonaise de surprise (Shochi, 2008). 

Les résultats que nous obtenons sur nos données ne remettent pas en cause la validité  d’une  mesure globale de NAQ effectuée sur de larges  corpus, et en particulier les  conclusions de Campbell & Mokhtari (2003) sur le lien entre valeurs de NAQ et degré  d’attention porté. En revanche, ils nous indiquent que nous ne pouvons directement, en  calculant  NAQ  selon la  méthode  proposée par  Alku  (2002)  et mise  en  œuvre  par  Mokhtari & Campbell (2002), effectuer de suivi de contours sur ce paramètre.