• Aucun résultat trouvé

7. La qualité de voix

7.5. Mesures acoustiques de la qualité de voix

7.5.2 Mesures de la pente spectrale en hautes et basses fréquences

De nombreuses mesures différentes de la pente spectrale (dénotée selon les auteurs par  les termes spectral slope ou spectral tilt dans la littérature anglophone) ont été proposées. 

L’une des raisons de la divergence des définitions de la pente spectrale est le manque de  consensus quant aux corrélats acoustiques de la forme de l’onde de débit glottique. 

Le  terme  de  spectral  slope  a  principalement  été  utilisé  pour  désigner  diverses  approximations de la forme générale de l’enveloppe spectrale, prenant également en  compte les basses fréquences. Alku et al. (1997) ont ainsi introduit le paramètre PSP,  calculé  à  partir  d’une  approximation  polynomiale  du  second  ordre  de  l’enveloppe  spectrale. Childers & Lee (1991) ont pour leur part proposé de calculer le facteur de  richesse  harmonique  HRF  comme  le  rapport  entre  la  somme  des  amplitudes  des  harmoniques de fréquence plus élevée que F0 et l’amplitude du premier harmonique H1. 

Doval et al. (2006), qui ont apporté la contribution théorique la plus complète à la  description du spectre des modèles de débit glottique, utilisent le terme de spectral tilt  pour désigner l’atténuation de l’énergie dans les hautes fréquences due à une fermeture  moins abrupte de la glotte, déjà notée par Fant et al. (1985). 

Cependant le terme de spectral tilt a également été très largement utilisé pour désigner  les caractéristiques  spectrales en basses  fréquences. En particulier,  il est  utilisé  par  certains auteurs (voir par exemple Beckman & Campbell (1997), Swerts & Veldhuis  (2001)) pour désigner la différence entre les amplitudes des deux premiers harmoniques,  H1‐H218

       

18 Bien que le décalage des indices utilisés puisse prêter à confusion, l’amplitude H1 du premier  harmonique désigne l’amplitude du spectre à la fréquence F0, et l’amplitude H2 du deuxième  harmonique l’amplitude du spectre à la fréquence 2*F0. 

Afin d’éviter toute confusion, nous utiliserons dans la suite le terme de pente spectrale  pour désigner l’atténuation de l’énergie, et conserverons le terme de différence entre les  amplitudes  des  deux  premiers  harmoniques  ou  sa  notation  abrégée  H1‐H2  pour  désigner cette quantité. 

Les corrélats perceptifs de ce paramètre sont bien établis. Beckman & Campbell (1997)  ont par exemple montré que ses variations pouvaient être reliées aux différents types  d’accentuation en anglais américain. 

La différence entre les amplitudes des deux premiers harmoniques a été liée de façon  claire au quotient ouvert. Hanson (1995), ainsi que (Holmberg et al., 1995) et Fant (1997),  établissent ainsi une relation univoque entre le quotient ouvert et ce paramètre, qui  permettrait ainsi de caractériser le continuum voix relâchée‐voix tendue. Cependant  Swerts & Veldhuis (2001) relèvent que la quantité H1‐H2 dépend non seulement du  quotient ouvert, mais également du coefficient d’asymétrie. Doval et al. (2006) renforcent  ce résultat en établissant à partir des modèles de débit glottique la relation entre la  différence d’amplitude entre les deux premiers harmoniques, le quotient ouvert et le  coefficient d’asymétrie. Ils notent que la principale raison pour laquelle Hanson (1995) a  trouvé une relation univoque entre H1‐H2 et le quotient ouvert est qu’elle s’est appuyée  sur le modèle  de débit  glottique KLGLOTT88  (Klatt & Klatt,  1990)  dans  lequel le  coefficient d’asymétrie est fixé à une valeur constante de 2/3. 

De même que la plupart des autres paramètres spectraux proposés dans la littérature et  en particulier ceux relatifs aux basses fréquences, la différence H1‐H2 est sensible à la  qualité de la voyelle. Afin de pallier cette limitation, Hanson (1995) propose une mesure  corrigée H1*‐H2* dans laquelle les amplitudes des deux premiers harmoniques sont  corrigées de la valeur du premier formant. H1* et H2* sont obtenus par les équations : 

Hanson (1995) reste cependant prudente dans ses conclusions, et précise que la formule  de correction qu’elle propose n’est valable que pour les voyelles basses, seules recueillies  et testées dans son corpus. Il semble hasardeux d’étendre cette correction à des voyelles  hautes, tout particulièrement dans le cas d’une fréquence fondamentale élevée dont  résulterait une fréquence  du second harmonique proche de la position du  premier  formant. En effet les formules proposées reposent sur une hypothèse simplificatrice dans  laquelle les formants sont assimilés à une résonance « idéale » de largeur de bande nulle,  qui suppose pour être considérée comme valide que la fréquence fondamentale soit très  inférieure à la position du premier formant. 

Le terme correctif soustrait de l’amplitude du second harmonique a un comportement  asymptotique  lorsque cette hypothèse n’est pas vérifiée et que F1 est proche de la  fréquence fondamentale ou du double de la fréquence fondamentale. Dans le cas des  voyelles du français, Tubach (1989) indique pour les voyelles [i], [u] et [y] des valeurs  moyennes de F1 comprises entre 300 Hz et 315 Hz selon la voyelle et le genre du  locuteur. Ainsi une fondamentale de l’ordre de 150 à 160 Hz, courante pour une voix  d’homme en parole conversationnelle, ou une fondamentale proche de ces valeurs de F1,  courante pour une voix de femme (Henrich, 2001) aura pour conséquence des valeurs  totalement irréalistes de H1*‐H2* sur une voyelle haute. 

Iseli & Alwan (2004) proposent une généralisation de la formule de correction proposée  par Hanson (1995) en prenant en compte l’intégralité des formants et leurs largeurs de  bande. Selon leurs propositions, l’amplitude corrigée de l’influence des formants de  chacun des harmoniques considéré pourrait ainsi être calculée quelle que soit la voyelle  et le niveau de la fréquence fondamentale comme :  la fréquence d’échantillonnage, F0 la fréquence fondamentale, Fi la fréquence du ième  formant et Bi sa largeur de bande. 

La mesure des largeurs de bande des formants, et en particulier de celle du premier  formant dont l’influence est ici prépondérante, revêt donc un caractère crucial pour  l’estimation  fiable  du  terme  correctif  appliqué  aux  amplitudes  mesurées  des  harmoniques. Sans remettre en cause la validité de la démonstration d’Iseli & Alwan  (2004) sur les modèles de débit glottique, une telle approche nécessite donc de pouvoir  mesurer avec précision la largeur de bande du premier formant, ce qui peut se révéler  difficile lorsque la fréquence fondamentale est proche de la fréquence de ce premier  formant, notamment dans le cas de voyelles hautes. 

En conséquence, il semble difficile de réaliser des comparaisons inter‐voyelles de valeurs  de différence d’amplitude entre les deux premiers harmoniques. Il paraît donc impératif  que les comparaisons des valeurs prises par ces paramètres spectraux soient effectuées  sur les mêmes voyelles. Bien que dans ces conditions l’application de termes correctifs  tels que celui proposé par Hanson (1995) puisse de prime abord sembler moins crucial,  de telles corrections revêtent toutefois un intérêt indéniable. En effet, comme nous  l’avons souligné ci‐dessus, l’un des effets de l’expression d’affects dans la parole est une  variabilité accrue de la réalisation des cibles formantiques pour une même voyelle. Ces 

corrections, à condition d’être appliquées à des voyelles suffisamment basses pour que  les mesures intermédiaires soient réalisables, pourraient donc permettre d’obtenir une  estimation  du  quotient  ouvert  et  de  l’asymétrie  de  l’onde  de  débit  glottique  indépendamment des variations dans l’articulation supraglottique.