7. La qualité de voix
7.5. Mesures acoustiques de la qualité de voix
7.5.2 Mesures de la pente spectrale en hautes et basses fréquences
De nombreuses mesures différentes de la pente spectrale (dénotée selon les auteurs par les termes spectral slope ou spectral tilt dans la littérature anglophone) ont été proposées.
L’une des raisons de la divergence des définitions de la pente spectrale est le manque de consensus quant aux corrélats acoustiques de la forme de l’onde de débit glottique.
Le terme de spectral slope a principalement été utilisé pour désigner diverses approximations de la forme générale de l’enveloppe spectrale, prenant également en compte les basses fréquences. Alku et al. (1997) ont ainsi introduit le paramètre PSP, calculé à partir d’une approximation polynomiale du second ordre de l’enveloppe spectrale. Childers & Lee (1991) ont pour leur part proposé de calculer le facteur de richesse harmonique HRF comme le rapport entre la somme des amplitudes des harmoniques de fréquence plus élevée que F0 et l’amplitude du premier harmonique H1.
Doval et al. (2006), qui ont apporté la contribution théorique la plus complète à la description du spectre des modèles de débit glottique, utilisent le terme de spectral tilt pour désigner l’atténuation de l’énergie dans les hautes fréquences due à une fermeture moins abrupte de la glotte, déjà notée par Fant et al. (1985).
Cependant le terme de spectral tilt a également été très largement utilisé pour désigner les caractéristiques spectrales en basses fréquences. En particulier, il est utilisé par certains auteurs (voir par exemple Beckman & Campbell (1997), Swerts & Veldhuis (2001)) pour désigner la différence entre les amplitudes des deux premiers harmoniques, H1‐H218.
18 Bien que le décalage des indices utilisés puisse prêter à confusion, l’amplitude H1 du premier harmonique désigne l’amplitude du spectre à la fréquence F0, et l’amplitude H2 du deuxième harmonique l’amplitude du spectre à la fréquence 2*F0.
Afin d’éviter toute confusion, nous utiliserons dans la suite le terme de pente spectrale pour désigner l’atténuation de l’énergie, et conserverons le terme de différence entre les amplitudes des deux premiers harmoniques ou sa notation abrégée H1‐H2 pour désigner cette quantité.
Les corrélats perceptifs de ce paramètre sont bien établis. Beckman & Campbell (1997) ont par exemple montré que ses variations pouvaient être reliées aux différents types d’accentuation en anglais américain.
La différence entre les amplitudes des deux premiers harmoniques a été liée de façon claire au quotient ouvert. Hanson (1995), ainsi que (Holmberg et al., 1995) et Fant (1997), établissent ainsi une relation univoque entre le quotient ouvert et ce paramètre, qui permettrait ainsi de caractériser le continuum voix relâchée‐voix tendue. Cependant Swerts & Veldhuis (2001) relèvent que la quantité H1‐H2 dépend non seulement du quotient ouvert, mais également du coefficient d’asymétrie. Doval et al. (2006) renforcent ce résultat en établissant à partir des modèles de débit glottique la relation entre la différence d’amplitude entre les deux premiers harmoniques, le quotient ouvert et le coefficient d’asymétrie. Ils notent que la principale raison pour laquelle Hanson (1995) a trouvé une relation univoque entre H1‐H2 et le quotient ouvert est qu’elle s’est appuyée sur le modèle de débit glottique KLGLOTT88 (Klatt & Klatt, 1990) dans lequel le coefficient d’asymétrie est fixé à une valeur constante de 2/3.
De même que la plupart des autres paramètres spectraux proposés dans la littérature et en particulier ceux relatifs aux basses fréquences, la différence H1‐H2 est sensible à la qualité de la voyelle. Afin de pallier cette limitation, Hanson (1995) propose une mesure corrigée H1*‐H2* dans laquelle les amplitudes des deux premiers harmoniques sont corrigées de la valeur du premier formant. H1* et H2* sont obtenus par les équations :
Hanson (1995) reste cependant prudente dans ses conclusions, et précise que la formule de correction qu’elle propose n’est valable que pour les voyelles basses, seules recueillies et testées dans son corpus. Il semble hasardeux d’étendre cette correction à des voyelles hautes, tout particulièrement dans le cas d’une fréquence fondamentale élevée dont résulterait une fréquence du second harmonique proche de la position du premier formant. En effet les formules proposées reposent sur une hypothèse simplificatrice dans laquelle les formants sont assimilés à une résonance « idéale » de largeur de bande nulle, qui suppose pour être considérée comme valide que la fréquence fondamentale soit très inférieure à la position du premier formant.
Le terme correctif soustrait de l’amplitude du second harmonique a un comportement asymptotique lorsque cette hypothèse n’est pas vérifiée et que F1 est proche de la fréquence fondamentale ou du double de la fréquence fondamentale. Dans le cas des voyelles du français, Tubach (1989) indique pour les voyelles [i], [u] et [y] des valeurs moyennes de F1 comprises entre 300 Hz et 315 Hz selon la voyelle et le genre du locuteur. Ainsi une fondamentale de l’ordre de 150 à 160 Hz, courante pour une voix d’homme en parole conversationnelle, ou une fondamentale proche de ces valeurs de F1, courante pour une voix de femme (Henrich, 2001) aura pour conséquence des valeurs totalement irréalistes de H1*‐H2* sur une voyelle haute.
Iseli & Alwan (2004) proposent une généralisation de la formule de correction proposée par Hanson (1995) en prenant en compte l’intégralité des formants et leurs largeurs de bande. Selon leurs propositions, l’amplitude corrigée de l’influence des formants de chacun des harmoniques considéré pourrait ainsi être calculée quelle que soit la voyelle et le niveau de la fréquence fondamentale comme : la fréquence d’échantillonnage, F0 la fréquence fondamentale, Fi la fréquence du ième formant et Bi sa largeur de bande.
La mesure des largeurs de bande des formants, et en particulier de celle du premier formant dont l’influence est ici prépondérante, revêt donc un caractère crucial pour l’estimation fiable du terme correctif appliqué aux amplitudes mesurées des harmoniques. Sans remettre en cause la validité de la démonstration d’Iseli & Alwan (2004) sur les modèles de débit glottique, une telle approche nécessite donc de pouvoir mesurer avec précision la largeur de bande du premier formant, ce qui peut se révéler difficile lorsque la fréquence fondamentale est proche de la fréquence de ce premier formant, notamment dans le cas de voyelles hautes.
En conséquence, il semble difficile de réaliser des comparaisons inter‐voyelles de valeurs de différence d’amplitude entre les deux premiers harmoniques. Il paraît donc impératif que les comparaisons des valeurs prises par ces paramètres spectraux soient effectuées sur les mêmes voyelles. Bien que dans ces conditions l’application de termes correctifs tels que celui proposé par Hanson (1995) puisse de prime abord sembler moins crucial, de telles corrections revêtent toutefois un intérêt indéniable. En effet, comme nous l’avons souligné ci‐dessus, l’un des effets de l’expression d’affects dans la parole est une variabilité accrue de la réalisation des cibles formantiques pour une même voyelle. Ces
corrections, à condition d’être appliquées à des voyelles suffisamment basses pour que les mesures intermédiaires soient réalisables, pourraient donc permettre d’obtenir une estimation du quotient ouvert et de l’asymétrie de l’onde de débit glottique indépendamment des variations dans l’articulation supraglottique.