Paramétrisation de la qualité de voix

7. La qualité de voix

7.6. Paramétrisation de la qualité de voix

Lʹonde de débit glottique permet de caractériser les types de phonation impliqués dans la qualité de voix, aucun instrument ne permettant une mesure directe des paramètres de tension musculaire décrits par Laver sans perturbation importante de la phonation.

Des variations de la forme de l’onde de débit glottique ont pu être liées à l’expression de divers affects, notamment par Cummings & Clements (1995) à partir de l’analyse d’expressions actées, et par Ní Chasaide & Gobl (2003) dans une méthodologie d’analyse par la synthèse.

Divers modèles ont été proposés pour caractériser cette onde de débit ainsi que sa dérivée, en particulier le modèle LF de Liljencrants et Fant (Fant et al., 1985) et le modèle KLGLOTT88 (Klatt & Klatt, 1990). D’Alessandro (2006) relève que, parmi ces modèles, le plus largement utilisé a été le modèle LF.

Un ensemble équivalent de cinq paramètres peut être utilisé pour décrire l’onde de débit glottique, quel que soit le modèle retenu (Doval & d’Alessandro, 1999 ; Ní Chasaide &

Gobl, 2000). Doval et al. (2006) proposent de retenir le jeu de paramètres schématisés dans la Figure 17, et définis comme suit :

 La vitesse de fermeture E, exprimée en m³.s^‐‐2, qui correspond à la vitesse maximale du débit glottique à lʹinstant de fermeture et est mesurée par l’amplitude maximale de l’onde de débit dérivée. Ce pic, situé à l’instant Te = OQ*T0, est considéré par Doval et al. (2006) comme plus pertinent que lʹamplitude de voisement Av exprimée en m³.s^‐‐1plus classiquement utilisée.

 La période fondamentale T0 exprimée en secondes et définie comme l’inverse de F0.

 Le quotient ouvert OQ (open quotient), quantité sans dimension définie comme le rapport entre la durée de la phase ouverte et la période fondamentale. OQ peut théoriquement prendre des valeurs comprises entre 0 et 1. Bien que n’étant pas lié directement à la tension musculaire, le quotient ouvert fournit une bonne approximation du continuum relâché‐tendu. En pratique des valeurs comprises entre 0.30 dans le cas d’une phonation très tendue et 0.98 pour une phonation très relâchée sont observées pour ce paramètre. Pour une voix modale, la valeur prise par OQ est

de l’ordre de 0.50 (Henrich, 2001). Le quotient ouvert est lié à l’instant de fermeture glottique Te par la relation Te = OQ*T0, et est d’un point de vue perceptif principalement lié à la dimension tendu‐relâché. Dans le domaine de la parole expressive, la mesure du quotient ouvert par électroglottographie (voir dans la suite de cette section pour un exposé de cette technique) a notamment permis à Gendrot (2004) de séparer clairement des expression actées de joie et de colère, réputées proches d’un point de vue acoustique.

 Le coefficient d’asymétrie α^m, sans dimension, défini comme le rapport entre le temps d’ouverture et la durée de la phase ouverte. Ce coefficient permet en relation avec le quotient ouvert de déterminer l’instant Tp du pic de l’onde de débit glottique par la relation Tp = α^m *OQ*T0 (cf. Figure 17). D’après d’Alessandro (2006), une fermeture abrupte est liée à un coefficient d’asymétrie élevé.

 Le quotient de la phase de retour Qa, sans dimension, défini comme le rapport entre la durée effective Ta de la phase de retour et la durée de la phase fermée. Ce quotient, nul dans le cas d’une fermeture abrupte de la glotte, est défini comme :

0 ) 1

( OQ T

Q_a T^a



 

Débit glottique

u_g

Débit glottique dérivé

u’_g

ouverture fermeture retour phase ouverte phase fermée

Figure 17 : Paramétrisation de l’onde de débit glottique ug et de sa dérivée u’g. D’après Doval et al.

Deux autres quantités, qui peuvent être calculées à partir de ces cinq paramètres, sont fréquemment rencontrées dans la littérature :

 La durée effective Ta (exprimée en secondes) de la phase de retour, également désignée dans la littérature par le terme de « temps de déclinaison » (Fant, 1997).

Cette durée est équivalente au paramètre AQ (Amplitude Quotient) estimé comme le rapport entre l’amplitude de voisement Av et le pic E de l’onde de débit dérivée (Alku & Vilkman, 1996), sur lequel nous revenons dans la suite de cette section.

 Le quotient de vitesse SQ (Speed Quotient), défini comme le rapport entre la durée de la phase ouverte et la durée de la phase de fermeture, est une mesure de lʹasymétrie de lʹimpulsion glottique. Ses valeurs, qui en théorie peuvent être comprises entre 1 et 9, varient en pratique entre 2 et 3 (Henrich et al., 2001).

7.6.2 Mesure par électroglottographie (EGG)

7.6.2.1 Principe

Un ensemble de techniques, dont un tour d’horizon est donné par Airas (2008), ont été proposées pour mesurer les vibrations des plis vocaux au cours de la phonation.

D’autres méthodes telles que l’usage d’un masque spécial appelé « masque de Rosenberg » (Sundberg, 2002) permettent de mesurer le débit d’air expiré afin de faciliter l’estimation du débit au niveau glottique.

Cependant, outre le caractère plus ou moins invasif et susceptible de perturber la phonation de la plupart ces techniques, une mesure directe de l’onde de débit glottique est impossible en pratique. Airas (2008, p. 52‐53) note ainsi dans le contexte de l’évaluation du filtrage inverse (technique d’estimation de l’onde de débit glottique dont nous exposons brièvement le principe dans la suite de cette section) que :

« Bien que [les diverses techniques utilisées pour valider les méthodes de filtrage inverse]

permettent d’attester le comportement des plis vocaux, elles ne mesurent pas directement le débit glottique, mais uniquement certaines quantités qui lui sont liées. Aucune correspondance biunivoque n’existe entre le débit glottique et ces valeurs, et les informations qu’elles donnent sont donc toujours limitées. »²⁰

20 Traduction personnelle de la citation originale « While [the techniques used to assess the correctness of inverse filtering methods] assess the vocal fold behaviour, they do not measure the glottal airflow, but just some related quantities. No one‐to‐one mapping exists between the glottal flow and their values, and therefore information given by them is always limited. »

L’électroglottographie est une technique non invasive de mesure de l’accolement des plis vocaux (voir notamment Fourcin & Abberton (1971) qui ont développé et popularisé cette technique de mesure). L’électroglottographe, qui ne perturbe pas la phonation, consiste en un collier contenant deux électrodes placées sur le cou, de chaque côté du cartilage thyroïde, entre lesquelles circule un courant de 4 MHz. Le contact des plis vocaux, ou adduction, diminue la résistance et amène la conductance à un maximum, et inversement.

Le tracé de la variation d’impédance obtenue est appelé glottogramme ou simplement signal EGG. Le signal EGG peut se décomposer en une composante haute fréquence appelée Lx qui est la mesure des variations d’impédance résultant des mouvements de plis vocaux présentée ci‐dessus, et une composante basse fréquence appelée Rx qui résulte des mouvement plus lents du larynx lors du processus de phonation. Seule la composante Lx est pertinente pour le calcul de paramètres liés à la qualité de voix, et il convient donc d’éliminer la composante Rx préalablement à tout traitement. Ceci peut‐

être effectué en mesurant les mouvements du larynx grâce à des électrodes placées sur le cou du sujet, ou plus communément par un filtrage passe‐haut (Rothenberg, 1992).

Comparativement aux autres techniques existantes, le caractère non‐invasif de l’électroglottographie constitue un avantage certain pour la mesure des variations de qualité de voix liées à l’expressivité. De plus, cette technique permet de mesurer de façon fiable la fréquence fondamentale, y compris dans le cas de régimes phonatoires pour lesquels la mesure à partir du seul signal acoustique peut poser problème.

L’électroglottographie apporte donc des renseignements très précis sur les phases fermée, de fermeture et d’ouverture, mais elle ne permet pas d’obtenir des informations fiables sur la phase ouverte du cycle de vibration des plis vocaux, car les plis vocaux n’étant alors pas en contact, il n’enregistre plus de variation du signal électrique. Henrich (2001) donne une description détaillée de cette technique, de ses possibilités et de ses limites. Le signal EGG permet ainsi de mesurer le quotient d’ouverture, via la mesure de la durée de la phase ouverte T1, mais des mesures telles que celle de la durée de la phase de fermeture sont impossibles (Henrich, 2001, p. 96).

La Figure 18 présente la correspondance d’un enregistrement EGG et de sa dérivée avec une onde de débit, et l’extraction du paramètre T1 utilisé dans le calcul du quotient ouvert selon l’algorithme fondé sur une intercorrélation entre le signal EGG et le signal acoustique développé par Henrich (2001).

T₀

T₁

EGG

DEGG

Onde de débit

fermeture ouverture fermeture ouverture

Figure 18 : Exemple de signal EGG, de sa dérivée DEGG et de l’onde de débit correspondante. Les phases d’ouverture et de fermeture ainsi que les pics correspondants sont indiqués par les lignes pointillées. D’après Henrich (2001).

L’électroglottographie a peu été utilisée dans le domaine de l’étude de la parole émotionnelle. Cependant l’étude de Gendrot (2004) peut être mentionnée. Il a pu grâce à des mesures électroglottographiques du quotient ouvert séparer clairement des expressions actées de joie et de colère réputées mal discriminées par des mesures de paramètres prosodiques plus classiques.

Dans le document Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés ~ Association Francophone de la Communication Parlée (Page 128-132)