• Aucun résultat trouvé

7. La qualité de voix

7.6. Paramétrisation de la qualité de voix

Lʹonde de débit glottique permet de caractériser les types de phonation impliqués dans  la qualité de voix, aucun instrument ne permettant une mesure directe des paramètres  de tension musculaire décrits par Laver sans perturbation importante de la phonation. 

Des variations de la forme de l’onde de débit glottique ont pu être liées à l’expression de  divers  affects,  notamment  par  Cummings  &  Clements  (1995)  à  partir  de  l’analyse  d’expressions actées, et par Ní Chasaide & Gobl (2003) dans une méthodologie d’analyse  par la synthèse. 

Divers modèles ont été proposés pour caractériser cette onde de débit ainsi que sa  dérivée, en particulier le modèle LF de Liljencrants et Fant (Fant et al., 1985) et le modèle  KLGLOTT88 (Klatt & Klatt, 1990). D’Alessandro (2006) relève que, parmi ces modèles, le  plus largement utilisé a été le modèle LF. 

Un ensemble équivalent de cinq paramètres peut être utilisé pour décrire l’onde de débit  glottique, quel que soit le modèle retenu (Doval & d’Alessandro, 1999 ; Ní Chasaide & 

Gobl, 2000). Doval et al. (2006) proposent de retenir le jeu de paramètres schématisés  dans la Figure 17, et définis comme suit : 

 La vitesse de fermeture E, exprimée en m3.s‐‐2, qui correspond à la vitesse maximale  du débit glottique à lʹinstant de fermeture et est mesurée par l’amplitude maximale  de l’onde de débit dérivée. Ce pic, situé à l’instant Te = OQ*T0, est considéré par  Doval et al. (2006) comme plus pertinent que lʹamplitude de voisement Av exprimée  en m3.s‐‐1 plus classiquement utilisée. 

 La période fondamentale T0 exprimée en secondes et définie comme l’inverse de F0. 

 Le quotient ouvert OQ (open quotient), quantité sans dimension définie comme le  rapport entre la durée de la phase ouverte et la période fondamentale. OQ peut  théoriquement prendre des valeurs comprises entre 0 et 1. Bien que n’étant pas lié  directement  à  la  tension  musculaire,  le  quotient  ouvert  fournit  une  bonne  approximation du continuum relâché‐tendu. En pratique des valeurs comprises entre  0.30 dans le cas d’une phonation très tendue et 0.98 pour une phonation très relâchée  sont observées pour ce paramètre. Pour une voix modale, la valeur prise par OQ est 

de l’ordre de 0.50 (Henrich, 2001). Le quotient ouvert est lié à l’instant de fermeture  glottique  Te  par  la  relation  Te  =  OQ*T0,  et  est  d’un  point  de  vue  perceptif  principalement lié à la dimension  tendu‐relâché. Dans  le  domaine  de  la  parole  expressive, la mesure du quotient ouvert par électroglottographie (voir dans la suite  de cette section pour un exposé de cette technique) a notamment permis à Gendrot  (2004) de séparer clairement des expression actées de joie et de colère, réputées  proches d’un point de vue acoustique. 

 Le coefficient d’asymétrie αm, sans dimension, défini comme le rapport entre le temps  d’ouverture et la durée de la phase ouverte. Ce coefficient permet en relation avec le  quotient ouvert de déterminer l’instant Tp du pic de l’onde de débit glottique par la  relation Tp = αm *OQ*T0 (cf. Figure 17). D’après d’Alessandro (2006), une fermeture  abrupte est liée à un coefficient d’asymétrie élevé. 

 Le quotient de la phase de retour Qa, sans dimension, défini comme le rapport entre  la durée effective Ta de la phase de retour et la durée de la phase fermée. Ce quotient,  nul dans le cas d’une fermeture abrupte de la glotte, est défini comme : 

0 ) 1

( OQ T

Qa Ta

   

Débit glottique

ug

Débit glottique dérivé

u’g

ouverture fermeture retour phase ouverte phase fermée

  Figure 17 : Paramétrisation de l’onde de débit glottique ug et de sa dérivée u’g. D’après Doval et al. 

Deux autres quantités, qui peuvent être calculées à partir de ces cinq paramètres, sont  fréquemment rencontrées dans la littérature : 

 La  durée effective Ta (exprimée en  secondes) de la phase de retour, également  désignée dans la littérature par le terme de « temps de déclinaison » (Fant, 1997). 

Cette durée est équivalente au paramètre AQ (Amplitude Quotient) estimé comme le  rapport entre l’amplitude de voisement Av et le pic E de l’onde de débit dérivée  (Alku & Vilkman, 1996), sur lequel nous revenons dans la suite de cette section. 

 Le quotient de vitesse SQ (Speed Quotient), défini comme le rapport entre la durée de  la phase ouverte et la durée de la phase de fermeture, est une mesure de lʹasymétrie  de lʹimpulsion glottique. Ses valeurs, qui en théorie peuvent être comprises entre 1 et  9, varient en pratique entre 2 et 3 (Henrich et al., 2001). 

7.6.2 Mesure par électroglottographie (EGG) 

7.6.2.1 Principe 

Un ensemble de techniques, dont un tour d’horizon est donné par Airas (2008), ont été  proposées  pour  mesurer  les  vibrations  des  plis  vocaux  au  cours  de  la  phonation. 

D’autres  méthodes  telles  que  l’usage  d’un  masque  spécial  appelé  « masque  de  Rosenberg » (Sundberg, 2002) permettent de mesurer le débit d’air expiré afin de faciliter  l’estimation du débit au niveau glottique. 

Cependant, outre le caractère  plus ou  moins invasif et  susceptible de  perturber  la  phonation de la plupart ces techniques, une mesure directe de l’onde de débit glottique  est  impossible  en  pratique.  Airas  (2008,  p.  52‐53)  note  ainsi  dans  le  contexte  de  l’évaluation du filtrage inverse (technique d’estimation de l’onde de débit glottique dont  nous exposons brièvement le principe dans la suite de cette section) que : 

« Bien  que  [les  diverses  techniques  utilisées  pour  valider  les  méthodes  de  filtrage  inverse] 

permettent d’attester le comportement des plis vocaux, elles ne mesurent pas directement le débit  glottique,  mais  uniquement  certaines  quantités  qui  lui  sont  liées.  Aucune  correspondance  biunivoque n’existe entre le débit glottique et ces valeurs, et les informations qu’elles donnent  sont donc toujours limitées. »20 

       

20 Traduction personnelle de la citation originale « While [the techniques used to assess the correctness of  inverse filtering methods] assess the vocal fold behaviour, they do not measure the glottal airflow, but just some  related quantities. No one‐to‐one mapping exists between the glottal flow and their values, and therefore  information given by them is always limited. » 

L’électroglottographie est une technique non invasive de mesure de l’accolement des plis  vocaux (voir notamment Fourcin & Abberton (1971) qui ont développé et popularisé  cette technique de mesure). L’électroglottographe, qui ne perturbe pas la phonation,  consiste en un collier contenant deux électrodes placées sur le cou, de chaque côté du  cartilage thyroïde, entre lesquelles circule un courant de 4 MHz. Le contact des plis  vocaux, ou adduction, diminue la résistance et amène la conductance à un maximum, et  inversement.  

Le tracé de la variation d’impédance obtenue est appelé glottogramme ou simplement  signal EGG. Le signal EGG peut se décomposer en une composante haute fréquence  appelée Lx qui est la mesure des variations d’impédance résultant des mouvements de  plis vocaux présentée ci‐dessus, et une composante basse fréquence appelée Rx qui  résulte des mouvement plus lents du larynx lors du processus de phonation. Seule la  composante Lx est pertinente pour le calcul de paramètres liés à la qualité de voix, et il  convient donc d’éliminer la composante Rx préalablement à tout traitement. Ceci peut‐

être effectué en mesurant les mouvements du larynx grâce à des électrodes placées sur le  cou du sujet, ou plus communément par un filtrage passe‐haut (Rothenberg, 1992). 

Comparativement  aux  autres  techniques  existantes,  le  caractère  non‐invasif  de  l’électroglottographie constitue un avantage certain pour la mesure des variations de  qualité de voix liées à l’expressivité. De plus, cette technique permet de mesurer de façon  fiable la fréquence fondamentale, y compris dans le cas de régimes phonatoires pour  lesquels  la  mesure  à  partir  du  seul  signal  acoustique  peut  poser  problème. 

L’électroglottographie  apporte  donc  des  renseignements  très  précis  sur  les  phases  fermée, de fermeture et d’ouverture, mais elle ne permet pas d’obtenir des informations  fiables sur la phase ouverte du cycle de vibration des plis vocaux, car les plis vocaux  n’étant alors pas en contact, il n’enregistre plus de variation du signal électrique. Henrich  (2001) donne une description détaillée de cette technique, de ses possibilités et de ses  limites. Le signal EGG permet ainsi de mesurer le quotient d’ouverture, via la mesure de  la durée de la phase ouverte T1, mais des mesures telles que celle de la durée de la phase  de fermeture sont impossibles (Henrich, 2001, p. 96). 

La Figure 18 présente la correspondance d’un enregistrement EGG et de sa dérivée avec  une onde de débit, et l’extraction du paramètre T1 utilisé dans le calcul du quotient  ouvert selon l’algorithme fondé sur une intercorrélation entre le signal EGG et le signal  acoustique développé par Henrich (2001). 

T0

T1

EGG

DEGG

Onde de débit

fermeture ouverture fermeture ouverture  

Figure 18 : Exemple de signal EGG, de sa dérivée DEGG et de l’onde de débit correspondante. Les  phases d’ouverture et de fermeture ainsi que les pics correspondants sont indiqués par les lignes  pointillées. D’après Henrich (2001). 

L’électroglottographie  a  peu  été  utilisée  dans  le  domaine  de  l’étude  de  la  parole  émotionnelle. Cependant l’étude de Gendrot (2004) peut être mentionnée. Il a pu grâce à  des  mesures  électroglottographiques  du  quotient  ouvert  séparer  clairement  des  expressions actées de joie et de colère réputées mal discriminées par des mesures de  paramètres prosodiques plus classiques.