7. La qualité de voix
7.3. Description phonétique
Ces modes de vibration, associés à une description impressionniste des qualités de voix résultantes, ont été décrits par Laver (1980) en fonction de trois paramètres de tension musculaire, schématisés dans la Figure 11.
La tension adductive, définie comme la force avec laquelle les cartilages aryténoïdes sont compressés l’un contre l’autre, contrôlée par le muscle inter‐aryténoïdien.
La compression médiale, qui est la force de fermeture de la glotte ligamentaire, essentiellement contrôlée par le muscle crico‐aryténoïdien latéral.
16 Traduction personnelle de la citation originale : « (…) one person’s voice disorder might be another
La tension longitudinale, c’est‐à‐dire la tension des plis vocaux, qui résulte principalement de la contraction des muscles crico‐tyroïdiens et du muscle vocal (vocalis). Ce troisième paramètre musculaire permet en premier lieu de moduler la fréquence fondamentale.
Tension adductive
Cartilage aryténoïde Compression
médiale Tension
longitudinale
Cartilage cricoïde
Cartilage thyroïde
Tension adductive
Cartilage aryténoïde Compression
médiale Tension
longitudinale
Cartilage cricoïde
Cartilage thyroïde
Figure 11 : Les trois paramètres musculaires décrivant les modes de vibration des plis vocaux. D’après Ní Chasaide & Gobl (1997).
Laver (1980) distingue notamment les qualités de voix suivantes :
La voix modale (modal voice) correspond à une phonation neutre, et est utilisée comme référence pour l’étude des autres qualités de voix. Dans ce mode de phonation, la tension adductive, la compression médiale et la tension longitudinale sont modérées, ce qui correspond schématiquement à l’illustration de la Figure 11.
Les plis vocaux vibrent périodiquement et efficacement, la fermeture glottique est complète, et aucun bruit de friction glottique n’est perceptible.
La voix soufflée (breathy voice, Figure 12) se réfère à une tension adductive minimale, avec une compression médiale et une tension longitudinale faibles. Dans ce mode, les plis vocaux vibrent de façon extrêmement inefficace et ne se trouvent jamais entièrement en contact. Ceci a pour conséquence une fuite glottique importante, d’où un bruit de friction audible.
Figure 12 : Configuration de la glotte en voix soufflée. D’après (Eckert & Laver, 1994).
La voix murmurée (whispery voice, Figure 13), est caractérisée par une tension adductive très faible, avec une compression médiale et une tension longitudinale relativement importantes. Ceci se traduit au niveau physiologique par une ouverture triangulaire des cartilages aryténoïdes. La vibration des plis vocaux, confinée à la partie compressée de la glotte ligamentaire, est très inefficace, et le bruit de friction perceptible est considérable.
Figure 13 : Configuration de la glotte en voix murmurée. D’après (Eckert & Laver, 1994).
Dans la taxonomie de Laver (1980), la voix craquée (vocal fry17, Figure 14) correspond à une tension adductive et une compression médiale importantes, avec une tension longitudinale faible. Ce mode de phonation est associé à une fréquence fondamentale très basse. De plus, la fréquence fondamentale et l’amplitude des pulsations glottiques consécutives sont extrêmement irrégulières. La vibration des plis vocaux ne se produit que dans leur partie ligamentaire.
17 En raison notamment de l’assimilation très fréquente à la voix craquée, aucune traduction française
du terme vocal fry n’a été proposée dans la littérature à notre connaissance et il nous semble peu approprié de le traduire par un terme tel que « friture vocale » qui, s’il peut évoquer l’irrégularité de la phonation, rend moins bien compte de la fréquence fondamentale très basse associée. Nous
Figure 14 : Configuration de la glotte en voix craquée. D’après (Eckert & Laver, 1994).
La voix pressée (pressed voice), fréquemment appelée voix tendue (tense voice) implique une tension de l’ensemble du conduit vocal plus importante que pour la voix modale. Au niveau du larynx, cette augmentation de la tension musculaire est particulièrement sensible pour la tension adductive et la compression médiale. Dans ce mode de phonation, la pulsation glottique est plus asymétrique que dans le cas d’une voix modale, et on observe une phase fermée plus longue.
La voix relâchée (lax voice), qui s’oppose à la voix pressée, implique une tension plus faible de l’ensemble du conduit vocal, et particulièrement un relâchement de la tension adductive et de la compression médiale. Cette tension musculaire reste toutefois plus importante que dans le cas de la voix soufflée.
La voix de fausset (falsetto voice, figure 15) caractérisée principalement par une tension longitudinale très importante qui a pour effet de rendre les plis vocaux plus fins. Dans cette configuration la tension adductive et la compression médiale sont également importantes Ce type de phonation est associé à une fréquence fondamentale très élevée.
Figure 16 : Configuration de la glotte en voix de fausset. D’après (Eckert & Laver, 1994).
7.3.2 Quelques raffinements de la taxonomie de Laver
Si la taxonomie établie par Laver (1980) est la plus couramment utilisée pour désigner les différentes qualités de voix produites dans une phonation normale, plusieurs auteurs en ont proposé des raffinements. En particulier, Ní Chasaide & Gobl (1997) ont proposé à partir de leurs observations de compléter la taxonomie de Laver (1980) par la configuration relâchée‐craquée (lax creaky).
A la suite de Laver (1980), les termes de vocal fry et de voix craquée ont fréquemment été utilisés l’un pour l’autre, et parfois désignés par des termes tels que glottalisation ou encore phonation diplophonique, sans qu’une distinction claire ne soit établie entre ces modes de phonation. Geratt & Kreiman (2001), notant qu’une grande confusion règne dans la littérature quant à la désignation des différents types de phonation irrégulière, montrent que le mécanisme de vocal fry, la diplophonie et les modulations de l’amplitude possèdent des propriétés perceptives distinctes et proposent de considérer ces types de phonation de façon distincte. Le mécanisme de vocal fry a été décrit de façon détaillée par Blomgren et al. (1998) à partir de mesures acoustiques, aérodynamiques et électroglottographiques, qui ont confirmé que ce mécanisme était associé à une plage de valeurs de fréquence fondamentale nettement inférieure à celle de la phonation modale, ainsi qu’à des microvariations de la fréquence fondamentale (jitter) ou de l’intensité (shimmer) supérieures à celles mesurées en phonation modale. Yegnanarayana et al.
(1998) ont de plus montré que, outre le jitter et le shimmer, les apériodicités perceptibles du signal acoustique peuvent provenir d’une fuite glottique. De plus, d’Alessandro (2006) indique que la voix craquée peut résulter d’une vibration non des plis vocaux mais des bandes ventriculaires (aussi appelées « fausses cordes vocales »).
Il faut noter toutefois que les catégories de qualités de voix étiquetées par Laver ne sont pas mutuellement exclusives. Ainsi, selon Laver (1980), il est possible d’observer des qualités de voix relevant de plusieurs de ces catégories, comme un vocal fry combiné avec une voix murmurée. Ainsi, bien que les descriptions articulatoires données par Laver pour ces deux types de qualité de voix soient proches, Shochi (2008) observe perceptivement la réalisation conjointe d’une voix soufflée et tendue pour l’expression de la surprise japonaise. L’existence de ces qualités de voix composées est toutefois remise en cause par Roach (2000), pour qui la définition d’étiquettes complémentaires telles que la notion d’« attaque glottale » est nécessaire.
7.3.3 Descriptions dimensionnelle de la qualité de voix
Les descriptions données par Laver (1980) et résumées ci‐dessus ne constituent cependant que des points particuliers dans l’espace des qualités de voix existantes. Ainsi, les types de voix soufflée et murmurée forment un continuum auditif, sans frontière claire entre eux. Ladefoged (1983), tout en admettant qu’une telle projection constitue une simplification à l’extrême des mécanismes mis en œuvre, propose de projeter les qualités de voix selon un continuum allant de l’ouverture maximale de la glotte permettant la phonation avec un voisement de faible intensité (voix murmurée) à l’ouverture minimale (voix craquée). Bien qu’une telle projection puisse vraisemblablement rendre compte d’une part importante des variations perçues, elle revient à ne prendre en considération que la dimension tendue‐relâchée, c’est‐à‐dire la variation conjointe de la tension adductive et de la compression médiale.
Comme nous l’avons mentionné, le foisonnement dans la littérature de termes souvent divergents et de descriptions ne se recouvrant que partiellement rend difficile une description claire de la qualité de voix. La description la plus aboutie à notre connaissance dans l’optique d’études prosodiques étendues à la qualité de voix est celle donnée par d’Alessandro (2006). Il propose une description de la qualité de voix en considérant quatre dimensions de description de la source glottique, et donne quelques indications de l’usage qui est fait de chacune en parole :
Les registres vocaux, décrits notamment par Roubeau et al. (1997) et consistant en quatre mécanismes, dont les trois premiers sont utilisés dans la parole. Dans le mécanisme 0, qui correspond au vocal fry, les plis vocaux épais et lourds vibrent irrégulièrement à une fréquence très basse en raison de la tension longitudinale faible. Dans le mécanisme 1, qui correspond à la voix modale, les plis vocaux épais et lourds vibrent régulièrement sur toute leur longueur. Dans le mécanisme 2 qui correspond à la voix de fausset les plis vocaux rendus plus légers et plus fins par la tension musculaire plus importante ne vibrent que sur les deux tiers de leur partie antérieure.
Les apériodicités présentes dans le signal, dues à un bruit additionnel continu ou à un bruit structurel comme une variation de la période (jitter) ou de l’amplitude (shimmer) des vibrations. Les bruits additionnels, responsables de l’essentiel des apériodicités en parole non‐pathologique, consistent en un flux turbulent au niveau de la constriction glottique observé en voix murmurée et voix soufflée.
La dimension voix relâchée‐voix tendue, directement liée à la position des cartilages aryténoïdes.
L’effort vocal qui se traduit par la sonie, et dont les mécanismes articulatoires sont d’après d’Alessandro (2006) encore mal connus. L’effort vocal pourrait être lié à l’action des cartilages crico‐thyroïdes ainsi qu’à la contraction du muscle vocal (vocalis), ainsi qu’à l’augmentation de la pression subglottique.
Ainsi, les qualités de voix décrites par Laver (1980) et présentées ci‐dessus se répartiraient selon les dimensions du registre de phonation, des apériodicités présentes dans le signal acoustique, et de la dimension relâché‐tendu, la dimension d’effort vocal n’étant pas prise en compte par Laver.