• Aucun résultat trouvé

2.1.3. Sus-glottique

2.2.1.2. Qualités vibratoires des plis vocaux

Comme nous l’avons mentionné à plusieurs reprises, la phonation dépend fortement des qualités vibratoires intrinsèques des plis vocaux. Chaque pli vocal possède des fréquences de vibration qui lui sont propres : une fréquence fondamentale (F0) et des fréquences harmoniques, qui sont des multiples de la F0. La F0 correspond au nombre de cycles vibratoires par seconde, mesuré en Hertz (Hz). Le contrôle de la fréquence de vibration plis vocaux est considéré comme analogue à celui des cordes, c’est-à-dire dépendant de leur longueur, de leur masse et de leur tension (R H Colton, Casper, & Leonard, 2011). La F0 diminue lorsque la longueur au repos des plis vocaux augmente. La F0 diminue aussi lorsque la masse des plis vocaux augmente, notamment sous l’action des muscles thyro-aryténoïdiens (TA), qui les raccourcissent par ailleurs. Dans ces deux cas, le déplacement des plis vocaux nécessite une force aérodynamique plus importante et leur vitesse de vibration, à force égale, est donc réduite. A noter que, de ce fait, la F0 est usuellement plus basse chez les hommes que chez les femmes car la longueur et la masse de leurs plis vocaux sont plus grandes. A noter également que la F0 augmente lorsque la longueur vibrante des plis vocaux augmente, sous l’action des muscles crico-thyroïdiens (CT). Enfin, la F0 augmente avec la tension des plis vocaux, sous l’action combinée des CT et des TA, dans le mécanisme 1

31 (modal) de phonation. Comme nous l’avons expliqué plus haut, l’action des TA est complexe et une contraction extrême de ces TA, sans action des CT, est observable dans le mécanisme 0 (basal) de phonation, pour lequel la F0 est la plus basse. A l’inverse, une contraction extrême des CT, avec une action réduite des TA, est observable dans le mécanisme 2 de phonation, pour lequel la F0 est la plus haute. Cependant, le modèle des cordes ne tient compte ni de la raideur des plis vocaux, ni de leur contact qui amplifie cette raideur. Lorsque la raideur des plis vocaux augmente, leurs forces de rappel en réponse à la déformation augmentent aussi et les plis vocaux s’écartent moins, d’une part, et se rapprochent plus rapidement, d’autre part (Berke & Gerratt, 1993; Zhaoyan, 2016). La F0 augmente donc avec la raideur et le contact. Le contrôle des différentes qualités intrinsèques des plis vocaux, par la contraction des TA et des CT, modifie leur fréquence de vibration.

2.2.1.3. Mécanismes

La modification de la fréquence de vibration des plis vocaux, à travers différents mécanismes de phonation, modifie aussi leur contact. Nous distinguons trois mécanismes de vibration : périodique, apériodique et supra-périodique (Gerratt & Kreiman, 2001). Si les deux plis vocaux sont très asymétriques, ils ne vibrent pas à la même fréquence ou avec la même amplitude et se retrouvent en contact seulement un cycle sur deux. Il en résulte une bitonalité caractéristique de la vibration supra-périodique. Dans le mécanisme apériodique, il n’y a pas de vibration à proprement dit mais des pulsations : les plis vocaux sont en contact pendant un temps très long et s’écartent brusquement, une à trois fois, avant de s’accoler de nouveau. Il s’agit du mécanisme basal de phonation, numéroté 0. Ce mécanisme est aussi appelé pulse, creak ou fry en anglais, en raison de l’impression perceptive de grincement ou de grésillement qu’il donne. Il présente des occurrences dans la parole vocale, notamment à la fin des phrases (Abdelli-Beruh, Drugman, & Red Owl, 2015).

Il est réalisé avec une contraction extrême des muscles thyro-aryténoïdiens (TA), sans aucune contraction des muscles crico-thyroïdiens (CT) (McGlone & Shipp, 1971; Zhaoyan, 2016). Dans cette configuration musculaire, la longueur des plis vocaux est très courte (Hollien, Damsté, &

Murry, 1969). De plus, il est réalisé avec peu de contraction du muscle inter-aryténoïdien (IA) (McGlone & Shipp, 1971). Cliniquement, il est décrit comme un mécanisme de phonation impliquant un relâchement des muscles laryngés extrinsèques et entrainant un abaissement de la position du larynx. Ce mécanisme 0 est caractérisé par une fréquence de vibration des plis vocaux

32 très basse, inférieure à 80 cycles par seconde, soit 80 Hertz (Hz), et équivalente pour les femmes et les hommes, ainsi que par une surface et une durée de contact des plis vocaux très grandes (Gerratt & Kreiman, 2001; Hollien, Girard, & Coleman, 1977; Murry, 1971; Sorensen & Horii, 1984).

Muscles thyro-aryténoïdiens (TA)

Importante Négligeable

Muscles crico-thyroïdiens (CT) Oui Mécanisme 1 Mécanisme 2

Non Mécanisme 0

Tableau 2 : contraction des muscles laryngés intrinsèques en fonction du mécanisme de phonation

Le mécanisme périodique, quant à lui, correspond à la vibration normale des plis vocaux, telle que nous l’avons décrite plus haut. Il s’agit du mécanisme modal de phonation, numéroté 1, mais il peut également s’agir d’un mécanisme numéroté 2. Le mécanisme 1 est le mécanisme usuel dans la parole vocale (Gerratt & Kreiman, 2001). Dans le chant, il est considéré comme le registre de poitrine, par opposition au mécanisme 2, qui est considéré comme le registre de tête et parfois aussi appelé falsetto. Le mécanisme 1 est réalisé avec une contraction combinée des muscles thyro-aryténoïdiens (TA) et crico-thyroïdiens (CT) qui fait varier la fréquence de vibration et le contact des plis vocaux, comme décrit précédemment. Le mécanisme 2, quant à lui, est réalisé avec une contraction importante des CT et peu de contraction des TA (Zhaoyan, 2016). La contraction des CT augmente la longueur des plis vocaux (Damsté, Hollien, Moore, & Murry, 1968). En conséquence, dans le mécanisme 2 de phonation, les plis vocaux sont très longs. Ce mécanisme 2 est caractérisé par une fréquence de vibration des plis vocaux très haute, ainsi qu’une surface et une durée de contact des plis vocaux très petites, voire une absence de contact (Zhaoyan, 2016).

Cependant, les fréquences de vibration des mécanismes de phonation 1 et 2 se chevauchent. Par exemple, dans une étude réalisée chez des hommes, le mécanisme 1 s’étendait jusqu’à environ 160 Hertz (Hz), tandis que le mécanisme 2 s’étendait de 100 à 335Hz (Raymond H Colton & Hollien, 1972). Dans les mécanismes de phonation 1 et 2, la position du larynx s’abaisse et s’élève avec la fréquence de vibration (Hollien & Curtis, 1962; Honda, Hirai, Masaki, & Shimada, 1999; Shipp, 1975). La contraction des muscles laryngés pendant la production des trois mécanismes de phonation décrits est résumée dans le Tableau 2. Pour une vibration glottique périodique, son amplitude, sa fréquence et le contact des plis vocaux tendant à augmenter conjointement.

33 Dans le mécanisme modal de vibration, le mode de phonation, déterminé par l’adduction des plis vocaux, modifie aussi leur contact. La phonation pressée est caractérisée par une forte compression des plis vocaux, donc une grande surface et une longue durée de contact lors de la vibration. La phonation soufflée est, au contraire, caractérisée par un faible accolement des plis vocaux, donc une petite surface et une courte durée de contact (Edmondson & Esling, 2006; Grillo, Perta, & Smith, 2009; Kankare, Laukkanen, Ilomäki, Miettinen, & Pylkkänen, 2012). Il est à noter que la réduction du contact des plis vocaux pendant la vibration renforce l’amplitude spectrale de la première fréquence harmonique (H1), tandis que son augmentation renforce plutôt le deuxième harmonique (H2), voire le quatrième (Zhaoyan, 2016). Lorsque les plis vocaux ne sont pas assez proches de la ligne médiane pour permettre la vibration, une friction d’air glottique est réalisée. Il s’agit du chuchotement. Là encore, il est possible d’observer différents degrés de constriction.

Cependant, dans la parole chuchotée, les plis vocaux sont le plus souvent dans une position intermédiaire, entre l’abduction et l’adduction, avec une compression de leurs deux tiers antérieurs variable (Solomon, McCall, Trosset, & Gray, 1989).

2.2.2. Vocalisation

Qu’une vibration ou une friction soit réalisée au niveau du plan glottique, le son ou le bruit se propage ensuite dans les cavités glottiques. D’après la théorie source-filtre, les cavités sus-glottiques agissent comme des résonateurs acoustiques. Selon la forme donnée à ces résonateurs sous l’action des articulateurs sus-glottiques, l’énergie de certaines fréquences du spectre acoustique est renforcée lorsque le son se propage à travers elles (Fant, 1960). Le premier formant (F1) est corrélé au degré d’ouverture de la voyelle : il est le plus bas pour les voyelles les plus fermées /u/ et /i/, à environ 250 Hertz (Hz), et le plus haut pour la voyelle la plus ouverte /a/, à environ 850Hz (Catford, 1988). Le deuxième formant (F2) est corrélé à la position du point de résonance sur l’axe antéro-postérieur : il est le plus bas pour la voyelle la plus postérieure /u/, à environ 600Hz, et le plus haut pour la voyelle la plus antérieure /i/, à environ 2400Hz, tandis qu’il égale environ 1600Hz pour la voyelle centrale /a/ (Catford, 1988). La localisation des voyelles orales du français en fonction de ces deux paramètres articulatoires est schématisée sur la Figure 13.

34 Le troisième formant, quant à lui, est plutôt corrélé à la configuration des lèvres, arrondies ou étirées, en particulier pour les voyelles antérieures (Fant, 1960). Par ailleurs, des anti-formants apparaissent dans les voyelles nasales, c’est-à-dire pour lesquelles un flux d’air passe aussi par les cavités nasales. Les trois points extrêmes du triangle vocalique, que l’on retrouve en français, sont : le /i/, qui est une voyelle orale, fermée, antérieure et étirée, le /u/ qui est une voyelle orale, fermée, postérieure et arrondie et le /a/, qui est une voyelle orale, ouverte, centrale et étirée.

Paramètres : premier formant (F1) lié à l’ouverture, mesuré en Hertz (Hz) ; deuxième formant (F2) lié au lieu articulatoire, mesuré en Hz

Figure 13 : voyelles orales du français en fonction de leur ouverture et de leur lieu articulatoire en lien avec la valeur des formants 1 et 2

A noter que, afin d’améliorer le rayonnement du son à la sortie du conduit vocal, l’on peut soit effectuer des ajustements glottiques pour renforcer un harmonique proche du premier formant (F1), le premier (H1) en réduisant le contact des plis vocaux pendant la vibration ou le deuxième (H2) en l’augmentant, soit effectuer des ajustements sus-glottiques pour rapprocher F1 d’une fréquence harmonique, en augmentant ou en réduisant l’ouverture de la cavité orale (Zhaoyan, 2016). Dans tous les cas, la propagation du son dans les cavités de résonance sus-glottiques le modifie et la voix n’est pas le résultat exact de la phonation.

2.2.3. Articulation

2.2.3.1. Phonèmes

Qu’une vibration ou une friction soit réalisée au niveau du plan glottique, il y a aussi un flux d’air qui s’écoule ensuite dans les cavités sus-glottiques. Lors de la réalisation d’un phonème oral,

35 ce flux d’air s’écoule uniquement par la cavité orale et non par les cavités nasales. L’articulation des phonèmes de la parole consiste à rétrécir plus ou moins l’une ou l’autre partie du conduit vocal grâce aux articulateurs sus-glottiques (Stevens, 1989). L’écoulement du flux d’air est donc régi par des paramètres articulatoires. On distingue notamment deux grands types de phonèmes : les voyelles et les consonnes. Les voyelles sont habituellement décrites en fonction de leur degré d’ouverture. Elles sont caractérisées par un libre écoulement du flux d’air dans le conduit vocal.

La résistance articulatoire (AR) à l’écoulement de ce flux d’air est quasiment nulle pour les voyelles ouvertes, comme le /a/, et elle est faible pour les voyelles fermées, comme le /i/ et le /u/

(Beckett & Hallett, 1971). Les consonnes, au contraire, sont habituellement décrites en fonction de leur degré de fermeture. Elles sont caractérisées par la présence d’un obstacle dans le conduit vocal. Cet obstacle peut être un rétrécissement (constriction) ou une fermeture totale (occlusion).

Le type d’obstacle détermine le mode articulatoire de la consonne : les consonnes constrictives, aussi appelées fricatives, sont produites par une constriction, créant un bruit de friction, tandis que les consonnes occlusives, aussi appelées plosives, sont produites par une occlusion, créant un bruit d’explosion. L’AR est forte pour les consonnes fricatives et elle est totale pour les consonnes occlusives car, dans ce dernier cas, il n’existe pas de flux d’air oral. Plus l’AR augmente, plus le débit du flux d’air trans-articulatoire (TAF) diminue et plus la pression sus-glottique ou intra-orale (IOP) augmente. Les voyelles et les consonnes sont aussi décrites par le lieu articulatoire, c’est-à-dire le point où les articulateurs sus-glottiques sont les plus proches. Ce lieu articulatoire influence la taille du conduit vocal. Plus il est postérieur, plus le volume des cavités sus-glottiques diminue et plus l’IOP augmente. Par ailleurs, plus l’IOP augmente, plus la différence (ΔGP) avec la pression sous-glottique (SGP) diminue et plus le débit du flux d’air trans-glottique (TGF) qui permet de maintenir la vibration ou la friction glottique diminue. Les relations entre ΔGP, TGF et GR sont illustrées par la Figure 14. Lorsque le TGF diminue, dans le cas d’une vibration glottique, la fréquence et l’amplitude de cette vibration diminuent, de même que le contact des plis vocaux (Bickley & Stevens, 1986; Pinho, Jesus, & Barney, 2012). Lors de la phonation, les paramètres articulatoires, en contraignant l’écoulement du flux d’air, restreignent la vibration glottique.

36

Figure 14 : relation entre les paramètres du flux d’air et la constriction glottique

Dans certains cas, notamment les consonnes, les paramètres articulatoires restreignent tellement la vibration glottique que celle-ci est arrêtée. Certains auteurs soulignent la difficulté du maintien de la vibration pendant la production des consonnes fricatives, pour lesquelles le locuteur doit gérer deux résistances au flux d’air : glottique et sus-glottique ou articulatoire (Haggard, 1978;

Liker & Gibbon, 2013; C. L. Smith, 1997). Mais, en théorie, le maintien de la vibration glottique est d’autant plus difficile que le degré de fermeture de la consonne est important, il est donc théoriquement plus difficile pour les consonnes occlusives que pour les fricatives. De même, le maintien de la vibration est d’autant plus difficile que le lieu articulatoire est postérieur. Il existe une théorie selon laquelle la vibration glottique serait une qualité inhérente des voyelles et son absence une qualité inhérente des consonnes (Parker, 1974). En effet, les voyelles sont toujours décrites comme voisées, c’est-à-dire réalisées avec une vibration glottique dans la parole vocale, alors que les consonnes sont décrites avec un contraste de voisement : certaines sont voisées quand d’autres sont non voisées, c’est-à-dire réalisées sans vibration glottique dans la parole vocale.

D’après cette théorie, le voisement des consonnes serait engendré par un phénomène de coarticulation, que nous expliquons en détails plus bas. Cette coarticulation causerait une vibration graduelle : à la fin d’une consonne pré-vocalique et au début d’une consonne postvocalique (Parker, 1974). Elle dépendrait de la force articulatoire de la consonne. En particulier, elle serait plus importante pour les consonnes voisées, qui sont réalisées avec une moindre force articulatoire.

37 Cette théorie découle de l’observation des langues du monde, dans lesquelles il existe davantage de consonnes non voisées que de consonnes voisées (Keating, Linker, & Huffman, 1983). En français, on compte aussi davantage d’occurrences de consonnes occlusives non voisées que de consonnes occlusives voisées (Malécot, 1974). Une telle répartition est également observée pour les consonnes fricatives, au cours du développement de l’inventaire phonétique de l’enfant (van Severen, van den Berg, Molemans, & Gillis, 2012). De plus, il existe des restrictions en fonction du trait de voisement : les consonnes non voisées sont plutôt observées en position initiale et finale alors que les consonnes voisées sont plutôt observées en position médiale (Keating et al., 1983).

Enfin, maintenir le voisement dans la consonne postvocalique apparaît plus commun que de l’initier pendant la consonne pré-vocalique (Davidson, 2016). Au total, dans la parole vocale, sans compter les pauses silencieuses, 50 pourcents (%) des segments sont réalisés sans vibration glottique (Fourcin, 2010). L’arrêt de la vibration peut être involontaire – dû aux paramètres articulatoires – ou volontaire lors de la réalisation de consonnes.

2.2.3.2. Gestes

Au niveau phonologique, les phonèmes sont décrits par plusieurs traits articulatoires dont, dans le cas des consonnes, le voisement. Le statut du voisement pour une consonne est généralement associé à la présence ou à l’absence de vibration glottique. Cependant, comme nous l’avons expliqué dans le paragraphe précédent, la vibration glottique est parfois arrêtée pendant la production des phonèmes, voyelles ou consonnes voisées, malgré l’accolement des plis vocaux et le flux d’air trans-glottique. Au niveau de la réalisation phonétique, lorsque l’on considère ces traits articulatoires classiques, la distinction entre la production d’une consonne dévoisée et la production d’une consonne non voisée n’apparaît donc pas. Or, dans cette thèse, nous considérons que l’activité de phonation engage les mêmes muscles laryngés, qu’une vibration glottique soit effectivement réalisée ou non. Nous choisissons alors d’appuyer notre propos sur la théorie motrice de la parole dans laquelle l’unité phonologique considérée n’est pas le trait réalisé, mais la commande motrice (Liberman, Cooper, Shankweiler, & Studdert-Kennedy, 1967; Liberman &

Mattingly, 1985). Dans la phonologie articulatoire qui découle de cette théorie, les phonèmes sont décrits par plusieurs gestes articulatoires, dont un geste glottique correspondant au voisement, ou du moins à une intention de geste (Browman & Goldstein, 1989, 1992; Goldstein & Browman, 1986). En effet, dans la parole, les cibles des gestes articulatoires ne sont pas toujours atteintes du

38 fait de la coarticulation (Liberman & Mattingly, 1985). Le contraste phonologique de voisement correspond donc à la présence ou l’absence d’un geste d’ouverture-fermeture au niveau glottique.

Ce geste d’ouverture-fermeture des plis vocaux lors de la production des consonnes non voisées serait stéréotypé et durerait 180 millisecondes (Weismer, 1980). Au niveau phonétique, la présence du geste d’ouverture fermeture est censée se traduire par l’arrêt et la reprise de la vibration glottique. Cependant, l’arrêt et la reprise de la vibration ne sont pas forcément synchrones avec le geste glottique (Goldstein & Browman, 1986). En effet, la vibration pendant les transitions d’abduction et d’adduction des plis vocaux dépend toujours des paramètres aérodynamiques, et notamment du débit du flux d’air trans-glottique (TGF), mais aussi des qualités intrinsèques des plis vocaux, modifiées par la contraction des muscles thyro-aryténoïdiens (TA) et crico-thyroïdiens (CT). De même, l’absence du geste glottique d’ouverture-fermeture est censée se traduire par le maintien de la vibration glottique. Cependant, comme nous l’avons décrit précédemment, les paramètres articulatoires inhérents à la réalisation des consonnes restreignent fortement la vibration glottique et, dans certains cas, l’arrêtent (Warren & Hall, 1973). Afin de maintenir la vibration pendant la production des consonnes voisées, un ajustement glottique pourrait être réalisé (Stevens, 1989). Cet ajustement pourrait correspondre à un geste opposé au geste d’ouverture-fermeture, c’est-à-dire à un geste de fermeture-ouverture induisant, pendant la réalisation de la consonne voisée, une plus grande adduction des plis vocaux, par rapport à la réalisation d’une voyelle. Le contraste phonologique de voisement pourrait alors correspondre à deux gestes glottiques contraires, mais ceci n’a pas encore été envisagé dans la littérature. Nous allons donc nous borner à décrire la physiologie de l’arrêt de la phonation pour la réalisation du paramètre « non voisé » dans les consonnes.

Dans la phonation modale, l’initiation et le maintien de la vibration glottique mettent en jeu tous les muscles intrinsèques du larynx, excepté les crico-aryténoïdiens postérieurs (PCA).

Pendant la production des consonnes non voisées, cette vibration est arrêtée. L’arrêt de la vibration semble dû à des ajustements glottiques, comme décrit dans la théorie motrice de la parole, plutôt qu’à des changements aérodynamiques. En effet, la pression sous-glottique (SGP) est égale pendant la production des consonnes voisées et non voisées (Löfqvist, 1975; Netsell, 1969). Le geste articulatoire est décrit comme un mouvement d’ouverture-fermeture au niveau glottique, pourtant il n’y a pas une abduction complète des plis vocaux. Lors de l’arrêt de la vibration, on observe bien une contraction des PCA, responsables de l’abduction, et une absence de contraction

39 du muscle inter-aryténoïdien (IA), principal responsable de l’adduction (Hirose & Gay, 1972). En revanche, on observe le maintien de la contraction des muscles crico-aryténoïdiens latéraux (LCA), impliqués dans l’adduction du tiers postérieur des plis vocaux, et des muscles thyro-aryténoïdiens (TA), impliqués dans l’adduction de leurs deux tiers antérieurs (Hirose & Ushijima, 1978). Les plis vocaux sont donc maintenus proches de la ligne médiane, mais l’espace glottique n’est pas totalement fermé. En plus de ce geste latéral, il existe un geste antéro-postérieur. En effet, on

39 du muscle inter-aryténoïdien (IA), principal responsable de l’adduction (Hirose & Gay, 1972). En revanche, on observe le maintien de la contraction des muscles crico-aryténoïdiens latéraux (LCA), impliqués dans l’adduction du tiers postérieur des plis vocaux, et des muscles thyro-aryténoïdiens (TA), impliqués dans l’adduction de leurs deux tiers antérieurs (Hirose & Ushijima, 1978). Les plis vocaux sont donc maintenus proches de la ligne médiane, mais l’espace glottique n’est pas totalement fermé. En plus de ce geste latéral, il existe un geste antéro-postérieur. En effet, on