CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup
II.2. La production de la parole coarticulée
Comment la parole coarticulée est-elle produite et contrôlée ? Différents modèles ont été établis pour
expliquer la coarticulation, ce phénomène intrinsèque à la parole qui se retrouve dans toutes les
langues (bien que ses caractéristiques puissent varier d’une langue à l’autre). Nous ne ferons pas une
revue complète des différents modèles et théories proposés (pour une analyse critique détaillée, voir
Bonnot, 1990a ; voir également Marchal & Farnetani, 1993 ; Hardcastle & Hewlett, 1999 ; pour un
aperçu historique, voir Bonnot & Keller, 2004) mais présenterons dans cette partie le modèle de
coarticulation d’Öhman, mettant en évidence les rôles distincts des consonnes et des voyelles dans la
nature coarticulée de la parole, avant de détailler plus spécifiquement les différents contrôles du
langage parlé. Nous nous baserons par la suite sur ces conceptions des contrôles de la parole pour
tenter d’expliquer comment les mouvements manuels de la LPC se coordonnent avec cette parole
coarticulée (voir section VI.3.2).
II.2.1. Le modèle de coarticulation d’Öhman
Dans les différents modèles, l’unité de production en parole est souvent la syllabe. Öhman (1966,
1967) propose un modèle de coarticulation dans lequel il met l’accent sur le rôle des voyelles dans la
production de parole : la parole apparaît comme une suite d’articulations de voyelle à voyelle, sur
lesquelles se superposent les articulations des consonnes (voir une schématisation de ce modèle pour
le décours temporel de l’aire intérolabiale sur la Figure 8). Son modèle est issu d’analyses acoustiques
et articulatoires de séquences voyelle-consonne-voyelle (V1CV2) isolées produites par un locuteur
suédois (ces résultats ont également été comparés avec ceux d’un locuteur américain et d’un locuteur
russe). L’auteur a étudié la coarticulation des consonnes voisées occlusives [b], [d] et [g] avec les
voyelles [y], [ø], [a] et [u]. En observant le patron formantique des séquences VCV dans les différentes
conditions, il constate que les transitions du deuxième formant sont assez variables selon le contexte
et dépendent en fait de tous les segments, c’est-à-dire que le patron formantique de la portion V1C
dépend aussi de la dernière voyelle (V2) qui est anticipée : « […] a motion toward the final vowel starts
not much later than, or perhaps even simultaneously with, the onset of the stop consonant gesture »
(1966, p. 165). Ainsi, les voyelles sont coarticulées à travers la consonne occlusive intermédiaire : les
voyelles sont produites en continu, c’est-à-dire par un geste de voyelle à voyelle, sur lequel le geste de
la consonne se superpose. Plus précisément, dans des séquences VCV, les deux voyelles sont
produites par un geste relativement lent du corps de la langue (tongue body) depuis la position de la
voyelle initiale à la position de la voyelle finale (diphtongal movement). Sur ce geste vocalique, le geste
articulatoire de la consonne intermédiaire vient se superposer (« […] the stop-consonant gestures are
actually superimposed on a context-dependent vowel substrate that is present during all of the
consonantal gesture. », p. 165) et modifier ainsi le geste vocalique (« […] the tongue is able to make a
distorted vowel gesture, while it is executing the stop consonant. », 1966, p. 166). D’après l’auteur, les
articulations des voyelles et des consonnes sont indépendantes au niveau des instructions neurales et
peuvent donc être activées simultanément : la langue correspondrait en fait à trois systèmes
articulatoires séparés contrôlant trois sous-ensembles de muscles. La position du corps de la langue
(tongue body) définit les voyelles, alors que les constrictions apicales et dorsales de la langue
définissent les consonnes ([d] et [g] dans cette étude). La coarticulation résulterait donc de la
co-production de la consonne et des voyelles sous forme d’une somme complexe des différentes
instructions : « […] the dynamic response of the tongue to a compound instruction is a complex
summation (neural, muscular, and probably mechanical also) of the responses to each of the
components of the instruction », (1966, p. 166).
Figure 8. Schématisation du modèle d’Öhman montrant l’évolution dans le temps de l’aire aux lèvres pour un geste de voyelle à voyelle (transition de la voyelle [y] vers la voyelle [i] ; à gauche) et pour un geste vocalique avec consonne surimposée (transition [ybi] ; à droite) (figure tirée de Cathiard, 2003).
II.2.2. Syllabes et segments : les contrôles de la parole
En partant du modèle d’Öhman (1966) et en prenant également en compte un point de vue
développemental (MacNeilage, 1998), Abry et al. (2002 ; voir aussi Abry et al., 2001 pour une version
en français) proposent que la parole soit le résultat de deux types de contrôles (« […] the speech signal
is biocybernetically a compound of (i) a carrier control, on proximal effectors, and (ii) a carried control,
on distal end-effectors. », p. 228-229) :
− Le contrôle proximal de la porteuse de la parole (carrier control), la mandibule, qui produit le rythme
syllabique. Au niveau du développement, c’est le premier contrôle à être acquis (durant le babillage
canonique vers 7 mois) ; c’est ce que propose MacNeilage (Davis et MacNeilage, 1995 ;
MacNeilage, 1998) dans sa théorie « Frame, then Content » pour expliquer l’évolution de la
production de la parole humaine, au niveau de sa phylogenèse et de son ontogenèse. Ce rythme
syllabique mandibulaire, qui maintient une certaine constance quelle que soit la vitesse d’élocution
(6Hz±1, Sorokin et al., 1980), est à la base du contrôle de la parole humaine (« This initial
rythmicity provides a basis for the control of speech throughout life. », p. 506).
− Le contrôle distal des articulateurs portés (carried control), la langue et la lèvre inférieure ; une fois
le contrôle du cycle mandibulaire établi, ces articulateurs vont être contrôlés indépendamment de la
mandibule et vont ainsi, en coopérant avec les autres articulateurs, créer des modulations sur ce
cycle en produisant les contenus (MacNeilage, 1998) : les consonnes et les voyelles. Dans cette
théorie, le cadre et les contenus sont donc indépendants. Ceci permet d’expliquer l’acquisition non
simultanée des différents types de contrôle dans la parole depuis le babillage canonique (aux
alentours de 7 mois) jusqu’à la parole coarticulée de l’adulte (voir dans Vilain et al., 2000, une
proposition en trois étapes pour le développement de la coarticulation de la parole, qui se ferait
« […] from Frames, to Content, then to coarticulated Content », p. 84).
Le geste consonantique est le résultat d’un contrôle local, celui des constrictions, soient les contacts et
les pressions des articulateurs sur différentes parties du conduit vocal (Vilain et al., 1999 ; Vilain,
2000). Par exemple, l’occlusion bilabiale caractéristique du [b] est le résultat d’une coordination entre la
mâchoire et les deux lèvres : la lèvre inférieure est portée vers le haut par la mâchoire puis le contact
et l’occlusion se produisent par le contrôle indépendant simultané de la lèvre inférieure qui exerce une
pression sur la lèvre supérieure qui lui résiste (Tuller & Kelso, 1984). Le geste vocalique quant à lui est
le résultat d’un contrôle postural global du conduit vocal qui permet de transiter d'une voyelle à l'autre
(Öhman, 1967). Ce geste de voyelle à voyelle correspond à une mise en forme globale du conduit
vocal, pouvant impliquer les différents articulateurs des lèvres au larynx. Passer d'une voyelle à l'autre
consiste à modifier cette configuration globale. Par exemple, les contours sagittaux pour les séquences
[ubu] et [aba] (Figure 9 et Figure 10 ; Vilain, 2000) montrent deux configurations globales différentes du
conduit vocal : pour la séquence [ubu], les lèvres sont protruses, la mandibule est en position haute, le
dos de la langue est monté vers la région vélaire et le larynx est abaissé ; pour la séquence [aba], la
mandibule est en position basse, la langue est centrale, abaissée et plate et le larynx est élevé. Dans
les deux cas, nous pouvons constater que le geste consonantique du [b], qui vient se superposer sur le
geste vocalique (Öhman, 1967), correspond à un contrôle local du contact des deux lèvres. La forme
interne globale du conduit vocal reste identique sur toute la séquence ; bien que la mandibule monte
dans [aba] pour produire l’occlusion bilabiale du [b], la langue reste en position basse pour la voyelle.
Le contrôle global de la voyelle est donc constant à travers la production de la consonne. En résumé,
la production d’une voyelle implique le contrôle de tout le corps de la parole (lèvre, mandibule, langue,
larynx) alors que la production d’une consonne est contrôlée localement (certains segments seulement
sont impliqués).
En ce qui concerne le phasage de ces différents contrôles (Browman & Goldstein, 2000 ; Sato et al.,
2002), les contrôles de la mandibule et de la mise en forme globale du conduit vocal pour la voyelle
sont en phase. Dans le cas d’une consonne, le contrôle de la constriction est en phase avec la voyelle
quand la consonne est en position d’attaque de syllabe (syllabe CV), les deux gestes pouvant être
effectués en synchronie, mais il peut aussi être déphasé par rapport à la voyelle quand la consonne est
en position de coda de la syllabe (syllabe VC) (le geste consonantique ne peut alors pas être anticipé
durant la voyelle). Pour les groupes consonantiques en position d’attaque ou de coda, le contrôle des
constrictions peut être en phase (par exemple, [psa] ou [aps] : l’ouverture des lèvres durant l’explosion
du [p] et le placement de la position antérieure de la langue vers les alvéoles pour la constriction du [s]
sont partiellement synchrones) ou déphasé (par exemple, [spa] ou [asp]), l’ensemble pouvant être en
phase avec la voyelle ([psa] ou [spa]) ou déphasé ([aps] ou [asp]) (Sato, 2004).
Figure 9. Contours sagittaux pour la production de [u], [b], [u] dans [ubu]. Figure tirée de Vilain, 2000.
Figure 10. Contours sagittaux pour la production de [a], [b], [a] dans [aba]. Figure tirée de Vilain, 2000.
Dans le document
La Langue Française Parlée Complétée: Production et Perception
(Page 69-73)