La production de la parole coarticulée - La vision pour percevoir la parole :

CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup

II.2. La production de la parole coarticulée

Comment la parole coarticulée est-elle produite et contrôlée ? Différents modèles ont été établis pour

expliquer la coarticulation, ce phénomène intrinsèque à la parole qui se retrouve dans toutes les

langues (bien que ses caractéristiques puissent varier d’une langue à l’autre). Nous ne ferons pas une

revue complète des différents modèles et théories proposés (pour une analyse critique détaillée, voir

Bonnot, 1990a ; voir également Marchal & Farnetani, 1993 ; Hardcastle & Hewlett, 1999 ; pour un

aperçu historique, voir Bonnot & Keller, 2004) mais présenterons dans cette partie le modèle de

coarticulation d’Öhman, mettant en évidence les rôles distincts des consonnes et des voyelles dans la

nature coarticulée de la parole, avant de détailler plus spécifiquement les différents contrôles du

langage parlé. Nous nous baserons par la suite sur ces conceptions des contrôles de la parole pour

tenter d’expliquer comment les mouvements manuels de la LPC se coordonnent avec cette parole

coarticulée (voir section VI.3.2).

II.2.1. Le modèle de coarticulation d’Öhman

Dans les différents modèles, l’unité de production en parole est souvent la syllabe. Öhman (1966,

1967) propose un modèle de coarticulation dans lequel il met l’accent sur le rôle des voyelles dans la

production de parole : la parole apparaît comme une suite d’articulations de voyelle à voyelle, sur

lesquelles se superposent les articulations des consonnes (voir une schématisation de ce modèle pour

le décours temporel de l’aire intérolabiale sur la Figure 8). Son modèle est issu d’analyses acoustiques

et articulatoires de séquences voyelle-consonne-voyelle (V1CV2) isolées produites par un locuteur

suédois (ces résultats ont également été comparés avec ceux d’un locuteur américain et d’un locuteur

russe). L’auteur a étudié la coarticulation des consonnes voisées occlusives [b], [d] et [g] avec les

voyelles [y], [ø], [a] et [u]. En observant le patron formantique des séquences VCV dans les différentes

conditions, il constate que les transitions du deuxième formant sont assez variables selon le contexte

et dépendent en fait de tous les segments, c’est-à-dire que le patron formantique de la portion V1C

dépend aussi de la dernière voyelle (V2) qui est anticipée : « […] a motion toward the final vowel starts

not much later than, or perhaps even simultaneously with, the onset of the stop consonant gesture »

(1966, p. 165). Ainsi, les voyelles sont coarticulées à travers la consonne occlusive intermédiaire : les

voyelles sont produites en continu, c’est-à-dire par un geste de voyelle à voyelle, sur lequel le geste de

la consonne se superpose. Plus précisément, dans des séquences VCV, les deux voyelles sont

produites par un geste relativement lent du corps de la langue (tongue body) depuis la position de la

voyelle initiale à la position de la voyelle finale (diphtongal movement). Sur ce geste vocalique, le geste

articulatoire de la consonne intermédiaire vient se superposer (« […] the stop-consonant gestures are

actually superimposed on a context-dependent vowel substrate that is present during all of the

consonantal gesture. », p. 165) et modifier ainsi le geste vocalique (« […] the tongue is able to make a

distorted vowel gesture, while it is executing the stop consonant. », 1966, p. 166). D’après l’auteur, les

articulations des voyelles et des consonnes sont indépendantes au niveau des instructions neurales et

peuvent donc être activées simultanément : la langue correspondrait en fait à trois systèmes

articulatoires séparés contrôlant trois sous-ensembles de muscles. La position du corps de la langue

(tongue body) définit les voyelles, alors que les constrictions apicales et dorsales de la langue

définissent les consonnes ([d] et [g] dans cette étude). La coarticulation résulterait donc de la

co-production de la consonne et des voyelles sous forme d’une somme complexe des différentes

instructions : « […] the dynamic response of the tongue to a compound instruction is a complex

summation (neural, muscular, and probably mechanical also) of the responses to each of the

components of the instruction », (1966, p. 166).

Figure 8. Schématisation du modèle d’Öhman montrant l’évolution dans le temps de l’aire aux lèvres pour un geste de voyelle à voyelle (transition de la voyelle [y] vers la voyelle [i] ; à gauche) et pour un geste vocalique avec consonne surimposée (transition [ybi] ; à droite) (figure tirée de Cathiard, 2003).

II.2.2. Syllabes et segments : les contrôles de la parole

En partant du modèle d’Öhman (1966) et en prenant également en compte un point de vue

développemental (MacNeilage, 1998), Abry et al. (2002 ; voir aussi Abry et al., 2001 pour une version

en français) proposent que la parole soit le résultat de deux types de contrôles (« […] the speech signal

is biocybernetically a compound of (i) a carrier control, on proximal effectors, and (ii) a carried control,

on distal end-effectors. », p. 228-229) :

− Le contrôle proximal de la porteuse de la parole (carrier control), la mandibule, qui produit le rythme

syllabique. Au niveau du développement, c’est le premier contrôle à être acquis (durant le babillage

canonique vers 7 mois) ; c’est ce que propose MacNeilage (Davis et MacNeilage, 1995 ;

MacNeilage, 1998) dans sa théorie « Frame, then Content » pour expliquer l’évolution de la

production de la parole humaine, au niveau de sa phylogenèse et de son ontogenèse. Ce rythme

syllabique mandibulaire, qui maintient une certaine constance quelle que soit la vitesse d’élocution

(6Hz±1, Sorokin et al., 1980), est à la base du contrôle de la parole humaine (« This initial

rythmicity provides a basis for the control of speech throughout life. », p. 506).

− Le contrôle distal des articulateurs portés (carried control), la langue et la lèvre inférieure ; une fois

le contrôle du cycle mandibulaire établi, ces articulateurs vont être contrôlés indépendamment de la

mandibule et vont ainsi, en coopérant avec les autres articulateurs, créer des modulations sur ce

cycle en produisant les contenus (MacNeilage, 1998) : les consonnes et les voyelles. Dans cette

théorie, le cadre et les contenus sont donc indépendants. Ceci permet d’expliquer l’acquisition non

simultanée des différents types de contrôle dans la parole depuis le babillage canonique (aux

alentours de 7 mois) jusqu’à la parole coarticulée de l’adulte (voir dans Vilain et al., 2000, une

proposition en trois étapes pour le développement de la coarticulation de la parole, qui se ferait

« […] from Frames, to Content, then to coarticulated Content », p. 84).

Le geste consonantique est le résultat d’un contrôle local, celui des constrictions, soient les contacts et

les pressions des articulateurs sur différentes parties du conduit vocal (Vilain et al., 1999 ; Vilain,

2000). Par exemple, l’occlusion bilabiale caractéristique du [b] est le résultat d’une coordination entre la

mâchoire et les deux lèvres : la lèvre inférieure est portée vers le haut par la mâchoire puis le contact

et l’occlusion se produisent par le contrôle indépendant simultané de la lèvre inférieure qui exerce une

pression sur la lèvre supérieure qui lui résiste (Tuller & Kelso, 1984). Le geste vocalique quant à lui est

le résultat d’un contrôle postural global du conduit vocal qui permet de transiter d'une voyelle à l'autre

(Öhman, 1967). Ce geste de voyelle à voyelle correspond à une mise en forme globale du conduit

vocal, pouvant impliquer les différents articulateurs des lèvres au larynx. Passer d'une voyelle à l'autre

consiste à modifier cette configuration globale. Par exemple, les contours sagittaux pour les séquences

[ubu] et [aba] (Figure 9 et Figure 10 ; Vilain, 2000) montrent deux configurations globales différentes du

conduit vocal : pour la séquence [ubu], les lèvres sont protruses, la mandibule est en position haute, le

dos de la langue est monté vers la région vélaire et le larynx est abaissé ; pour la séquence [aba], la

mandibule est en position basse, la langue est centrale, abaissée et plate et le larynx est élevé. Dans

les deux cas, nous pouvons constater que le geste consonantique du [b], qui vient se superposer sur le

geste vocalique (Öhman, 1967), correspond à un contrôle local du contact des deux lèvres. La forme

interne globale du conduit vocal reste identique sur toute la séquence ; bien que la mandibule monte

dans [aba] pour produire l’occlusion bilabiale du [b], la langue reste en position basse pour la voyelle.

Le contrôle global de la voyelle est donc constant à travers la production de la consonne. En résumé,

la production d’une voyelle implique le contrôle de tout le corps de la parole (lèvre, mandibule, langue,

larynx) alors que la production d’une consonne est contrôlée localement (certains segments seulement

sont impliqués).

En ce qui concerne le phasage de ces différents contrôles (Browman & Goldstein, 2000 ; Sato et al.,

2002), les contrôles de la mandibule et de la mise en forme globale du conduit vocal pour la voyelle

sont en phase. Dans le cas d’une consonne, le contrôle de la constriction est en phase avec la voyelle

quand la consonne est en position d’attaque de syllabe (syllabe CV), les deux gestes pouvant être

effectués en synchronie, mais il peut aussi être déphasé par rapport à la voyelle quand la consonne est

en position de coda de la syllabe (syllabe VC) (le geste consonantique ne peut alors pas être anticipé

durant la voyelle). Pour les groupes consonantiques en position d’attaque ou de coda, le contrôle des

constrictions peut être en phase (par exemple, [psa] ou [aps] : l’ouverture des lèvres durant l’explosion

du [p] et le placement de la position antérieure de la langue vers les alvéoles pour la constriction du [s]

sont partiellement synchrones) ou déphasé (par exemple, [spa] ou [asp]), l’ensemble pouvant être en

phase avec la voyelle ([psa] ou [spa]) ou déphasé ([aps] ou [asp]) (Sato, 2004).

Figure 9. Contours sagittaux pour la production de [u], [b], [u] dans [ubu]. Figure tirée de Vilain, 2000.

Figure 10. Contours sagittaux pour la production de [a], [b], [a] dans [aba]. Figure tirée de Vilain, 2000.

Dans le document La Langue Française Parlée Complétée: Production et Perception (Page 69-73)