CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup
II.3. Les modèles d’anticipation labiale
II.3.2. Le Modèle d’Expansion du Mouvement (M.E.M.)
L’analyse de l’évolution temporelle du geste de protrusion de la lèvre supérieure chez trois locuteurs
français a amené Abry et Lallouache (1995a) à rejeter également ces trois modèles et à proposer une
alternative pour le français, le « Modèle d’Expansion du Mouvement » (Movement Expansion Model)
ou MEM. Formulé à la base pour le geste de protrusion labiale (MEM de protrusion), ce modèle peut
également expliquer le timing de la constriction labiale, c’est-à-dire la diminution de l’aire intérolabiale
(MEM de constriction ; Abry et Lallouache, 1995b).
II.3.2.1. Le MEM de protrusion
Le geste de protrusion de la lèvre supérieure a été analysé dans des séquences [iCny] (où Cn
représente de 0 à 5 consonnes) insérées dans une phrase porteuse du type « Ces deux Sixte
sculptèrent ». Dans le cas de 0 consonne, la transition simple vocalique [iy] est étudiée (« ces deux
scies utèrent ») puis [iky] (« ces deux scies cutèrent »), [ikky] (« ces deux Sikhs cutèrent »), [iksky]
(« ces deux Sikhs sculptèrent »), [ikssky] (« ces deux Sixes sculptèrent ») jusqu’à « ces deux Sixtes
sculptèrent » avec cinq consonnes intervocaliques. Les auteurs ont examiné le timing du geste de
protrusion en relation avec l’intervalle d’obstruence (IO) déterminé par la fin acoustique du [i] et le
début acoustique du [y]. Ils ont observé le timing relatif de différents événements temporels : le début
du mouvement de protrusion, le maximum d’accélération, le maximum de vitesse et le maximum de
protrusion. Chez les trois locuteurs, le début du mouvement peut se produire avant la fin acoustique du
[i] et le maximum de protrusion (c’est-à-dire la fin du geste) se produit aux alentours du début
acoustique de la voyelle arrondie [y]. En analysant en particulier la durée du mouvement en fonction de
l’intervalle d’obstruence IO, les auteurs observent que la durée moyenne pour effectuer la transition
simple [iy] sans consonne intermédiaire (dans ce cas IO=0 ms) est proche de celle nécessaire pour
effectuer les séquences avec une consonne [iky] (dans ce cas IO=100 ms) et avoisine les 140-150 ms.
Cette valeur minimale est la durée incompressible du geste de protrusion, obtenue chez les trois
locuteurs, et à partir de laquelle le mouvement, soit l’anticipation, va pouvoir s’étendre de manière
linéaire en fonction de l’augmentation de l’intervalle consonantique (soit de la durée IO) (voir Figure
12). Cette augmentation se fait selon un « coefficient d’expansion du mouvement » qui est propre à
chaque locuteur. Ainsi le mouvement serait « expansible sans être compressible très en deçà d’une
constante [iy] » (Abry & Lallouache, 1995a, p. 97). En réponse aux différents modèles proposés, les
auteurs concluent donc que « l’anticipation du mouvement de protrusion n’est pas déterminée par la fin
de la voyelle non arrondie [i], pas plus qu’elle n’est déterminée de manière fixe par rapport au début de
la voyelle arrondie [y]. » (p. 97). En revanche « […] phénoménologiquement, le mouvement de
protrusion : (i) atteint son max. plus ou moins aux alentours du début de la voyelle arrondie [y] ; (ii)
commence de plus en plus tôt, par rapport à [y], en fonction de l’augmentation du nombre de
consonnes intervocaliques […] ; (iii) peut commencer après [i] […], ou dès le début de cette voyelle
[…]. » (p. 97).
Figure 12. MEM de protrusion en relation avec les modèles Look-Ahead et Time-Locked : représentation de la
durée du mouvement (MT) en fonction de l’intervalle d’obstruence IO. La durée de 140 ms désigne la durée
minimale incompressible du geste de protrusion (pour une durée de IO de 0 et 100 ms). La pente de la droite
représente le coefficient d’expansion du mouvement. Ce coefficient est propre au locuteur (ici, cas de trois
locuteurs : Annie, Jean-Luc et Benny). Figure tirée de Abry et al., 1996a.
II.3.2.2. Le MEM de constriction
Les auteurs ont montré dans une autre étude utilisant le même corpus (mais avec un locuteur
supplémentaire) (Abry & Lallouache, 1995b) que ce modèle peut aussi être appliqué à la constriction
labiale pour la dimension d’arrondissement (c’est le seul modèle qui tient compte du timing de la
constriction aux lèvres). Cette extension du MEM à la constriction se justifie par le fait que certains
locuteurs n’ont pas de protrusion labiale (c’était le cas du 4
ème locuteur étudié ici, Christophe). La
diminution de l’aire aux lèvres est en revanche toujours présente pour la production de voyelles
arrondies. Rappelons également que l’aire aux lèvres est un paramètre particulièrement pertinent,
notamment sur le plan acoustique pour le maintien des effets de l’arrondissement (nous insisterons
plus tard sur ce point pour justifier du choix de ce paramètre pour nos propres données). Sur les
décours d’aire intérolabiale, les événements temporels suivants ont été repérés (voir Figure 13) : le
maximum d’aire (pour le [i], événement 1 sur la figure) et le minimum d’aire (pour le [y], événement 4),
ces deux événements donnant l’amplitude de la constriction ; les deux instants avant et après le
minimum d’aire, où l’aire atteint 10% de l’amplitude (notés 10%aire.on et 10%aire.off, événements 3 et
5), ces deux événements délimitant une phase de tenue (hold phase) acoustiquement efficace du [y] ;
et l’instant avant l’atteinte du maximum d’aire où l’aire atteint 90% de l’amplitude (90%aire.on,
événement 2), cet instant représentant le début de la constriction du [y]. La phase délimitée par les
instants 90%aire.on et 10%aire.on constitue le Time falling (TF), qui représente en fait le temps
d’établissement du geste d’arrondissement des lèvres. La phase globale TF+H constituée par le
time-falling et la tenue (hold) est étudiée en fonction de l’intervalle d’obstruence IO. Le timing de cette phase
est très similaire aux résultats observés pour la durée du geste de protrusion : on retrouve une
expansion linéaire de la durée de la constriction, à partir d’une constante minimale (environ 140 ms), et
qui va croître différemment selon un coefficient propre à chaque locuteur (voir Figure 14). En observant
le timing relatif du début de constriction (90%aire.on), les auteurs constatent la forte ressemblance
comportementale avec le début du geste de protrusion : le début de la constriction pour le [y] peut se
produire dans le [i] pour des durées petites de IO, mais se produit après le [i] pour des grandes durées
de IO (typiquement supérieures à 300 ms pour cinq consonnes).
Figure 13. Signal acoustique et évolution temporelle de l’aire aux lèvres pour la séquence [sedøsikstkyltE¯]. Les
événements temporels suivants sont repérés : (1) correspond au maximum de [i], (2) au 90%aire.on, (3) à
10%aire.on, (4) au minimum de [y], (5) à 10%aire.off, (6) à la fin acoustique du [i] et (7) au début acoustique du
[y]. D’après C. Abry, publié dans Cathiard et al., 2003.
Figure 14. MEM de constriction : représentation de la phase de Time-Falling+Hold en fonction de la durée de
l’intervalle d’obstruence pour quatre locuteurs. Figure tirée de Abry et al., 1996a.
La modélisation du geste d’arrondissement en protrusion et en constriction par le MEM nous donne
donc une durée minimale du mouvement ainsi qu’une fonction d’expansion propre à chaque locuteur.
L’anticipation vocalique peut s’étendre au travers d’une suite de consonnes (sans forcément aller
jusqu’au segment non arrondi), à un rythme propre à chaque locuteur.
Notons en outre que le MEM a également été testé pour le geste de base de voyelle à voyelle [i#y]
sans consonne intermédiaire (Abry et al., 1996a). En effet, il apparaît que la fonction d’expansion
calculée pour les réalisations ne contenant pas la consonne [s] (donc pour les transitions [iy], [iky] et
[ikky] dans le corpus précédent ; le [s] est exclu car il semble bien influencer la phase de Time-Falling
durant la constriction par un recrutement de la mâchoire propre au locuteur) peut également rendre
compte du comportement de constriction labiale contrôlant l’aire à la sortie du conduit vocal pour des
transitions [i#y] avec petite (100-150 ms), moyenne (150-300 ms) et longue pauses (450-650 ms ;
notons cependant une plus grande variabilité pour ces longues pauses) (voir Fig. 2 et 3 dans Abry et
al., 1996a). Le geste de constriction suit alors une fonction d’expansion en fonction de l’intervalle de
pause selon un coefficient de 0,16 pour le locuteur testé (Jean-Luc).
Concernant l’anticipation de hauteur mise en évidence dans des transitions [i#a], le comportement est
plus variable, lié à des stratégies articulatoires prosodiques différentes (Abry et al., 1996a). Un
articulographe a été utilisé pour mesurer le mouvement propre du dos de la langue ainsi que le geste
d’aperture dû à l’abaissement de la langue et de la mâchoire (dans cette expérience, l’évolution
temporelle de l’aire intérolabiale n’a pas pu être mesurée). La phase de Time-Falling (suivant la même
procédure que pour la constriction, de 90% à 10% de l’amplitude du mouvement) a été analysée en
fonction de la durée de la pause intervocalique. Pour le mouvement d’aperture, on trouve une fonction
d’expansion qui débute dans le passage entre courte et moyenne pause (soit aux environs de 300 ms),
et qui reste valable pour une partie seulement des réalisations en longue pause. Notons que les
longues pauses (supérieures à 500 ms) démontrent une forte variabilité : de fait, la majorité d’entre
elles adoptent un coefficient d’expansion plus bas (voir Fig. 4 dans Abry et al., 1996a). Pour le
mouvement propre de la langue, la tendance est encore différente : l’expansion du mouvement
commence plutôt à partir de 400 ms (moyennes pauses). Ces différences viennent du comportement
du locuteur qui adopte des stratégies bien différentes quand la pause s’allonge : le contrôle articulatoire
de la prosodie durant ces longues pauses peut changer le profil du mouvement (ceci avait été
également observé pour le contrôle de la jointure dans les suites de consonnes, Abry et Lallouache,
1991).
Ainsi le MEM, proposé comme une alternative aux autres modèles de l’anticipation, permet de rendre
compte de la variabilité interlocuteur en affectant à chacun un coefficient d’expansion du mouvement
spécifique à chaque comportement d’anticipation : la durée du mouvement est expansible, en fonction
de l’intervalle disponible entre les voyelles, selon un coefficient, dépendant du locuteur. En clair,
l’initiation du geste vocalique ne dépend pas de la fin acoustique du segment non arrondi pas plus que
du début du segment arrondi. Il n’en reste pas moins que ce contrôle est orienté-vers-la-sortie, comme
le témoignent les études en perception qui ont validé le MEM à la fois au niveau acoustique et visuel
(Cathiard, 1994 ; Abry et al., 1996b ; Ferbach-Hecker et al., 2001). Citons pour finir les mots de l’auteur
du modèle C. Abry : « L'anticipation reste bien au contraire, selon le mot de Keele et al. (1990), une
pré-connaissance, qui permet de réguler l'initiation des composantes de protrusion et constriction du
geste vocalique, en fonction de la durée prosodique des éléments non vocaliques qui composent la
séquence à exécuter – le coefficient d'expansion temporelle du mouvement de voyelle à voyelle étant
supposé connu du locuteur. Il n’est donc pas nécessaire de connaître la fin d’un son (look ahead) ou
d’un geste (time-locked) précédent pour commencer le suivant : il suffit de connaître l’empan temporel
disponible pour l’extensibilité de son anticipation, un empan donné ici par le pas des consonnes entre
les voyelles. » (Abry & Perrier, 1996).
CHAPITRE III.
Gestes et parole
« Gestures are an integral part of language as much as are words, phrases, and sentences –
gesture and language are one system »
McNeill, 1992
Dans cette thèse, nous nous intéressons à la coordination entre les mouvements de la main et les
gestes de la parole dans la production du code LPC. Avant d’aborder ce cadre particulier, il est
intéressant de voir comment, dans la communication de tous les jours, des gestes naturels
interviennent spontanément au cours de la parole, les gestes co-verbaux, et se coordonnent avec elle.
Nous avons souligné précédemment le caractère multimodal de la parole ; la parole n’est pas
seulement audible, mais elle est aussi visible. De plus, les gestes produits par le locuteur pendant qu’il
parle ont également un rôle important. Nous allons voir dans ce chapitre que dans la communication
parlée, les gestes et la parole sont liés par une forte interdépendance. Gestes et parole se coordonnent
naturellement d’une manière particulière dans l’acte de communication spontanée. Nous verrons que la
parole peut parfois s’ajuster à la durée du geste soit en se calant sur le geste et en l’attendant soit en
se laissant entraîner par le rythme gestuel.
III.1. Une communication multimodale
« Gestures and speech are closely linked in meaning, function, and time:
they share meanings, roles, and a comon fate »
McNeill, 1992
La parole permet pleinement de communiquer. En addition, les conduites non verbales (gestes,
mimiques faciales, postures…) qui peuvent révéler certaines de nos émotions et pensées ont un rôle
important dans l’interaction humaine. La gestualité et en particulier ses relations avec la parole ont fait
l’objet de nombreuses études, la sémiologie du geste, sa fonction et sa synchronie avec la parole étant
au centre des préoccupations. A l’exception des gestes autocentrés (gestes de grattage, gestes de
confort, etc.) et des gestes ludiques tournés vers les objets (ex : jouer avec un stylo) qui se produisent
durant la communication mais qui n’ont pas réellement une fonction communicative, les autres gestes
sont en lien avec la parole par leurs significations, leurs fonctions et leurs relations temporelles et
peuvent éclaircir la communication. Ils révèlent l’imagerie de la pensée du locuteur ; ainsi, en même
temps, les gestes et les images sous-jacentes coexistent avec la parole (McNeill, 1992). On distingue
généralement les gestes qui peuvent remplacer la parole et qui ont une signification hors contexte – ce
sont les emblèmes qui peuvent être utilisés seuls – des gestes qui accompagnent la parole et qui sont
produits en même temps que le locuteur parle, les gestes co-verbaux (pour plus de détails sur la
classification des gestes par différents auteurs, voir McNeill et al., 1990).
III.1.1. Les emblèmes
Les emblèmes sont des gestes conventionnels (codified ou conventionalized forms) à forme standard
(selon la culture) qui peuvent être utilisés indépendamment de la parole. Ils sont autonomes et porteurs
de sens à eux seuls. Par exemple pour signaler à quelqu’un de s’arrêter, on peut lui dire « stop » tout
comme on peut faire un geste de la main (main ouverte tendue face à l’interlocuteur) pour lui signifier
de s’arrêter, mais on peut aussi faire les deux en même temps. Les emblèmes ont une fonction de
communication : le locuteur exécute ces gestes de manière totalement consciente pour exprimer son
intention. Il est à noter que ces gestes, bien que pouvant se substituer à la parole, ne forment
cependant pas un système linguistique à part entière tel que la langue des signes pour les sourds par
exemple ou les différents systèmes gestuels développés dans différentes communautés isolées
(Kendon, 1997 ; pour plus de détails, voir Goldin-Meadow, 1999). Contrairement aux unités gestuelles
de la langue des signes, les emblèmes ne se combinent pas entre eux en suivant des règles
grammaticales pour former un énoncé.