Le Modèle d’Expansion du Mouvement (M.E.M.)

CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup

II.3. Les modèles d’anticipation labiale

II.3.2. Le Modèle d’Expansion du Mouvement (M.E.M.)

L’analyse de l’évolution temporelle du geste de protrusion de la lèvre supérieure chez trois locuteurs

français a amené Abry et Lallouache (1995a) à rejeter également ces trois modèles et à proposer une

alternative pour le français, le « Modèle d’Expansion du Mouvement » (Movement Expansion Model)

ou MEM. Formulé à la base pour le geste de protrusion labiale (MEM de protrusion), ce modèle peut

également expliquer le timing de la constriction labiale, c’est-à-dire la diminution de l’aire intérolabiale

(MEM de constriction ; Abry et Lallouache, 1995b).

II.3.2.1. Le MEM de protrusion

Le geste de protrusion de la lèvre supérieure a été analysé dans des séquences [iCny] (où Cn

représente de 0 à 5 consonnes) insérées dans une phrase porteuse du type « Ces deux Sixte

sculptèrent ». Dans le cas de 0 consonne, la transition simple vocalique [iy] est étudiée (« ces deux

scies utèrent ») puis [iky] (« ces deux scies cutèrent »), [ikky] (« ces deux Sikhs cutèrent »), [iksky]

(« ces deux Sikhs sculptèrent »), [ikssky] (« ces deux Sixes sculptèrent ») jusqu’à « ces deux Sixtes

sculptèrent » avec cinq consonnes intervocaliques. Les auteurs ont examiné le timing du geste de

protrusion en relation avec l’intervalle d’obstruence (IO) déterminé par la fin acoustique du [i] et le

début acoustique du [y]. Ils ont observé le timing relatif de différents événements temporels : le début

du mouvement de protrusion, le maximum d’accélération, le maximum de vitesse et le maximum de

protrusion. Chez les trois locuteurs, le début du mouvement peut se produire avant la fin acoustique du

[i] et le maximum de protrusion (c’est-à-dire la fin du geste) se produit aux alentours du début

acoustique de la voyelle arrondie [y]. En analysant en particulier la durée du mouvement en fonction de

l’intervalle d’obstruence IO, les auteurs observent que la durée moyenne pour effectuer la transition

simple [iy] sans consonne intermédiaire (dans ce cas IO=0 ms) est proche de celle nécessaire pour

effectuer les séquences avec une consonne [iky] (dans ce cas IO=100 ms) et avoisine les 140-150 ms.

Cette valeur minimale est la durée incompressible du geste de protrusion, obtenue chez les trois

locuteurs, et à partir de laquelle le mouvement, soit l’anticipation, va pouvoir s’étendre de manière

linéaire en fonction de l’augmentation de l’intervalle consonantique (soit de la durée IO) (voir Figure

12). Cette augmentation se fait selon un « coefficient d’expansion du mouvement » qui est propre à

chaque locuteur. Ainsi le mouvement serait « expansible sans être compressible très en deçà d’une

constante [iy] » (Abry & Lallouache, 1995a, p. 97). En réponse aux différents modèles proposés, les

auteurs concluent donc que « l’anticipation du mouvement de protrusion n’est pas déterminée par la fin

de la voyelle non arrondie [i], pas plus qu’elle n’est déterminée de manière fixe par rapport au début de

la voyelle arrondie [y]. » (p. 97). En revanche « […] phénoménologiquement, le mouvement de

protrusion : (i) atteint son max. plus ou moins aux alentours du début de la voyelle arrondie [y] ; (ii)

commence de plus en plus tôt, par rapport à [y], en fonction de l’augmentation du nombre de

consonnes intervocaliques […] ; (iii) peut commencer après [i] […], ou dès le début de cette voyelle

[…]. » (p. 97).

Figure 12. MEM de protrusion en relation avec les modèles Look-Ahead et Time-Locked : représentation de la durée du mouvement (MT) en fonction de l’intervalle d’obstruence IO. La durée de 140 ms désigne la durée minimale incompressible du geste de protrusion (pour une durée de IO de 0 et 100 ms). La pente de la droite représente le coefficient d’expansion du mouvement. Ce coefficient est propre au locuteur (ici, cas de trois locuteurs : Annie, Jean-Luc et Benny). Figure tirée de Abry et al., 1996a.

II.3.2.2. Le MEM de constriction

Les auteurs ont montré dans une autre étude utilisant le même corpus (mais avec un locuteur

supplémentaire) (Abry & Lallouache, 1995b) que ce modèle peut aussi être appliqué à la constriction

labiale pour la dimension d’arrondissement (c’est le seul modèle qui tient compte du timing de la

constriction aux lèvres). Cette extension du MEM à la constriction se justifie par le fait que certains

locuteurs n’ont pas de protrusion labiale (c’était le cas du 4

ème

locuteur étudié ici, Christophe). La

diminution de l’aire aux lèvres est en revanche toujours présente pour la production de voyelles

arrondies. Rappelons également que l’aire aux lèvres est un paramètre particulièrement pertinent,

notamment sur le plan acoustique pour le maintien des effets de l’arrondissement (nous insisterons

plus tard sur ce point pour justifier du choix de ce paramètre pour nos propres données). Sur les

décours d’aire intérolabiale, les événements temporels suivants ont été repérés (voir Figure 13) : le

maximum d’aire (pour le [i], événement 1 sur la figure) et le minimum d’aire (pour le [y], événement 4),

ces deux événements donnant l’amplitude de la constriction ; les deux instants avant et après le

minimum d’aire, où l’aire atteint 10% de l’amplitude (notés 10%aire.on et 10%aire.off, événements 3 et

5), ces deux événements délimitant une phase de tenue (hold phase) acoustiquement efficace du [y] ;

et l’instant avant l’atteinte du maximum d’aire où l’aire atteint 90% de l’amplitude (90%aire.on,

événement 2), cet instant représentant le début de la constriction du [y]. La phase délimitée par les

instants 90%aire.on et 10%aire.on constitue le Time falling (TF), qui représente en fait le temps

d’établissement du geste d’arrondissement des lèvres. La phase globale TF+H constituée par le

time-falling et la tenue (hold) est étudiée en fonction de l’intervalle d’obstruence IO. Le timing de cette phase

est très similaire aux résultats observés pour la durée du geste de protrusion : on retrouve une

expansion linéaire de la durée de la constriction, à partir d’une constante minimale (environ 140 ms), et

qui va croître différemment selon un coefficient propre à chaque locuteur (voir Figure 14). En observant

le timing relatif du début de constriction (90%aire.on), les auteurs constatent la forte ressemblance

comportementale avec le début du geste de protrusion : le début de la constriction pour le [y] peut se

produire dans le [i] pour des durées petites de IO, mais se produit après le [i] pour des grandes durées

de IO (typiquement supérieures à 300 ms pour cinq consonnes).

Figure 13. Signal acoustique et évolution temporelle de l’aire aux lèvres pour la séquence [sedøsikstkyltE¯]. Les événements temporels suivants sont repérés : (1) correspond au maximum de [i], (2) au 90%aire.on, (3) à 10%aire.on, (4) au minimum de [y], (5) à 10%aire.off, (6) à la fin acoustique du [i] et (7) au début acoustique du [y]. D’après C. Abry, publié dans Cathiard et al., 2003.

Figure 14. MEM de constriction : représentation de la phase de Time-Falling+Hold en fonction de la durée de l’intervalle d’obstruence pour quatre locuteurs. Figure tirée de Abry et al., 1996a.

La modélisation du geste d’arrondissement en protrusion et en constriction par le MEM nous donne

donc une durée minimale du mouvement ainsi qu’une fonction d’expansion propre à chaque locuteur.

L’anticipation vocalique peut s’étendre au travers d’une suite de consonnes (sans forcément aller

jusqu’au segment non arrondi), à un rythme propre à chaque locuteur.

Notons en outre que le MEM a également été testé pour le geste de base de voyelle à voyelle [i#y]

sans consonne intermédiaire (Abry et al., 1996a). En effet, il apparaît que la fonction d’expansion

calculée pour les réalisations ne contenant pas la consonne [s] (donc pour les transitions [iy], [iky] et

[ikky] dans le corpus précédent ; le [s] est exclu car il semble bien influencer la phase de Time-Falling

durant la constriction par un recrutement de la mâchoire propre au locuteur) peut également rendre

compte du comportement de constriction labiale contrôlant l’aire à la sortie du conduit vocal pour des

transitions [i#y] avec petite (100-150 ms), moyenne (150-300 ms) et longue pauses (450-650 ms ;

notons cependant une plus grande variabilité pour ces longues pauses) (voir Fig. 2 et 3 dans Abry et

al., 1996a). Le geste de constriction suit alors une fonction d’expansion en fonction de l’intervalle de

pause selon un coefficient de 0,16 pour le locuteur testé (Jean-Luc).

Concernant l’anticipation de hauteur mise en évidence dans des transitions [i#a], le comportement est

plus variable, lié à des stratégies articulatoires prosodiques différentes (Abry et al., 1996a). Un

articulographe a été utilisé pour mesurer le mouvement propre du dos de la langue ainsi que le geste

d’aperture dû à l’abaissement de la langue et de la mâchoire (dans cette expérience, l’évolution

temporelle de l’aire intérolabiale n’a pas pu être mesurée). La phase de Time-Falling (suivant la même

procédure que pour la constriction, de 90% à 10% de l’amplitude du mouvement) a été analysée en

fonction de la durée de la pause intervocalique. Pour le mouvement d’aperture, on trouve une fonction

d’expansion qui débute dans le passage entre courte et moyenne pause (soit aux environs de 300 ms),

et qui reste valable pour une partie seulement des réalisations en longue pause. Notons que les

longues pauses (supérieures à 500 ms) démontrent une forte variabilité : de fait, la majorité d’entre

elles adoptent un coefficient d’expansion plus bas (voir Fig. 4 dans Abry et al., 1996a). Pour le

mouvement propre de la langue, la tendance est encore différente : l’expansion du mouvement

commence plutôt à partir de 400 ms (moyennes pauses). Ces différences viennent du comportement

du locuteur qui adopte des stratégies bien différentes quand la pause s’allonge : le contrôle articulatoire

de la prosodie durant ces longues pauses peut changer le profil du mouvement (ceci avait été

également observé pour le contrôle de la jointure dans les suites de consonnes, Abry et Lallouache,

1991).

Ainsi le MEM, proposé comme une alternative aux autres modèles de l’anticipation, permet de rendre

compte de la variabilité interlocuteur en affectant à chacun un coefficient d’expansion du mouvement

spécifique à chaque comportement d’anticipation : la durée du mouvement est expansible, en fonction

de l’intervalle disponible entre les voyelles, selon un coefficient, dépendant du locuteur. En clair,

l’initiation du geste vocalique ne dépend pas de la fin acoustique du segment non arrondi pas plus que

du début du segment arrondi. Il n’en reste pas moins que ce contrôle est orienté-vers-la-sortie, comme

le témoignent les études en perception qui ont validé le MEM à la fois au niveau acoustique et visuel

(Cathiard, 1994 ; Abry et al., 1996b ; Ferbach-Hecker et al., 2001). Citons pour finir les mots de l’auteur

du modèle C. Abry : « L'anticipation reste bien au contraire, selon le mot de Keele et al. (1990), une

pré-connaissance, qui permet de réguler l'initiation des composantes de protrusion et constriction du

geste vocalique, en fonction de la durée prosodique des éléments non vocaliques qui composent la

séquence à exécuter – le coefficient d'expansion temporelle du mouvement de voyelle à voyelle étant

supposé connu du locuteur. Il n’est donc pas nécessaire de connaître la fin d’un son (look ahead) ou

d’un geste (time-locked) précédent pour commencer le suivant : il suffit de connaître l’empan temporel

disponible pour l’extensibilité de son anticipation, un empan donné ici par le pas des consonnes entre

les voyelles. » (Abry & Perrier, 1996).

CHAPITRE III.

Gestes et parole

« Gestures are an integral part of language as much as are words, phrases, and sentences –

gesture and language are one system »

McNeill, 1992

Dans cette thèse, nous nous intéressons à la coordination entre les mouvements de la main et les

gestes de la parole dans la production du code LPC. Avant d’aborder ce cadre particulier, il est

intéressant de voir comment, dans la communication de tous les jours, des gestes naturels

interviennent spontanément au cours de la parole, les gestes co-verbaux, et se coordonnent avec elle.

Nous avons souligné précédemment le caractère multimodal de la parole ; la parole n’est pas

seulement audible, mais elle est aussi visible. De plus, les gestes produits par le locuteur pendant qu’il

parle ont également un rôle important. Nous allons voir dans ce chapitre que dans la communication

parlée, les gestes et la parole sont liés par une forte interdépendance. Gestes et parole se coordonnent

naturellement d’une manière particulière dans l’acte de communication spontanée. Nous verrons que la

parole peut parfois s’ajuster à la durée du geste soit en se calant sur le geste et en l’attendant soit en

se laissant entraîner par le rythme gestuel.

III.1. Une communication multimodale

« Gestures and speech are closely linked in meaning, function, and time:

they share meanings, roles, and a comon fate »

McNeill, 1992

La parole permet pleinement de communiquer. En addition, les conduites non verbales (gestes,

mimiques faciales, postures…) qui peuvent révéler certaines de nos émotions et pensées ont un rôle

important dans l’interaction humaine. La gestualité et en particulier ses relations avec la parole ont fait

l’objet de nombreuses études, la sémiologie du geste, sa fonction et sa synchronie avec la parole étant

au centre des préoccupations. A l’exception des gestes autocentrés (gestes de grattage, gestes de

confort, etc.) et des gestes ludiques tournés vers les objets (ex : jouer avec un stylo) qui se produisent

durant la communication mais qui n’ont pas réellement une fonction communicative, les autres gestes

sont en lien avec la parole par leurs significations, leurs fonctions et leurs relations temporelles et

peuvent éclaircir la communication. Ils révèlent l’imagerie de la pensée du locuteur ; ainsi, en même

temps, les gestes et les images sous-jacentes coexistent avec la parole (McNeill, 1992). On distingue

généralement les gestes qui peuvent remplacer la parole et qui ont une signification hors contexte – ce

sont les emblèmes qui peuvent être utilisés seuls – des gestes qui accompagnent la parole et qui sont

produits en même temps que le locuteur parle, les gestes co-verbaux (pour plus de détails sur la

classification des gestes par différents auteurs, voir McNeill et al., 1990).

III.1.1. Les emblèmes

Les emblèmes sont des gestes conventionnels (codified ou conventionalized forms) à forme standard

(selon la culture) qui peuvent être utilisés indépendamment de la parole. Ils sont autonomes et porteurs

de sens à eux seuls. Par exemple pour signaler à quelqu’un de s’arrêter, on peut lui dire « stop » tout

comme on peut faire un geste de la main (main ouverte tendue face à l’interlocuteur) pour lui signifier

de s’arrêter, mais on peut aussi faire les deux en même temps. Les emblèmes ont une fonction de

communication : le locuteur exécute ces gestes de manière totalement consciente pour exprimer son

intention. Il est à noter que ces gestes, bien que pouvant se substituer à la parole, ne forment

cependant pas un système linguistique à part entière tel que la langue des signes pour les sourds par

exemple ou les différents systèmes gestuels développés dans différentes communautés isolées

(Kendon, 1997 ; pour plus de détails, voir Goldin-Meadow, 1999). Contrairement aux unités gestuelles

de la langue des signes, les emblèmes ne se combinent pas entre eux en suivant des règles

grammaticales pour former un énoncé.

Dans le document La Langue Française Parlée Complétée: Production et Perception (Page 77-86)