CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup
III.2. Interdépendance du geste et de la parole
III.2.4. Quand gestes et parole sont étroitement liés
III.2.4.1. Formulette d’incantation 22
Berthier et al. (1991) ont étudié la coordination rythmique du geste et de la parole dans le cadre de la
fabrication traditionnelle de sifflets d’écorce de frêne en Rhône-Alpes. La fabrication de ces sifflets se
fait manuellement en plusieurs étapes. L’une de ses étapes, qui a pour but de détacher l’écorce du
tronçon de frêne, implique une coordination rythmique très précise entre la parole et le geste manuel
de l’artisan. Durant cette étape, le sujet chantonne en dialecte une formulette d’incantation à la sève en
même temps qu’il bat en rythme le tronçon de bois à l’aide de son couteau pour faire sortir la sève
(plus précisément, le couteau est tenu par la lame et le battement se fait au niveau de la virole du
couteau). La séquence de percussion produite par le couteau sur le bois forme un cycle de « geste de
volée » qui se décompose en trois phases (voir Figure 15) : le lancé (depuis le début du geste jusqu’au
moment où le couteau frappe le bois), le percuté (depuis le contact jusqu’au moment d’extension
maximale entre la main et la lame du couteau) et le relevé (depuis ce moment d’extension maximale
jusqu’au début du geste suivant). Un sujet assis pratiquant cette fabrication traditionnelle a été filmé : le
sujet fait tourner le tronçon de bois avec la main gauche tandis qu’il déplace sa main droite en maniant
le couteau. Le mouvement de la main en fonction du temps a été analysé et différents paramètres ont
été mesurés pour étudier cette coordination (nous voyons sur la Figure 15 l’évolution au cours du
temps de l’angle entre la phalange et la lame). En ce qui concerne le cycle de volée, une organisation
temporelle typique de ce genre de geste a été observée : une durée moyenne du cycle de 260 ms, soit
l’équivalent de quatre cycles environ par seconde, avec une répartition temporelle de 31% pour le
lancé, 23% pour le percuté et 46% pour le relevé. En ce qui concerne la coordination avec la parole,
les auteurs ont observé une contrainte de couplage entre le geste manuel et la parole : la percussion
tombe pendant la consonne (on voit sur la Figure 15 que le coup se produit durant la consonne [s]) et
dans tous les cas ne se produit jamais avant la fin de la voyelle précédente, et cela, quelle que soit la
durée de la syllabe. Ceci amène les auteurs à conclure qu’il y a « un calage réciproque de la parole et
2 Nous présentons ici seulement quelques études de sortes de chants vocaux-gestuels. Il est à noter
cependant que d’autres études dans ce domaine ont également montré une étroite relation entre gestes et parole : c’est le cas par exemple d’une étude du chant haka effectué par les rugby-men néo-zélandais avant les matchs de rugby (Chafcouloff et al., 2001). L’analyse de ce chant issu de la tradition maorie révèle deux types de synchronisation voix-gestes : il peut y avoir simultanéité d’une frappe, résultant d’un contact entre deux parties du corps, et de la phase de détente des consonnes occlusives sourdes [p] et [k], ou bien il peut y avoir synchronisation du mouvement gestuel (qui est à ce moment-là plus lent) avec la durée du segment associé.
du geste » (p. 35). Au démarrage, le geste se cale sur la parole, puis la parole se règle sur le geste qui
impose son rythme de battement et ralentit la parole (la parole est « entraînée par la cadence du
bras »).
Figure 15. Décours temporel du cycle de volée en correspondance avec le signal acoustique de parole. En haut, portion de signal acoustique [sa] extraite de la formulette d’incantation. En bas, évolution au cours du temps de l’angle entre la phalange du sujet et la lame du couteau avec les trois phases du cycle du geste de volée. Sur le signal acoustique est repéré le moment où se produit la percussion (coup), soit durant la consonne. Figure tirée de Berthier et al., 1991.
III.2.4.2. La gestualité dans les enfantines
Chauvin-Payan (1999a) a étudié la gestualité chez les enfants dans un registre particulier, le registre
poétique du folklore enfantin. Elle a étudié les différents jeux enfantins (comptines, formulettes,
enfantines, etc.) qu’elle a pu observer dans les cours de récréation d’écoles maternelles et primaires
de la région Rhône-Alpes. Le rythme (et sa régularité) étant « une constante de la tradition orale
enfantine » (Chauvin-Payan, 1999a, p. 21), l’auteur a étudié les rapports existants entre la structure
gestuelle et la structure rythmique et mélodique des enfantines. Pour rendre compte de ces relations,
elle a mis au point un code iconique pour la description multimodale des jeux prenant en compte à la
fois les paroles, la musique et les gestes (voir description détaillée dans Chauvin-Payan, 1999a). Elle
fait donc une description de tous les jeux en mettant en relation la musique (notes de musique), les
paroles décrites en suite de syllabes et le geste accompagnant (par exemple, un frappement de main).
Pour la plupart des « tape-mains » qui sont des jeux chorégraphiques où les enfants se placent l’un en
face de l’autre et frappent dans leurs mains en chantant (par exemple : « trois p’tits chats »), un lien
étroit entre la syntaxe des énoncés et le rythme gestuel et verbal est mis en évidence : les structures
rythmiques peuvent respecter les frontières syntaxiques, le rythme, dans ces cas-là, permettant de lier
la mélodie, les paroles et les gestes dans les enfantines (Blondel & Chauvin-Payan, 2002). La
présence d’un schème gestuel ou « cycle de frappe » constitué de plusieurs unités qui peuvent se
répéter plusieurs fois a été mis en évidence dans tous les jeux : par exemple, pour le tape-mains « trois
p’tits chats », le cycle de frappe est constitué de trois unités. Le cycle de frappe peut coïncider avec les
frontières de syntagmes (c’est le cas pour « Trois p’tits chats ») ou non (c’est le cas pour « Fanny » ;
Chauvin-Payan, 1999b), mais dans tous les cas, chaque frappe se produit en même temps qu’une
syllabe et qu’une note. Il apparaît que la répétition de ces cycles de frappe permettrait à la fois « la
mémorisation et la coordination avec les paroles et avec la gestuelle des autres joueurs » (Blondel &
Chauvin-Payan, 2002, p. 108).
Blondel et Chauvin-Payan (2002) ont comparé cette gestualité à celle des enfantines signées
(exécutées par des enfants sourds ou par des adultes de manière pédagogique vers des enfants
sourds signant). La gestualité dans les enfantines signées a un rôle double : elle peut être linguistique
en faisant partie des signes de la Langue des signes mais elle peut aussi faire partie d’une autre
gestuelle accompagnant les signes (des mimiques par exemple). Dans les enfantines signées, on ne
trouve pas de gestes rythmiques (cycles de frappe) comme dans les enfantines orales : « quand tout le
gestuel est ‘‘parole’’, il ne parait pas très étonnant que le gestuel purement rythmique soit absent » (p.
111). Cependant, il y a de nombreux points communs entre les deux types d’enfantines. Les schèmes
rythmiques sont également présents dans les enfantines signées. Il peut y avoir une répétition des
mots ou phrases comme dans les enfantines orales. Le schéma rythmique et mélodique des enfantines
orales qui est fondé sur les valeurs de durées, d’accents et de hauteur est remplacé ici par un flux
gestuel qui varie en intensité et en durée avec des gestes accentués par l’introduction de pauses, de
tenues et de ralentis. De plus, de même que le cycle de frappe coïncidait avec les frontières
syntaxiques dans les enfantines orales, les séquences signées coïncident avec les syntagmes.
Ainsi, il apparaît que les gestes co-verbaux ne sont pas seulement liés au contenu de la parole qu’ils
accompagnent mais ils entretiennent aussi une relation temporelle avec la parole. Leur coordination
peut être très variable dans le sens où nous trouvons certaines contradictions dans la littérature (c’est
par exemple le cas pour de Ruiter & Wilkins, 1998, versus Furuyama et al., 2002). Cependant il semble
que de nombreux facteurs soient à l’origine de ce constat, comme par exemple le type de geste, les
outils d’analyse, la culture des sujets, etc. Néanmoins, ce qui ressort fortement est le fait que la plupart
du temps, le début du geste anticipe le début de la parole alors que l’apex du geste est plus ou moins
synchrone avec la parole.
CHAPITRE IV.
Modélisation de la production de parole et de
gestes
Nous allons présenter maintenant une architecture cognitive générale de la production de mots et de
gestes co-verbaux. Cette production multimodale sera expliquée dans le cadre du modèle
« Speaking » de Levelt (1989, 1994) augmenté par un versant gestuel proposé par de Ruiter (2000).
Le modèle de production de mots de Levelt explique comment à partir d’une intention communicative,
le locuteur forme et articule un message approprié. De Ruiter reprend ce cadre général et y ajoute un
modèle de production de gestes, le « Sketch Modèle », qui explique comment les différents gestes sont
initiés et produits en relation avec la parole. Les deux modèles s’insèrent dans une approche de
traitement de l’information (information-processing approach). L’architecture générale est constituée de
modules de traitement (boxologies) qui opèrent sur des représentations c’est-à-dire des informations
stockées auxquelles on peut accéder.
Cette partie permettra en discussion d’émettre des hypothèses sur la façon dont le code LPC est
planifié en relation avec les segments de la parole. Nos études, comme nous le verrons, vont en effet
mettre en évidence un lien très fort entre geste LPC et parole. Cette parole étant systématiquement
resyllabifiée en suites CV, nous pourrons nous interroger sur la façon dont le code LPC impose sa
structure à la parole. Le modèle de Levelt (1989) nous a semblé pertinent car – en plus du fait qu’il
contient toutes les étapes de traitement qui se retrouvent généralement dans les modèles de
production de mots (voir Butterworth & Hadar, 1989) – il met l’accent sur la syllabe qui est l’unité de
production en LPC et décrit un stock de gestes syllabiques par le biais du syllabaire. Par ailleurs, c’est
également ce modèle que de Ruiter a choisi d’augmenter par un versant gestuel pour la production des
gestes co-verbaux. Ces deux modèles représentent donc une base sur laquelle nous pourrons tenter
d’ajouter un versant expliquant la production des gestes de la LPC en relation avec la parole et les
gestes co-verbaux.
IV.1. Un modèle psycholinguistique de production de mots : le
modèle « Speaking »
Levelt (1989, 1994 ; voir aussi Segui & Ferrand, 2000) explique le processus de génération de mots
dans la parole en plusieurs étapes cognitives et propose un modèle à modules encapsulés
correspondant à différents niveaux de traitement (voir Figure 16) : la conceptualisation (conceptual
preparation) de ce que le locuteur veut dire qui est gérée par le conceptualizer, la formulation de
l’intention du locuteur avec les bons mots gérée par le formulator et l’articulation, étape durant
laquelle le locuteur produit le mot et qui est gérée par l’articulator. L’étape de formulation est elle-même
divisée en trois sous-processus : la sélection lexicale (lexical selection) durant laquelle le locuteur
récupère les informations sémantiques et syntaxiques d’un mot, l’encodage phonologique
(phonological encoding) qui donne la forme phonologique du mot, l’encodage phonétique (phonetic
encoding) qui associe à chaque syllabe du mot un geste articulatoire correspondant. Le locuteur peut
de plus contrôler les sorties et se corriger si nécessaire (self-monitoring).
Figure 16. Les étapes de la production de mots dans le modèle « Speaking ». Figure adaptée de Levelt, 1994.