CHAPITRE V. Etude pilote de la production de syllabes codées 22
V.2. Expérience 1 : étude des transitions manuelles avec configuration consonantique fixe
V.2.2. Acquisition des données
V.2.3.1. Séquences VCV 22
Sur l’ensemble des réalisations, la syllabe CV mesurée à partir du signal acoustique dure en moyenne
399,5 ms (s= 95,6 ms
8). Cette durée nous permet de calculer un rythme moyen de parole codée de
2,5 Hz. On remarque d’emblée que le rythme de cette locutrice-codeuse est assez lent par rapport à un
rythme normal de parole qui engendre environ 6±1 syllabes par seconde (Sorokin et al., 1980). Ce net
ralentissement peut s’expliquer en partie par l’ajout du code manuel à la parole (nous discuterons de
ce point plus loin).
En ce qui concerne le code manuel, nous obtenons une moyenne de 276 ms (s= 54 ms) pour
l’intervalle M1M2, soit la durée de la transition manuelle vers la position cible et une moyenne de 205
ms (s= 109 ms) pour l’intervalle M2M3 qui représente la tenue de la main en position cible.
Comment ce code manuel se place-t-il par rapport aux événements acoustiques et articulatoires dans
le flux de la parole ? Nous avons obtenu une durée moyenne de 239 ms (s= 87 ms) pour l’intervalle
M1A1 ; ce qui signifie clairement que la main débute sa transition bien avant le début de la production
acoustique de la syllabe. La durée moyenne de 37 ms (s= 76 ms) pour l’intervalle A1M2 indique que la
main arrive en position cible juste après le début acoustique de la syllabe CV (quasiment en
synchronie), en fait au tout début de la consonne. Plus précisément, la durée de l’intervalle A1M2
représente 16% de la durée totale de la consonne (la consonne durant en moyenne 234 ms, s= 68
ms). Par rapport aux lèvres, la position manuelle est atteinte 256 ms (s= 101 ms) avant la cible labiale
vocalique (M2L2). Cette avance significative de la main sur les lèvres indique que l’information sur la
voyelle transmise par le code manuel (indiquée par la position) est donnée et donc disponible avant
l’information vocalique aux lèvres.
La durée moyenne de 51 ms (s= 60 ms) obtenue pour l’intervalle M3L2 indique que la main repart vers
la position cible suivante (qui code la syllabe S3) avant même que la cible vocalique ne soit réalisée
aux lèvres. Enfin, en ce qui concerne la transition manuelle, nous avons obtenu une durée moyenne de
282 ms (s= 51 ms) pour l’intervalle M3M4 ; cette durée, très proche de la durée de la transition
manuelle précédente (intervalle M1M2, m= 276 ms), suggère une certaine stabilité dans le rythme
8 Les types donnés dans cette thèse correspondent aux estimations non biaisées des
écarts-types au niveau de la population mère calculées à partir d’un échantillon de n individus. Ils sont définis par : 1 ) ( 1 2 _ − − =
∑
= n x x s n i n i , où∑
= = n i i n x n x 1_ 1 , xi étant la valeur du paramètre étudié pour le ième
manuel général (la comparaison des deux moyennes par un test t indique une différence non
significative au risque α= 5% ; le t calculé |tc|= 0,6 ddl= 118).
V.2.3.2. Séquences V-V
En ce qui concerne les 20 séquences de type « maV1V2mV1 », nous avons calculé les mêmes
intervalles temporels pour la syllabe S2. Au dépouillement de nos signaux acoustiques, nous avons
constaté que cette syllabe était constituée de la voyelle V2 précédée d’une attaque glottale (« coup de
glotte ») que la locutrice a produite systématiquement dans toutes les réalisations (au début de chaque
syllabe S2 entre les deux voyelles consécutives V1 et V2). Ces attaques glottales révèlent une stratégie
de parole claire (« clear speech » ; Picheny et al., 1986) avec séparation des frontières vocaliques, ce
qui permet en codage LPC de clairement marquer les positions vocaliques. Nous avons donc repéré le
début de la portion de silence de cette attaque (qui prend virtuellement la place de la consonne) par
l’étiquette A1. Le repérage de l’attaque glottale et de la voyelle délimite une syllabe d’une durée
moyenne de 383,6 ms (s= 61,4 ms). Nous obtenons, en ce qui concerne le code manuel, une moyenne
de 267 ms (s= 55 ms) pour la durée de l’intervalle M1M2 et une moyenne de 157 ms (s= 97 ms) pour
la durée de M2M3.
En ce qui concerne les relations entre la main et le son, nous avons obtenu une durée moyenne de
183 ms (s= 79 ms) pour l’intervalle M1A1 et de 84 ms (s= 64 ms) pour l’intervalle A1M2, soit une durée
M1M2 de 267 ms. La main débute donc sa transition avant le début du silence de l’attaque glottale
insérée devant la voyelle et atteint la position cible durant ce silence (le silence entre les deux voyelles
dure en moyenne 188,5 ms, s= 39,5 ms ; la position est donc atteinte dans les 45% de ce silence). La
valeur moyenne de 73 ms (s= 66 ms) pour l’intervalle M2L2 indique que la position cible manuelle est
atteinte avant la réalisation de la cible vocalique aux lèvres. Enfin, la main repart vers la position
suivante 84 ms après que la voyelle soit visible aux lèvres (M3L2, m= - 84 ms, s= 68 ms). La transition
manuelle jusqu’à la cible suivante dure en moyenne 276 ms (M3M4, s= 56 ms) ; de nouveau nous
pouvons observer une similitude dans la durée des transitions manuelles d’une position à l’autre (il n’y
a en effet pas de différence significative entre les deux moyennes M1M2 et M3M4 au risque α= 5% :
|tc|= 0,5 ddl= 38).
V.2.4. Vers un schéma de coordination « position-lèvres-son »
Les résultats obtenus dans cette étude révèlent une coordination main-lèvres-son particulière dans le
décours de la parole coarticulée codée. Au niveau du geste manuel, nous obtenons des valeurs de
transition (M1M2 et M3M4) de 276 ms et 282 ms pour les séquences VCV et de 267 ms et 276 ms
pour les séquences V-V. Il apparaît donc que ces durées de transitions manuelles sont très proches
dans les deux conditions et cela, que ce soit pour aller vers la position cible de la syllabe S2 ou bien
pour repartir vers la position suivante. Les valeurs de tenues, quant à elles, s’élèvent à 205 ms en
moyenne pour les séquences VCV et à 157 ms pour les séquences V-V : la durée de la tenue de la
main en position cible montre donc un peu plus de variabilité.
Figure 21. Positionement temporel des événements M1 (début du geste manuel), M2 (fin du geste manuel), L2 (cible labiale vocalique) et M3 (début du geste manuel vers la position suivante) par rapport à A1 (repéré par 0), début acoustique de la syllabe, pour les différents types de séquences (avec et sans consonne). Les items sont ordonnés dans l’ordre croissant de M1 (ce qui correspond à une courbe de fréquence cumulée avec ici la variable en y et le rang en x).
Au niveau de la coordination de la main avec la parole, un patron temporel relativement stable se
dégage des résultats. Notre résultat majeur est le fait que le geste manuel anticipe sur l’acoustique
et sur le geste labial. L’initiation du geste est en avance sur le début de la syllabe de 183 ms à 239
ms en moyenne (M1A1) dans cette étude. La Figure 21 montre plus précisément, pour chacune des
séquences étudiées, le positionnement temporel, par rapport au début acoustique de la syllabe (A1,
soit le début de la consonne ou de l’attaque glottale), du début du geste manuel (M1), de la fin du geste
manuel (M2), de la cible labiale vocalique (L2) et du début du geste manuel vers la position suivante
(M3). Nous pouvons voir que pour toutes les séquences produites avec ou sans consonne,
l’événement M1 se produit toujours en avance par rapport à l’événement A1 (sur la figure, tous les
triangles qui représentent M1 sont effectivement en-dessous de la ligne en pointillés qui représente
A1). La valeur d’anticipation observée selon la séquence testée est très variable (de 38 ms à 453 ms ;
ces valeurs correspondent aux valeurs minimum et maximum de M1A1) mais dans tous les cas reste
positive.
Nous avons vu que la main termine son mouvement de 37 ms à 84 ms en moyenne après le début
acoustique de la syllabe (A1M2). La Figure 21 montre la répartition de la cible LPC (M2, représentée
par des croix) par rapport au début acoustique de la syllabe. Globalement cet événement se produit
aux alentours de A1. La position cible LPC peut même parfois être atteinte avant le début acoustique
de la syllabe : c’est le cas surtout pour les séquences incluant la consonne [m] (beaucoup de croix sur
la figure sont placées en-dessous de l’événement A1). Dans l’ensemble, nous pouvons remarquer que
la majorité de la distribution se retrouve dans les 100 premières millisecondes de la syllabe, donc au
début de la consonne.
En moyenne la position manuelle qui code la voyelle est atteinte de 73 ms à 256 ms avant la cible
labiale (M2L2). La Figure 21 montre que globalement sur l’ensemble des séquences la position (M2,
représentée par des croix) est atteinte avant la cible labiale (L2, représentée par des cercles). C’est
toujours le cas pour les séquences VCV avec consonne. Nous pouvons remarquer un comportement
un peu plus variable pour les séquences V-V sans consonne : la réalisation de la cible labiale L2
semble beaucoup plus proche de l’atteinte de la cible LPC M2. Nous pouvons même noter que pour
trois séquences, la position LPC est atteinte juste après la réalisation de la cible vocalique labiale.
Cette variabilité est en fait principalement due à la cible vocalique aux lèvres : par rapport au son, cette
cible est clairement anticipée dans les séquences V-V (sur la Figure 21, la position des cercles
représentant la cible labiale L2 est beaucoup plus proche du début acoustique de la syllabe A1 pour les
séquences V-V avec attaque glottale que pour celles contenant une consonne). Au niveau statistique,
une ANOVA
9à un facteur appliquée aux valeurs de durées entre le début acoustique de la syllabe A1
et la cible labiale vocalique L2 selon le type de séquences ([m], [p], [t] et V-V) montre une différence
significative entre les conditions (F(3, 79)= 22,44 p< .01). Des comparaisons multiples a posteriori par
le test de Scheffé montrent que ce sont bien les séquences V-V qui diffèrent des autres (p< .01). La
cible labiale de la voyelle est donc anticipée pour ces séquences sans consonne. C’est le phénomène
d’anticipation coarticulatoire dont nous avons parlé précédemment (voir notamment section II.3) ; dans
cette condition, les lèvres profitent du silence acoustique précédant la voyelle pour se positionner à
l’avance pour l’articulation de cette voyelle. L’attaque glottale est un geste qui, comme son nom
9 Les variances n’étant pas toutes homogènes, nous avons recomparé les moyennes par le test non
paramétrique de Kruskal-Wallis : nous trouvons également une différence significative entre les moyennes (p< .01).