Changements de configurations consonantiques 22

CHAPITRE V. Etude pilote de la production de syllabes codées 22

V.3. Expérience 2 : formation des clés manuelles

V.3.1.1. Changements de configurations consonantiques 22

Ce corpus a été constitué de manière à avoir un certain nombre de changements de clés

consonantiques à une même position cible manuelle. Les séquences sont de la forme [mV.C1V.C2V]

avec [a] ou ['] pour la voyelle V (la voyelle, qui détermine la position, étant fixée durant la séquence) et

les paires {[p], [k]}, {[s], [b]} et {[b], [m]} pour les consonnes C1 et C2. Il y a donc deux choix possibles

de positions : le « côté » pour les séquences contenant la voyelle [a] et le « menton » pour celles

contenant la voyelle [']. De plus, les paires de consonnes sont choisies de façon à impliquer un seul

mouvement de doigt ; c’est le majeur pour le passage de [p] à [k], l’index pour le passage de [s] à [b] et

le pouce pour le passage de [b] à [m]. Par exemple, une séquence [mabama] est codée sur la position

« côté » et implique un geste d’effacement puis de réapparition du pouce (voir Figure 23). Nous avons

ainsi six séquences différentes qui sont répétées dix fois ; nous obtenons donc un total de 60

séquences. Comme précédemment, nous analysons la syllabe du milieu, soit S2 dans chaque

séquence « S1S2S3 ».

Figure 23. Code de la séquence [mabama]. Toute la séquence est codée en position de main sur le « côté ». Durant la séquence, la configuration consonantique est changée pour le codage de la consonne [b] (passage de la configuration n°5 à la n°4, puis retour à la n°5) : ceci est caractérisé par un geste d’effacement puis de réapparition du pouce.

V.3.1.2. Changements de configuration consonantique avec transitions

manuelles

Ce corpus a été constitué de manière à avoir à la fois des changements de clé consonantique et des

déplacements de main d’une position cible à une autre. Les séquences sont de la forme

[mV1.C1V2.C2V1] avec les paires {[a], [u]}, {[a], [e]} et {[u], [e]} pour les voyelles V1 et V2, et les paires

{[p], [k]}, {[5], [g]}, {[s], [b]} et {[b], [m]} pour les consonnes C1 et C2. Trois positions sont donc ici

concernées : le « côté » pour [a], le « menton » pour [u] et le « cou » pour [e]. Pour les configurations

consonantiques, le doigt étudié est le majeur pour le passage de [p] à [k] et de [5] à [g], l’index pour le

passage de [s] à [b] et le pouce pour le passage de [b] à [m]. Comme illustré sur la Figure 24 pour la

séquence [mabuma], le codage de ces séquences implique un déplacement de la main d’une position

à une autre du visage (dans l’exemple, la main se déplace de la position « côté » qui code la voyelle [a]

à la position « menton » pour coder la voyelle [u] puis retourne sur le « côté ») et en même temps, un

changement de configuration de main (dans l’exemple, la main passe de la configuration n°5 à la n°4

par la disparition du pouce, puis à la n°5 par la réapparition du pouce). Nous avons donc douze

séquences différentes, répétées cinq fois ; ce qui nous donne au total 60 séquences. Durant cet

enregistrement, une erreur de codage s’étant produite pour l’une des séquences, nous n’avons donc

analysé que 59 séquences au total. Nous étudions la syllabe du milieu S2 dans chaque séquence

« S1S2S3 ».

Figure 24. Code de la séquence [mabuma]. La séquence implique à la fois un changement de clé consonantique pour la consonne [b] (disparition du pouce) et un déplacement de la main (de la position « côté » vers la position « menton »).

V.3.2. Acquisition des données

V.3.2.1. Description du matériel

Le même dispositif expérimental que dans l’expérience 1 a été utilisé pour cette étude. La codeuse

enregistrée est aussi GB. Le seul changement réside dans l’utilisation d’un gant de données

(Cyberglove) pour acquérir les mouvements des doigts produits durant les séquences codées. Ce gant

de données est muni de 18 capteurs angulaires placés au niveau des articulations (et aussi entre les

doigts). Il nous fournit un fichier de données brutes linéairement reliées à la déviation de l’angle formé

par les phalanges au niveau de l’articulation. Sa fréquence d’échantillonnage est de 64 Hz. Pour

synchroniser les données du gant avec le reste du dispositif, nous avons mis au point un système

particulier de synchronisation. A chaque début de séquence, le sujet doit presser sur un « bip » à l’aide

de son pouce et de son index. A l’instant du contact des deux doigts, un signal audio (bip de

synchronisation) est enregistré sur la bande audio de la vidéo. Ce contact est caractérisé par un

plateau dans les données brutes du gant (pour les capteurs sensibles au mouvement de ces deux

doigts) ; le début du plateau et du bip sonore repèrent l’instant du contact, ce qui permet ainsi de

synchroniser l’acquisition issue du gant de données avec l’enregistrement vidéo. Pour suivre les

mouvements de la main dans le plan 2-D, nous avons placé des pastilles colorées sur le dos du gant

de données porté par le sujet (voir Figure 25).

Figure 25. Photo de la locutrice-codeuse portant le gant de données et positions des pastilles de couleur utilisées pour le suivi des mouvements. Le repère référentiel utilisé est tracé en superposition sur la photo.

V.3.2.2. Traitement des données

Le traitement des données de cette expérience s’est déroulé de la même façon que dans l’expérience

1 pour les mouvements labiaux, le signal acoustique et le mouvement de la main dans le plan (pour le

corpus 2). En ce qui concerne les mouvements des doigts, pour chaque séquence nous prenons en

compte les données issues du capteur placé sur le doigt en mouvement dans la séquence.

Ainsi, nous obtenons cinq signaux

synchrones au cours du temps, illustrés sur la Figure 26 pour la

séquence [mabema] : (1) le décours temporel de l’aire aux lèvres (à une fréquence de 50 Hz), (2) la

trajectoire en x de la pastille colorée placée sur le dos du gant (à une fréquence de 50 Hz), (3) la

trajectoire en y de la pastille colorée (à une fréquence de 50 Hz), (4) la trajectoire du doigt en

mouvement dans la séquence (à une fréquence de 64 Hz) et (5) le signal acoustique correspondant (à

une fréquence de 22050 Hz). Comme nous pouvons le remarquer sur la figure, pour la séquence

[mabema], une valeur d’aire nulle caractérise l’occlusion labiale pour la production des consonnes [m]

10 C’est le cas pour le corpus 2 où la main se déplace entre deux positions. Pour le corpus 1, nous

et [b] alors que pour les voyelles [a] et [e] cette aire est grande (autour de 5 cm

pour la voyelle [a]). En

ce qui concerne le mouvement manuel, nous pouvons remarquer, comme dans l’expérience 1, des

trajectoires caractérisées par des transitions et des plateaux en position cible. Les valeurs de position

sont calculées en fonction du repère superposé sur la Figure 25 ; dans ce repère, un rapprochement

horizontal de la main vers le point de référence est traduit par une diminution de la valeur de la position

en x et un éloignement vertical de la main du point de référence est traduit par une diminution de la

valeur de la position en y ; c’est ce que nous pouvons observer sur la figure pour le codage de la

séquence [mabema] durant laquelle la main passe de la position « côté » pour la voyelle [a] à la

position « cou » pour la voyelle [e]. En ce qui concerne le mouvement digital, nous avons sur la figure

une représentation des données brutes issues du capteur du pouce ; c’est en effet ce doigt qui est

actionné pour le changement de clé des consonnes [m] et [b] (clés n°5 et n°4). Nous pouvons

remarquer la présence de transitions et de plateaux qui caractérisent le mouvement du doigt pour

changer de configuration de main et le maintien de la configuration consonantique. Avant étiquetage,

ces signaux sont filtrés (filtre passe-bas avec une fréquence de coupure de 4 Hz) pour le calcul de

l’accélération.

Nous repérons ensuite les événements temporels par rapport à la syllabe S2 de chaque séquence

« S1S2S3 ». Sur le signal acoustique, nous repérons tous les débuts et fins de consonnes et voyelles de

chaque séquence. En particulier, pour l’analyse temporelle, l’étiquette A1 représente le début de la

consonne de la syllabe S2. Sur le décours de l’aire aux lèvres, nous repérons la cible vocalique de la

syllabe S2, étiquetée L2, grâce au pic d’accélération. Sur les trajectoires en x et en y de la main, nous

repérons les débuts et fins de transitions manuelles à partir des pics d’accélération et de décélération :

l’étiquette M1 correspond au début de la transition manuelle vers la position cible codant S2, M2

correspond à l’atteinte de cette cible, M3 correspond au début du mouvement vers la cible suivante

codant la syllabe S3 et M4 à la fin de cette deuxième transition. Pour les mouvements de doigts, nous

repérons, toujours à l’aide du profil d’accélération (voir Figure 26), les débuts et fins de gestes de

formation de la configuration manuelle : D1 marque le début de cette formation pour la syllabe S2, D2 la

fin de la mise en place de la configuration consonantique, D3 le début de la formation de la

configuration suivante qui code la consonne de S3 et D4 la fin de cette configuration.

Figure 26. Tracé des différents signaux pour la séquence [mabema]. De haut en bas : (1) décours temporel de l’aire aux lèvres (cm2) ; (2) position de la coordonnée x de la pastille sur le dos du gant au cours du temps (cm) ; (3) position de la coordonnée y de la pastille sur le dos du gant au cours du temps (cm) ; (4) données brutes issues du capteur du gant (capteur sur le pouce) (en pointillés, données non filtrées ; en trait plein, données filtrées pour le calcul de l’accélération), (5) avec en-dessous le profil d’accélération correspondant ; (6) signal acoustique. Sur chacun des signaux sont superposés les étiquettes et les intervalles étudiés (voir texte).

V.3.2.3. Caractéristiques de production

Pour l’ensemble des séquences, nous avons calculé le rythme moyen syllabique de parole à partir de

la segmentation du signal acoustique de la syllabe S2 de chaque séquence « S1S2S3 ». En ce qui

concerne la coordination entre les gestes des doigts et la parole pour la syllabe S2, nous avons calculé

différentes durées d’intervalles temporels (différence arithmétique en millisecondes entre deux

événements temporels) pour les corpus 1 et 2 :

− L’intervalle D1D2 désigne la durée pour former la configuration digitale codant la consonne de la

syllabe S2 ;

− D1A1 désigne la durée entre le début de la formation de la configuration digitale et le début

acoustique de la consonne correspondante ;

− A1D2 désigne la durée entre le début acoustique de la consonne et la fin de la formation de la clé

digitale ;

− D2L2 désigne la durée entre la fin de la formation de la configuration digitale et la cible vocalique

labiale ;

− L2D3 désigne la durée entre la cible vocalique labiale et le début de la formation de la clé de la

syllabe suivante S3 ;

− D3D4 désigne la durée pour former la configuration digitale codant la consonne de la syllabe

suivante S3.

Pour le corpus 2, impliquant également des transitions manuelles près du visage, nous calculons en

plus les intervalles suivants :

− M1M2 désigne la durée de la transition manuelle pour coder S2, c’est-à-dire le temps entre le début

du mouvement et l’atteinte de la position cible codant la voyelle de S2 ;

− M2M3 désigne la durée du maintien de la main en position cible codant S2 ;

− M1A1 désigne la durée entre le début du mouvement manuel et le début acoustique de la

consonne de la syllabe S2 ;

− A1M2 désigne la durée entre le début acoustique de la consonne et l’atteinte de la position

manuelle cible (la fin du mouvement) ;

− M2L2 désigne la durée entre l’atteinte de la cible manuelle et l’atteinte de la cible vocalique labiale ;

− M3L2 désigne la durée entre le départ de la main vers la position suivante (qui code la syllabe S3)

et l’atteinte de la cible vocalique aux lèvres ;

− M3M4 désigne la durée de la transition manuelle pour coder la syllabe suivante S3.

V.3.3. Résultats

V.3.3.1. Coordination manuelle et orofaciale à positions vocaliques manuelles

fixes

Pour les séquences du corpus 1 avec voyelle inchangée, nous avons obtenu une moyenne de 275 ms

(s= 33 ms) pour la durée de la syllabe CV (syllabe S2 de chaque séquence « S1S2S3 » mesurée sur le

signal acoustique), ce qui nous donne un rythme syllabique moyen de 3,6 Hz. En ce qui concerne la

durée de formation de la configuration digitale pour S2, nous avons obtenu une moyenne de 170 ms

(s= 25 ms) pour D1D2. Par rapport au début acoustique de la syllabe, le geste des doigts pour former

cette configuration est initié 124 ms avant (D1A1, s= 34 ms) et se termine en moyenne 46 ms après

(A1D2, s= 35 ms), soit durant la première partie de la consonne ; la durée moyenne de la consonne

étant de 152 ms, (s= 28 ms), la configuration digitale est en fait formée durant le premier tiers de la

consonne. Par rapport aux indices labiaux, cette configuration digitale est entièrement formée 149 ms

(D2L2, s= 50 ms) en moyenne avant la cible de la voyelle. En ce qui concerne la formation de la

configuration consonantique suivante codant la syllabe S3, nous avons obtenu une moyenne de 34 ms

(s= 41 ms) pour l’intervalle L2D3, ce qui indique que la formation de cette clé débute une fois que la

cible de la voyelle est réalisée aux lèvres. La durée moyenne de 162 ms (s= 15 ms) obtenue pour

l’intervalle D3D4, très proche de la valeur obtenue pour D1D2, révèle finalement peu de variabilité dans

la durée du geste digital pour former les différentes configurations consonantiques.

V.3.3.2. Coordination manuelle et orofaciale avec changement de positions

vocaliques

Pour les séquences du corpus 2 avec transitions manuelles, nous avons obtenu une moyenne de

316,3 ms (s= 43,6 ms) pour la durée de la syllabe CV, équivalent à un rythme syllabique moyen de

3,2 Hz. En ce qui concerne la mise en place de la configuration manuelle, nous avons obtenu une

moyenne de 168 ms (s= 22 ms) pour l’intervalle D1D2. Par rapport au son, la formation de la

configuration débute en moyenne 171 ms (D1A1, s= 48 ms) avant le début acoustique de la syllabe et

se termine également 3 ms avant (A1D2, m= - 3 ms, s= 45 ms), soit en quasi-synchronie avec le début

de la consonne. Cette configuration de main est formée 208 ms (D2L2, s= 64 ms) en avance par

rapport à la cible de la voyelle aux lèvres. En ce qui concerne la configuration digitale suivante qui code

la consonne de la syllabe S3, sa formation dure en moyenne 160 ms (D3D4, s= 9 ms) et débute 53 ms

(L2D3, s= 54 ms) après la cible vocalique labiale.

Comment s’organisent temporellement les transitions manuelles par rapport à ce schéma ? Nous

avons obtenu une moyenne de 238 ms (M1M2, s= 62 ms) pour la durée de la transition et une

moyenne de 129 ms (M2M3, s= 70 ms) pour la durée de la tenue de la clé manuelle en position cible.

Par rapport au début acoustique de la syllabe, la main débute sa transition en moyenne 205 ms (M1A1,

s= 54,5 ms) en avance et atteint sa position 33 ms (A1M2, s= 50 ms) après le début acoustique de la

syllabe : l’arrivée de la main en position se produit donc dans la première partie de la consonne

acoustique (17%, la durée moyenne de la consonne s’élevant à 194 ms, s= 45 ms). Cette position est

donc atteinte bien avant la cible vocalique labiale, en moyenne 172 ms (M2L2, s= 67 ms) en avance.

La transition manuelle vers la position suivante (qui code la voyelle de la syllabe S3) débute 43 ms

(M3L2, s= 76 ms) avant que cette cible vocalique ne soit réalisée aux lèvres et dure en moyenne

257 ms (M3M4, s= 38 ms).

Dans le document La Langue Française Parlée Complétée: Production et Perception (Page 135-142)