Constitution d’une deuxième base de données (BD2)

SANS INTERACTION AVEC UN INTERLOCUTEUR

2.1.1. Constitution d’une deuxième base de données (BD2)

Locutrices

Pour examiner cette question, nous avons enregistré une deuxième base de données (BD2). Celle-ci est constituée de la parole semi-spontanée en Français de 3 locutrices (L2, L6 et L11). Les locutrices L2 et L6 avaient déjà participé à la première base de données et L11 à l’étude pilote préalable à la constitution de cette deuxième base de données (cf. Annexe Pil2). Les 3 locutrices étaient de langue maternelle française.

Conditions de bruit

Nous avons enregistré ces locutrices en condition silencieuse de référence puis dans les deux types de bruit déjà utilisés pour la première base de données (BD1): un bruit blanc (bb) et un bruit de « cocktail-party » (cktl), tirés de la base de données BD_Bruit (Zeiliger et al. 1994 ^[382]). Ces deux environnements bruyants ont été amplifiés par un amplificateur (JVC Ax40) puis diffusés à un niveau de 85dBC par le biais de deux haut-parleurs (A2t, de puissance maximale 200 Watts) placés à une hauteur de 1m, c’est à dire au niveau des oreilles de la locutrice en position assise, éloignés de 1.4 m de la locutrice et espacés entre eux de 1.5m (cf. Figure 42). Le niveau d’intensité des bruits a été calibré à l’aide d’un sonomètre au niveau des oreilles de la locutrice. Tâche de parole et matériel linguistique

Le deuxième jeu, présenté en détail au paragraphe 1.2.2 a été utilisé de façon différente pour enregistrer deux sessions de ces 3 conditions : la première fois, les locutrices devaient effectuer ce jeu de façon isolée, et décrire à voix haute en Français leurs actions, nécessitant l’utilisation contrôlée de 17 logatomes-cibles de forme CVCV ([lale], [lali], [laly], [lalu], [lalã], [lela], [lila], [lyla], [lula], [lãla],[pala], [bala], [mala] et [lapa], [laba], [lama], choisis pour examiner d’autres hypothèses dans le chapitre 6). La deuxième fois, les locutrices effectuaient ce jeu en collaboration avec l’expérimentatrice, située à 2m50 en face d’elle (cf. Figure 42), en lui donnant des consignes pour qu’elle exécute ces actions au tableau. Dans les deux cas, le jeu était identique, utilisait les mêmes logatomes cibles et la même phrase porteuse (celle-ci a été choisie pour explorer d’autres hypothèses dans les chapitres 6 à 8). Seule variait l’interaction avec l’expérimentatrice entre les deux sessions. Les locutrices n’étaient pas informées à l’avance du déroulement expérimental. Lors de la première session où elles devaient jouer seules, elles ne s’attendaient donc pas à devoir ensuite interagir avec quelqu’un dans une deuxième session.

Signaux enregistrés

Afin de réaliser des analyses acoustiques et phonétiques de la parole des locutrices, nous avons enregistré leur signal audio de parole à l'aide d'un microphone à électret (AKG C1000S), situé à 50cm de la bouche de la locutrice. Pour calibrer le niveau d’intensité acquis au microphone, nous avons enregistré le locuteur en début d’enregistrement sur un [a] tenu stable et mesuré cette intensité vocale de référence au sonomètre au niveau des lèvres du locuteur. Ce signal a ensuite été numérisé sur 16 bits à 44.1 kHz sur la première voie d'une carte son externe (Edirol M-100FX) Afin d’étudier la vibration des cordes vocales et les mouvements verticaux du larynx, nous avons acquis à l'aide d'un électroglottographe à deux paires d’électrodes (Glottal Enterprise EG2) :

- le signal d’accolement des cordes vocales, que nous désignerons par la suite par l’abréviation EGG. Il a été directement numérisé sur 16 bits à 44.1 kHz sur la deuxième voie de la carte son externe (Edirol M-100FX).

- le signal de déplacement vertical du larynx (ou LT pour « Larynx Tracking »). Ce signal modulé a été numérisé sur 16 bits à 44.1kHz à l’aide d’un enregistreur numérique (Korg D1200).

Afin d’explorer les mouvements articulatoires labiaux, nous avons effectué des enregistrements vidéo de face et de profil du visage des locutrices et extrait leurs mouvements articulatoires au niveau des lèvres grâce à un système de « Lip Tracking » explicité en détail en Annexe Met1. Il nous a semblé plus intéressant de normaliser l’amplitude des mouvements articulatoires par rapport au maximum « physiologique » des locutrices plutôt que de présenter des résultats dans l’absolu en cm. C’est pourquoi à la fin du protocole nous avons enregistré les mouvements articulatoires maximaux que pouvaient effectuer les locutrices en ouverture de la mâchoire, en étirement des lèvres et en protrusion, hors contexte de parole.

Figure 42 : Schéma du

dispositif expérimental pour la constitution de la deuxième base de données.

2. COMPARAISON DE DEUX TACHES DE PAROLE AVEC ET SANS INTERACTION AVEC UN INTERLOCUTEUR

97 2.1.2. Analyse et traitement statistique des données

Pour examiner l’influence du dialogue avec un interlocuteur sur l’adaptation de la parole des locutrices dans le bruit, nous avons considéré plusieurs descripteurs de la voix et de la parole. Certains ont été mesurés pour les 3 locutrices sur les syllabes des 17 syntagmes de chaque condition, en position initiale et finale de l’énoncé: l’intensité moyenne, la F0 moyenne, la durée syllabique, l’amplitude maximale des gestes articulatoires labiaux d’ouverture et de protrusion pour les voyelles [a], [i] et [u]. D’autres paramètres ont été mesurés sur les voyelles de ces syntagmes : c’est le cas de la différence d’énergie spectrale [2-4kHz] et [0-1kHz], du quotient ouvert et de la fréquence centrale du premier formant vocalique. Enfin, la présence de pauses dans l’énoncé a été mesurée sur l’ensemble de chaque condition.

De la même façon que dans le chapitre précédent, nous proposons de simplifier la présentation de ces résultats en adoptant plusieurs profils pour modéliser la différence d’évolution d’un paramètre du silence au bruit en tâche de dialogue ou de jeu isolé (cf. Figure 43).

Effet du bruit significatif avec et sans dialogue Effet du bruit non significatif sans dialogue

Identique Décalage Amplification +

éventuel décalage

Aucun effet Amplification + éventuel décalage

ou ^ou

Figure 43. Représentation de 6 types de différences d’évolution d’un paramètre avec le bruit, avec ou sans

dialogue du locuteur avec l’expérimentatrice. La courbe rose (du dessus) représente l’évolution avec dialogue et la courbe bleue (du dessous), sans.

Nous avons tout d’abord distingué les paramètres évoluant significativement avec le bruit aussi bien en situation isolée qu’en situation de dialogue, des paramètres évoluant de façon significative dans le bruit uniquement en situation de dialogue. Pour cela, nous avons testé pour chaque paramètre la significativité de la différence entre sa valeur dans le bruit et sa valeur dans le silence (Test Anova à un facteur : BRUIT), et cela pour les deux sessions avec ou sans dialogue avec l’expérimentatrice. Pour chacune de ces 2 catégories, nous avons distingué plusieurs profils d’évolutions d’un paramètre.

- (Identique ou Aucun effet) : Le dialogue n’induit aucune différence que ce soit dans le silence ou dans le bruit, et par conséquent pas non plus de différence au niveau de l’évolution du silence au bruit.

- (Décalage) : L’évolution du paramètre est semblable avec et sans dialogue, à un décalage vertical D près.

Ces deux profils se caractérisent par une différence non significative entre l’évolution du silence au bruit pour la session sans dialogue et l’évolution pour la session avec dialogue (Test Anova à un facteur : DIALOGUE, sur l’évolution ΔP=Pbruit-Psil de chaque paramètre du silence au bruit). Ils se distinguent par un effet significatif du dialogue (Décalage) ou non significatif (Identique) dans le silence ET dans le bruit (Tests Anova à un facteur : DIALOGUE, sur les valeurs de chaque paramètre dans le silence, dans le bruit).

- (Amplification) : L’évolution du paramètre est semblable avec et sans dialogue, à un facteur d’amplification « a » près. Ce profil se caractérise par un effet non significatif du dialogue dans le silence par contre significatif dans le bruit (Tests Anova à un facteur : DIALOGUE, sur les valeurs de chaque paramètre dans le silence, dans le bruit) et par un effet « a » significatif du dialogue sur l’évolution du paramètre du silence au bruit (Test Anova à un facteur : DIALOGUE, sur l’évolution ΔP=P_bruit-Psil de chaque paramètre du silence au bruit).

D D

- (Décalage + Amplification) : Combinaison des deux profils précédents. Ce profil se caractérise par un effet « D » significatif du dialogue dans le silence, et par un effet du dialogue également significatif dans le bruit (Tests Anova à un facteur : DIALOGUE, sur les valeurs de chaque paramètre dans le silence, dans le bruit), ainsi que par un effet significatif du dialogue sur l’évolution du paramètre du silence au bruit (Test Anova à un facteur : DIALOGUE, sur l’évolution ΔP=Pbruit-Psil de chaque paramètre du silence au bruit).

2.2. Résultats

Les Figure 44 à Figure 48 récapitulent les différences observées pour plusieurs descripteurs de la parole lorsque les locutrices jouent seules ou en situation de dialogue avec l’expérimentatrice. Ces différences sont catégorisées relativement aux différents profils présentés ci-dessus.

Tout d’abord on observe quelques rares paramètres sur lesquels ni le dialogue ni l’exposition au bruit n‘ont d’influence (Aucun effet). C’est le cas de la protrusion pour les voyelles [i] et [u] (cf. Figure 44). Dans le cas des voyelles [u], on observe cependant une tendance de l’effet de dialogue à être plus important dans le bruit et l’effet Lombard à être plus important en situation de dialogue, bien que cela ne soit pas significatif.

Figure 44 . Effet du dialogue

dans le silence et dans le bruit et de l’exposition au bruit en situation interactive ou non sur la protrusion des voyelles [i] et [u].

On observe ensuite plusieurs paramètres pour lesquels l’exposition au bruit n’entraîne pas de modification significative de la parole en situation non interactive, mais provoque au contraire une adaptation significative en situation de dialogue. C’est le cas de l’amplitude du pincement labial sur les consonnes bilabiales [m], [p], [b] ainsi que de la fréquence du premier formant vocalique en général pour l’ensemble des voyelles (cf. Figure 45).

Figure 45. Effet du dialogue dans le

silence et dans le bruit et de l’exposition au bruit en situation interactive ou non sur le pincement labial et la fréquence du 1er formant vocalique.

Ensuite, il existe plusieurs paramètres évoluant dans le bruit de façon semblable, que ce soit avec ou sans dialogue avec un interlocuteur. Autrement dit, le dialogue n’a aucun effet sur ces paramètres, que ce soit dans le silence, dans le bruit, ou sur l’évolution du paramètre du silence au bruit (Effet Lombard). C’est le cas de l’aire intéro-labiale sur les voyelles [i] (cf. Figure 46). On observe cependant une tendance de l’effet de dialogue à être plus important dans le bruit et l’effet Lombard à être plus important en situation de dialogue, bien que cela ne soit pas significatif.

2. COMPARAISON DE DEUX TACHES DE PAROLE AVEC ET SANS INTERACTION AVEC UN INTERLOCUTEUR

99

Figure 46. Effet du dialogue dans le silence et dans le bruit et de

l’exposition au bruit en situation interactive ou non sur l’aire intéro-labiale des voyelles [i].

Nous n’avons pas recensé de cas où un descripteur de la parole augmente dans le bruit de façon comparable, avec ou sans dialogue, à un décalage vertical près, correspondant à un effet constant du dialogue, indépendant de l’exposition au bruit.

En revanche, la grande majorité des paramètres, en particulier ceux classiquement utilisés pour décrire l’effet Lombard, évoluent dans le bruit davantage en situation de dialogue que sans interaction. La plupart montrent un effet non significatif du dialogue dans le silence, le devenant dans le bruit : c’est le cas de la durée syllabique, de l’intensité vocale, de la fréquence fondamentale moyenne, du quotient ouvert, de la différence d’énergie entre [2-4kHz] et [0-1kHz] ainsi que de l’aire intérolabiale et de la protrusion des voyelles [a] (cf. Figure 47).

Figure 47. Effet du dialogue dans le silence et dans le bruit et de

l’exposition au bruit en situation interactive ou non sur la durée syllabique, l’intensité vocale, la F0, le quotient ouvert, la différence d’énergie entre [2-4kHz] et [0-1kHz], l’aire intérolabiale des voyelles [u] et la protrusion des voyelles [a].

Dans certains cas, il existe déjà un effet du dialogue significatif dans le silence, mais moindre par rapport à dans le bruit. C’est le cas de l’aire intéro-labiale pour les voyelles [a] ainsi que de la fréquence d’insertion de pauses dans l’énoncé (cf. Figure 48)

[i]

[u]

Figure 48. Effet du

dialogue dans le silence et dans le bruit et de l’exposition au bruit en situation interactive ou non sur l’aire intérolabiale des voyelles [a] et sur la fréquence d’insertion des pauses entre le sujet et le verbe de l’énoncé.

Dans le document Communiquer en environnement bruyant :de l'adaptation jusqu'au forçage vocal (Page 106-111)