• Aucun résultat trouvé

L'effet du débit sur l'identification des frontières lexicales 45

4.2. Etude de production

L'objectif de cette étude est d'obtenir des productions, afin de les utiliser comme stimuli dans une étude de perception. Pour ce faire, nous avons demandé à des locuteurs de frontière lexicale (V#V). Les séquences-test pour chaque quadruplet sont présentées dans le Tableau 8.

Comme décrit dans Mondini (2004), deux listes de mots très fréquents (familiarité moyenne de 6.96 sur une échelle de 1 à 7, voir Nusbaum, Pisoni & Davis, 1984) ont été constituées. La première liste se composait de mots monosyllabiques se terminant par les consonnes /p/, /t/ ou /k/, la suppression de la consone finale devant obligatoirement aboutir à un mot possible (ex.: great/gray). La deuxième liste de mots comprenait des mots monosyllabiques commençant par les consonnes /p/, /t/ ou /k/. Les mots de cette liste devaient respecter la condition qu'un mot subsiste malgré la suppression de la consonne initiale (ex.: ties/eyes). A partir de ces deux listes, trois séquences de deux mots avec les deux structures, C#V et V#C (great eyes - gray ties) ont été formées pour chaque consonne pivot (/p/, /t/ et /k/).

En ce qui concerne la structure phonologique des séquences, le premier mot pouvait présenter soit la structure CV(C) soit CCV(C) (la consonne pivot est entre parenthèses).

De plus, étant donné la contrainte phonologique de l'anglais stipulant que les mots monosyllabiques ne se terminent par une voyelle qu'à la condition que celle-ci soit longue (ex.: /bi/ (bee) et non */b/), les mots initiaux contenaient les voyelles longues suivantes: /a/, /i/, /e/. Quant au deuxième mot de la séquence, il pouvait présenter la structure (C)VC ou (C)VCC et la voyelle initiale pouvait varier.

Ces mots ont également été utilisés pour construire un ensemble de séquences présentant des consonnes géminées à la frontière lexicale (C#C, great ties), ainsi que des séquences sans consonne pivot (V#V, gray eyes). Par conséquent, chaque séquence faisait partie d'un quadruplet qui comprenait les quatre types de structure C#V, V#C, C#C et V#V (ex.: great eyes, gray ties, great ties, gray eyes).

En outre, les séquences ont été sélectionnées de manière à ce que les diverses segmentations soient sémantiquement cohérentes et qu'elles soient susceptibles d'être produites dans une proposition ayant du sens.

Afin d'éviter que les sujets ne portent trop d'attention aux séquences contenant une consonne pivot, le matériel comprenait également des séquences de remplissage. Celles-ci, au nombre de 48, étaient divisées en 12 quadruplets et étaient composées de séquences de deux mots monosyllabiques. Elles se distinguaient entre elles par la présence ou l'absence de la forme possessive et par le nombre (singulier/pluriel) des

substantifs (ex.: pen’s cap - pens’ cap - pen caps - pen cap). Les 36 séquences-test et les 48 séquences de remplissage formaient un seul bloc contenant 84 séquences.

Un ensemble de 24 séquences supplémentaires a été créé afin de servir d'entraînement dans l'expérience de perception. Douze d'entre elles présentaient deux segmentations possibles (ex.: buy zinc, buys ink) pour être utilisées comme entraînement lors de l'expérience de perception, les douze autres étant des séquences de remplissage.

Le bloc de 84 séquences (36 séquences-test et 48 séquences de remplissage) a été répété trois fois, les séquences de chaque bloc apparaissant dans un ordre différent (within-block quasi-randomization). Nous nous sommes assurés que les différentes segmentations pour une séquence donnée soient séparées par au moins 10 items. De plus, nous avons ajouté au début de chaque bloc 8 séquences (4 séquences servant à l’entraînement dans l'étude de perception et 4 séquences de remplissage). Par conséquent, la liste des stimuli comprenait 276 séquences (92 par bloc x 3 blocs). En outre, comme dans Mondini (2004), nous avons créé un bloc d’entraînement contenant les 36 séquences-test et les 48 séquences de remplissage pour que les sujets se familiarisent avec la production des séquences. Nous avons également créé 8 séquences d'entraînement afin de familiariser les sujets avec la procédure.

Procédure

Les sujets ont passé l’expérience individuellement dans une pièce insonorisée. Leurs productions ont été enregistrées à l’aide d’un microphone (AKG C460B) sur un magnétophone (TASCAM DA-P1 DAT). Les sujets devaient prononcer, une à une, les séquences qui étaient présentées à l’écran. L’intervalle inter-stimulus était de 1500 msec et les séquences restaient à l’écran pendant 2750 msec. Les sujets devaient prononcer chaque séquence précédée de "He writes", en accentuant le premier mot ("he") afin d’éviter d’éventuelles différences accentuelles entre les deux mots de la séquence. A nouveau, nous leur avons demandé de parler le plus naturellement possible et à débit normal.

Une fois les sujets familiarisés avec la procédure (présentation des huit séquences d’entraînement), le bloc d’entraînement leur était présenté, afin de les familiariser avec les diverses séquences. Puis, ils produisaient les séquences des trois blocs-test, avec une

pause entre chacun d'eux. Les enregistrements ont été transférés sur un Pentium PC à une fréquence d’échantillonnage de 20 kHz, en utilisant le système CSL (Kay Elemetrics Corp.).

Analyse des données

L'analyse des données a consisté à choisir, à mesurer et à extraire les séquences-test.

Rappelons que les sujets avaient prononcé 108 (36 x 3 blocs) séquences-test, précédées par la phrase porteuse "He writes". Nous avons sélectionné une seule production de chaque séquence par locuteur, avec comme critères de sélection une intonation similaire entre les deux mots de la séquence, ainsi qu'une absence d'hésitations et de pauses.

Nous avons ensuite établi les critères de mesure (et d'extraction) suivants: si un prévoisement ou des phénomènes de glottalisation apparaissaient avant une consonne occlusive, ils déterminaient le début de la séquence. Afin de ne pas supprimer des informations acoustiques cruciales pour la perception, nous avons défini la fin d’un mot se terminant par une occlusive relâchée à la fin de cette dernière, en incluant le relâchement ou l’aspiration. Lorsqu'un mot se terminait par une occlusive non-relâchée (ex.: par(t)), nous avons défini sa fin à la fin de la voyelle, en incluant d'éventuels phénomènes de laryngalisation ou de glottalisation. Nous avons ainsi mesuré la durée totale des 36 productions pour chaque sujet.

4.2.2. Résultats et discussion

Ensemble des productions

Rappelons que, dans cette étude, les locuteurs ont produit des séquences à débit normal et que le but de cette tâche était de sélectionner les productions de locuteurs plutôt lents et de locuteurs plutôt rapides, pour les utiliser ensuite dans l’expérience de perception.

Deux hommes ont dû être exclus des cinquante sujets, car ils avaient produit des pauses entre les mots des séquences (par conséquent, n = 48, 23 hommes et 25 femmes). La Figure 16 résume les résultats en présentant la distribution de la durée totale des séquences. La différence entre la moyenne (802.04 msec) et la médiane (792.5 msec) reflète la présence d'un léger étirement à droite et l'écart-type de 98.40 msec traduit une

certaine variabilité autour de la tendance centrale. Toutefois, la distribution semble normale (γ1 = 0.45 et γ2 = -0.09754).

Ajoutons encore qu'initialement, nous avions dans l'idée de sélectionner les productions des locuteurs sur la base de leur vitesse d'articulation en lecture. Pour cela, nous avons demandé aux sujets de lire un passage afin d'obtenir leur vitesse d'articulation. Nous nous attendions à trouver une forte corrélation entre cette dernière et la durée totale des séquences, mais étant donné que ce n'était pas le cas (r = -0.338, n = 48, p < 0.05), nous avons sélectionné les productions de l'étude de perception sur la base de la durée des séquences uniquement. Néanmoins, les variables temporelles de l'anglais n'ayant pas été beaucoup étudiées en lecture, nous présentons brièvement les résultats de cette étude de production dans l'Annexe 5. La section suivante décrit comment nous avons sélectionné des stimuli pour l'étude de perception sur la base de la distribution de la durée des séquences.

Figure 16. Distribution de la durée totale des séquences (n = 48, 23 hommes et 25 femmes, 36 séquences par sujet). Les centres de classes (de 45 msec) se trouvent en abscisse.

54 Les valeurs limites sont ici de +/- 0.71 et +/- 1.41.

Sélection des stimuli pour l'étude de perception

Rappelons que 23 hommes (deux d'entre eux ont été exclus des 50 sujets) et 25 femmes ont pris part à l'expérience. La première étape de la sélection des stimuli a été de vérifier s'il existait une différence entre hommes et femmes. Une analyse de variance a effectivement montré une différence entre les hommes et les femmes (F(1, 46) = 11.521, p < 0.05), les hommes produisant des séquences plus courtes que les femmes (la durée moyenne était de 757 msec pour les hommes et de 844 msec pour les femmes).

Etant donné la différence rencontrée entre les hommes et les femmes, nous avons décidé de choisir uniquement des productions d'un seul genre. Rappelons encore que le but de cette sélection consistait à obtenir des productions de locuteurs plutôt lents et des productions de locuteurs plutôt rapides. Comme les femmes montraient un écart un peu plus grand entre les durées des productions les plus lentes et les plus rapides (écart de 186 msec) que les hommes (écart de 181 msec), nous avons sélectionné des séquences produites uniquement par des femmes. Nous avons choisi, parmi les 25 femmes, les productions des quatre locutrices les plus lentes et des quatre locutrices les plus rapides.

Notons que nous utiliserons dorénavant le terme générique "locuteurs", bien que les productions proviennent de locuteurs de sexe féminin.

Les durées totales moyennes des productions des locuteurs les plus rapides allaient de 712 msec à 752 msec, avec un écart moyen de 40 msec, tandis que celles des locuteurs les plus lents allaient de 938 msec à 1050 msec, avec un écart moyen de 112 msec. Bien évidemment, comme on peut le constater sur la Figure 17, on pouvait observer un certain chevauchement au niveau de la durée des productions plutôt lentes et plutôt rapides (productions situées entre les deux lignes). Néanmoins, la durée totale des productions normales plutôt lentes et normales plutôt rapides se différenciait significativement (t(35) = 34.644, p < 0.001). Notons encore qu'à l'intérieur de chacun des deux débits (normal plutôt lent et normal plutôt rapide), les séquences produites par les quatre locuteurs présentaient des longueurs significativement différentes (normal plutôt lent: F(3, 105) = 15.63, p < 0.001; normal plutôt rapide: F(3, 105) = 3.125, p < 0.05).

400 débit normal plutôt rapide (8 locuteurs, 36 productions par locuteur).

Le Tableau 9, ainsi que la Figure 18 présentent la durée totale des séquences (en msec) en fonction du débit (normal plutôt rapide et normal plutôt lent) et du type de structure (C#C, C#V, V#C et V#V).

Tableau 9. Durée totale des séquences (en msec) aux débits normal plutôt rapide et normal plutôt lent et durée moyenne en fonction du type de structure (C#C, C#V, V#C et V#V).

Nous constatons à nouveau l'effet de débit mentionné plus haut (F(1, 32) = 1150.536, p < 0.001). Par ailleurs, malgré une durée totale un peu plus longue pour les séquences C#C (en raison de la présence d'un phonème supplémentaire), nous n'observons pas d'effet de type de structure (F(3, 32) = 0.488, n.s), ni d'interaction Type de structure x Débit (F(3, 32) = 0.517, n.s). Ainsi, les différences observées quant à la durée des séquences ne se trouvent pas au niveau du type de structure, mais, comme on

Figure 18. Durée totale des séquences (en msec) en fonction du débit (normal plutôt rapide et normal plutôt lent) et du type de structure (C#C, C#V, V#C et V#V). L’erreur standard de la moyenne est indiquée au-dessus de chaque barre.

Analyse acoustique préliminaire des stimuli sélectionnés

Comme nous l'avons présenté au chapitre 1, de nombreuses propriétés acoustiques sont susceptibles de varier en fonction du débit produit (ex.: durée segmentale, F0, amplitude, etc.). Puisqu'une étude complète de ces dernières donnerait lieu à une recherche de grande envergure, nous avons décidé d'effectuer une analyse acoustique préliminaire de certaines propriétés, notamment de la durée segmentale et de la présence de glottalisations. Rappelons que les stimuli provenaient de quatre locuteurs plutôt lents et de quatre locuteurs plutôt rapides, et qu'ils se décomposaient en quatre types de structure (C#C, C#V, V#C et V#V), ces derniers étant tous produits par chaque locuteur. Dans cette étude préliminaire, nous avons d'une part mesuré, pour chaque type de structure, la durée des "parties vocaliques"55 du premier et du deuxième mot de la

55 Etant donné que la durée de certaines voyelles était difficile à déterminer en raison de leur environnement phonétique, nous avons décidé de mesurer la "partie vocalique" du premier et du deuxième mot. Ainsi, pour les séquences gray pale/grape pail/grape ale/gray ale et gray ties/great ties/great eyes/gray eyes, la partie vocalique du premier mot comprenait la consonne approximante rétroflexe // et la voyelle /e/. En ce qui concerne les séquences we cash/weak cash/weak ash/we ash et why pink/whipe pink/whipe ink/why ink, la partie vocalique du premier mot se composait de la consonne

séquence, la durée du silence de plosion et du VOT56 (voice-onset time ou délai d'établissement du voisement) pour C#C (ex.: bike coil) et V#C (ex.: buy coil). D'autre part, nous avons relevé la présence de la première consonne dans C#C, ainsi que la présence de glottalisations pour C#V (ex.: bike oil) et V#V (ex.: buy oil). Etant donné la nature très différente des types de structure, nous présentons les diverses mesures acoustiques pour chacun d'entre eux séparément.

V#C

En ce qui concerne le type de structure V#C (ex.: buy coil), nous avons mesuré la durée de la partie vocalique du premier et du deuxième mot, la durée du silence de plosion, ainsi que le VOT. Le Tableau 10 présente ces différentes mesures pour les séquences plutôt rapides (n = 36) et plutôt lentes (n = 36), ainsi que les résultats des analyses statistiques (tests-t non-appariés). Ces dernières indiquent que la différence de débit se reflète au niveau de durée de la première partie vocalique, au niveau du silence de parenthèses), et résultats des tests-t non-appariés pour le type de structure V#C.

approximante labiale /w/ et des voyelles /i/ et / a/, respectivement. Pour ce qui est de la partie vocalique du deuxième mot, elle comprenait, pour les séquences buy coil/bike coil/bike oil/buy oil et gray pale/grape pail/grape ale/gray ale, la voyelle (// et /e/, respectivement) ainsi que la consonne approximante alvéolaire /l/. De plus, la partie vocalique du deuxième mot des séquences keep art/keep part/ key part/key art comprenait la voyelle /:/ et la consonne approximante rétroflexe //. Enfin, pour why pink/whipe pink/whipe ink/why ink, nous avons mesuré la durée de la voyelle // accompagnée de la consonne nasale vélaire / /.

56 Le silence de plosion correspondait à l'intervalle entre la fin de la partie vocalique du premier mot et l'occlusion de la consonne. Le VOT, quant à lui, se mesurait depuis l'occlusion jusqu'au début de la partie vocalique du deuxième mot (en fonction de l'amplitude et de la regularité des premiers cycles de la voyelle).

Ces résultats confirment que le débit affecte la durée segmentale tant des consonnes que des voyelles. Au niveau du VOT, propriété largement étudiée dans le domaine, la différence observée entre les deux débits rejoint la conclusion que le VOT diminue à mesure que le débit s'accélère (Volaitis & Miller, 1992; Kessinger & Blumstein, 1998;

Allen & Miller, 1999).

C#C

Pour ce qui est de C#C (ex.: bike coil), nous avons mesuré la durée de la partie vocalique du premier et du deuxième mot, la durée du silence de plosion, ainsi que la durée du VOT de la deuxième consonne (C2). Le Tableau 11 présente ces différentes mesures pour les séquences plutôt rapides (n = 36) et plutôt lentes (n = 36), ainsi que les résultats des analyses statistiques (tests-t non-appariés).

C#C (n = 72) Durées mesurées

Débit normal plutôt rapide

(n = 36)

Débit normal plutôt lent

(n = 36)

Tests-t

Partie vocalique 1 146 (30) 205 (55) t(70) = 5.626, p < 0.001 Silence de plosion C2 254 (97) 227 (173) t(70) = 0.806, p = 0.4229 VOT C2 59 (18) 85 (22) t(70) = 5.537, p < 0.001 Partie vocalique 2 240 (75) 282 (111) t(70) = 1.898, p = 0.0619 Tableau 11. Durée (en msec) des parties vocaliques 1 (premier mot) et 2 (deuxième mot), du silence de plosion, ainsi que du VOT de C2 (l'écart-type se trouve entre parenthèses), et résultats des tests-t non-appariés pour le type de structure C#C.

Les résultats rejoignent ceux observés pour V#C, à savoir que le débit affecte la durée de la partie vocalique du premier mot et la durée du VOT, mais non la durée de la partie vocalique du deuxième mot (bien qu'à nouveau une tendance apparaisse). Relevons encore que la durée du silence de plosion est ici plus longue (bien que non significativement) au débit rapide qu'au débit lent. Cependant, ce résultat est biaisé par la présence ou l'absence de la première consonne dans la séquence. Le Tableau 12 présente la durée du silence de plosion de la deuxième consonne (C2) en fonction de la présence de la première consonne (C1) et du débit.

C#C (n = 72) Durée du silence Tableau 12. Durée du silence de plosion (en msec) de la deuxième consonne (C2) en fonction de la présence de la première consonne (C1) et du débit (l'écart-type se trouve entre parenthèses).

Nous notons tout d'abord que plus de la moitié des productions (42 sur 72) ne contiennent pas la première consonne (C1). Nous constatons également que la présence de C1 dépend du débit (χ2(1, n = 72) = 14.629, p < 0.001): on relève plus souvent la présence de C1 à un débit plutôt lent, alors que C1 tend davantage à disparaître à un débit plutôt rapide. En ce qui concerne la durée du silence de plosion, il est intéressant de noter qu'elle varie non seulement en fonction du débit, mais également en fonction de la présence de C1. Une analyse de variance montre un effet de débit (F(1, 68) = 71, 074, p < 0.001), un effet de C1 (F(1, 68) = 699.015, p < 0.001), ainsi qu'une interaction Débit x C1 (F(1, 68) = 26, 488, p < 0.001). Par conséquent, il apparaît non seulement que le silence de plosion est significativement plus long lorsque C1 est absente, mais également que la différence entre la durée du silence de plosion au débit plutôt lent et plutôt rapide est plus importante lorsque C1 n'est pas présente.

En somme, le débit affecte, pour C#C, la partie vocalique du premier mot, le VOT de C2, la présence de C1, ainsi que la durée du silence de plosion de C2 (que C1 soit présente ou absente, mais dans une plus large mesure lorsque C1 est absente).

C#V

En ce qui concerne C#V (ex.: bike oil), nous avons mesuré la durée des parties vocaliques du premier et du deuxième mot et nous avons relevé la présence de phénomènes tels que la présence de la consonne, d'un "flap", de glottalisations57 et/ou

57 Nous n'avons pas différencié les différents phénomènes de glottalisation: coup de glotte, coup de glotte accompagné d'un chevrotement ou chevrotement.

d'une pause58. Etant donné la grande diversité parmi les productions C#V des locuteurs (ex.: pour certains, présence de la consonne, et pour d'autres, absence de la consonne et présence de glottalisation, etc.), il était difficile, à l'exception de la durée des parties vocaliques, de comparer les mesures effectuées. Nous avons donc dégagé différents

"schémas". Dans le Tableau 13, PartVoc1 correspond à la partie vocalique du premier mot, PartVoc2 à celle du deuxième mot. Cons et Glott indique la présence de la consonne et d'une glottalisation, respectivement. Enfin, Pause et Flap traduisent la présence d'une pause et d'un flap, respectivement.

Tableau 13. Schémas observés lors de la production de C#V.

En ce qui concerne la durée des parties vocaliques, nous avons à nouveau constaté une différence significative pour le premier mot (rapide = 151 msec (écart-type = 33 msec);

lent = 220 msec (écart-type = 56); t(70) = 6.314, p < 0.001), mais pas pour le deuxième (rapide = 266 msec (écart-type = 81 msec); lent = 299 msec (écart-type = 106);

t(70) = 1.456, n.s). Pour ce qui est des différents schémas observés, on rencontre un plus grand nombre d'indices de segmentation (glottalisations et/ou pauses) au débit lent (schémas 2 et 4, principalement). Une analyse statistique confirme que la répartition à l'intérieur des schémas varie en fonction du débit produit (χ2(5, n = 72) = 20.855, p < 0.001).

V#V

Au niveau de V#V (ex.: buy oil), nous avons adopté la même approche que pour C#V.

En effet, étant donné que nous observons à nouveau une grande diversité au sein de ce

58 Quelle que soit sa durée.

type de structure, nous avons mesuré la durée des parties vocaliques du premier et du

Tableau 14. Schémas observés lors de la production de V#V.

Les mesures de la durée des parties vocaliques ont à nouveau montré une différence significative pour le premier mot (rapide = 197 msec (écart-type = 49 msec); lent = 331 msec (écart-type = 56); t(70) = 10.753, p < 0.001), mais pas pour le deuxième

Quelques comparaisons entre les types de structure en fonction du débit

Relevons à nouveau qu'il est difficile de comparer, en raison de la grande diversité rencontrée parmi les productions, toutes les mesures effectuées pour les quatre types de structure. Nous avons par conséquent examiné uniquement la durée de la partie vocalique du premier et du deuxième mot, ainsi que la durée du VOT. En ce qui concerne les voyelles, il est bien connu que leur durée varie selon qu'elles se trouvent à une frontière lexicale ou non (par exemple, Dumay et al., 1999). Afin de vérifier si nos stimuli présentaient également cette caractéristique, nous avons regroupé les types de structure V#C et V#V, dans lesquels la voyelle se trouvait à la frontière lexicale (ex.:

buy # coil et buy # oil, groupe V#), ainsi que les types C#V et C#C, dans lesquels, la

VC#). Nous avons ainsi examiné la durée de la partie vocalique du premier mot en

VC#). Nous avons ainsi examiné la durée de la partie vocalique du premier mot en