• Aucun résultat trouvé

L'effet du débit sur l'identification des frontières lexicales 45

4.3. Etude de perception

L’objectif de cette expérience est d’étudier l’impact du débit sur l’identification des frontières lexicales. En d’autres termes, nous nous sommes demandés si cette identification était différente selon le débit auquel étaient présentées les séquences.

4.3.1. Méthode

Sujets

Trente sujets (15 hommes et 15 femmes) américains ont pris part à cette expérience.

Aucun d’entre eux n’avait participé à l’expérience de production. Leur âge moyen était de 19 ans.

Matériel

Le matériel se composait des 288 séquences sélectionnées dans l’étude de production (36 séquences produites par huit locuteurs). Rappelons que les séquences étaient réparties en 9 quadruplets et que parmi les 8 locuteurs, 4 étaient considérés comme plutôt lents et 4 comme plutôt rapides. La moitié des séquences a donc été produite à un débit normal plutôt lent et l'autre moitié à un débit normal plutôt rapide. Le matériel comprenait également 8 séquences d’entraînement (une séquence par locuteur). Par conséquent, l’ensemble des stimuli consistait en 296 séquences, que nous avons égalisées au niveau de l'amplitude (rms (root mean square) = 65 dB).

59 Spinelli et al. (in press), par exemple, ont effectué des mesures de durée, de formants et de F0 sur des suites ambiguës en français telles que la fiche et l'affiche (/lfi/), et ont trouvé que les deux types de suites se distinguaient au niveau des trois variables.

Procédure

Les sujets ont passé l’expérience individuellement dans une pièce insonorisée. Ils devaient écouter chaque séquence et indiquer ce qu’ils entendaient en sélectionnant (au moyen de la souris) une des quatre possibilités qui apparaissaient à l’écran. Ils entendaient par exemple bike oil et ils devaient choisir entre bike oil, bike coil, buy coil ou buy oil. La session commençait par un entraînement, puis se poursuivait avec la présentation des séquences-test, avec une pause au milieu de la session.

L’ordre dans lequel apparaissaient à l’écran les quatre possibilités (de gauche à droite) a été déterminé de manière aléatoire et était identique pour chaque sujet. Par contre, chaque sujet entendait les séquences d’entraînement et les séquences-test dans un ordre différent. Les quatre possibilités apparaissaient (visuellement) 500 msec après la fin du stimulus auditif, et le stimulus auditif 2300 msec après le clic de souris.

En outre, les stimuli étaient présentés dans un bruit de voix60. Celui-ci consistait en une version modifiée du bruit de voix développé par Kalikow, Stevens & Elliot (1977). Il était présenté à l’aide d’un magnétophone DAT (à 70 dB SPL), simultanément à la présentation des stimuli auditifs (67 dB SPL; par conséquent le rapport signal/bruit était de -3 dB).

Analyse des données

Nous avons obtenu, pour chaque sujet et chaque séquence, le pourcentage global d’identification correcte, le pourcentage d’identification correcte au débit normal lent et au débit normal rapide, ainsi que le pourcentage d’identification correcte pour les quatre types de structure au débit normal lent et normal rapide. Nous avons également calculé un pourcentage d'erreurs pour chaque type de structure. Nous avons ensuite effectué une série d’analyses statistiques (tests-t, analyses de variance, tests du χ2).

60 De crainte d'être confrontés à un effet plafond, il nous a semblé nécessaire de rendre la tâche plus difficile en y ajoutant un bruit de voix. En effet, une étude sans bruit de voix a été effectuée avec 30 sujets. Les résultats sans bruit ont montré un taux d'identification particulièrement élevé (95.55%, écart-type = 2.51), taux qui pouvait traduire la présence d'un effet plafond et justifiait donc la surimposition d'un bruit de voix à la présentation des stimuli.

4.3.2. Résultats et discussion

Le but premier de cette étude était de vérifier l'effet du débit sur l'identification des frontières lexicales. Les résultats ont montré un pourcentage global d’identification correcte de 88.03% (écart-type = 4.14), taux qui traduit l'absence d'un effet plafond et indique donc que l'utilisation d'un bruit de voix était judicieuse.

En outre, comme on peut le constater sur la Figure 19, il apparaît que le taux d'identification est meilleur lorsque les séquences ont été produites à débit normal lent (moyenne de 89.88%; écart-type = 4.12) qu'à débit normal rapide (moyenne de 86.17%;

écart-type = 5.16). Un test-t apparié61 a confirmé cette constatation en montrant un effet de débit par sujets et par items (t(29) = 4.700, p < 0.01; t(35) = 2.318, p < 0.05)62.

Figure 19. Pourcentage d’identification correcte en fonction du débit normal rapide et normal lent. Les barres d’erreurs représentent l’erreur standard des données intra-sujets.

61 Etant donné que nous n'avons trouvé ni effet de genre ni interaction Débit x Genre (que cela soit par sujets ou par items), nous avons décidé de regrouper les données des hommes et des femmes.

62 Notons que, puisque les données étaient exprimées en pourcentages, nous avons aussi effectué les analyses en transformant les données en valeurs arcsinus selon la procédure de Studebaker (1985). Les résultats ainsi obtenus ressemblent à ceux obtenus en pourcentages. En effet, nous avons trouvé un effet de débit par sujets (t(29) = 4.894, p < 0.01) et un effet marginal par items (t(35) = 1.999, p = 0.0534).

Par conséquent, bien qu'il soit relativement faible (3.71%), la présence de cet effet nous permet d'affirmer que le débit a un impact sur l’identification des frontières lexicales: un débit plutôt rapide rend l’identification des séquences de mots plus difficile.

En résumé, nous avons démontré que le débit affectait l’identification des frontières lexicales, un débit normal plutôt rapide rendant l'identification de suites plus difficile.

Cependant, il est important de noter ici que nous n’avons pas demandé aux locuteurs de varier leur débit; tous les débits correspondaient à des débits normaux. Ainsi, nous pouvons supposer que l'effet obtenu aurait été plus important avec la présentation de séquences produites à des débits particulièrement rapides ou lents.

Identification par type de structure

Dans cette section, nous explorons le rôle du type de structure des séquences sur l’identification des frontières lexicales. Rappelons que les sujets devaient identifier des séquences de quatre types de structure (ex.: buy coil (V#C), bike oil (C#V), bike coil (C#C) et buy oil (V#V)) produites à un débit normal lent et à un débit normal rapide.

Nous avons premièrement tenté de déterminer si le débit avait un impact différent sur l’identification selon les quatre types de structure. Une analyse de variance par sujets (F1) et par items (F2) a montré un effet de débit (F1(1, 29) = 22.129, p < 0.0001;

F2(1, 32) = 5.629, p < 0.05) et un effet de type de structure (F1(3, 87) = 30.393, p < 0.0001; F2(3, 32) = 5.627, p < 0.05). Une interaction Débit x Type de structure a été observée par sujets (F1(3, 87) = 8.755, p < 0.0001), mais non par items (F2(3, 32) = 1.557, n.s). De ce fait, nous avons regroupé les données des deux débits.

La Figure 20 présente le pourcentage d’identification correcte en fonction du type de structure. Nous notons tout d’abord que les quatre types de structure semblent être traités de manière différente. Cette différence est confirmée par une analyse de variance par sujets et par items (F1(3, 87) = 30.408, p < 0.0001; F2(3,32) = 5.627, p < 0.05).

Nous nous sommes ensuite intéressés aux différences entre les quatre types de structure.

Nous observons que les structures V#V (ex.: buy oil) sont mieux identifiées que les autres. Des analyses post-hoc (Tukey HSD, p < 0.05) ont révélé que l’identification des structures V#V était effectivement meilleure que celle des autres structures (C#V, V#C et C#C) et que les structures V#C (ex.: buy coil) différaient de C#V (ex.: bike oil) et de

C#C (ex.: bike coil). Nous pouvons donc déduire de ces résultats que le type de structure affecte l’identification des frontières lexicales. En effet, les structures V#V sont plus faciles à identifier: l'absence d'une consonne pivot facilitent leur identification.

Par ailleurs, il n’est pas possible de tirer de conclusions claires quant aux autres structures. Il semblerait cependant que les structures C#C et C#V soient plus difficiles à identifier que les autres.

Figure 20. Pourcentage d’identification correcte en fonction du type de structure (C#C, C#V, V#C et V#V). Les barres d’erreurs représentent l’erreur standard des données intra-sujets.

Même peu concluants, ces résultats ajoutent tout de même quelques éléments à la recherche concernant la segmentation des différents types de structure. En effet, peu d’études ont traité du rôle du type de structure dans l’identification des frontières lexicales et les résultats des recherches précédentes ne sont pas consistants. Au début des années soixante, O’Connor & Tooley (1964) ont étudié l’identification de séquences ambiguës telles que great ape (C#V) et grey tape (V#C). Ils ont observé un meilleur taux pour les structure V#C (90.3%) que pour les structures C#V (76.5%). Après avoir émis plusieurs hypothèses, ils ont expliqué leurs résultats en évoquant la plus grande probabilité de trouver des mots anglais commençant par une syllabe CV (structure V#C) que par VC (structure C#V).

Quené (1992), quant à lui, a exploré l’identification de séquences ambiguës en néerlandais (ex.: /dip#n/ (C#V), /di#pn/ (V#C)). Contrairement à O’Connor & Tooley (1964), il a trouvé une meilleure identification des structures C#V (89%) que V#C (76%). Il a expliqué ces résultats en mentionnant un biais en faveur des structures C#V, dû à la présence d’indices acoustiques à la frontière lexicale (ex.: laryngalisations) qui auraient rendu l’identification des structures C#V plus faciles63.

En résumé, bien que les recherches précédentes aient montré que l’identification des structures C#V et V#C était relativement bonne, aucune conclusion unanime ne peut être tirée au sujet de l’identification différente de ces deux structures. De plus, aucune étude, à notre connaissance, n’a traité des structures C#C et V#V. Intuitivement, on peut supposer, comme nos résultats l’ont démontré, que les structures V#V ne contenant pas de consonne pivot, soient plus faciles à traiter et qu’au contraire, les structures C#C, en raison de leur consonne géminée, entraînent plus d’erreurs d’identification.

Identification et quelques mesures acoustiques

Tout d'abord, il est important de souligner que la durée totale des séquences n'explique pas les différences rencontrées entre les divers types de structure. En effet, comme nous l'avons montré dans la section 4.2.2, les quatre types de structure ne présentaient pas de différence significative au niveau de leur durée totale. Ainsi, si cette dernière n'entre pas en jeu dans leur identification, les différences pourtant observées seraient dues à la nature acoustique de leur structure (C#C, V#C, C#V et V#V). Pour chaque type de structure, nous avons cherché à définir quels indices acoustiques avaient aidé (ou non) les auditeurs lors de l'identification des séquences. Pour ce faire, nous avons mis en relation les quelques mesures effectuées lors de l'analyse acoustique préliminaire (cf.

section 4.2.2) avec le taux d'identification de chaque type de structure. Notons que ces

63 Notons que nos résultats vont à l'encontre de ceux de Quené (1992). Dans notre étude, le taux d'identification plus bas pour C#V (85.37%) par rapport à V#C (89.52%) pourrait s'expliquer par le fait que nos auditeurs étaient confrontés à quatre types de structure et devaient en identifier un parmi les quatre. Etant donné la grande diversité des productions C#V (cf. section 4.2.2), une confusion avec les trois autres types de structure (et non pas seulement avec V#C) était possible, ce qui a pu entraîner un taux d'identification plus bas pour C#V que pour V#C.

analyses ne sont qu'exploratoires, et que, loin d'être complètes, elles ne poursuivent que le but de fournir quelques pistes pour de futurs travaux.

En ce qui concerne C#C (ex.: bike coil), il semblerait que le taux d'identification soit principalement déterminé par la présence de la première consonne (C1). En effet, nous avons effectué une analyse de régression multiple avec le taux d'identification correcte comme variable dépendante (n = 72) et les mesures acoustiques comme variables indépendantes. Ces dernières étaient au nombre de cinq: durée des parties vocaliques du premier et du deuxième mot, présence de C1 (première consonne), durée du silence de plosion de C2 (deuxième consonne) et VOT de C2. L'analyse de régression a montré que ces cinq variables expliquaient 25.4% de la variance du taux d'identification (p < 0.05). Toutefois, la seule variable présentant une influence significative sur le taux d'identification était la présence de C1 (p < 0.001). Par conséquent, l'absence de C1 dans 42 séquences (sur 72) expliquerait le taux d'identification plus bas de C#C (82.55%).

Pour ce qui est de V#C (ex.: buy coil), il paraîtrait que seule la durée des deux voyelles exerce un impact sur le taux d'identification. Nous avons à nouveau effectué une analyse de régression multiple avec le taux d'identification correcte comme variable dépendante (n = 72) et la durée des parties vocaliques du premier et du deuxième mot, la durée du silence de plosion et la durée du VOT comme variables indépendantes. Les résultats ont montré que les quatre variables rendaient compte de 17.7% de la variance du taux d'identification (p < 0.05), mais que seule la durée de la partie vocalique du premier et du deuxième mot exerçaient une influence sur le taux d'identification (p < 0.01).

Quant à C#V (ex.: bike oil), il semblerait que le taux d'identification chute de manière significative lorsque les indices de segmentation (glottalisation et/ou pause) sont absents, et lorsque la consonne, absente, est remplacée par une glottalisation. Nous avons, dans ce cas-ci, adopté une approche quelque peu différente. Etant donné la diversité rencontrée parmi les productions C#V, nous avons voulu vérifier si le taux d'identification variait en fonction des schémas observés lors de l'analyse acoustique préliminaire de la section 4.2.2. Une analyse de variance a révélé que le taux d'identification était effectivement différent selon le schéma (schéma 1 = 76.67%,

schéma 2 = 91.51%, schéma 3 = 90.74%, schéma 4 = 89.65%, schéma 5 = 69.29%, schéma 6 = 91.67%; F(6, 66) = 5.327, p < 0.001).

Enfin, l'identification de V#V (ex.: buy oil) ne semble pas dépendre de la présence de glottalisation et/ou de pause. En effet, une analyse de variance a montré que l'identification ne variait pas en fonction du schéma observé (schéma 1 = 96.25%, schéma 2 = 96.31%, schéma 3 = 94.74%, schéma 4 = 92.71%; F(3, 68) = 1.027, n.s).

L'absence d'une consonne pivot dans ce type de structure faciliterait à elle seule l'identification des séquences (94.67%).

Relevons encore qu'il serait nécessaire d'effectuer une analyse sur l'ensemble des données (et non pas en considérant chaque type de structure séparément). Une telle analyse permettrait de déterminer de manière plus générale quelles sont les propriétés acoustiques déterminantes dans l'identification des séquences, et également de définir quel est le rôle respectif, pour chaque type structure, des diverses caractéristiques acoustiques, et ce, en fonction des autres propriétés examinées et des autres types de structure. Par exemple, nous avons pu constater que la durée du VOT ne semblait pas jouer de rôle dans l'identification des séquences V#C et C#C, mais qu'en est-il si nous considérons cette propriété acoustique dans une analyse plus globale? On pourrait peut-être observer un certain rôle du VOT dans l'identification en considérant non seulement les autres propriétés acoustiques, mais aussi tous les types de structure. Toutefois, les mesures que nous avons réalisées ne nous permettent pas d'effectuer une telle analyse.

En effet, en raison de la grande diversité observée parmi les propriétés acoustiques (présence ou absence de consonne, de glottalisation et/ou pause, etc.) des quatre types de structure, il n'est pas possible de les examiner d'une manière globale et unifiée (comment examiner le rôle respectif d'un des schémas observés pour C#V par rapport à celui de la durée du VOT de V#C, par exemple?). Une piste intéressante pour de futures recherches serait de coder les diverses propriétés acoustiques (ex.: présence/absence de consonne, de glottalisation, etc.), ainsi que les types de structure et de les intégrer dans un modèle de régression multiple au même titre que la durée vocalique ou la durée du VOT, par exemple, afin d'examiner l'influence conjointe et/ou respective des diverses variables sur le taux d'identification.

En résumé, la mise en relation du taux d'identification et des quelques mesures

que le taux d'identification serait déterminé, du moins en partie, par 1) la présence ou l'absence de la première consonne pour C#C; 2) la durée de la voyelle du premier et du deuxième mot pour V#C; 3) la présence ou l'absence d'indices de segmentation (glottalisation ou pause) et la substitution de la consonne par une glottalisation pour C#V. En ce qui concerne V#V, la présence ou l'absence d'indices de segmentation ne semble pas déterminer pas l'identification des séquences. Ces résultats exploratoires laissent à penser que des indices de différente nature sont utilisés par les auditeurs lors de l'identification des divers types de structure. Toutefois, une étude plus approfondie devrait être menée afin de clarifier les différences observées, et ce, sur la base d'hypothèses bien établies, de mesures précises de diverse nature (durée, formants, F0, amplitude, etc.) et d'une analyse rigoureuse.

Fréquence

Les résultats obtenus dans cette étude posent également la question du rôle de la fréquence d’occurrence des séquences dans l’identification des frontières lexicales. En d’autres termes, existe-t-il un biais de la fréquence en faveur de l’une des structures?

Afin d’exclure la possibilité d’un biais, la fréquence d’occurrence de chaque séquence a été étudiée dans deux corpus électroniques de l’anglais écrit: the Wall Street Journal64 (WSJ) et le corpus Reuters65. De plus, une recherche a été effectuée dans un corpus plus grand, plus communément utilisé, le World Wide Web (WWW) en utilisant le moteur de recherche Google. Dans chacun des corpus, chaque séquence de deux mots et leurs éventuels homonymes (ex.: gray pail, grey pail, grey pale, and gray pale) ont été recherchés66.

Pour chaque corpus, le nombre d’occurrences de chaque séquence (et de ses homonymes), à l’intérieur de chaque quadruplet, a été calculé (cf. Annexe 6). La recherche (effectuée en février 2004 par Mondini, 2004) sur Google a révélé 1364668 occurrences, celle sur Reuters 1837 occurrences et sur WSJ 461 occurrences. La

64 Voir http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC93T1, pour des informations supplémentaires.

65 Voir http://about.reuters.com/researchandstandards/corpus/, pour des informations supplémentaires.

66 La fréquence ici concerne la fréquence d'occurrence de la séquence entière (composée de deux mots) et non pas la fréquence des mots examinés de manière isolée.

recherche sur Google est la seule à avoir montré des occurrences pour chacune des séquences. Lorsque l’on rassemble les occurrences des trois corpus (cf. Annexe 6), la structure C#C obtient le plus d’occurrences (57%), suivie de V#V (30%), puis de V#C (11%) et de C#V (2%).

Par conséquent, le fait que les structures V#V soient plus faciles à traiter n'est pas dû à un biais de la fréquence d’occurrence. En effet, la structure C#C, qui a engendré le plus d’erreurs, est néanmoins la plus représentée dans les trois corpus. En outre, le coefficient de corrélation entre la fréquence d'occurrence des quatre structures de chaque séquence et leur taux d'identification (n = 36) révèle qu'il n'y pas de lien entre les deux variables (r = 0.134, n.s). En somme, il semblerait que la fréquence d’occurrence n’ait pas guidé les auditeurs dans leur identification67.

En résumé, cette étude a permis de montrer, comme d'autres auparavant, que le type de structure pouvait avoir un impact sur l'identification des frontières lexicales. Elle a également mis en évidence que l'identification des quatre types de structure s'appuyait sur des indices acoustiques différents (présence de C1, durée des voyelles et présence d'indices de segmentation). Cependant, loin de montrer des résultats tout à fait clairs, cette recherche ne peut que suggérer la nécessité d'élaborer de nouvelles études afin d'approfondir le rôle joué par les propriétés acoustiques lors de l'identification des différents types de structure.

Analyse des erreurs

Après avoir observé que les séquences étaient identifiées de manière différente selon le type de structure, notre objectif était de définir quelles étaient les erreurs récurrentes pour chaque type de structure (C#C, C#V, V#C, V#V), et d'examiner, de manière exploratoire, quelles propriétés acoustiques étudiées dans la section 4.2.2 pouvaient en être responsables.

67 Rappelons que les séquences, issues de Mondini (2004), "were reasonably meaningful, and […] in theory could be produced in a meaningful sentences within one clause" (p. 29). Toutefois, afin d'écarter la présence éventuelle d'un biais dû l'acceptabilité des séquences, une étude empirique contrôlant la plausibilité des séquences utilisées serait nécessaire.

Les chercheurs ont montré que l'identification des frontières lexicales était déterminée davantage par l'information se trouvant en début de mot après la frontière lexicale que par l'information en fin de mot avant la frontière (Nakatani & Dukes, 1977, Quené, 1993). De ce fait, nous nous attendons à ce que les erreurs observées dans notre étude préservent le segment phonétique initial du deuxième mot de la séquence. Prenons un premier exemple: trois types d'erreurs sont possibles pour C#V, à savoir C#C, V#C et V#V. Parmi eux, seul le type V#V conserve le phonème initial du deuxième mot (V).

Nous prévoyons donc que les erreurs du type V#V prédominent pour C#V. Prenons un deuxième exemple: pour C#C, les trois erreurs possibles sont: C#V, V#C et V#V.

Puisque seules les erreurs V#C conservent le phonème initial du deuxième mot (C), nous nous attendons à ce qu'elles représentent les erreurs les plus récurrentes pour C#C.

Pour vérifier cette hypothèse, nous avons calculé la proportion de chaque type d’erreur par rapport au nombre total des erreurs à l’intérieur d’un type de structure. Par exemple, nous avons observé un total de 377 erreurs pour la structure C#C et parmi ces 377 erreurs, 278 étaient des réponses du type V#C (cf. Tableau 15). Par conséquent, les erreurs qui consistaient à percevoir une structure V#C au lieu de C#C représentaient 73.74% du nombre total des erreurs à l’intérieur de C#C.

Réponse donnée

C#C C#V V#C V#V Total

C#C - 94 278 5 377

C#V 46 - 72 198 316

V#C 121 65 - 40 226

V#V 7 65 43 - 115

Stimulus

Total 174 224 393 243 1034

Total 174 224 393 243 1034