• Aucun résultat trouvé

Première'partie ! :"Introduction !

2) Filtre supraglottique

1.3 Perception du timbre vocalique

Il existe trois modèles de description de la perception du timbre vocalique (Strange, 1989).

D’abord le modèle de la cible vocalique statique, couramment utilisée dans les manuels d’introduction en phonétique. Ensuite, le modèle élaboré de la cible vocalique qui se base également sur des données acoustiques statiques (mesure de la valeur centrale de la voyelle), transformées ensuite en représentations auditives pour mieux refléter leur perception non-linéaire. Enfin, le modèle de spécification dynamique utilise l’information dynamique pour décrire les voyelles en contexte qui seraient alors identifiées avec une plus grande précision que les voyelles isolées.

1.3.1 Modèle de la cible vocalique statique

Selon le modèle de la cible statique, la valeur centrale des deux à quatre premiers formants est dite capitale pour la perception du timbre et par conséquent pour la catégorisation de la voyelle (Baken and Orlikoff, 2000).

Dans le cas de rapprochement de deux formants amplifiés (F1-F2, F2-F3, F3-F4) , l’oreille perçoit une seule zone de fréquences pour ces deux formants, perceptivement saillante, plutôt que des formants séparés. Selon Delattre et al. (1952, p. 203) :

The ear effectively averages two vowel formants which are close together, receiving from these two formants an impression which is highly similar to that which would be heard from one formant placed at a position somewhere intermediate between them.

Les travaux en laboratoire de Haskins (Delattre et al., 1951; Delattre et al., 1952) initient les recherches sur le rôle des traits acoustiques dans la perception des sons de la parole. Ces travaux sont à la base de la notion de F2’ (F2 prime), notion introduite plus tard par Carlson et al. (1970), appelé parfois le formant « effectif ». En synthétisant 16 voyelles cardinales à l’aide de l’instrument Pattern Playback, qui convertit les spectrogrammes dessinés à la main en sons, Delattre et al. (1952) ont montré la possibilité d’approximer le timbre des voyelles par deux ou une seule résonance principale (dans le cas des voyelles postérieures). Afin de fournir une définition acoustique des voyelles cardinales, ils ont créé 235 patrons formantiques divisés en deux groupes : le premier groupe de patrons fixait une valeur constante de F1 et la valeur de F2 variait par pas de 120 Hz, alors que le deuxième groupe contenait des patrons avec une valeur fixe de F2 et des valeurs de F1 qui variaient par pas de 30 Hz. Les patrons qui permettaient le mieux identifier chacune des 16 voyelles cardinales ont été retenus. Pour montrer qu’il était possible de représenter certaines voyelles par un seul formant, les auteurs écoutaient des sons où les deux formants avaient été remplacés par une seule fréquence qui variait entre la valeur de F1 et F2. Leur résultat montre que les voyelles postérieures (mi)-fermées [u]

et [o], ayant les valeurs de F1 et F2 proches, peuvent être caractérisées acoustiquement par un seul formant, proche du F1. Les voyelles [ɔ, ɒ, ɑ, a] peuvent être décrites un terme d’un seul formant, intermédiaire entre F1 et F2. Enfin, les voyelles antérieures nécessitent une description acoustique par deux formants, mis à part le [i] qui, selon les auteurs, peut être représenté par un seul formant proche du « F2 », qui était en fait le F3 (notons que dans les premiers travaux de Haskins, les auteurs ont confondu F3 avec F2 pour la voyelle [i]). Les études plus récentes ont montré que dans le cas de la voyelle cardinale [i], F2’ se situe entre F3-F4 alors que pour la voyelle [y], F2’ est placé entre F2 et F3. Cette valeur abstraite démontre l’importance des fréquences de résonance supérieures à 2000 Hz dans la perception des voyelles antérieures (Stevens, 1998; Vaissière, 2006).

1.3.1.1 La différence « juste perceptible » (JND, Just Noticeable Difference) des formants vocaliques

Lors de la synthèse des voyelles, une certaine liberté dans le choix des fréquences de formants s’offre aux expérimentateurs car les auditeurs sont perceptivement sensibles aux changements de fréquences à partir d’un certain seuil. Cette question est abordée dans la littérature sous le nom de

« frequency difference thresholds (df)1 », « frequency difference limen (DLF)2 » ou « just noticeable difference (JND) in frequency3 » (Flanagan, 1972).

Flanagan (1955) s’est intéressé au DLF dans la discrimination de qualités des voyelles synthétisées. Afin de déterminer le DLF du premier formant, il a synthétisé trois sons vocaliques de base, avec un F1 de 300 Hz, 500 Hz et 700 Hz, un F2 stable de 1500 Hz, F3 de 2500 Hz et enfin F4 de 3550 Hz (voir Figure 12). Il a ensuite synthétisé 14 variations de ces trois sons de base, en modifiant uniquement la valeur de F1 par pas de 10 Hz (jusqu’à +/-70 Hz).

Figure 12 : Les enveloppes spectrales des sons de base utilisés pour tester le « difference limen » de F1, selon Flanagan (1955)

Afin de déterminer le DLF du second formant, Flanagan a synthétisé de nouveau trois sons de base avec un F1 stable de 500 Hz, un F2 de 1000, 1500 et 2000 Hz, un F3 stable de 2500 Hz et F3 de 3550 Hz (voir Figure 13). Il a de nouveau créé 14 variantes de chaque son de base en modifiant cette fois-ci la valeur du deuxième formant par pas de 25 Hz (jusqu’à +/- 175 Hz). Notons que les sons vocaliques de base ne correspondent pas à des voyelles précises ce qui ne pose pas de problème à priori car selon l’auteur (p. 617) : « Quality DL’s can be determined for standard sounds placed anywhere in the F1-F2 plane and not necessarily corresponding to any English vowel phoneme at all. ».

1 Nous traduisons : « seuil de la différence perçue »

2 Nous traduisons : « seuil de la différence perçue »

3 Nous traduisons : « la différence de fréquence juste perceptible »

Figure 13 : Les enveloppes spectrales des sons de base utilisés pour tester le « difference limen » de F2, selon Flanagan (1955)

L’auteur a ensuite construit un test de discrimination AB présentant 20 paires de sons dont 14 paires comportaient des sons physiquement différents et six paires contenaient des sons identiques. Le temps entre deux stimuli était de 500 ms. Chaque stimulus a été jugé 20 fois et les résultats montrent que le DLF des premier et deuxième formants se trouve entre 3 à 5 % (voir Tableau 7 pour les chiffres exactes).

Tableau 7 : Le « difference limen » de F1 et F2, selon Flanagan (1955)

Flanagan (p. 616) précise que les DLF établis sont applicables dans la discrimination de différence de qualités vocaliques mais qu’ils peuvent être différents dans le cas d’identification des phonèmes : « A criterion involving identification of the phoneme would in general lead to much larger formant DL’s. ».

1.3.2 Modèle élaboré de la cible vocalique

Le modèle plus élaboré de la cible vocalique a ensuite montré l’importance perceptive des distances entre les différents formants ainsi qu’entre le premier formant et la fréquence fondamentale, plutôt que l’importance des valeurs formantiques absolues (pour une revue de la littérature, voir Hillenbrand and Gayvert (1993). De cette façon, afin de mieux représenter les distances perçues entre les sons, il est possible d’effectuer d’abord une transformation des fréquences selon l’échelle de Hertz en « bandes critiques » (Bark) qui tient compte de la perception humaine non-linéaire. La formule proposée par Zwicker and Fastl (1990) pour calculer les valeurs Bark est la suivante (où F correspond à la fréquence (en Hertz) :

Dans l’étude de Chistovich and Lubilnskaya (1979), l’importance d’un seul pic de fréquence pour la perception des voyelles focales est expliquée par l’effet du centre de gravité qui est calculé à partir de la distance tonotopique entre deux formants rapprochés de grande amplitude. Si deux formants se trouvent proches, ne dépassant pas la distance critique (qui est de 3-3,5 Bark pour F1 et F2), les auditeurs perçoivent un seul formant qui se trouve à mi-chemin entre F1 et F2, et dont la position exacte dépend de l’amplitude relative des deux formants proches. Si la distance critique est dépassée, les auditeurs choisissent alors un formant qui correspond à F1 ou F2 mais sans passer par une fréquence intermédiaire.

Syrdal and Gopal (1986) proposent une normalisation auditive basée sur l’étude de la perception des voyelles de l’anglais, telles qu’elles ont été définies par Peterson and Barney (1952). En calculant les distances tonotopiques entre F1-F0 et F3-F2, les auteurs trouvent une forte corrélation entre la différence de F1-F0, en Bark, et l’aperture, et entre F3-F2, et la perception de l’antériorité/ postériorité.

Ainsi les auteurs proposent que les voyelles avec une distance tonotopique F1-F0 inférieure à trois Barks sont perçues comme hautes, alors que lorsque la distance est supérieure à trois Bark, elles sont perçues comme basses. De même, si la distance tonotopique F3-F2 est inférieure à trois Bark, la voyelle est alors perçue comme antérieure alors que si cette distance est supérieure à trois Bark, la voyelle est perçue comme postérieure. Il est à noter que F0 varie beaucoup dans la parole continue, et donc la distance tonotopique F1-F0 aussi. D’autres auteurs (Fant, 1983; Ménard et al., 2010) relient l’antériorité/ postériorité perçue plutôt à la distance tonotopique entre F2-F1.

Notons que toute normalisation permet de ne garder que les caractéristiques acoustiques pertinentes du point de vue linguistique en réduisant la variabilité inter-locuteur (Yang, 1996).

1.3.3 Modèle de spécification dynamique

Enfin, le modèle de spécification dynamique de W. Strange met en évidence l’importance de l’information dynamique, c’est-à-dire des fréquences et de la durée de toutes les parties de la voyelle (onglide = transition formantique initiale, noyau et offglide = transition formantique finale) dans la perception des voyelles en contexte qui seraient en effet des caractéristiques intrinsèques des voyelles et non pas des consonnes environnantes. Strange et al. (1983) ont montré qu’il est possible d’identifier les voyelles de l’anglais en contexte dont on a remplacé la partie centrale par un silence alors qu’il est impossible de les identifier lorsque les transitions sont retirées. Strange and Bohn (1998) ont ensuite montré que la durée des trois parties vocaliques joue également un rôle important dans la perception des voyelles de l’allemand, notamment pour distinguer les voyelles moyennes et basses.

Le modèle dynamique, qui prédit une meilleure identification des voyelles en contexte par rapport aux voyelles isolées, est particulièrement adapté à l’anglais se caractérisant par une forte diphtongaison vocalique, et également à l’allemand mais il n’est pas attesté en français. En effet Gottfried (1984) a effectué un test d’identification et de discrimination par 16 Français natifs et huit apprenants anglophones de onze voyelles orales du français [i, e, ɛ, a, ɑ, u, o, ɔ, y, ø, œ], produites par quatre locuteurs français natifs en isolation et en syllabe tVt, tV et Vt. Le résultat se trouve à la Figure 14 et il montre que les voyelles sont plus faciles à identifier quand elles se trouvent en isolation (20 % d’erreurs chez les natifs) ou qu’elles sont précédées par l’occlusive coronale tV (17,5 % d’erreurs chez les natifs) que lorsqu’elles se trouvent en contexte symétrique tVt ou suivies de l’occlusive coronale Vt.

Figure 14 : Le pourcentage moyen d’erreurs d’identification des voyelles du français selon le contexte syllabique auprès des auditeurs français natifs (en noir) et des anglophones américains parlant français (en blanc), selon Gottfried (1984)

Le résultat du test de discrimination catégorielle (voir Figure 15) révèle également une facilité à discriminer les voyelles isolées avec 12,7 % d’erreurs chez les natifs du français par rapport aux voyelles en contextes tVt, discriminées avec 21,9 % d’erreurs par les Français natifs.

Figure 15 : Le pourcentage moyen d’erreurs de discrimination des voyelles du français selon le contexte syllabique auprès des auditeurs français natifs (en noir) et des anglophones américains parlant français (en blanc) et des anglophones américains monolingues (avec rayures), selon Gottfried (1984)

Ainsi, la perception des voyelles du français est particulièrement bien élucidée par la théorie de la cible vocalique statique alors que la perception des voyelles de l’anglais est mieux définie par le modèle de spécification dynamique.