• Aucun résultat trouvé

2. Une approche psychoacoustique de la compréhension de la parole

2.1. La perception catégorielle de la parole

2.1.1. L’expérience du continuum synthétique

L’une des contributions fondamentales de la psychoacoustique pour la compréhension des mécanismes à la base de la reconnaissance de la parole fut la mise en évidence de la perception catégorielle des phonèmes. Dans les années 50, Alvin Liberman et ses collaborateurs des Haskins Laboratories mirent au point une expérience qui allait donner matière à étude pour les décennies à venir (Liberman et al., 1957). Le principe en est extrêmement simple : 14 stimuli de parole synthétique sont répartis à intervalles égaux sur un continuum acoustique. Ils constituent des versions

« simplifiées » d’un son de parole composé de deux formants uniquement. Le premier

2 Voir (Tiberghien, 2007) pour une discussion sur les rapports entre neurosciences et psychologie cognitive.

28

est fixé à 360 Hz avec une attaque à 0 Hz. Le second possède une partie stable, à 2160 Hz, identique pour tous les stimuli, mais avec une fréquence d’attaque variable entre 1320 Hz et 2880 Hz (par pas de 120 Hz). Les 14 stimuli obtenus sont représentés Figure

5. D’un point de vue perceptuel, ces sons de paroles vont de /ba/ (stimulus #1) à /ga/

(stimulus #14) en passant par /da/ (autour du stimulus #7).

Figure 5 – Représentation schématique des 14 stimuli de parole synthétique utilisés dans l’expérience de perception catégorielle. Tous les stimuli ont une durée de 300 ms. Adapté de (Liberman et al., 1957).

Lorsqu’ils demandèrent { des participants d’identifier ces syllabes, ils observèrent que le long de ces variations uniformes du signal acoustique les proportions de chaque réponse (/ba/, /da/ ou /ga/) n’évoluent pas de manière régulière, mais semblent au contraire marquer des frontières brutales (voir Figure 6A). En d’autres termes, le continuum physique est divisé en plages où les stimuli, bien que différents, sont systématiquement regroupés sous une même étiquette. Ces zones sont séparées par des points d’inflexion très marqués aux alentours des stimuli #4 et #9. Par conséquent peu de stimuli sont perçus de manière ambigüe. Cette observation constitue le premier aspect de la perception catégorielle de la parole : elle agit comme une interface robuste entre l’espace continu des stimuli acoustiques et l’espace discret des perceptions phonémiques. La frontière phonémique entre deux réponses est ainsi définie comme le point où le stimulus a des probabilités égales d’être catégorisé comme un phonème ou un autre (Repp & Liberman, 1984).

Une observation complémentaire de l’équipe de Liberman concerne les capacités de discriminations entre les sons proches. Celles-ci sont évaluées classiquement en mesurant la capacité de l’auditeur à différencier un stimulus (i) appartenant au continuum du stimulus qui le suit (i+1). Le pourcentage de discriminations correctes pour chacune des 13 comparaisons possibles est présenté Figure 6B (trait continu). On constate qu’il présente deux maxima, indiquant que le participant distingue très bien le stimulus #4 du #5 et le stimulus #8 du #9. Ces deux points du continuum correspondent approximativement aux frontières mises en évidence dans l’expérience précédente. Au contraire, les paires de stimuli séparés par une différence acoustique équivalente mais situés au centre d’une catégorie phonémique

29

(par exemple les stimuli #6 et #7) possèdent un niveau de discrimination sensiblement égal au hasard (50%), ce qui signifie qu’ils apparaissent identiques { l’auditeur.

Figure 6 Résultats de l’expérience de perception catégorielle. A. Pourcentage d’identification de /ba/, /da/ et /ga/ le long du continuum de stimuli. B. Pourcentage de réponses correctes dans la tâche de discrimination entre deux stimuli adjacents du continuum (trait continu : observé ; trait discontinu : prédit d’après les pourcentages d’identification). Adapté de (Liberman et al., 1957).

En résumé, non seulement la perception catégorielle délimite des régions phonétiques discrètes dans l’ensemble des sons de parole mais elle déforme aussi l’espace perceptuel en fonction de ces catégories. La sensibilité du système à une petite variation physique du signal de parole n’est pas constante tout le long du continuum : elle est perçue très nettement lorsqu’elle chevauche une frontière mais elle est estompée lorsque les deux stimuli sont catégorisés de la même manière. Tout se passe comme si l’auditeur faisait abstraction des variations acoustiques au sein des catégories phonémiques et se focalisait seulement sur les différences acoustiques entre les catégories, pertinentes pour la transmission du message linguistique.3

3 Lorsqu’ils mirent en évidence ce phénomène, Liberman et ses collaborateurs émirent l’hypothèse que la perception catégorielle était spécifique à la perception de la parole (Liberman et al., 1957). En effet, une expérience en tout point similaire à la précédente, mais effectuée sur des stimuli non paroliers, ne permet pas de reproduire les résultats. Cependant, il fut démontré par la suite que ce phénomène n’était en fait qu’un cas particulier d’un mécanisme beaucoup plus large (Holt & Lotto, 2010). En effet, le même type de comportement a été observé pour la modalité visuelle (Hoonhorst et al., 2011; Maddox et al., 2002), notamment pour la perception des expressions des visages ou des couleurs. Par ailleurs, la perception catégorielle des sons en fonction de leur signification existe également chez les primates, indépendamment de tout contact humain (Russ et al., 2007).

30 2.1.2. Variabilité du signal de parole naturel

Le mécanisme de perception catégorielle permet de résoudre, au moins partiellement, le problème fondamental que représente la variabilité intrinsèque du signal pour tous les systèmes de reconnaissance automatique de la parole. Cette variabilité a de nombreuses origines : des différences environnementales (p.ex.

acoustique de la pièce, distance du locuteur), des différences interindividuelles de morphologie (p.ex. longueurs du conduit vocal et des cordes vocales, liées notamment à l’âge, au sexe, et { la taille du locuteur), d’accent (p.ex. le /r/ français qui sera, selon les régions, roulé, grasseyé ou guttural) ou de style d’élocution (p.ex. parole exagérément articulée { l’intention d’un enfant ou lors d’une discussion dans un bruit de fond important). Même deux productions d’un phonème donné, par un même locuteur et dans les mêmes conditions, ne sont jamais identiques (Kuhl, 2004; Repp & Liberman, 1984). Les facteurs responsables de cette variabilité intra-individuelle englobent, notamment, l’influence du niveau sémantique (prosodie, accent d’insistance), la position du phonème dans le mot ou encore la coarticulation avec les phonèmes précédents et suivants sur laquelle nous reviendrons en détail par la suite (voir le paragraphe 2.2.2).

Il résulte de ces différentes sources de variabilité que des phonèmes possédant des caractéristiques acoustiques très différentes peuvent être perceptuellement équivalents. Autrement dit, ces variations ne sont pas pertinentes phonétiquement puisqu’elles ne permettent pas d’identifier le contenu du message. Ainsi, si l’on positionne différents exemplaires de voyelles sur un plan en fonction des fréquences de leurs formants F1 et F2 [représentation en Triangle de Delattre (Delattre, 1948; Delattre et al., 1952)], on constate une dispersion importante des points correspondant à une même voyelle (Figure 7). Des régions assez vastes du plan F1-F2 sont ainsi associées à un même élément. Ceci complexifie le décodage du son de parole perçu.

En définissant des régions de l’espace sonore associées systématiquement à une même étiquette phonétique la perception catégorielle semble fournir une solution au problème de la variabilité car elle permet de faire abstraction des variations non pertinentes du son de parole. Par ce mécanisme, deux exemplaires de la voyelle /i/, même s’ils ne sont pas identiques acoustiquement (i.e. situés { des positions différentes sur le Triangle de Delattre), engendrent le même percept chez l’auditeur, assurant de ce fait un décodage robuste de l’information. Nous verrons cependant par la suite que cette explication simple est remise en question par l’existence d’une variabilité inter-catégorielle (cf. paragraphe 2.2.2).

31

Figure 7 – Représentation du triangle de Delattre. Positions sur le plan F1-F2 des exemplaires de 10 voyelles anglaises, produites par 140 locuteurs différents. Adapté de (Hillenbrand et al., 1995).

2.1.3. Frontières phonémiques

La perception des phonèmes apparaît donc à ce stade comme une forme de code projetant l’espace multidimensionnel et continu des signaux de parole dans un ensemble discret et fini de catégories phonétiques. Pour « casser » le code utilisé par notre cerveau, il suffirait donc simplement d’identifier les dimensions du signal qui déterminent ces catégories (par exemple, l’attaque du F2 pour le continuum /ba/-/da/-/ga/) ainsi que les frontières phonémiques qui marquent le passage d’une catégorie { une autre (situées ici à 1680 Hz et 2280 Hz) (Liberman et al., 1967).

La technique du continuum synthétique exposée ci-dessus, bien que présentant de sérieuses limitations (cf. paragraphe 4.1), a été utilisée de façon méthodique par les chercheurs des Haskins Laboratories avec différents continuums acoustiques composés d’occlusives non voisées /p/-/t/-/k/ (Liberman et al., 1952) ou voisées /b/-/d/-/g/

(Liberman et al., 1957), de nasales /m/-/n/-/ŋ/ (Liberman et al., 1954), de fricatives voisées /v/-/ð/ et /z/-/ʒ/ (Delattre et al., 1964) et, enfin, des consonnes continues /w/-/r/-/l/-/j/ (O’Connor et al., 1957). La consonne était systématiquement présentée dans un complexe CV, avec différentes voyelles. Ce travail laborieux permit aux chercheurs de tracer des « cartes » relativement précises des frontières phonémiques de consonnes

32

pour un large panel de syllabes.4 Ils démontrèrent ainsi que les transitions de formants, qui pouvaient apparaître comme de simples épiphénomènes de la production de parole dus { l’inertie des articulateurs, étaient en réalité déterminants pour la perception : leurs attaques (onsets), caractérisées par leur fréquence initiale et leur direction (montante ou descendante), jouent un rôle capital dans l’identification des consonnes.